Построение взаимосвязей между событиями в новостном потоке | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Библиографическое описание:

Власов, И. А. Построение взаимосвязей между событиями в новостном потоке / И. А. Власов, А. В. Мазова, В. С. Костыренко, В. Ю. Петров. — Текст : непосредственный // Молодой ученый. — 2019. — № 27 (265). — С. 18-20. — URL: https://moluch.ru/archive/265/61471/ (дата обращения: 03.05.2024).



В результате проведенного исследования была спроектирована и реализована система для автоматического выделения наличия взаимосвязей между трендовыми событиями.

Ключевые слова: анализ данных, обработка естественного языка, выделение взаимосвязей.

Отличительной особенностью современного мира является постоянно увеличивающийся поток информации, непрерывно поступающий из разных источников. Одной из важных частей этого являются новости, которые приходят из разных источников, включая как традиционные СМИ, например, газеты, радио или телевидение, так и современные источники, такие как различные новостные сайты и социальные медиа.

Методы структурирования информации разнообразны. Причиной этого является множество способов ее представления и организации. В зависимости от целей, применяются различные технологии и методы структурирования.

Цель работы заключается в разработке системы по определению наличия взаимосвязей между событиями в информационном потоке для новостной ленты в социальной сети ‘Одноклассники’. Для реализации поставленной задачи требуется построить математическую модель, основываясь на семантической близости 'трендовых новостей' и временном интервале между днями, в которых были выделены данные события. А также необходимо реализовать разработанный метод программными возможностями языка Python. Основываясь на поставленной задаче, можно выделить следующие основополагающие моменты, решение которых необходимо найти для достижения поставленной цели.

– Выбор основной модели представления данных для дальнейшей обработки;

– Выбор функции для улучшения качества результатов системы с учетом временного фактора;

– Выбор метода удаления слабых зависимостей;

– Выбор программного обеспечения для наиболее удобной реализации построенной модели;

– Анализ полученных результатов;

Существующие подходы

Основные методы решения задач по обработке естественного языка для анализа текстовых данных можно отнести к одной из двух категорий. Первая, это модели и системы, которые основаны на тематическом моделировании и дальнейшем анализе самих тем и их распределении. Второй же концепцией можно считать дистрибутивные методы, в основе которых лежит анализ с помощью различных статистических характеристик термов и биграм, например, с использованием разнообразных частотных метрик.

Задачей тематического моделирования является построение модели, дающей наилучший результат. Под тематической моделью подразумевается некая модель для текстовых данных, целью которой служит определение степени принадлежности каждого документа к определенной тематике. Результатом построения тематической модели может быть как непосредственно выявление множества тем, так и решение различных дополнительных задач, например: ранжирование документов по степени релевантности, разбиение документа на тематически однородные фрагменты и другие. Методы на основе построения тематических моделей являются решениями задач «мягкой» кластеризации. Это означает, что каждый из документов может принадлежать нескольким темам с той ли иной степенью точности.

Областью исследования дистрибутивной семантики является вычисление семантической близости различных лексических единиц, основываясь на их распределении в большом количестве текстовых корпусов. Работы в данной области опираются на главную гипотезу дистрибутивной семантики, которая утверждает, что если лингвистические единицы встречается в схожих контекстах, то они имеют близкое значение. [1] Основополагающей единицей в этих моделях служит контекстный вектор. Впервые идея использования такой конструкции был предложен Ч.Осгудом в рамках работ по представлению значений слов. А сам термин был введен С.Галлантом для описания смысла слов и разрешения лексической неоднозначности.

Гипотеза о дистрибутивной семантике гласит, что лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения. При этом подходе основной идеей для моделирования является векторная модель семантики (VSM). Это означает, что каждый документ из коллекции, а в нашем случае story, которые входят в event, представляются в виде точки(вектора) в многомерном пространстве. Согласно предположению, близко лежащие друг к другу точки соответствуют семантически схожим документам. Самой распространенной моделью для поиска схожих документов является матрица 'термин-документ'. В ней каждая строка определяет отдельный термин, а каждый столбец соотнесен документу. В данном подходе документ представляется в виде мешка слов (bag of words), что говорит нам о неважности порядка вхождения каждого терма, но крайней информативности его количества появлений. Допустим у нас есть матрица X 'термин-документ'. Если в выборке имеется n документов и m уникальных слов, то X будет иметь m строк и n столбцов. Если рассмотреть i-ое слово из всего словаря корпуса, и j-ый документ, то элемент xij матрицы X будет являться количеством употреблений терма wi в документе dj.

При моделировании взаимосвязей между событиями основной составляющей будет являться функция нахождения расстояния между векторами, а согласно дистрибутивной гипотезе, это и будет являться оценкой семантической близости. Есть несколько способов вычисления этой характеристики [2], одним из самых известных является функция косинусного сходства, которая используется во многих работах по анализу данных [3].

Анализируя данные о трендах в социальной сети нельзя не учитывать временной фактор. Ведь все события и происшествия имеют конкретную временную метку, а именно привязку ко дню публикации. Для обобщения модели выделим скользящее ‘окно’ в несколько дней до и после даты публикации, в рамках которого будем рассматривать события. Вообще говоря, при наличии необходимых вычислительных мощностей окно можно определить практически любым значением дней. Тем самым достигается возможность масштабирования системы при необходимости.

Теперь необходимо оценить вероятность связности событий по прошествии нескольких дней. В качестве основы воспользуемся некоторой затухающей функцией, решающей похожие задачи [4]. Aдаптировав функцию в условиях необходимых условий и требований имеем: τ=Exp(2*(1-t)/L), в данной модификации функция зависит от t, что является модулем количества дней между рассматриваемыми статьями, а L — это размер рассматриваемого окна, значение которого можно варьировать при необходимости. Также приведены значения коэффициента для рассматриваемого окна в 5 дней (Таблица 1)

Таблица 1

Значения временного коэффицента для рассматриваемого окна размером 5 дней

t

τ

1

1

2

0.819

3

0.67

4

0.549

5

0.449

Немаловажным этапом при построении взаимосвязей между событиями является стадия так называемой ‘очистки’. На этом этапе необходимо убрать из получившегося результата слабые связей. В противном случае, так или иначе практически любые event могут иметь связывающее ребро, хотя вероятность, что они принадлежат одной тематике, возможно, будет крайне мала. В работе [4] предложены несколько функций для удаления слабых зависимостей.

Статический порог. Этот метод использует некоторое константное значение оценки для удаления связей. В частности, если результат расчетов, полученный для двух event ниже, чем λ, мы считаем, что данные события не являются частью одной тематики.

Static Pruning: В этом методе помимо использования статического порога λ, также устанавливаются верхние границы по количеству предшествующих или последующих событий для каждого event. Это равносильно установке максимального количества исходящих или входящих ребер, разрешенных для каждого события.

Основой для написания послужил язык программирования Python версии 3.6, поскольку он обладает необходимым набором инструментов для анализа данных. Программной оболочкой послужил Jupyter notebook.

В рамках проделанной работы была реализована модель для анализа наличия взаимосвязей между выделенными новостными трендами внутри социальной сети 'Одноклассники'. Предложенная система имеет большой потенциал для усовершенствований, в том числе для возможности работы в интерактивном режиме.

Литература:

1. Magnus Sahlgren The distributional hypothesis, 2008.

2. Крюкова А. В. Определение семантической близости текстов с использованием инструмента DKPro Similarity, 2017.

3. Ramesh Nallapati, Ao Feng, Fuchun Peng, James Allan, Event Threading within News Topics, 2004.

4. Congcong YangXiaodong ShiChih-Ping Wei, Discovering Event Evolution Graphs From News Corpora, 2009.

5. Барицентр // Свободная энциклопедия википедия URL: https://ru.wikipedia.org/wiki/Барицентр (дата обращения: 07.04.2019).

Основные термины (генерируются автоматически): анализ данных, дистрибутивная семантика, документ, рассматриваемое окно, семантическая близость, событие, социальная сеть, VSM, данные, день, естественный язык, поставленная задача, статический порог, тематическая модель, тематическое моделирование.


Ключевые слова

обработка естественного языка, анализ данных, выделение взаимосвязей

Похожие статьи

Анализ методов тематического моделирования текстов на...

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки. Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Семантический анализ текстов. Основные положения

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP) , так и компьютерной лингвистики.

Семантическое моделирование 3D-контента с использованием...

Данная статья посвящена теме «семантическое моделирование 3D контента с

Семантическая сеть использована в данной работе была разработана с помощью “Protegee”, а в

Цель создания любой семантической сети её использование в решении прикладных задач.

Семантика в задачах автоматической обработки данных

Ключевые слова: семантика, естественный язык, обработка текстов.

Проблемы моделирования языковой деятельности человека и примыкающие к ним задачи

Основные термины (генерируются автоматически): естественный язык, язык информатики, слово...

Использование алгоритма вероятностного...

Ключевые слова: тематическое моделирование, векторная модель, вероятностный

Первым шагом работы данного алгоритма для каждого документа является составление векторной модели текста.

На следующем рисунке данные разложения отображены более наглядно.

Разработка вопросно-ответной системы с использованием...

Задачей определения семантической близости между словами занимается дистрибутивная семантика.

На третьем этапе для сжатия данных к полученной хеш-таблице применяется код

Системы семантического анализа способны найти применение в большом количестве...

Метод автоматической классификации документов в задаче...

Рассмотрены наиболее популярные методы автоматической классификации документов и обоснован

Достоинствами данных методов являются их наглядность, логичное представление информации

Однако метод нейронных сетей является довольно трудоемким при обучении, и...

Вопросно-ответная система, основанная на семантическом...

Семантика в задачах автоматической обработки данных. Вопрос — ответ. Ключевые слова: семантика, естественный язык, обработка текстов.

- Построение семантической интерпретации слов и конструкций. Семантика в задачах автоматической обработки данных.

Использование семантической аннотации для управления...

Семантика в задачах автоматической обработки данных. естественный язык, язык информатики, слово, знаковая система, окружающий мир, семантический анализ, семантическая информационная единица, предметная область, задача, единица.

Похожие статьи

Анализ методов тематического моделирования текстов на...

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки. Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Семантический анализ текстов. Основные положения

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP) , так и компьютерной лингвистики.

Семантическое моделирование 3D-контента с использованием...

Данная статья посвящена теме «семантическое моделирование 3D контента с

Семантическая сеть использована в данной работе была разработана с помощью “Protegee”, а в

Цель создания любой семантической сети её использование в решении прикладных задач.

Семантика в задачах автоматической обработки данных

Ключевые слова: семантика, естественный язык, обработка текстов.

Проблемы моделирования языковой деятельности человека и примыкающие к ним задачи

Основные термины (генерируются автоматически): естественный язык, язык информатики, слово...

Использование алгоритма вероятностного...

Ключевые слова: тематическое моделирование, векторная модель, вероятностный

Первым шагом работы данного алгоритма для каждого документа является составление векторной модели текста.

На следующем рисунке данные разложения отображены более наглядно.

Разработка вопросно-ответной системы с использованием...

Задачей определения семантической близости между словами занимается дистрибутивная семантика.

На третьем этапе для сжатия данных к полученной хеш-таблице применяется код

Системы семантического анализа способны найти применение в большом количестве...

Метод автоматической классификации документов в задаче...

Рассмотрены наиболее популярные методы автоматической классификации документов и обоснован

Достоинствами данных методов являются их наглядность, логичное представление информации

Однако метод нейронных сетей является довольно трудоемким при обучении, и...

Вопросно-ответная система, основанная на семантическом...

Семантика в задачах автоматической обработки данных. Вопрос — ответ. Ключевые слова: семантика, естественный язык, обработка текстов.

- Построение семантической интерпретации слов и конструкций. Семантика в задачах автоматической обработки данных.

Использование семантической аннотации для управления...

Семантика в задачах автоматической обработки данных. естественный язык, язык информатики, слово, знаковая система, окружающий мир, семантический анализ, семантическая информационная единица, предметная область, задача, единица.

Задать вопрос