Использование алгоритма вероятностного латентно-семантического анализа для построения тематической модели коллекции текстов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №23 (209) июнь 2018 г.

Дата публикации: 04.06.2018

Статья просмотрена: 398 раз

Библиографическое описание:

Глушков, Н. А. Использование алгоритма вероятностного латентно-семантического анализа для построения тематической модели коллекции текстов / Н. А. Глушков. — Текст : непосредственный // Молодой ученый. — 2018. — № 23 (209). — С. 174-176. — URL: https://moluch.ru/archive/209/51081/ (дата обращения: 20.04.2024).



В работе рассматриваются использование алгоритма вЛСА для построения тематической модели коллекции текстов, написанных на естественном языке.

Ключевые слова: тематическое моделирование, векторная модель, вероятностный латентный семантический анализ, pLSA, вЛСА.

Данный алгоритм позволяет построить модель неявного (латентного) распределения документов коллекции и слов по темам, что позволит в результате найти тематическую схожесть документов, просто посчитав их расстояние в модели. Недостатком является необходимость в достаточном большом количестве обучающих документов, а также в необходимости пересчитывать модель каждый раз при добавлении нового документа.

Первым шагом работы данного алгоритма для каждого документа является составление векторной модели текста. Для этого строится матрица терм-документ отражающая количество вхождений каждого слова в каждый документ.

Для нахождения значения каждой ячейки данной матрицы, могут быть использованы различные данные, такие как количество вхождений каждого уникального слова в каждый из текстов, частота вхождения каждого уникального слова в каждый из анализируемых текстов, либо посчитанная метрика TF-IDF.

После произведения подобной операции над каждым из документов будет составлена общая матрица терм-документ.

В общем случае, алгоритм Вероятностного латентно-семантического анализа применяется для решения задачи тематического моделирования. Формальная постановка задачи такова:

Пусть — множество текстовых документов, — множество всех употребляемых в них терминов. Каждый документ представляет собой последовательность терминов из словаря , при этом термин может повторятся в документе множество раз.

Пусть существует конечное множество тем , и каждое употребление термина в каждом документе связано с некоторой темой , которая не известна. Формально тема определяется как дискретное вероятностное распределение в пространстве слов заданного словаря .

Введем дискретное пространство . Тогда коллекция документов может быть рассмотрена как множество троек , выбранных случайным образом, независимо от дискретного распределения . Документы , термины являются наблюдаемыми переменными, а темы — скрытыми (латентными) переменными.

Для решения задачи требуется найти распределение терминов в темах для всех тем , и распределения тем в документах для всех документов d.

С учетом гипотезы условной независимости (распределения слов связаны с темами, а не с документами) по формуле полной вероятности можно получить вероятностную модель порождения документа :

В таком случае, вероятность возникновения пары «документ-слово» может быть выражена следующим образом:

Это уравнение данном случае является математическим представлением смешанной модели, показанной следующем рисунке. Данная модель показывает латентные связи документов со словами, проходящие через скрытый внутренний слой, который в данном случая отражает тему. На данном рисунке, элементы «d» отражают документы, элементы «z» — скрытый латентный параметр, в данном случае — темы, а элементы «w» — слова.

Для идентификации параметров тематической модели по коллекции документов применяется принцип максимизации правдоподобия, который приводит к задаче максимизации функционала:

Для решения данной задачи чаще всего используют EM-алгоритм (Expectation-Maximization, максимизация правдоподобия), состоящий из двух шагов.

На первом шаге, называемом «E-шаг», вычисляется значение условных вероятностей для всех тем для каждого термина для всех документов . Для этого текущие значения параметров и выражают по формуле Байеса:

На втором шаге, называемом «M-шаг», решается обратная задача — по условным вероятностям тем вычисляются приближения и :

Описанный выше метод является основным представлением алгоритма вероятностного латентно-семантического анализа, получающего на вход частоты нахождения слов в документах, и выдающего распределения слов и документов по латентным темам.

Алгоритм pLSA в общем смысле является факторизацией матрицы условного распределения Итоговое матричное выражение выглядит так:

На следующем рисунке данные разложения отображены более наглядно.

В отличие от матриц, получающихся в результате алгоритма обычного латентно-семантического анализа с использованием алгоритма SVD, данные матрицы всегда будут неотрицательными и нормализованными, и отражать определенные распределения вероятностей.

Полученные в результате матрицы отражают вероятности отношения документов и слов к определенным неявным тематикам, что служит опорой в алгоритме вычисления оценки схожести документов.

Литература:

  1. Gaussier E., Goutte C., Popat K., Chen F., A Hierarchical Model for Clustering and Categorizing Documents [Text] // In proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02). — Glasgow, 2002. — Pp. 229–247.
  2. Oneata D. Probabilistic Latent Semantic Analysis [Электронный ресурс]. URL: http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/AV1011/oneata.pdf
  3. Merce V. R.. Probabilistic Latent Semantic Analysis [Электронный ресурс]. URL: http://www.inf.ed.ac.uk/teaching/courses/tnlp/2016/Merce.pdf
Основные термины (генерируются автоматически): документ, SVD, TF-IDF, вероятностный латентно-семантический анализ, использование алгоритма, коллекция документов, матрица, решение задачи, тематическое моделирование, уникальное слово.


Ключевые слова

тематическое моделирование, векторная модель, вероятностный латентный семантический анализ, pLSA, вЛСА

Похожие статьи

Анализ методов тематического моделирования текстов на...

Латентно семантический анализ (ЛСА, LSA) — это статистический метод обработки текстовой информации на естественном языке, позволяющий определить взаимосвязь между коллекциями документов и терминами, в них встречающимися.

Метод автоматической классификации документов в задаче...

Статья посвящена описанию метода латентно-семантического анализа для решения задачи профессионального самоопределения. Рассмотрены наиболее популярные методы автоматической классификации документов и обоснован выбор метода...

Применение методов text mining для классификации информации...

где частота слова в документе, длина документа, средняя длина документа в коллекции, число документов в коллекции, число документов в коллекции, содержащих данное слово.

0. 0. Алгоритм TF*IDF не подходит для решения исходной задачи, т. к. он учитывает...

Сравнение методов оценки тональности текста | Статья в журнале...

Мера оценивает важность слов в пределах документа. TFIDF равен произведению TF и IDF.

профессиональное самоопределение, методы автоматической классификации документов, латентно-семантический анализ.

Вопросно-ответная система, основанная на семантическом...

Ключевые слова: методы автоматической классификации документов, латентно-семантический анализ, профессиональное. 1. Предварительная обработка исходной текстовой информации: исключение стоп-слов (предлоги, союзы, частицы).

Моделирование систем защиты информации. Приложение...

Тематические журналы. Издание книг.

Ключевые слова: информационная безопасность, системы защиты информации, моделирование, теория графов.

Для решения задачи снижения финансовых убытков от подобных инцидентов необходимы инвестиции в правильно...

Алгоритмы распознавания объектов | Статья в сборнике...

Для решения задач, связанных с распознаванием удобно использовать достаточно простые алгоритмы получения признаков, к примеру, использование алгоритмов

Анализ матрицы; ‒ Выделение кривых. На первом шаге осуществляется выбор сетки дискретизации.

Этапы и методы автоматического извлечения ключевых слов

Мера TF (term frequency) — отношение частоты некоторого слова к общему числу слов в документе. IDF, TFIDF, матрица неточностей, машинное обучение, таблица, оценка системы, экспертная оценка...

Похожие статьи

Анализ методов тематического моделирования текстов на...

Латентно семантический анализ (ЛСА, LSA) — это статистический метод обработки текстовой информации на естественном языке, позволяющий определить взаимосвязь между коллекциями документов и терминами, в них встречающимися.

Метод автоматической классификации документов в задаче...

Статья посвящена описанию метода латентно-семантического анализа для решения задачи профессионального самоопределения. Рассмотрены наиболее популярные методы автоматической классификации документов и обоснован выбор метода...

Применение методов text mining для классификации информации...

где частота слова в документе, длина документа, средняя длина документа в коллекции, число документов в коллекции, число документов в коллекции, содержащих данное слово.

0. 0. Алгоритм TF*IDF не подходит для решения исходной задачи, т. к. он учитывает...

Сравнение методов оценки тональности текста | Статья в журнале...

Мера оценивает важность слов в пределах документа. TFIDF равен произведению TF и IDF.

профессиональное самоопределение, методы автоматической классификации документов, латентно-семантический анализ.

Вопросно-ответная система, основанная на семантическом...

Ключевые слова: методы автоматической классификации документов, латентно-семантический анализ, профессиональное. 1. Предварительная обработка исходной текстовой информации: исключение стоп-слов (предлоги, союзы, частицы).

Моделирование систем защиты информации. Приложение...

Тематические журналы. Издание книг.

Ключевые слова: информационная безопасность, системы защиты информации, моделирование, теория графов.

Для решения задачи снижения финансовых убытков от подобных инцидентов необходимы инвестиции в правильно...

Алгоритмы распознавания объектов | Статья в сборнике...

Для решения задач, связанных с распознаванием удобно использовать достаточно простые алгоритмы получения признаков, к примеру, использование алгоритмов

Анализ матрицы; ‒ Выделение кривых. На первом шаге осуществляется выбор сетки дискретизации.

Этапы и методы автоматического извлечения ключевых слов

Мера TF (term frequency) — отношение частоты некоторого слова к общему числу слов в документе. IDF, TFIDF, матрица неточностей, машинное обучение, таблица, оценка системы, экспертная оценка...

Задать вопрос