Сравнительный анализ методов Наивного Байеса и SVM алгоритмов при классификации текстовых документов | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №29 (267) июль 2019 г.

Дата публикации: 19.07.2019

Статья просмотрена: 691 раз

Библиографическое описание:

Акбархужаев, С. А. Сравнительный анализ методов Наивного Байеса и SVM алгоритмов при классификации текстовых документов / С. А. Акбархужаев, Н. Н. Абдурахманова. — Текст : непосредственный // Молодой ученый. — 2019. — № 29 (267). — С. 8-10. — URL: https://moluch.ru/archive/267/61568/ (дата обращения: 03.05.2024).



В статье раскрывается понятие классификации текстовых документов для автоматического обнаружения категорий по текстам. Проводится сравнительный анализ двух самых главных алгоритмов, которыми являются методы наивного Байеса и SVM. Делается вывод, что при совмещении данных алгоритмов, процесс автоматического классифицирования работает точнее и быстрее.

Ключевые слова: метод наивного Байеса, SVM алгоритм, классификация текстовых документов.

В этой статье мы в основном сравниваем две техники, два основных алгоритма, которые берутся как основа классификации документов. Это алгоритмы SVM и метод наивного Байеса соответственно. В различных статьях приводятся данные о том, что SVM-алгоритм работает лучше в задачах классификации, тогда как во многих статьях было сказано, что метод Наивного Байеса показывает лучшие результаты в текстовой категоризации.

Методы классификации текстовых документов

Наивный байесовский анализ — это семейство статистических алгоритмов, которые мы можем использовать при классификации текста, т.е. наивный байесовский классификатор является классификатором, который можно рассматривать как частный случай байесовских сетевых классификаторов. Он помогает нам вычислить условные вероятности возникновения двух событий на основе вероятностей возникновения каждого отдельного события. Это означает, что любой вектор представляющий текст, должен будет содержать информацию о вероятностях появления слов текста в текстах данной категории, чтобы алгоритм мог вычислить вероятность принадлежности этого текста к какой-либо категории. В общем, байесовская сеть классификаторов сначала моделирует совместное распределение p (x, y) измеренных атрибутов “x” и метки класса “y” разлагаются в виде p (x | y) p (y), а затем запоминаются параметры модели через максимизацию вероятности, заданной p (x | y) p (y) [1]. Есть фундаментальное предположение, что атрибуты являются условно независимыми, учитывая целевой класс, наивный байесовский классификатор фактически изучает параметры модели путем максимизации вероятности, заданной p (y) ∏j p (xj | y). Одним из основных преимуществ данного метода является то, что можно получить хорошие результаты, когда доступных данных не так много (несколько тысяч), а вычислительные ресурсы ограничены. Поскольку наивные байесовские классификаторы оптимизируют модель в целом и способны к обучению даже при наличии некоторых пропущенных значений. Кроме того, наивный байесовский классификатор является стабильным, и его результат классификации не претерпел существенных изменений из-за помех или искаженных данных.

Машины опорных векторов (SVM) — это только один из многих алгоритмов, которые мы можем выбирать при классификации текста. Данный алгоритм схож с Наивным Байесовским алгоритмом тем, что обоим алгоритмам не нужно много тренировочных данных, чтобы начать давать точные результаты. При этом, SVM алгоритм требует больше вычислительных ресурсов, чем для наивного Байеса, так-как он может достичь более точных результатов. При работе SVM-алгоритма, рисуется линия, которая делит пространство на два подпространства: одно подпространство содержит векторы, принадлежащие группе, тогда как другое подпространство содержит векторы, которые не принадлежат этой группе [2]. Эти векторы представляют собой учебные тексты, а группа является тегом, которым помечаем свои тексты. Классификатор SVM отличается от генеративного классификатора (метод Наивного Байеса) тем что он фокусируется на том, насколько хорошо они могут отделить положительные негативы, и не пытается понять основную информацию личности классы. Классификатор SVM сначала отображает экземпляр x в обучающем наборе в высокое размерное пространство через функцию Φ, то вычисляет решающую функцию вида f (x) = + b путем максимизации расстояния между множеством точек Φ (x) до гиперплоскости или набор гиперплоскостей, параметризованных (w, b), будучи согласованными на тренировочный набор [1]. Классификатор SVM создает единую модель для всех классов и, следовательно, требует одновременного рассмотрения всех других классов.

Заключение. Как можно понять из названия заявленной темы, производился сравнительный анализ двух популярных методов по классификации текстовых документов, которыми являются методы Наивная Байесовская Классификация и SVM-алгоритм. Наивный байесовский классификатор (NBC) и метод опорных векторов (SVM) имеют различные параметры, включая выбор функции ядра для каждого из них. Оба алгоритма очень чувствительны к оптимизации параметров, то есть выбор различных параметров может существенно изменить их выход. Итак, если результат показывает, что NBC работает лучше, чем SVM, то это верно только для выбранных параметров. Тем не менее, при других параметрах можно обнаружить, что SVM работает лучше.

В целом, если предположение о независимости в NBC удовлетворяется переменными набора данных и степень перекрытия классов мала (то есть потенциальная линейная граница принятия решения), то скорее всего NBC достигнет хороших результатов. К примеру, при классификации другие алгоритмы могут показать результат не хуже NBC, но выиграть конкуренцию из-за их оболочек. Если другие алгоритмы достигнут сопоставимой производительности с NBC, всё равно классификатор Наивного Байеса будет более желательным из-за его высокой скорости обработки.

Таким образом, по мнению авторов, не обязательно отдавать предпочтение какому-либо методу классификации, если он превосходит другие алгоритмы в одном направлении, так как он может потерпеть неудачу по другому аспекту. Обязательно нужно рассматривать несколько видов классификаторов для сравнительного исследования по классификации текстовых данных, так как учитывая свойства данных, можно будет максимально точно отдавать предпочтение некоторым методам. Однако самый целесообразный способ, если это возможно, – провести эксперименты со всеми алгоритмами классификации.

Литература:

  1. Klopotek M. and Woch M., “Very Large Bayesian Networks in Text Classification”, ICCS 2003, LNCS 2657, 2003, pp. 397–406
  2. V. Tampakas, Text Classification Using Machine Learning Techniques. 2005 URL: https://www.researchgate.net/publication/228084521_Text_Classification_Using_Machine_Learning_Techniques
Основные термины (генерируются автоматически): SVM, NBC, алгоритм, наивный байесовский классификатор, вектор, данные, классификация текста, максимизация вероятности, параметр модели, сравнительный анализ.


Ключевые слова

метод наивного Байеса, SVM алгоритм, классификация текстовых документов

Похожие статьи

Анализ эффективности применения методов классификации

Наивный байесовский классификатор может быть, как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности. Основные преимущества наивного байесовского классификатора...

Применение байесовского подхода в измерениях аналитических...

Байесовская методология отличается от других подходов тем, что еще до получения данных исследователь определяет уровень своего доверия к возможным моделям и впоследствии представляет ее в виде определенных вероятностей.

Классификация документов в системе электронного...

Сравнительный анализ алгоритмов нейронной сети и деревьев... Алгоритм дерева принятия решений — это гибридный алгоритм

Основные термины (генерируются автоматически): SVM, объем данных, наивный байесовский классификатор, простота реализации, метод дерева...

Сравнительный анализ алгоритмов сортировки данных...

Статья посвящена проблеме выбора оптимального алгоритма сортировки данных в массивах, что предполагает сравнительный анализ алгоритмов. Рассмотрены алгоритмы устойчивой и неустойчивой сортировки; непрактичные алгоритмы; алгоритмы...

Методы интеллектуального анализа данных в диагностировании...

К алгоритмам интеллектуального анализа данных относятся: байесовские сети, деревья решений

SVM, объем данных, наивный байесовский классификатор...

Наивный байесовский классификатор. Выбор платформы интеллектуального анализа данных для...

Анализ методов распознавания образов | Статья в журнале...

Классификатор — устройство, которое в качестве входных данных получает набор

Этот метод относит неизвестный вектор признаков к классу, отдельные образцы которого

Байесовский классификатор на основе наблюдаемых признаков относит объект к классу, к...

Применение методов искусственного интеллекта в спорте

Интеллектуальный анализ данных, включающий анализ главных компонентов, методы линейной регрессии и Байесовское моделирование

Сравнительный анализ алгоритмов нейронной сети и деревьев... Проанализировав методы интеллектуального анализа данных...

Анализ тональности высказываний в Twitter | Статья в журнале...

Ключевые слова:анализ тональности, классификация, datamining.

Анализ тональности текста — это раздел интеллектуального анализа данных, направленный на выявление

Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким...

Анализ методов обнаружения лиц на изображении

- Наивный байесовский классификатор (Naive Bayes classifier)

Каскадная модель сильных классификаторов — это по сути то же дерево принятия решений, где каждый узел дерева построен таким образом, чтобы детектировать почти все интересующие образы и отклонять...

Похожие статьи

Анализ эффективности применения методов классификации

Наивный байесовский классификатор может быть, как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности. Основные преимущества наивного байесовского классификатора...

Применение байесовского подхода в измерениях аналитических...

Байесовская методология отличается от других подходов тем, что еще до получения данных исследователь определяет уровень своего доверия к возможным моделям и впоследствии представляет ее в виде определенных вероятностей.

Классификация документов в системе электронного...

Сравнительный анализ алгоритмов нейронной сети и деревьев... Алгоритм дерева принятия решений — это гибридный алгоритм

Основные термины (генерируются автоматически): SVM, объем данных, наивный байесовский классификатор, простота реализации, метод дерева...

Сравнительный анализ алгоритмов сортировки данных...

Статья посвящена проблеме выбора оптимального алгоритма сортировки данных в массивах, что предполагает сравнительный анализ алгоритмов. Рассмотрены алгоритмы устойчивой и неустойчивой сортировки; непрактичные алгоритмы; алгоритмы...

Методы интеллектуального анализа данных в диагностировании...

К алгоритмам интеллектуального анализа данных относятся: байесовские сети, деревья решений

SVM, объем данных, наивный байесовский классификатор...

Наивный байесовский классификатор. Выбор платформы интеллектуального анализа данных для...

Анализ методов распознавания образов | Статья в журнале...

Классификатор — устройство, которое в качестве входных данных получает набор

Этот метод относит неизвестный вектор признаков к классу, отдельные образцы которого

Байесовский классификатор на основе наблюдаемых признаков относит объект к классу, к...

Применение методов искусственного интеллекта в спорте

Интеллектуальный анализ данных, включающий анализ главных компонентов, методы линейной регрессии и Байесовское моделирование

Сравнительный анализ алгоритмов нейронной сети и деревьев... Проанализировав методы интеллектуального анализа данных...

Анализ тональности высказываний в Twitter | Статья в журнале...

Ключевые слова:анализ тональности, классификация, datamining.

Анализ тональности текста — это раздел интеллектуального анализа данных, направленный на выявление

Чтобы оценить вероятность , Наивный Байесовский метод раскладывает её на величины и таким...

Анализ методов обнаружения лиц на изображении

- Наивный байесовский классификатор (Naive Bayes classifier)

Каскадная модель сильных классификаторов — это по сути то же дерево принятия решений, где каждый узел дерева построен таким образом, чтобы детектировать почти все интересующие образы и отклонять...

Задать вопрос