Создание и практическое использование статистики морфем казахского языка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Филология, лингвистика

Опубликовано в Молодой учёный №22 (156) июнь 2017 г.

Дата публикации: 05.06.2017

Статья просмотрена: 68 раз

Библиографическое описание:

Сматаев, Н. К. Создание и практическое использование статистики морфем казахского языка / Н. К. Сматаев. — Текст : непосредственный // Молодой ученый. — 2017. — № 22 (156). — С. 485-487. — URL: https://moluch.ru/archive/156/44168/ (дата обращения: 02.05.2024).



При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания списка морфем.

Ключевые слова: морфема, статистика, электронная вычислительная машина, автоматическая обработка текста, анализ

Проблема работы с морфологией казахского языка обусловлена множественными вариациями как самих морфем, так и их сочетании. При автоматической обработке текста следует учитывать все возможные сочетания морфем и при этом уметь отделять от них корень, что так же неоднозначно в силу действия омонимии.

Наиболее очевидным решением могло бы быть ручное создание списка морфем. По причине большой статистической выборки текста, которую нужно сделать для создания списка, имелось два варианта решения данной задачи:

  1. Автоматический анализ слов с предшествующим созданием простого списка морфем исследователем.
  2. Автоматический анализ слов, которые были обработаны и размечены исследователем.

В силу колоссального объёма работы по разметке большого количества текста требуемого для второго варианта, предпочтительным выглядит вариант использования Алматинского корпуса казахского языка созданный в КазНУ им аль-Фараби, либо разрабатываемый Институтом языкознания при Академии наук Республики Казахстан Национальный корпус казахского языка (что подразумевает сложности с продолжающейся разработкой корпуса, и сопутствующей ее закрытостью).

В свою очередь, первый сценарий подразумевает наличие списка всех морфем для точного их разделения. Такого рода список не предполагает необходимость разделения морфем по категориям или добавления дополнительной информаций к ним, лишь предварительно уточняются сочетания и условия отсутствия морфем. При анализе слова происходит сверка всех возможных вариантов морфем с пунктами списка, и последующая проверка соседних элементов для проверки неверного разделения. К примеру, слово адамдарымыздың, составлен следующим образом — адам-дар-ым-ыз-дың. Без какого указателя разделения, и с учетом того, что морфема может иметь длину от одного до трех знаков, можно получить большое количество возможных сочетании. Перебор всех вариантов перестановок выделения блоков возможных морфем займет заметное количество времени у человека, а у ЭВМ лишь увеличивает энтропию при анализе большого количества текста.

При анализе слов поиск морфем может начинаться с конца ли начала слова. Казахскому языку свойственно всегда ставить к начало конструкции слова корень, с последующим присоединением аффиксов. По этой же причине начинать анализ с начала слова возможно лишь при наличии базы данных слов и имен, чье наличие, в свою очередь, может существенно уменьшит объем требуемых работ.

При поиске с конца слова применим алгоритм поиска по последней букве в слове и аффиксе списка. К примеру, возьмем слово бала-лар-дың. Последняя буква ң сверяется со списком и находится варианты, скажем, ң, ның, ің, дің, дың, что приведет к проверке предыдущих букв. Учитывая максимальную длину в три знака, и минимальную в один, компьютер выдаст два варианта: ң и дың, для выбора из которых нужно начать поиск следующего предполагаемого аффикса с опорой на то, что предшествующая найденным вариантам буква — последняя буква предыдущего. При разработке программы или с помощью доработки программы возможна, и желательна функция запоминания комбинации при выборе верного варианта учителем, как и установка минимальной длины корня для предотвращения разделения корня.

Данный процесс можно доработать основываясь на работе Института языкознания в Алматы с 1965 по 1973 годы по статистике казахского языка, в том числе и морфологии. Несмотря на несколько отдельный характер работы, результаты статистики аффиксов, записанных в формате аффикс/частота, можно использовать посредством сверки по списку частотности аффиксов, что обеспечивает статистический большую вероятность нахождения правильного варианта с первых попыток. Данная работа проводилась на текстах художественного и публицистических стилей, и дана абсолютная частота, но с учетом относительной актуальности языка того времени и большому объему слов, будет достаточно обоснованно использовать данные списки с переводом их абсолютной частоты в относительную по простой формуле (1)

(1)

Где x — количество вариантов, f (x) — частота вариантов, p (x) — относительная частота.

Другим, упомянутым ранее, вопросом является выделение корня. К примеру, слово өнім-дер-ің-ді (ваши продукции) имеет корень өнім, тогда как слово дер-ің-ді (то, что хочешь сказать) имеет корень де (скажи). Два абсолютно разных слова будут восприниматься ЭВМ одинаково в силу схожего строения, и корень второго слова будет считаться аффиксом, что безусловно будет предотвращено правилом минимальной длины корня, но даже в этом случае часть корня может быть захвачено ЭВМ как аффикс. В силу разнообразия онимов и слов, простая сверка корней с собранной базой данных может занять некоторое время. Для решения данной проблемы следует ввести статистику использования корней, уже на основе этого проекта, с допущением медленного набора статистики и отсутствию слов в базе данных.

Наибольшим препятствием в анализе слов может являться наличие названия в виде корня, что предполагает не только большой массив онимов со всех сфер, но и присутствие довольно большого количества непереведенных, либо неправильно использованных слов, что встречается довольно часто как ошибка, так и стилистический прием в журналистике. Данный факт не мешает сбору и использованию статистики корней, но увеличивает время и ресурсы, необходимые для пополнения базы, а в дальнейшем создает массивную базу.

Решением в данный момент служит использование вариации морфем, число которых конечно. Основываясь на алгоритме, указанном выше, просматриваются все варианты морфем и при нахождении встречающейся комбинации она задается как верно разделенная. Данное решение не способно снизить количество ошибок к нулю, но гарантирует существенно меньший процент ошибок, и при методе работы программы с «учителем», покрывает все встречающиеся варианты.

Собранные данные могут служить различным целям: орфографическая проверка, предугадывание ввода, автоматический анализ текста и т. д. В данный момент наибольшую актуальность имеет проверка орфографии. Данная система имеет возможность проверки слов, эталоны которых не имеются в базе данных, посредством отдельной проверки корня и морфологической последовательности. В дополнение, при вводе отдельных правил, выполняется проверка по закону сингармонизма, актуальную для подавляющего большинства слов в казахском языке.

К примеру, слово құжат-тар-дың может быть ошибочно записано как құжат-тар-дің. Аффиксы дің и дың имеют одинаковое значение, но, в силу фонетических правил казахского языка, ставятся после разных наборов гласных букв. Уже имея наработанную базу морфем, необходимо лишь указать правило следования гласных как указано на таблице 1. Хотя данное правило не действительно для некоторых заимствованных слов и имен, их количество вызывает лишь малую статистическую погрешность.

Таблица 1

Гласные последнего слога корня

Последующие гласные вморфемах

А, О, Ы, Ұ, У, Я, Э, Ю

Ы и А

Ә, І, Ү, Ө, Е

І и Е

Морфология в агглютинативных языках играет важную роль, внося не столько элементы, усложняющих определенные процедуры обработки языка, столько облегчающих. В данный момент решены многие проблемы их систематизации, многие находятся в процессе их решения для изучения и использования языка на ЭВМ.

Литература:

  1. Статистика казахского языка / ответ. редакторы: Хасенова А. К.; Бектаев К. Б. — АЛМА-АТА, 1973. — 696 с.
  2. Большакова Е. И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. — М.: МИЭМ, 2011. — 272 с.
Основные термины (генерируются автоматически): казахский язык, слово, последняя буква, абсолютная частота, автоматическая обработка текста, автоматический анализ слов, анализ слов, баз данных, минимальная длина корня, ЭВМ.


Ключевые слова

анализ, статистика, морфема, автоматическая обработка текста, электронная вычислительная машина

Похожие статьи

Этапы и методы автоматического извлечения ключевых слов

Рассмотрим общий подход к автоматическому выделению ключевых слов из текстов.

3) минимальная частота совместного появления слов в корпусе при которой их можно считать устойчивым словосочетанием.

Определение авторства текста по частотным характеристикам

Затем осуществляется автоматическая обработки текста, его морфологический разбор и синтаксический анализ. После чего пользователем выполняются операции из базы данных по анализу текстов.

Методы использования регулярных выражений для...

А также сократили время обработки данных для анализа заданного или другого текста.

Основные термины (генерируются автоматически): казахский язык, выражение, английский язык, слово, NET, русский язык, язык, аффикс, Предыдущий символ, машинный перевод.

Разработка приложения для обучения казахскому языку...

Основные термины (генерируются автоматически): казахский язык, русский язык, Казахстан, NET, язык, метод погружения, государственный язык, обучение, слово, программный комплекс.

Исследование методов сентимент-анализа русскоязычных текстов

Ключевые слова: анализ тональности текста, сентимент анализ, обработка естественного языка, компьютерная лингвистика, анализ текстов. Сентимент-анализ (англ. sentiment analysis) — выявление тональности комментария при помощи методов NLP...

Метод автоматической классификации документов в задаче...

Ключевые слова: методы автоматической классификации документов, латентно-семантический анализ, профессиональное самоопределение.

Важным фактором является минимальная обработка данных, простота в реализации, решение проблемы синонимии в текстах...

Методы выделения ключевых слов в контексте электронных...

В работе рассматриваются методы выделения ключевых слов из текстовых документов. Выделены задачи применения данных методов в электронных обучающих системах. Ключевые слова: анализ текста, ключевые слова, выделение ключевых слов, дидактические единицы...

Сравнение методов оценки тональности текста | Статья в журнале...

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Основные термины (генерируются автоматически): слово...

Морфологический анализ не используется информация о соседних словах. Автоматический морфологический анализ является

Данный подход подразумевает частоту встречаемости последовательности из n слов в тексте, а не просто частоту встречаемости отдельного слова.

Похожие статьи

Этапы и методы автоматического извлечения ключевых слов

Рассмотрим общий подход к автоматическому выделению ключевых слов из текстов.

3) минимальная частота совместного появления слов в корпусе при которой их можно считать устойчивым словосочетанием.

Определение авторства текста по частотным характеристикам

Затем осуществляется автоматическая обработки текста, его морфологический разбор и синтаксический анализ. После чего пользователем выполняются операции из базы данных по анализу текстов.

Методы использования регулярных выражений для...

А также сократили время обработки данных для анализа заданного или другого текста.

Основные термины (генерируются автоматически): казахский язык, выражение, английский язык, слово, NET, русский язык, язык, аффикс, Предыдущий символ, машинный перевод.

Разработка приложения для обучения казахскому языку...

Основные термины (генерируются автоматически): казахский язык, русский язык, Казахстан, NET, язык, метод погружения, государственный язык, обучение, слово, программный комплекс.

Исследование методов сентимент-анализа русскоязычных текстов

Ключевые слова: анализ тональности текста, сентимент анализ, обработка естественного языка, компьютерная лингвистика, анализ текстов. Сентимент-анализ (англ. sentiment analysis) — выявление тональности комментария при помощи методов NLP...

Метод автоматической классификации документов в задаче...

Ключевые слова: методы автоматической классификации документов, латентно-семантический анализ, профессиональное самоопределение.

Важным фактором является минимальная обработка данных, простота в реализации, решение проблемы синонимии в текстах...

Методы выделения ключевых слов в контексте электронных...

В работе рассматриваются методы выделения ключевых слов из текстовых документов. Выделены задачи применения данных методов в электронных обучающих системах. Ключевые слова: анализ текста, ключевые слова, выделение ключевых слов, дидактические единицы...

Сравнение методов оценки тональности текста | Статья в журнале...

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Основные термины (генерируются автоматически): слово...

Морфологический анализ не используется информация о соседних словах. Автоматический морфологический анализ является

Данный подход подразумевает частоту встречаемости последовательности из n слов в тексте, а не просто частоту встречаемости отдельного слова.

Задать вопрос