Обзор методов и средств автоматизированного сбора информации с новостных лент | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №12 (116) июнь-2 2016 г.

Дата публикации: 19.06.2016

Статья просмотрена: 686 раз

Библиографическое описание:

Романова, В. О. Обзор методов и средств автоматизированного сбора информации с новостных лент / В. О. Романова. — Текст : непосредственный // Молодой ученый. — 2016. — № 12 (116). — С. 170-173. — URL: https://moluch.ru/archive/116/31768/ (дата обращения: 24.04.2024).



Настоящая работа посвящена обзору источников данных с новостных лент в сети Интернет, программных средств хранения неструктурированных текстовых данных, лингвистических и статистических методов представления текстовой информации.

Сегодня Интернет теснит привычные медиа: все меньше людей читают газеты или смотрят телевизионные выпуски новостей. А в интернете те же люди сидят все больше и больше. Если прибавить к этому стремительные темпы развития технологий беспроводного Интернета, то мы получаем реальную перспективу массового распространения интернет-ориентированного потребителя новостной информации.

Трафик интернет-новостей за последние три года вырос в полтора раза, об этом свидетельствуют данные сервиса «Яндекс.Новости». По результатам исследования, ежедневно в сети публикуется около 47 тысяч информационных сообщений. Согласно исследованию, проведенному группой экспертов «Яндекса» в октябре 2014 г., на данный момент уже «каждый четвертый пользователь Сети в стране хотя бы раз в месяц читает новости в электронном виде».

Новостная лента представляет собой формат данных, используемый для доставки пользователям часто обновляемой информации. Лента состоит из некоторого ограниченного числа статей, а также из служебной информации, например, наименование поставщика ленты, адрес домашней странички. При появлении новых сообщений они добавляются в ленту, вытесняя старые статьи. Обычно в ленте бывает не больше 10–20 статей.

В РФ одним из самых популярных новостных сайтов, которые подают интернет-пользователям самые свежие новости политики, науки, спорта, культуры и техники является Lenta.ru.

Lenta.ru — одно из ведущих российских новостных интернет-изданий, основанное в 1999 году Антоном Носиком при содействии Фонда эффективной политики. Работает круглосуточно, освещая мировые и внутрироссийские новости.

По данным Alexa.com на март 2014 года сайт Lenta.ru занимает 16 место по популярности в России. В 2010 году Гарвардский университет провел исследование русской блогосферы, которое признало «Ленту.ру» наиболее часто цитируемым в русскоязычных блогах источником новостей. Согласно исследованию компании comScore, проведенному в апреле 2013 года, сайт занял 5 место по посещаемости среди европейских новостных сайтов.

Не теряет своей популярности и РИА Новости. Этот новостной сайт выкладывает новости России и других мировых стран, позволяя своим читателям всегда быть в курсе происходящего. Интернет-сайт агентства стабильно входит в десятку самых популярных электронных СМИ Европы. Ежедневно на сайте выходит более 50 новостных лент. Подобно сайту Lenta.ru каждая новость содержит заголовок, сам текст новости, дату публикации, имя автора, фотоматериалы. Пользователь может прокомментировать статью, оценить ее, ознакомиться с количеством просмотров, поделиться ссылкой на новость в таких социальных сетях, как Facebook, ВКонтакте, Одноклассники, LiveJournal, Twitter, МойМир.

Как отмечалось выше, ежедневно в сети публикуется около 47 тысяч информационных сообщений. В ответ на возникшие потребности на ИТ-рынке появился целый ряд решений, обозначаемых общим термином «Big Data», которые предлагают качественно новый подход к хранению и использованию постоянно растущих объемов информации.

Big Data — это серия подходов, инструментов и методов обработки структурированных, слабо структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

Среди основных характеристик решений класса Big Data можно выделить такие как:

– больший объем — способность хранить массивы данных огромных размеров (от сотен Тб до десятков Пб);

– большое многообразие — возможность хранения в рамках одного массива всех видов структурированной и неструктурированной информации: таблицы баз данных, текстовые документы, видео- и аудио-информация, данные измерительных приборов, логи приложений и многое другое;

– высокое быстродействие — скорость загрузки и обработки информации в массиве близкая к режиму реального времени.

На рынке есть достаточно много мощных, легко масштабируемых решений для организации хранилищ данных и работы с ними. Среди них можно выделить Greenplum, Netezza и Teradata, которые предлагают эффективную производительность приобработке информацииблагодаря использованию массивно-параллельной архитектуры.

Технологии Big Data предусматривают высокую степень распределения данных на уровне хранения. Распределенная система хранения не только обеспечивает отказоустойчивость, но и позволяет распараллелить обработку данных, что крайне важно при работе с объёмами Big Data.

Ключевой технологией хранения в мире Big Data является Hadoop. Hadoop представляет собой программную среду с открытым исходным кодом, которая обеспечивает распределённое хранение огромных объёмов данных (в масштабе петабайт) на недорогих компьютерах. С помощью Hadoop-приложения Big Data взаимодействует с узлами хранения без непосредственного обращения к физическим серверам.

Hadoop состоит из двух основных компонент:

  1. Распределенная и в высокой степени масштабируемая файловая система HDFS (Hadoop Distributed File System).
  2. Подсистема MapReduce на уровне приложений, которая обеспечивает обработку запросов в пакетном режиме.

HDFS построена по принципу однократной записи и многократного чтения (write-once-read-many) и имеет блочную структуру, в каждом блоке которой можно хранить файл или часть файла.

В общем виде, все методы обработки текстовой информации могут быть разделены на две группы, по используемым в их реализации подходам: статистическому и лингвистическому.

Лингвистический подход предполагает анализ различных единиц языка, начиная от морфем и заканчивая словами и предложениями и определение связей между ними для решения конкретных задач. Из-за этого лингвистический подход зависит от конкретного языка.

Лингвистический подход при решении задачи автоматической обработки текста предполагает последовательный анализ языка как иерархической системы. Выделяют 4 последовательных этапа анализа текста: лексический, морфологический, синтаксический и семантический. К этим базовым уровням анализа также может быть добавлен один над-уровень: прагматический анализ.

Если лингвистический подход к обработке текстовой информации предполагает разработку подробной лингвистической модели для решения конкретных задач, то статистический подход предполагает, что обработка больших объёмов текстовых данных с помощью компьютеров позволит извлечь из них определённые сведения, применимые для решения задачи автоматической обработки текста.

Статистический подход к решению задач автоматической обработки текста подразумевает использование некоторой математической модели текста, применимой для решения конкретной задачи. Под математической моделью понимается некоторый объект-заместитель объекта-оригинала, обеспечивающий изучение некоторых свойств оригинала. Таким образом, модель является своего рода эквивалентом объекта, отражающим в математической форме его важнейшие свойства — законы, которым он подчиняется и связи, присущие составляющим его частям.

В основе статистического подхода лежит использование в качестве основных единиц текста слов: на их основе рассматриваются различные числовые характеристики, такие как распределение слов по тексту, количество повторений слов и т. д., а также статистические закономерности между этими характеристиками, позволяющие решать конкретные задачи. Достоинством статистического подхода является его независимость от конкретного языка. На практике чаще всего применяются комбинации двух этих подходов.

Освещая проблему выявления агрессии в сообщениях новостных лент, следует учитывать, что в СМИ именно через слово воздействуют на массовое сознание. Заголовкистатей, привлекая внимание читателя, одновременно воздействуют на читателя и настраивают на отрицательное отношение к тем фактам, о которых идёт речь. Что касается агрессивно написанных статей, то такие материалы больше всех привлекают внимание читателей, воздействуют на эмоциональную сферу человека и настраивают на решительное действие.

В современныхгазетныхтекстах, помимо проявления речевой агрессии, можно также наблюдать случаи описания физической агрессии. Такие статьи, в основном, информируют о совершении разных насильственных действий, когда идет детальное описание агрессивных актов, начиная от побоев и заканчивая совершением убийства. В языковом сознании русских понятие речевой агрессии в СМИ почти всегда связано с понятием власти.

Одним из способов выражения агрессии является немотивированное, затрудняющее понимание текста использование иноязычной лексики. Например, «Барак Обама на этой неделе имел большое европейское турне — Брюссель, Гаага, Рим, саммит Евросоюза, НАТО, визит к папе Римскому, что, кстати, интересно, потому что Обама сам позиционирует себя как inbeliever — неверующий».

В последнее время в СМИ активно используются слова, являющиеся неологизмами среди жаргонных слов. Например, «Двадцать пять лет американцы «троллили» Россию».

В процессе исследования существующих методов и средств автоматизированного сбора информации с новостных лент, была рассмотрена одна из первостепенных задач — задача автоматизации сбора и хранения текстовой информации.

Литература:

  1. http://www.onlinegazeta.info/portal/LENTA.RU-oficialniy_sait_internet-izdanie_lenta-ru-novosti-na-lente-redakciya.htm (дата обращения: 26.04.16)
  2. http://www.rg.ru/2014/10/22/novosti-site-anons.html (дата обращения: 26.04.2016)
  3. http://www.kakprosto.ru/kak-846340-samye-populyarnye-novostnye-sayty#ixzz471ZHyLQr (дата обращения: 26.04.2016)
  4. Новая газета. — 2014. — № 24 от 3.04.2014
Основные термины (генерируются автоматически): HDFS, лингвистический подход, статистический подход, текстовая информация, автоматическая обработка текста, данные, метод обработки, речевая агрессия, решение задачи, Россия.


Похожие статьи

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию...

Исследование методов сентимент-анализа русскоязычных текстов

Обработка информации в условиях динамично растущего Интернета не может быть выполнена без автоматизированных информационных систем. Подходы для автоматического определения тональности текста.

Сравнительный анализ методик обработки спонтанных устных...

С целью выбора адекватного метода семантического анализа текста один и тот же текст был обработан разными методиками.

В этой системе в основу заложен метод, дающий возможность частичной автоматической обработки данных, а также строящий граф...

Определение авторства текста по частотным характеристикам

В настоящее время для атрибуции текстов применяются подходы из теории распознавания

Обработка текстов в данной системе производится поэтапно.

Затем осуществляется автоматическая обработки текста, его морфологический разбор и синтаксический анализ.

Метод автоматической классификации документов в задаче...

Статья посвящена описанию метода латентно-семантического анализа для решения задачи профессионального самоопределения.

1. Предварительная обработка исходной текстовой информации: исключение стоп-слов (предлоги, союзы, частицы).

Каталоги лингвистических ресурсов: состояние и перспективы

Часто задачи обработки текста сводятся к задачам машинного обучения: формируется вектор признаков, генерируется обучающая выборка

методы («М») — модели, способы, алгоритмы, подходы к решению фундаментальных и прикладных задач компьютерной лингвистики

Этапы и методы автоматического извлечения ключевых слов

Рассмотрим общий подход к автоматическому выделению ключевых слов из текстов.

Довольно часто для поиска коллокаций применяют статистические методы, которые в общем случае требуют следующие входные данные

Разработка вопросно-ответной системы с использованием...

Рассмотрены возможные подходы к решению задачи: метод векторного представления слов и метод синтаксических деревьев. Исследованы технологии word2vec, NLTK, pymorphy2, использованные при реализации системы. Описаны алгоритмы обучения лингвистических...

Метод k средних при решении задачи распознавания диктора по...

Из методов вероятностного подхода наиболее используемыми являются метод k-means, k-medians, EM-алгоритм.

Метод распознавания шрифта текста с изображения. Метод Гомори в решении целочисленной задачи оптимизации информационной системы.

Похожие статьи

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию...

Исследование методов сентимент-анализа русскоязычных текстов

Обработка информации в условиях динамично растущего Интернета не может быть выполнена без автоматизированных информационных систем. Подходы для автоматического определения тональности текста.

Сравнительный анализ методик обработки спонтанных устных...

С целью выбора адекватного метода семантического анализа текста один и тот же текст был обработан разными методиками.

В этой системе в основу заложен метод, дающий возможность частичной автоматической обработки данных, а также строящий граф...

Определение авторства текста по частотным характеристикам

В настоящее время для атрибуции текстов применяются подходы из теории распознавания

Обработка текстов в данной системе производится поэтапно.

Затем осуществляется автоматическая обработки текста, его морфологический разбор и синтаксический анализ.

Метод автоматической классификации документов в задаче...

Статья посвящена описанию метода латентно-семантического анализа для решения задачи профессионального самоопределения.

1. Предварительная обработка исходной текстовой информации: исключение стоп-слов (предлоги, союзы, частицы).

Каталоги лингвистических ресурсов: состояние и перспективы

Часто задачи обработки текста сводятся к задачам машинного обучения: формируется вектор признаков, генерируется обучающая выборка

методы («М») — модели, способы, алгоритмы, подходы к решению фундаментальных и прикладных задач компьютерной лингвистики

Этапы и методы автоматического извлечения ключевых слов

Рассмотрим общий подход к автоматическому выделению ключевых слов из текстов.

Довольно часто для поиска коллокаций применяют статистические методы, которые в общем случае требуют следующие входные данные

Разработка вопросно-ответной системы с использованием...

Рассмотрены возможные подходы к решению задачи: метод векторного представления слов и метод синтаксических деревьев. Исследованы технологии word2vec, NLTK, pymorphy2, использованные при реализации системы. Описаны алгоритмы обучения лингвистических...

Метод k средних при решении задачи распознавания диктора по...

Из методов вероятностного подхода наиболее используемыми являются метод k-means, k-medians, EM-алгоритм.

Метод распознавания шрифта текста с изображения. Метод Гомори в решении целочисленной задачи оптимизации информационной системы.

Задать вопрос