Что такое Big Data? Основные проблемы: хранение и управление данными

Шилина, Наталья Владимировна

Что такое Big Data? Основные проблемы: хранение и управление данными

Автор: Шилина Наталья Владимировна

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №28 (214) июль 2018 г.

Дата публикации: 13.07.2018 2018-07-13

Статья просмотрена: 1489 раз

Скачать электронную версию

Скачать Часть 1 (pdf)

Библиографическое описание:

Шилина, Н. В. Что такое Big Data? Основные проблемы: хранение и управление данными / Н. В. Шилина. — Текст : непосредственный // Молодой ученый. — 2018. — № 28 (214). — С. 1-3. — URL: https://moluch.ru/archive/214/52028/ (дата обращения: 23.04.2024).

Ключевые слова: данные, Big Data, Data Mining, распределенная система, обработка данных, процесс, система.

Информационные технологии окружают нас везде. Все сервисы, помогающие нам, генерируют огромное количество данных. Эти данные могут использоваться для различных целей — от создания оптимального предложения для покупки товара или услуги до прогнозирования необходимого количества специалистов в той или иной области.

Данных много, среди них очень много полезных сведений, которые могут помочь эффективнее решать различные задачи, как коммерческим компаниям, так и органам государственного управления и учёным. Но существует проблема — эти данные не получится просто «взять и использовать» по двум причинам: данных очень много, и очень часто эти данные не структурированы. Объём информации, доступной для анализа, может занимать сотни, тысячи, даже десятки тысяч терабайт! Для обработки таких объёмов информации требуются новое оборудование и новый подход к анализу. Вторая проблема заключается в том, что данные зачастую не имеют общей структуры, так как они сформированы в различных системах, которые не связаны между собой. Так же, эти данные могут быть представлены в виде фотографий, аудиофайлов, рисунков, текстов.

Необходимость обработки огромного количества данных, которые зачастую неструктурированные, породила новый термин в информационных технологиях — Big Data.

Введение термина «Big Data» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных

Где используется термин «Big Data»? Там, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: в экономике, банковской деятельности, производстве. В настоящее время одновременно со стремительным накоплением данных также стремительно развиваются и технологии их анализа и обработки.

Какие же задачи решаются с помощью Big Data? Это глубокий анализ данных, так называемый Data Mining, заключающийся в поиске нетривиальных закономерностей в данных для описательного или предсказательного моделирования. Например, проанализировав данные билинга, а также анкетные данные абонента, можно сделать вывод о том, что абонент вскоре перестанет пользоваться услугами связи оператора, и перейдёт к конкуренту, соответственно, можно провести к таким абонентам мероприятия по их удержанию. Используется так называемое «машинное обучение», которое основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

Несмотря на схожесть задач при работе с обычными данными и Big Dаta, существуют огромные проблемы: хранение, подготовка и обработка данных большого объёма, так как при традиционном подходе реализация таких мероприятий связана с огромными материальными и временными затратами. Если материальные затраты можно частично компенсировать за счёт новых технологий и удешевления удельной стоимости хранения, то временные затраты компенсировать невозможно, потому что со временем информация теряет актуальность и становится устаревшей.

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных. Кроме того, в случае с Big Data, традиционные подходы к организации хранения и обработки данных займут количество времени, несопоставимое с актуальностью знаний, которые из этих данных можно извлечь. Big Data обычно хранятся и обрабатываются в распределенных файловых системах.

Под распределённой системой понимают совокупность взаимосвязанных автономных компьютеров или процессоров. Это совокупность независимых процессов, взаимодействующих посредством передачи сообщений для обмена данными и координации своих действий.

В последнее время распределённые сети достигли нового витка эволюции — облачных сетей, обеспечивающие облачные вычисления. Облако может означать как программное обеспечение, так и инфраструктуру. Оно может быть приложением, доступ к которому предоставляется через Web, или сервером.

В распределённой системе каждый процесс имеет свое собственное состояние, представляемое набором данных, включающим текущие значения счетчика команд, регистров и переменных, к которым процесс может обращаться и которые может изменять. Состояние каждого процесса является полностью закрытым для других процессов.

Скорости выполнения операций разных процессов в распределенной системе различны и заранее неизвестны, а доставка отправленных сообщений может занимать непредсказуемое время. В большинстве случаев в распределенной системе содержится несколько процессоров, взаимосвязанных друг с другом при помощи средств коммуникации.

Создание и поддержка хранилищ объемом в терабайты и более стали возможны благодаря технологии организации распределенных вычислительных систем. В распределенных системах вместо хранения данных в одной файловой системе данные сохраняются и индексируются на нескольких (сотнях и даже тысячах) жестких дисках и серверах.

Зачастую на практике анализ Big Data заключается не в том, чтобы производить вычисления на всём объёме, а в возможности разделения данных на микросегменты, а затем, уже с помощью методов Data Mining и прогнозного моделирования, строить большое число описательных и предсказательных моделей для небольших групп.

Литература:

Леонид Черняк. Большие данные — новая теория и практика (рус.) // Открытые системы. СУБД. — 2011. — № 10. — ISSN 1028–7493
Косяков М. С. Введение в распределенные вычисления.– СПб НИУ ИТМО, 2014
Риз Д. Облачные вычисления. СПб: БХВ-Петербург, 2011.

Основные термины (генерируются автоматически): данные, распределенная система, обработка данных, объем данных, процесс, система.

Ключевые слова

система, данные, процесс, обработка данных, big data, Data Mining, распределенная система

данные, Big Data, Data Mining, распределенная система, обработка данных, процесс, система

Что такое Big Data? Основные проблемы: хранение и управление данными

Библиографическое описание:

Ключевые слова

Похожие статьи

Создание хранилища данных для распределённой системы

BigData: анализ больших данных сегодня | Статья в журнале...

Технологии обработки больших данных | Статья в журнале...

Введение в Big Data | Статья в журнале «Молодой ученый»

Оптимизация размещения данных по узлам...

Реализация хранилищ данных в системах поддержки принятия...

Проблемы распределённых СУБД | Статья в журнале...

Обзор надежности систем загрузки журнальных записей в Big Data

Проектирование базы данных. Роль процесса в создании...

Похожие статьи

Создание хранилища данных для распределённой системы

BigData: анализ больших данных сегодня | Статья в журнале...

Технологии обработки больших данных | Статья в журнале...

Введение в Big Data | Статья в журнале «Молодой ученый»

Оптимизация размещения данных по узлам...

Реализация хранилищ данных в системах поддержки принятия...

Проблемы распределённых СУБД | Статья в журнале...

Обзор надежности систем загрузки журнальных записей в Big Data

Проектирование базы данных. Роль процесса в создании...

Ответим на ваш вопрос!