Big Data. Особенности и роль в современном бизнесе | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Рубрика: 1. Информатика и кибернетика

Опубликовано в

VI международная научная конференция «Технические науки: проблемы и перспективы» (Санкт-Петербург, июль 2018)

Дата публикации: 03.07.2018

Статья просмотрена: 9500 раз

Библиографическое описание:

Коновалов, М. В. Big Data. Особенности и роль в современном бизнесе / М. В. Коновалов. — Текст : непосредственный // Технические науки: проблемы и перспективы : материалы VI Междунар. науч. конф. (г. Санкт-Петербург, июль 2018 г.). — Санкт-Петербург : Свое издательство, 2018. — С. 8-10. — URL: https://moluch.ru/conf/tech/archive/288/14418/ (дата обращения: 27.04.2024).



В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут применяться подобные технологии, и почему большие данные, несмотря на дороговизну, все больше набирают популярность.

Ключевые слова: big bata, большие данные, масштабируемость, транзакционная система, информационная система, анализ, программное обеспечение, БД, ИТ.

Введение

Не секрет, что на сегодняшний день объемы данных, которые требуется хранить и обрабатывать, растут в геометрической прогрессии. Например, объемы данных, которые хранятся в Интернет, увеличиваются примерно на 40 % ежегодно. Интересно, что с одной стороны, именно развитие современных информационных технологий позволяет и способствует тому, чтобы объемы сохраняемых и обрабатываемых данных постоянно росли. А с другой стороны, для работы с быстрорастущими объемами самых разнообразных видов данных требуется все больше ресурсов и более сложных программных решений. Одной из наиболее современных и быстро набирающих популярность технологий является big data. Этот термин стал применяться и быстро набирать популярность всего 8–10 лет назад. А сегодня крупнейшие мировые компании, занимающие лидирующие позиции в самых разных областях бизнес деятельности, вкладывают миллиарды долларов в развитие этого направления. В данной статье рассмотрены основные понятия, связанные с технологией big data, почему одни крупные компании готовы вкладывать огромные средства в развитие этого направления, а другие нет. Какие наиболее распространенные решения на основе big data существуют сегодня на рынке, какие есть сложности и что ждет остальной рынок ИТ с приходом новой технологии.

Понятие Big Data

Дословно big data означает большие данные. Более подробное определение можно сформулировать так. Big data — это серия подходов и методов обработки большого объема и значительного многообразия данных, которые тяжело обработать обычными способами. Целью обработки больших данных является получение новой информации. При этом данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Если говорить о типах данных, для которых применимы рассматриваемые методы обработки, то это может быть совершенно разная информация: документы, блоги, социальные сети, любые клиентские данные или даже информация о совершенных клиентами действиях. Также информация, поступающая от измерительных устройств и т. д. Но это все преимущественно текстовая информация. Помимо этого, обработке могут подлежать аудио и видео данные, изображения и т. д.

Но не все абсолютно данные подлежат обработке с применением технологий big data. Есть критерии, по которым можно отнести информацию и данные, пригодные к подобной обработке, т. к. не все данные могут быть пригодны для аналитики. В этих определяющих характеристиках как раз и заложено ключевое понятие больших данных. Все они умещаются в т. н. три V:

Объем (от англ. volume). Данные измеряются величиной физического объема “документа”, который подлежит анализу.

Скорость (от англ. velocity). Данные не статичны в своем развитии, а постоянно прирастают. Поэтому смысл этой характеристики не только в быстро растущих объемах данных, но и в необходимости их быстрой обработки для получения требуемых результатов.

Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированными, не структурированными или структурированными частично. И смысл заключается в том, чтобы одновременно обрабатывать различные типы данных.

Также к уже рассмотренным трем V, в разных источниках добавляют четвертую. Достоверность или правдоподобность (от англ. veracity). И даже пятую жизнеспособность или ценность (от англ. viability или value). В различных вариантах можно говорить о 7V, но для базового понимания достаточно трех.

Принципы работы big data

Исходя из определения big bata, можно сформулировать три основных принципа работы с такими данными:

Горизонтальная масштабируемость. Поскольку объем данных постоянно и стремительно растет и информации может быть сколь угодно много, то система, которая подразумевает обработку этих данных, должна быть расширяемой. К примеру, если 2 раза вырос объём данных, то должна быть возможность увеличить мощность аппаратного обеспечения в 2 раза в кластере и система продолжит работать без потерь в производительности.

Отказоустойчивость. Рассмотренный выше принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, в компании Yahoo кластер насчитывает более 40000 машин. При этом допускается, что часть этих машин будет регулярно выходить из строя. Методы работы с большими данными должны учитывать вероятность таких сбоев и поддерживать работоспособность системы без каких-либо значимых последствий.

Локальность данных. В крупных распределённых системах, используемые данные хранятся на большом количестве машин. Но если данные находятся физически на одном сервере, а обрабатываются на другом, то ресурсы, требуемые на передачу данных, могут превысить расходы на обработку данных. Поэтому при проектировании решений на big data одним из важнейших принципов является принцип локальности данных, суть которого заключается в том, чтобы данные обрабатывались и хранились на одной и той же машине.

Особенности применения и роль в современном бизнесе

Изучая многообразие современных технологий хранения и обработки данных, возникает логичный вопрос. Для чего придуманы методы и подходы, называемые big data? Что в этом уникального, как можно использовать информацию, обработанную с помощью данных технологий и почему компании готовы вкладывать в развитие больших данных огромные средства?

Во-первых, в отличие от big data, обычные базы данных (БД), не могут хранить и обрабатывать такие огромные объемы данных (сотни и тысячи терабайт). И речь даже не об аналитике, а только лишь о хранении данных. В классическом понимании БД предназначена для быстрой обработки (хранение, изменение) относительно небольших объемов данных или для работы с большим потоком записей небольшого размера, т. е. транзакционная система. С помощью big data как раз решается эта основная задача — успешное хранение и обработка больших объемов данных.

Во-вторых, в big data структурируются разнотипные сведения, которые поступают из различных источников (изображения, фото, видео, аудио и текстовые документы) в один единый, понятный и приемлемый для дальнейшей работы вид.

В-третьих, в big data происходит формирование аналитики и построение точных прогнозов на основании полученной и обработанной информации.

Для чего это нужно и где может быть применено на практике? Для наглядности и для того, чтобы сформулировать ответ простыми словами, рассмотрим на примере типичных бизнес-задач в маркетинге. Обладая такой информацией, как:

‒ полное понимание о своей компании и бизнесе, в том числе с точки зрения статистической информации и цифр;

‒ подробные данные о конкурентах;

‒ новая и подробная информация о своих клиентах;

‒ все это позволит преуспеть в привлечении новых клиентов, значительно повысить уровень предоставляемого сервиса текущим клиентам, лучше понять рынок и своих конкурентов, а значит вырваться вперед за счет преобладания над ними.

Учитывая вышеперечисленные результаты, которых позволяет достигнуть big data, и объясняет стремление компаний, пытающихся завоевать рынок, вкладываться в эти современные методы обработки данных сегодня, чтобы получить увеличение продаж и уменьшение издержек завтра. А если более конкретно, то:

‒ увеличение дополнительных продаж и кросс продаж за счет лучшего знания предпочтений клиентов;

‒ поиск популярных товаров и причин — почему их покупают или наоборот;

‒ усовершенствование предоставляемой услуги или продукта;

‒ повышение качества обслуживания клиентов;

‒ повышение лояльности и клиентоориентированности;

‒ предупреждение мошенничества (больше актуально для банковской сферы);

‒ снижение лишних расходов.

Один из наиболее наглядных и популярных на сегодняшний день примеров, о котором можно прочитать во многих источниках сети Интернет, связан с компанией Apple, которая собирает данные о своих пользователях с помощью производимых устройств: телефон, планшет, часы, компьютер. Именно из-за наличия такой системы корпорация владеет огромным количеством информации о своих пользователях и в дальнейшем использует ее для получения прибыли. И подобных примеров на сегодняшний день можно найти целое множество.

Краткий обзор инструментов big data

Учитывая огромные объемы информации, которые необходимо хранить обрабатывать в процессе работы, следует заметить, что подобные манипуляции не могут выполняться на простых жестких дисках. А программное обеспечение, которое структурирует и анализирует накапливаемые данные — это отдельная интеллектуальная собственность и в каждом отдельном случае является авторской разработкой. При этом можно отметить наиболее популярные на сегодняшний день инструменты, на основе которых создаются такие решения:

‒ Hadoop & MapReduce;

‒ NoSQL базы данных;

‒ Инструменты класса Data Discovery.

Анализу особенностей и отличий перечисленных инструментов, а также обзору решений, которые могут предлагаться на основе данных инструментариев может быть посвящена отдельная статья. Но, в качестве примера, хотелось бы привести модель, которая, пожалуй, является на сегодняшний день одним из лидеров на рынке — это Oracle Big Data Appliance X5–2. Ориентировочная стоимость такой системы в максимальной комплектации может достигать 30 миллионов рублей за 1 стойку. Конечно, речь идет о промышленных системах премиум класса. Тем не менее, приведенный пример позволяет оценить порядок расходов, которые потребуются на реализацию подобных решений в компании. И это еще без учета узкоспециализированных специалистов и дополнительной ИТ инфраструктуры. Поэтому говорить о применении больших данных, например, в малом бизнесе не приходится.

Заключение

В современном бизнесе, практически не зависимо от специфики и индустрии, все более явно прослеживается ценность и высокая роль информации о потенциальных и текущих клиентах компании, о ее конкурентах и грядущих тенденциях на рынке. Все более это становится необходимыми условиями для того, чтобы сохранить конкуренцию в современном мире. В связи с этим и уже существующими примерами успеха внедрения big data крупными компаниями, которыми наполнен Интернет, можно предположить, что роль больших данных со временем будет только расти. Благодаря этому компании будут е лучше знать и понимать потребности своих клиентов и предлагать им наиболее релевантные и подходящие решения, а потребители смогут наслаждаться продуктами и услугами, которые наилучшим образом подходят именно им.

Литература:

  1. Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. Инны Гайдюк. — М.: Манн, Иванов, Фербер, 2014.
  2. Академия BIG DATA: Введение в аналитику больших массивов данных: Информация // Национальный Открытый Университет «ИНТУИТ». URL: https://www.intuit.ru/studies/courses/12385/1181/info (дата обращения: 30.06.2018).
  3. Аналитический обзор рынка Big Data // Хабр. URL: https://habr.com/company/moex/blog/256747/ (Дата обращения: 30.06.2018).
  4. Streamline Your Big Data Platform // ORACLE. URL: https://www.oracle.com/big-data/index.html (Дата обращения: 30.06.2018)
  5. MapReduce and Teradata Aster SQL-MapReduce // Teradata. URL: https://www.teradata.com/products-and-services/Teradata-Aster/teradata-aster-sql-mapreduce (Дата обращения: 30.06.2018)
Основные термины (генерируются автоматически): данные, информация, компания, объем данных, принцип работы, быстрая обработка, обработка данных, программное обеспечение, современный бизнес, транзакционная система.

Похожие статьи

Термин Big Data и способы его применения | Статья в журнале...

Так как объем информации столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. [1].

Введение в BI-технологии | Статья в журнале «Молодой ученый»

- процесс обработки данных в информацию и получения знаний для принятия решений

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не использовались ресурсы транзакционной системы и...

BigData: анализ больших данных сегодня | Статья в журнале...

Так как объем информации столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. Введение в Big Data | Статья в журнале «Молодой ученый».

Обзор и сравнительный анализ промышленных хранилищ данных...

Подобного рода системы называются транзакционными или OLTP-системы (Online Transaction Processing) — системы обработки

база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис, бизнес-приложение, ПО, ИС, ИТ.

Технологии обработки больших данных | Статья в журнале...

В самом простом определении большие данные — это данные, которые слишком велики для работы на компьютере.

Первых два V это по сути обычные современные большие базы данных или Data Warehouse. И обработка таких данных уже традиционные и привычные...

Использование Big Data в управлении взаимоотношениями...

информация, анализ, внедрение, технологии, компания, бизнес, данные, Большие данные.

Такая информация обычно хранится в оперативных базах данных систем оперативной обработки транзакций (online transaction processing — OLTP)...

Основные принципы построения современных компьютерных...

Компьютерная система включает в себя вычислительные машины, программное обеспечение и периферийные устройства, выполняющие обработку данных. Стоит упомянуть о различиях понятий «вычислительная машина» и «компьютерная система».

Использование «Business Intelligence» для оптимизации бизнес...

Эти данные используются для бизнес-анализа. Технологии BI обрабатывают большие объемы неструктурированных данных

получения актуальных, достоверных и непротиворечивых данных из транзакционных систем нижнего уровня (бухгалтерского 1C, ERP, CRM).

Использование современных СУБД в информационных системах...

Первому принципу отвечает необходимость обеспечения непротиворечивости данных, то есть физическую сохранность информации, предотвращение работы с недопустимыми значениями, контроль операций по работе с данными, защиту от несанкционированного доступа.

Похожие статьи

Термин Big Data и способы его применения | Статья в журнале...

Так как объем информации столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. [1].

Введение в BI-технологии | Статья в журнале «Молодой ученый»

- процесс обработки данных в информацию и получения знаний для принятия решений

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не использовались ресурсы транзакционной системы и...

BigData: анализ больших данных сегодня | Статья в журнале...

Так как объем информации столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. Введение в Big Data | Статья в журнале «Молодой ученый».

Обзор и сравнительный анализ промышленных хранилищ данных...

Подобного рода системы называются транзакционными или OLTP-системы (Online Transaction Processing) — системы обработки

база данных, хранилище данных, БД, ХД, СУБД, DWH, OLTP, OLAP, информационная система, анализ, фронт-офис, бизнес-приложение, ПО, ИС, ИТ.

Технологии обработки больших данных | Статья в журнале...

В самом простом определении большие данные — это данные, которые слишком велики для работы на компьютере.

Первых два V это по сути обычные современные большие базы данных или Data Warehouse. И обработка таких данных уже традиционные и привычные...

Использование Big Data в управлении взаимоотношениями...

информация, анализ, внедрение, технологии, компания, бизнес, данные, Большие данные.

Такая информация обычно хранится в оперативных базах данных систем оперативной обработки транзакций (online transaction processing — OLTP)...

Основные принципы построения современных компьютерных...

Компьютерная система включает в себя вычислительные машины, программное обеспечение и периферийные устройства, выполняющие обработку данных. Стоит упомянуть о различиях понятий «вычислительная машина» и «компьютерная система».

Использование «Business Intelligence» для оптимизации бизнес...

Эти данные используются для бизнес-анализа. Технологии BI обрабатывают большие объемы неструктурированных данных

получения актуальных, достоверных и непротиворечивых данных из транзакционных систем нижнего уровня (бухгалтерского 1C, ERP, CRM).

Использование современных СУБД в информационных системах...

Первому принципу отвечает необходимость обеспечения непротиворечивости данных, то есть физическую сохранность информации, предотвращение работы с недопустимыми значениями, контроль операций по работе с данными, защиту от несанкционированного доступа.