Исследование вопросов применимости технологии Big Data к направлениям деятельности Минкультуры России
-
Обзор технологии Big Data
В общем смысле «Большие данные» в информационных технологиях определяются как серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов и значительного многообразия для получения воспринимаемых человеком результатов. Согласно отчету McKinsey Institute «Большие данные: новый рубеж для инноваций, конкуренции и производительности» (Big data: The next frontier for innovation, competition and productivity), термин «большие данные» относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации.
Источником Big Data являются не только корпоративные базы данных и массив социальных интернет-ресурсов, но и весь поток информации от разнообразных датчиков, измерительных устройств, сенсорных сетей. Тем не менее «большие данные» предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема заключается не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату баз данных, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Все указанные выше данные могут храниться во множестве разнообразных хранилищ данных, иногда даже за пределами организации. В результате организация может иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Для обработки обозначенных данных в технологии Big Data используются инновационные инструменты и методики, разрабатываемые на базе методов искусственного интеллекта, статистического анализа, математической лингвистики, краудсорсинга, предиктивной аналитики и так далее. Как правило, большие данные используются для получения неизвестной, но необходимой для деятельности организации информации.
Аналитическая компания Forester определяет понятие Big Data как технологию в области аппаратного и программного обеспечения, которая объединяет, организует, управляет и анализирует данные, характеризующиеся «четырьмя V»: объемом (англ. Volume, в смысле величины физического объема), разнообразием (англ. Variety, в смысле возможности одновременной обработки различных типов и форматов структурированных и неструктурированных данных), изменчивостью (англ. Variability, в смысле скорости и периодичности обновления данных и необходимости их высокоскоростной актуализации для получения более точных результатов и принятия более эффективных управленческих решений) и скоростью (англ. Velocity, в смысле как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), которые, в свою очередь, выступают в качестве определяющих характеристик для больших данных в соответствии с рисунком (см. Рисунок )Error: Reference source not found.
Компания IDC тоже выделяет «четыре V», характеризующие большие данные, однако в несколько ином наборе: объем (Volume), разнообразие (Variety), скорость (Velocity) и ценность (Value). IDC подчеркивает, что параметр Value — один из основных, позволяющих выделить Big Data как новое явление. Он относится к экономическому эффекту, который технология Big Data обеспечивает пользователям.
Рисунок - Границы применения традиционных BI и Big Data-технологий
(источник: Forrester)
Рассмотрим каждую из указанных характеристик для больших данных:
Объем данных
В условиях формирования информационного общества в различных отраслях экономики создается и накапливается огромное количество разнообразных данных. Так, только в США объем корпоративных данных составляет на настоящий момент более 100 Тбайт информации. При этом в разных вертикальных индустриях объем данных существенно различается в соответствии с рисунком (см. Рисунок ), следовательно, актуальность применения технологии Big Data в них различна.
Рисунок - Объем накопленных данных в корпорациях из разных сфер деятельности
(источник: McKinsey)
По данным исследования IDC Digital Universe, опубликованного в декабре 2012 года, в ближайшие 8 лет количество данных в мире достигнет 40 зеттабайт, что эквивалентно 5200 гигабайт (Гб) на каждого жителя планеты. Значительная часть произведенных данных ни разу не была исследована с помощью специализированных аналитических инструментов. По оценкам IDC, к 2020 году только 35% данных будет содержать ценную для анализа информацию.
Приведем далее несколько показательных фактов:
В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних ПК и ноутбуках хранится 6 экзабайтов информации.
Всю музыку мира можно разместить на диске стоимостью 600 долл.
В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.
Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых источников информации.
Ежегодно объемы хранимой информации вырастают на 40%, в то время как глобальные затраты на ИТ растут всего на 5%.
По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235 терабайт данных.
Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.
Разнообразие данных
Как было определено выше, способность приложений обрабатывать большие массивы данных, поступающие из разных источников в различных форматах, является одним из главных критериев отнесения его к технологии Big Data. Обычно Big Data-приложения объединяют данные из разных источников (как внутренних, так и внешних по отношению к организации) и разной степени структурированности (структурированные, слабоструктурированные и неструктурированные). Многие бизнес-задачи и научные эксперименты требуют совместной обработки данных различных форматов — это могут быть табличные данные в СУБД, иерархические данные, текстовые документы, видео, изображения, аудиофайлы и т.д. Пример подобного рода задачи из области медицины: как найти оптимальный курс лечения для конкретного пациента, базируясь на огромном количестве историй болезней пациентов (которые постоянно меняются), а также на базе данных медицинских исследований и геномных данных. Другой пример — из области оптимизации бизнес-процессов: как провести анализ структурированных данных из ERP-приложения, а также слабоструктурированных данных в виде лог-файлов и неструктурированного текста из отзывов покупателей. Третий пример — из сферы прогнозирования погоды: как выполнить анализ климата на базе многолетних метеорологических данных и данных, поступающих со спутника в реальном времени.
Скорость поступления и обработки информации
В ряде задач, стоящих перед современной организацией, требуется очень высокая скорость обработки данных. Например, биржевым игрокам иногда нужно мгновенно принять решение, основываясь на большом количестве данных о состоянии рынка, — за пару секунд ситуация уже может измениться. Существует также целый ряд задач, когда решение нужно принимать в реальном времени, например обработка биометрических данных, получаемых в огромном потоке людей, которые необходимо сверить с базой данных о злоумышленниках. Очень большая скорость поступления данных характерна также для многих научных задач. Например, проект по запуску гигантского радиотелескопа с суммарной площадью антенн 1 км2, который планируется запустить в 2015 году, предполагает передачу сигналов с одной антенны со скоростью 160 Гбит/с, что в 10 раз превышает весь нынешний интернет-трафик. Также, к примеру, датчики, установленные на авиадвигателе, генерируют около 10 Тб данных за полчаса. Примерно такие же потоки характерны для буровых установок и нефтеперерабатывающих комплексов. Только один сервис коротких сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток данных в 8 Тб/сутки. Если все подобные данные накапливать для дальнейшей обработки, то их суммарный объем будет измеряться десятками и сотнями петабайт.
Ценность для пользователей
Большие хранилища данных в сфере финансовых услуг, телекоммуникаций, розничной торговли и государственных организаций существовали на протяжении многих лет. Применялись также решения по обработке данных в реальном времени для управления бизнес-процессами, например, в торговле, а также высокопроизводительные вычислительные системы для научных исследований. Различие их состоит в том, что те системы, которые раньше решали отдельные проблемы бизнеса на больших предприятиях, сегодня становятся основой осуществления их бизнес-стратегии.
Технология Big Data позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить затраты на рабочую силу за счет более эффективных методов интеграции данных, управления, анализа и выработки решения; обеспечить увеличение дохода и прибыли путем новых или более эффективных способов ведения бизнеса. То есть на современном этапе те же самые технологии представляют качественно новую ценность для предприятия.
При этом сочетание использования ПО с открытым исходным кодом и снижение цен аппаратных систем сделало эти технологии более доступными. Системы, доступ к которым предоставлялся ранее только государственным учреждениям или немногим крупнейшим компаниям, теперь стали доступны для гораздо более широкого числа пользователей, что сформировало сравнительно массовый рынок на подобные услуги.
Таким образом, компании и организации, которые сумеют извлечь из доступных им данных больше полезной для себя и своей деятельности информации, окажутся более эффективными и конкурентоспособными. McKinsey приводит количественную характеристику данного положения в соответствии с рисунком (см. Рисунок ).
Рисунок – Оборот и EBITDA компаний, которые применяют Big Data-технологии,
и получение ими конкурентных преимуществ
(источник: McKinsey)
Далее рассмотрим категории основных пользователей и потребителей Big Data, автоматизируемые процессы и используемые для этого технологии.
Потребители Big Data — это организации, являющиеся, как правило, и пользователями решения, и производителями данных, которые должны быть обработаны, а в большинстве случаев — еще и исполнителями работ по аналитической обработке данных. Отметим, что по мере удешевления технологии Big Data к числу ее пользователей добавляется всё больше заказчиков из средних предприятий.
Автоматизируемые процессы: сбор данных, их обработка, поддержка принятия и исполнения решений. Эти шаги состоят из множества подопераций, таких как мониторинг, обнаружение, измерение, оповещение, очистка, анализ и архивирование.
Таким образом, технологию Big Data можно рассматривать как некий стек технологий:
Системы поддержки принятия решений с интерфейсом для пользователя. В большинстве практических приложений анализ данных не является самоцелью. Если речь идет об автоматизации бизнес-задач, то решение должно включать замкнутый цикл модели принятия решений, который содержит такие шаги, как мониторинг, анализ, поддержка принятия решения и автоматизация его исполнения. Следует выделять два класса ПО поддержки принятия решений: ПО поддержки принятия решений в транзакционных и проектных управленческих задачах. Первые требуют высокой степени автоматизации, функционирования в режиме реального времени и потоковых данных. Принятие решений базируется на политиках — на основе выбора действий, предписанных той или иной ситуацией. В качестве примера можно привести выявление случаев мошенничества, оптимизацию торговли ценными бумагами, оптимизацию цен на авиабилеты, рекомендацию товаров в системах электронной коммерции и т.п.
Второй тип ПО — обычно это анализ по запросу, включающий выявление закономерностей в данных, прогнозирование некоторых событий и принятие решений на основе данного интеллектуального предсказания. Примеры включают приложения для сегментации клиентов, исследование закономерностей в проектировании фармацевтических препаратов, исследование закономерностей в залегании природных ресурсов, прогнозирование погоды.
Технологии Big Data могут использоваться как в транзакционных, так и в проектных задачах.
Системы аналитической обработки и выявления закономерностей. ПО для аналитической обработки Big Data и выявление закономерностей — это большая группа приложений, которая может быть классифицирована по разным принципам. Приложения для офлайновой обработки или онлайновой обработки по запросу, средства выявления закономерностей в данных, приложения для различных вертикальных областей, например решения для розничной торговли, оптимизации транспортных потоков и т.п. Данное ПО также может быть классифицировано по типу данных, которые анализируются: текстовые, аудио, видео, сетевые структуры. Кроме того, приложения можно разделить по степени сложности задач: базовая агрегация или сложные прогнозные задачи.
Системы организации и управления данными. Технологии для организации и управления данными относятся к программному обеспечению, которое обрабатывает и готовит все виды структурированных и неструктурированных данных для анализа. Эти приложения отвечают за извлечение, очистку, нормализацию и интеграцию данных. Они включают подходы реляционных баз данных, но всё-таки в большей мере — NoSQL-подходы. Такой подход направлен на реализацию моделей баз данных, отличных от используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. Подход NoSQL не является полным отрицанием языка SQL и реляционной модели и исходит из того, что SQL — это полезный инструмент, но отнюдь не оптимальный при работе с данными очень большого объема и в проектах с разнородными данными. Основные положения при разработке такого типа систем — нереляционная модель данных, открытый исходный код, хорошая горизонтальная масштабируемость.
ИТ-инфраструктура. ИТ-инфраструктура для задач класса Big Data как правило строится на базе стандартных серверов, сетей, СХД, гипервизоров и кластерного ПО, что позволяет удешевить решение. Комплексы, построенные путем масштабирования стандартных x86-серверов наряду с использованием сетевых технологий Ethernet 10GbE, позволяют достигать вычислительных мощностей, которые в прошлом были доступны только на специализированных суперкомпьютерах. Следует отметить, что «облачная» инфраструктура — это удобная технология для работы с большими объемами данных.
Кроме того, в инструментах технологии Big Data используется множество разнообразных методик анализа массивов данных, таких как, например:
A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.
Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.
Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.
Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining.
Crowdsourcing. Методика сбора данных из большого количества источников.
Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.
Data mining. Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.
Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.
Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.
Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.
Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.
Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.
Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.
Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.
Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.
Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.
Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.
Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.
Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).
Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.
Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.
Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.
Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.
Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis.
Visualization. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.
|