Что такое big data ?
DESCRIPTION
Небольшая вводная презентация о том, что же такое Big Data, откуда появился этот термин, и почему сегодня Big Data - тренд №1TRANSCRIPT
BIG DATAРеволюция в области хранения
и обработки данных
2
История появления термина BIG DATA
Клиффорд Линч, редактор журнала Nature, в 2008 году впервые упомянул о термине BIG DATA в специальном номере журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»
В 2009 году термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные
В 2011 году Gartner отмечает большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). Прогнозируется, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве ,здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов
3
Что же такое BIG DATA?
Группа технологий и методов производительной обработки динамически растущих объемов данных( структурированных и неструктурированных) в распределенных информационных системах, обеспечивающих организацию качественно новой полезной информацией
Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал мегамассивов данных за счет поиска ценных закономерностей и фактов путем объединения и анализа больших объемов данных.
Big Data — это наборы данных такого объема, что традиционные инструменты не способны осуществлять их захват, управление и обработку за приемлемое для практики время.
4
Volume Variety Velocity
Volume Variety VelocityРеально большие объемы данных в
физическом смысле
Слабо структурированные
и разнородные данные
Необходимость высокой скорости обработки данных
1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts, Video, Audio
5
Объем данных корпораций по отраслям в 2012г
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Энергетика
Коммуникации и медиа
Страхование
Правительство
Энергетика
Медицина
Банкинг
Ценные бумаги
Объем данных в Тб
Источник данных: McKinsey
6
Интернет и мобильные технологии
Twitter 175 млн твит сообщений в день
Facebook 300 млн фото загружаемых ежедневно
Google 24PB ежедневно
AT&T передает 30Pb в день
Walmart более 1 млн продаж в час
Объем данных, переданных/полученных на мобильные устройства, — 1,3 эксабайт
7
Основные технологии анализа в BigData
MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с
использованием большого количества компьютеров (называемых «нодами»),
образующих кластер, разработанный компанией Google.
Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения
распределённых программ, работающих на кластерах из сотен и тысяч узлов.
NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих
существенные отличия от моделей, используемых в традиционных реляционных СУБД с
доступом к данным средствами языка SQL. Применяется к базам данных, в которых
делается попытка решить проблемы масштабируемости и доступности за
счёт атомарности и согласованности данных
8
Value
9
Методы анализа используемые в BigData
Классификация (методы категоризации новых данных на основе принципов,
ранее применённых к уже наличествующим данным)
Кластерный анализ
Регрессионный анализ
Рекомендательные системы
Искусственные нейронные сети, в том числе генетические алгоритмы;
Уникальность подхода больших данных заключается в агрегировании огромного объема неструктурированной информации из разных источников в одном месте.
10
Самые продвинутые отрасли BigData
01 03Маркетинг
Сегментация рынкаМоделирование
приобретения и оттока клиентов
Рекомендательные системы
Анализ соц.медиа
Финансы Медицина02
Детектирование аномального поведения
Анализ кредитных рисковСтраховое моделирование
Генетический анализАнализ клинических
испытанийЭкспертные системы
11
Value для бизнеса
.Действительно, большие хранилища данных в сфере финансовых услуг, телекоммуникаций, розничной торговли и государственных организаций существовали на протяжении многих лет. Применялись решения по обработке данных в реальном времени для управления бизнес-процессами, например в торговле, а также высокопроизводительные вычислительные системы для научных исследований. Различие их состоит в том, что те системы, которые раньше решали отдельные проблемы бизнеса на больших предприятиях, сегодня становятся основой осуществления их бизнес-стратегии.Технология Big Data позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить затраты на рабочую силу за счет более эффективных методов интеграции данных, управления, анализа и выработки решения; обеспечить увеличение дохода и прибыли путем новых или более эффективных способов ведения бизнеса. То есть на современном этапе те же самые технологии представляют качественно новую ценность для предприятия
ValueУчитывая масштабность, перед бизнесом встала задача не только выбора адекватного инструментария по анализу информации, но и построения оптимальной вычислительной инфраструктуры, которая была бы эффективной и не очень дорогой.
12
Кейс «Как компания может узнать о ваших секретах?»
Магазин Target и беременная девочка,США 2012г