Что такое big data ?

13
BIG DATA Революция в области хранения и обработки данных

Upload: mikhail-alekseev

Post on 02-Jul-2015

460 views

Category:

Data & Analytics


8 download

DESCRIPTION

Небольшая вводная презентация о том, что же такое Big Data, откуда появился этот термин, и почему сегодня Big Data - тренд №1

TRANSCRIPT

Page 1: Что такое Big Data ?

BIG DATAРеволюция в области хранения

и обработки данных

Page 2: Что такое Big Data ?

2

История появления термина BIG DATA

Клиффорд Линч, редактор журнала Nature, в 2008 году впервые упомянул о термине BIG DATA в специальном номере журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»

В 2009 году термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные

В 2011 году Gartner отмечает большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). Прогнозируется, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве ,здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов

Page 3: Что такое Big Data ?

3

Что же такое BIG DATA?

Группа технологий и методов производительной обработки динамически растущих объемов данных( структурированных и неструктурированных) в распределенных информационных системах, обеспечивающих организацию качественно новой полезной информацией

Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал мегамассивов данных за счет поиска ценных закономерностей и фактов путем объединения и анализа больших объемов данных.

Big Data — это наборы данных такого объема, что традиционные инструменты не способны осуществлять их захват, управление и обработку за приемлемое для практики время.

Page 4: Что такое Big Data ?

4

Volume Variety Velocity

Volume Variety VelocityРеально большие объемы данных в

физическом смысле

Слабо структурированные

и разнородные данные

Необходимость высокой скорости обработки данных

1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts, Video, Audio

Page 5: Что такое Big Data ?

5

Объем данных корпораций по отраслям в 2012г

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

Энергетика

Коммуникации и медиа

Страхование

Правительство

Энергетика

Медицина

Банкинг

Ценные бумаги

Объем данных в Тб

Источник данных: McKinsey

Page 6: Что такое Big Data ?

6

Интернет и мобильные технологии

Twitter 175 млн твит сообщений в день

Facebook 300 млн фото загружаемых ежедневно

Google 24PB ежедневно

AT&T передает 30Pb в день

Walmart более 1 млн продаж в час

Объем данных, переданных/полученных на мобильные устройства, — 1,3 эксабайт

Page 7: Что такое Big Data ?

7

Основные технологии анализа в BigData

MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с

использованием большого количества компьютеров (называемых «нодами»),

образующих кластер, разработанный компанией Google.

Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения

распределённых программ, работающих на кластерах из сотен и тысяч узлов.

NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих

существенные отличия от моделей, используемых в традиционных реляционных СУБД с

доступом к данным средствами языка SQL. Применяется к базам данных, в которых

делается попытка решить проблемы масштабируемости и доступности за

счёт атомарности и согласованности данных

Page 8: Что такое Big Data ?

8

Value

Page 9: Что такое Big Data ?

9

Методы анализа используемые в BigData

Классификация (методы категоризации новых данных на основе принципов,

ранее применённых к уже наличествующим данным)

Кластерный анализ

Регрессионный анализ

Рекомендательные системы

Искусственные нейронные сети, в том числе генетические алгоритмы;

Уникальность подхода больших данных заключается в агрегировании огромного объема неструктурированной информации из разных источников в одном месте.

Page 10: Что такое Big Data ?

10

Самые продвинутые отрасли BigData

01 03Маркетинг

Сегментация рынкаМоделирование

приобретения и оттока клиентов

Рекомендательные системы

Анализ соц.медиа

Финансы Медицина02

Детектирование аномального поведения

Анализ кредитных рисковСтраховое моделирование

Генетический анализАнализ клинических

испытанийЭкспертные системы

Page 11: Что такое Big Data ?

11

Value для бизнеса

.Действительно, большие хранилища данных в сфере финансовых услуг, телекоммуникаций, розничной торговли и государственных организаций существовали на протяжении многих лет. Применялись решения по обработке данных в реальном времени для управления бизнес-процессами, например в торговле, а также высокопроизводительные вычислительные системы для научных исследований. Различие их состоит в том, что те системы, которые раньше решали отдельные проблемы бизнеса на больших предприятиях, сегодня становятся основой осуществления их бизнес-стратегии.Технология Big Data позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить затраты на рабочую силу за счет более эффективных методов интеграции данных, управления, анализа и выработки решения; обеспечить увеличение дохода и прибыли путем новых или более эффективных способов ведения бизнеса. То есть на современном этапе те же самые технологии представляют качественно новую ценность для предприятия

ValueУчитывая масштабность, перед бизнесом встала задача не только выбора адекватного инструментария по анализу информации, но и построения оптимальной вычислительной инфраструктуры, которая была бы эффективной и не очень дорогой.

Page 12: Что такое Big Data ?

12

Кейс «Как компания может узнать о ваших секретах?»

Магазин Target и беременная девочка,США 2012г