big data, clouds & hpc

39
Управление в меняющемся мире Большие данные, облака и вычисления Microsoft, Анджей Аршавский [email protected]

Upload: andzhey-arshavskiy

Post on 30-May-2015

1.442 views

Category:

Technology


0 download

DESCRIPTION

I gave this prsentation for the Open Skolkovo University on Aprtil 10. It covers the modern trades we see in intensive computations with Big Data in Clouds and describes the technology and skills gap which pitfalls Big Data analysis revolution. Presentation is also describes how new Microsoft porduct that has been partly developed in Russia (Cloud Numerics) could adress those gaps

TRANSCRIPT

Page 1: Big data, Clouds & HPC

Управление в меняющемся мире

Большие данные, облака и вычисления

Microsoft, Анджей Аршавский

[email protected]

Page 2: Big data, Clouds & HPC

Business is a dogfight.

Your job as a leader:

Outmaneuver the competition, respond

decisively to fast-changing conditions, and

defeat your rivals. That's why the OODA loop,

the brainchild of "40 Second" Boyd, an

unconventional fighter pilot, is one of today's

most important ideas in battle or in business.

Keith Hammonds, “The Strategy of the Fighter Pilot,” Fast Company, June 2002.

Page 3: Big data, Clouds & HPC

Заметьте, как ориентация влияет на наблюдение, решения и действия и все это влияет через обратную связь на следующие итерации наблюдения, позволяя новым феноменам попадать в поле зрения системы.

Также отметьте как весь цикл является непрекращающимся многосторонним неявным многосвязным процессом ориентации, фокусировки, корреляции и фильтрации.

From “The Essence of Winning and Losing,” John R. Boyd, January 1996

“Organic Design for Command and Control”, Boyd .

Наблюдения Решения (Гипотезы)

Действие (тест)

Культ . традиции

наследие

Новая информация Прошлый

опыт

Анализ и

синтез

Явное управление &

контроль

Неявное управление & контроль

Раскрытие взаимодейст

вий со средой

Измерение взаимодейст

вия с окружением ос

ос

Внешняя информация

Наблюдение событий

Наблюдение Ориентация Решение Действие

Цикл Бойда

Page 4: Big data, Clouds & HPC

1. Наблюдение 2. Гипотеза

4. Проверка 3. Предсказание

Знания из данных для OODA цикла

Analytics

Data

Model

Predict

Validate

OODA

Observe

Orient

Decide

Act

Data

Info

Knowledge

4ая парадигма

науки:

Page 5: Big data, Clouds & HPC

Терабайты и Петабайты данных… Поступающих ежедневно….

Page 6: Big data, Clouds & HPC

К 2016 новый телескоп Large Synoptic Survey в Китае планирует собрать 140 терабайт за первые 5 дней –

больше чем собрал Sloan за 10 лет

В 2000 телескоп Sloan Digital Sky Survey за первую неделю работы собрал больше данных чем было

накоплено за всю историю астрономии

LHC в CERN получает 40 терабайт данных за секунду

НАУКА

Page 7: Big data, Clouds & HPC

Суб-транзакционные: Weblogs

Social/online media Telecom events

Транзакции: Детекция краж Анализ рынка

БИЗНЕС

Интернет

Социальные сети

Транзакции

CRM

Датчики/Камеры/RFID/…

Page 8: Big data, Clouds & HPC

• 1 EB = 10^18 байт = 1000000 терабайт

• 1 ZB = 10^21 байт

• 1.2 ZB новых байт информации в 2010 Источник: IDC, as reported in The Economist, Feb 25, 2010

• Более 1.8 ZB в 2011

• 120 петабайт: IBM строит крупнейшее хранилище данных (Август 2011)

• 2TB Cloud Storage: £10: www.livedrive.com

• К 2013, ежегодный IP трафик достигнет 667 EB. Интернет видео – 18 EB в месяц. Мобильный трафик -2 EB в месяц

• Facebook перенес 30 PB на Hadoop (Jul. 27, 2011)

• Источники разнообразны

– Сенсоры, crawler-ы, устройства,

приложения, документы

– ERP, CRM, PLM, HRM, LOB

• Хранение данных стоит почти $0.00

– Хранение сырых данных

– Можно экспериментировать с аналитикой

Больше, больше и еще больше….

Page 9: Big data, Clouds & HPC
Page 10: Big data, Clouds & HPC

Big Data = 3V

• Volume

• Velocity

• Variety

"...data that is too large to process and manage using conventional database management technologies. Big data has numerous attributes in addition to its large size, including it is typically unstructured and often dispersed.“

-David Valante

Page 11: Big data, Clouds & HPC

Единый источник Большой объем Неочищенный резервуар Может быть исследован Есть 0-2 озера на компанию Не вмещаются в традиционные RDBMS Содержат известные и неизвестные

ответы

Источники данных: Transactional

Financial retail

Non Transactional Web pages, blogs… Documents Physical events Applications events Machine events

Озера данных

Page 12: Big data, Clouds & HPC

Исследования IDC: “In 2012 a healthy chunk of IT spending -- as much as 20%, -- will be driven by a handful of technologies that are reshaping the IT industry”: • smartphones • media tablets • mobile networks • social networking • big data analytics

Чтобы лучше понять свой бизнес

Page 13: Big data, Clouds & HPC

Использование Big Data

• Финансы (risk management, real time trades)

• Здравоохранение • Розничная торговля • Подразделения продаж

Page 14: Big data, Clouds & HPC

Data Mining • Class/Concept detection • Finding Patterns, associations, correlations • Regressions • Cluster Analysis • Outliner Analysis

Predictive analysis • Regressions, Classifications • To get model from data • Neural networks • Statistics

Anomaly detection

Classifications Application areas

Rare Class Mining Network intrusion detection

Chance discovery Network intrusion detection

Novelty Detection Insurance / Credit card fraud detection

Exception Mining Healthcare Informatics / Medical diagnostics

Noise Removal Healthcare Informatics / Medical diagnostics

Black Swan

Industrial Damage Detection

Image Processing / Video surveillance

Novel Topic Detection in Text Mining

X

Y N1

N2

o1

o2

O3

Application Examples • Load forecasting • Diagnosis • Marketing and Sales • Behavior prediction • Market prediction • Engineering • Finance • Failure management • Consumption demand

Outliners-> Anomaly Detection • Rare Class Mining • Chance discovery • Novelty Detection • Exception Mining • Noise Removal • Black Swan

Applications of Anomaly Detection Network intrusion detection Insurance / Credit card fraud detection Healthcare Informatics / Medical diagnostics Industrial Damage Detection Fraud Detection Image Processing / Video surveillance Novel Topic Detection in Text Mining

Data preprocessing Cleaning Data Integration Data reduction

Descriptive analysis • Look at data thru different angles • Distribution shapes, trends, …

Prescriptive analysis • Decision making models • Optimization • Simulation

Структура подходов к анализу данных

Page 15: Big data, Clouds & HPC

• Распознавание речи

• Компьютерное зрение

• Bio-surveillance

• Robot control

• Ускорение эмпирической науки

Новые направления Machine Learning

Page 16: Big data, Clouds & HPC

• Моделирование объектов и процессов • Высокая стоимость оборудования • Требует редких умений для разработки ПО • От разработки новых Hi-Tech решений к принятию

повседневных бизнес решений

Фильмы

CFD SPI Planning

Материаловедение

Геном, медицина, лекарства

нефть

тепло

эргономика

Традиционный HPC

Page 17: Big data, Clouds & HPC

HPC для всех?

70M

1M

14M

Вычислительные ресурсы

80%

20% 14M

1M

Ученные & Инженеры

55M Полное отсутствие или ограниченность доступа к ресурсам high performance data-intensive

Page 18: Big data, Clouds & HPC

Стоимость вычислений

$45,000 per Genome

$100

$500

$2,500

$10,000

$48,000

$1,000,000

$60,000,000

$3,000,000,000 $3 billion per Genome

$100 per Genome?

$500-$10,000 per Genome

Page 19: Big data, Clouds & HPC

X64 Server

$40,000,000 $1,000,000 (40x drop)

< $4,000 (250x drop)

Cloud

~$.10/hr/core

Today

Принципиальная доступность

Sample System Performance Price

Page 20: Big data, Clouds & HPC

2010 1970 1.E-01

1980 1990 2000

1.E+07

1.E+06

1.E+05

1.E+04

1.E+03

1.E+02

1.E+01

1.E+00 Cores

Frequency (MHz)

Transistors (in thousands)

“The era of single processor systems is over; the multi- and many-core systems world is here. If you're not ready for this change, there's an IT train wreck in your future. - HPC Wire

…a hardware issue just became a software problem

Закон Мура жив

Page 21: Big data, Clouds & HPC

• Big Data увеличивает спрос на распределённые вычисления – noSQL, Map/Reduce, MPI, … – Desktop более не могут быть бутылочным горлом

• Предпосылки для больших вычислений – Big Data, Регуляция, Симуляция

• Симуляция может генерировать Big Data • Пре и пост симуляционные стадии могут требовать интенсивных

вычислений

• Новые возможности – Повышение надежности и скорости принятия решений – Переход от элементарных моделей к оптимизационным и

исследовательским

Big Data & HPC

Page 22: Big data, Clouds & HPC

Cloud или HSC (High Scalability Computing)

• Доступность

• Масштабируемость

• Простота

• Экономия

• Надежность

Page 23: Big data, Clouds & HPC
Page 24: Big data, Clouds & HPC

Ресурсы стандартного кластера

Неиспользуемый ресурс

Нехватка ресурсов

Флуктуация объемов вычислений

Page 25: Big data, Clouds & HPC

Opportunities for Innovations

Page 26: Big data, Clouds & HPC

PPAAS

PPaaS

PaaS

IaaS

Page 27: Big data, Clouds & HPC

ТЕХНОЛОГИИ РАЗРАБОТКИ

Page 28: Big data, Clouds & HPC

Несовпадения компетенций

Как дать возможность предметным экспертам эффективно работать с большими данными и использовать большие вычислительные ресурсы?

Разработчик • Знает как работать с

параллельными и распределенными системами

• Знает “настоящие” языки программирования

• Имеют лишь небольшое понимание предметной области

Предметный эксперт • Ограниченное знание

вычислительных вычислительной инфраструктуры

• Знают высоко продуктивные языки программирования

• Знают как применять математику и статистику

Page 29: Big data, Clouds & HPC
Page 30: Big data, Clouds & HPC

Map/Reduce и MPI

Map/Reduce MPI

Page 31: Big data, Clouds & HPC

Big Data

Page 32: Big data, Clouds & HPC

Isotope на Windows Azure

Page 33: Big data, Clouds & HPC

TechTalk @ Harvard Feb 2, 2012 33

Page 34: Big data, Clouds & HPC

Microsoft Cloud Numerics

Microsoft Cloud Numerics это платформа позволяющая масштабировать модели анализа данных на Azure из .Net приложения

– Простая программная модель защищающая пользователя от сложности разработки распределенных приложений

– Расширенный набор библиотек численных методов способных работать с распределенными структурами данных

– Простота развертывания приложений на Azure и Windows HPC Server

– Дополняет и интегрируется с экосистемой Map/Reduce

34 TechTalk @ Harvard Feb 2, 2012

Page 35: Big data, Clouds & HPC

Сценарий обработки больших данных

Цель – улучшение качества поиска патентов

• Международные патенты – 621 GB XML файлов – 19M док.

• Построение документов из матриц – Лексический анализ каждого файла – Усредненные результаты в

разреженных матрицах – размер данных: несколько GB

• Поиск наилучшего алгоритма поиска – Латентное Семантическое

Индексирование – Использование Sparse SVD для

поиска общих и уникальных свойств в тексте патента

Сырые данные

анализ Microsoft.Numerics

Обработанные данные

Map/Reduce

Конечные материалы Отчеты, графики, решения

Page 36: Big data, Clouds & HPC

Анализ социальных сетей

Рекомендация по открытию привлекательных позиций найма на базе анализа сети связей в социальных сетях – “В какой работе мне наилучшим образом может помочь моя социальная сеть?”

1) Facebook / LinkedIn data O(1PB)

2) Job-posting data O(1-19GB)

Полученный граф O(60MB) 1) Социальная сеть нанимающих руководителей 2) Моя социальная сеть Поиск наиболее релевантного работодателя

Map/Reduce

Page 37: Big data, Clouds & HPC

Архитектура “Cloud Numerics”

Windows Azure or Windows HPC Server

Microsoft MPI

Project “Cambridge” runtime

Mat

hem

atic

s

Stat

isti

cs

Tim

e Se

ries

Sign

al

Lin

ear

Alg

ebra

Нат

ивн

ый

код

Deployment

Visual Studio

C# API to Runtime and Libraries

OSS and 3rd party Numerical Libraries

Page 38: Big data, Clouds & HPC

Предложение для Сколково

До 4ех XL машин в Windows Azure для тех кто попробует использовать Cloud Numerics в своих задачах!

Page 39: Big data, Clouds & HPC

Российский финал: 14 апреля 2012 г.

МФТИ-МГУ МАИ-МИЭМ ННГУ СПбГПУ СГТУ ИГУ ЮУрГУ ТУСУР ТГУ-ТПУ

Регистрация: http://bit.ly/cupfinals2012 Начало: 11:00 Место: Digital October, м. Кропоткинская Онлайн: http://www.imaginecup.ru