big data, clouds & hpc
DESCRIPTION
I gave this prsentation for the Open Skolkovo University on Aprtil 10. It covers the modern trades we see in intensive computations with Big Data in Clouds and describes the technology and skills gap which pitfalls Big Data analysis revolution. Presentation is also describes how new Microsoft porduct that has been partly developed in Russia (Cloud Numerics) could adress those gapsTRANSCRIPT
Управление в меняющемся мире
Большие данные, облака и вычисления
Microsoft, Анджей Аршавский
Business is a dogfight.
Your job as a leader:
Outmaneuver the competition, respond
decisively to fast-changing conditions, and
defeat your rivals. That's why the OODA loop,
the brainchild of "40 Second" Boyd, an
unconventional fighter pilot, is one of today's
most important ideas in battle or in business.
Keith Hammonds, “The Strategy of the Fighter Pilot,” Fast Company, June 2002.
Заметьте, как ориентация влияет на наблюдение, решения и действия и все это влияет через обратную связь на следующие итерации наблюдения, позволяя новым феноменам попадать в поле зрения системы.
Также отметьте как весь цикл является непрекращающимся многосторонним неявным многосвязным процессом ориентации, фокусировки, корреляции и фильтрации.
From “The Essence of Winning and Losing,” John R. Boyd, January 1996
“Organic Design for Command and Control”, Boyd .
Наблюдения Решения (Гипотезы)
Действие (тест)
Культ . традиции
наследие
Новая информация Прошлый
опыт
Анализ и
синтез
Явное управление &
контроль
Неявное управление & контроль
Раскрытие взаимодейст
вий со средой
Измерение взаимодейст
вия с окружением ос
ос
Внешняя информация
Наблюдение событий
Наблюдение Ориентация Решение Действие
Цикл Бойда
1. Наблюдение 2. Гипотеза
4. Проверка 3. Предсказание
Знания из данных для OODA цикла
Analytics
Data
Model
Predict
Validate
OODA
Observe
Orient
Decide
Act
Data
Info
Knowledge
4ая парадигма
науки:
Терабайты и Петабайты данных… Поступающих ежедневно….
К 2016 новый телескоп Large Synoptic Survey в Китае планирует собрать 140 терабайт за первые 5 дней –
больше чем собрал Sloan за 10 лет
В 2000 телескоп Sloan Digital Sky Survey за первую неделю работы собрал больше данных чем было
накоплено за всю историю астрономии
LHC в CERN получает 40 терабайт данных за секунду
НАУКА
Суб-транзакционные: Weblogs
Social/online media Telecom events
Транзакции: Детекция краж Анализ рынка
БИЗНЕС
Интернет
Социальные сети
Транзакции
CRM
Датчики/Камеры/RFID/…
• 1 EB = 10^18 байт = 1000000 терабайт
• 1 ZB = 10^21 байт
• 1.2 ZB новых байт информации в 2010 Источник: IDC, as reported in The Economist, Feb 25, 2010
• Более 1.8 ZB в 2011
• 120 петабайт: IBM строит крупнейшее хранилище данных (Август 2011)
• 2TB Cloud Storage: £10: www.livedrive.com
• К 2013, ежегодный IP трафик достигнет 667 EB. Интернет видео – 18 EB в месяц. Мобильный трафик -2 EB в месяц
• Facebook перенес 30 PB на Hadoop (Jul. 27, 2011)
• Источники разнообразны
– Сенсоры, crawler-ы, устройства,
приложения, документы
– ERP, CRM, PLM, HRM, LOB
• Хранение данных стоит почти $0.00
– Хранение сырых данных
– Можно экспериментировать с аналитикой
Больше, больше и еще больше….
Big Data = 3V
• Volume
• Velocity
• Variety
"...data that is too large to process and manage using conventional database management technologies. Big data has numerous attributes in addition to its large size, including it is typically unstructured and often dispersed.“
-David Valante
Единый источник Большой объем Неочищенный резервуар Может быть исследован Есть 0-2 озера на компанию Не вмещаются в традиционные RDBMS Содержат известные и неизвестные
ответы
Источники данных: Transactional
Financial retail
Non Transactional Web pages, blogs… Documents Physical events Applications events Machine events
Озера данных
Исследования IDC: “In 2012 a healthy chunk of IT spending -- as much as 20%, -- will be driven by a handful of technologies that are reshaping the IT industry”: • smartphones • media tablets • mobile networks • social networking • big data analytics
Чтобы лучше понять свой бизнес
Использование Big Data
• Финансы (risk management, real time trades)
• Здравоохранение • Розничная торговля • Подразделения продаж
Data Mining • Class/Concept detection • Finding Patterns, associations, correlations • Regressions • Cluster Analysis • Outliner Analysis
Predictive analysis • Regressions, Classifications • To get model from data • Neural networks • Statistics
Anomaly detection
Classifications Application areas
Rare Class Mining Network intrusion detection
Chance discovery Network intrusion detection
Novelty Detection Insurance / Credit card fraud detection
Exception Mining Healthcare Informatics / Medical diagnostics
Noise Removal Healthcare Informatics / Medical diagnostics
Black Swan
Industrial Damage Detection
Image Processing / Video surveillance
Novel Topic Detection in Text Mining
X
Y N1
N2
o1
o2
O3
Application Examples • Load forecasting • Diagnosis • Marketing and Sales • Behavior prediction • Market prediction • Engineering • Finance • Failure management • Consumption demand
Outliners-> Anomaly Detection • Rare Class Mining • Chance discovery • Novelty Detection • Exception Mining • Noise Removal • Black Swan
Applications of Anomaly Detection Network intrusion detection Insurance / Credit card fraud detection Healthcare Informatics / Medical diagnostics Industrial Damage Detection Fraud Detection Image Processing / Video surveillance Novel Topic Detection in Text Mining
Data preprocessing Cleaning Data Integration Data reduction
Descriptive analysis • Look at data thru different angles • Distribution shapes, trends, …
Prescriptive analysis • Decision making models • Optimization • Simulation
Структура подходов к анализу данных
• Распознавание речи
• Компьютерное зрение
• Bio-surveillance
• Robot control
• Ускорение эмпирической науки
Новые направления Machine Learning
• Моделирование объектов и процессов • Высокая стоимость оборудования • Требует редких умений для разработки ПО • От разработки новых Hi-Tech решений к принятию
повседневных бизнес решений
Фильмы
CFD SPI Planning
Материаловедение
Геном, медицина, лекарства
нефть
тепло
эргономика
Традиционный HPC
HPC для всех?
70M
1M
14M
Вычислительные ресурсы
80%
20% 14M
1M
Ученные & Инженеры
55M Полное отсутствие или ограниченность доступа к ресурсам high performance data-intensive
Стоимость вычислений
$45,000 per Genome
$100
$500
$2,500
$10,000
$48,000
$1,000,000
$60,000,000
$3,000,000,000 $3 billion per Genome
$100 per Genome?
$500-$10,000 per Genome
X64 Server
$40,000,000 $1,000,000 (40x drop)
< $4,000 (250x drop)
Cloud
~$.10/hr/core
Today
Принципиальная доступность
Sample System Performance Price
2010 1970 1.E-01
1980 1990 2000
1.E+07
1.E+06
1.E+05
1.E+04
1.E+03
1.E+02
1.E+01
1.E+00 Cores
Frequency (MHz)
Transistors (in thousands)
“The era of single processor systems is over; the multi- and many-core systems world is here. If you're not ready for this change, there's an IT train wreck in your future. - HPC Wire
…a hardware issue just became a software problem
Закон Мура жив
• Big Data увеличивает спрос на распределённые вычисления – noSQL, Map/Reduce, MPI, … – Desktop более не могут быть бутылочным горлом
• Предпосылки для больших вычислений – Big Data, Регуляция, Симуляция
• Симуляция может генерировать Big Data • Пре и пост симуляционные стадии могут требовать интенсивных
вычислений
• Новые возможности – Повышение надежности и скорости принятия решений – Переход от элементарных моделей к оптимизационным и
исследовательским
Big Data & HPC
Cloud или HSC (High Scalability Computing)
• Доступность
• Масштабируемость
• Простота
• Экономия
• Надежность
Ресурсы стандартного кластера
Неиспользуемый ресурс
Нехватка ресурсов
Флуктуация объемов вычислений
Opportunities for Innovations
PPAAS
PPaaS
PaaS
IaaS
ТЕХНОЛОГИИ РАЗРАБОТКИ
Несовпадения компетенций
Как дать возможность предметным экспертам эффективно работать с большими данными и использовать большие вычислительные ресурсы?
Разработчик • Знает как работать с
параллельными и распределенными системами
• Знает “настоящие” языки программирования
• Имеют лишь небольшое понимание предметной области
Предметный эксперт • Ограниченное знание
вычислительных вычислительной инфраструктуры
• Знают высоко продуктивные языки программирования
• Знают как применять математику и статистику
Map/Reduce и MPI
Map/Reduce MPI
Big Data
Isotope на Windows Azure
TechTalk @ Harvard Feb 2, 2012 33
Microsoft Cloud Numerics
Microsoft Cloud Numerics это платформа позволяющая масштабировать модели анализа данных на Azure из .Net приложения
– Простая программная модель защищающая пользователя от сложности разработки распределенных приложений
– Расширенный набор библиотек численных методов способных работать с распределенными структурами данных
– Простота развертывания приложений на Azure и Windows HPC Server
– Дополняет и интегрируется с экосистемой Map/Reduce
34 TechTalk @ Harvard Feb 2, 2012
Сценарий обработки больших данных
Цель – улучшение качества поиска патентов
• Международные патенты – 621 GB XML файлов – 19M док.
• Построение документов из матриц – Лексический анализ каждого файла – Усредненные результаты в
разреженных матрицах – размер данных: несколько GB
• Поиск наилучшего алгоритма поиска – Латентное Семантическое
Индексирование – Использование Sparse SVD для
поиска общих и уникальных свойств в тексте патента
Сырые данные
анализ Microsoft.Numerics
Обработанные данные
Map/Reduce
Конечные материалы Отчеты, графики, решения
Анализ социальных сетей
Рекомендация по открытию привлекательных позиций найма на базе анализа сети связей в социальных сетях – “В какой работе мне наилучшим образом может помочь моя социальная сеть?”
1) Facebook / LinkedIn data O(1PB)
2) Job-posting data O(1-19GB)
Полученный граф O(60MB) 1) Социальная сеть нанимающих руководителей 2) Моя социальная сеть Поиск наиболее релевантного работодателя
Map/Reduce
Архитектура “Cloud Numerics”
Windows Azure or Windows HPC Server
Microsoft MPI
Project “Cambridge” runtime
Mat
hem
atic
s
Stat
isti
cs
Tim
e Se
ries
Sign
al
Lin
ear
Alg
ebra
Нат
ивн
ый
код
Deployment
Visual Studio
C# API to Runtime and Libraries
OSS and 3rd party Numerical Libraries
Предложение для Сколково
До 4ех XL машин в Windows Azure для тех кто попробует использовать Cloud Numerics в своих задачах!
Российский финал: 14 апреля 2012 г.
МФТИ-МГУ МАИ-МИЭМ ННГУ СПбГПУ СГТУ ИГУ ЮУрГУ ТУСУР ТГУ-ТПУ
Регистрация: http://bit.ly/cupfinals2012 Начало: 11:00 Место: Digital October, м. Кропоткинская Онлайн: http://www.imaginecup.ru