Технология big data: Экспертная система watson и ее ... · ibm pure...
TRANSCRIPT
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 1
1 23 апреля 2015 г.
А.В. ШМИД
Д.т.н., Профессор
Председатель Правления ЗАО «ЕС-лизинг»
Заведующий кафедрой Информационно-аналитические системы МИЭМ НИУ ВШЭ
Технология Big Data:
Экспертная система Watson
и ее медицинское применение
Конференция «ИКТ в здравоохранении: успехи и препятствия»
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 2
Стратегические угрозы ХХI века в области ИТ: борьба за качество корпоративных решений – компьютеры против людей
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 3
Стратегический прогноз IBM развития ИТ 2005 - 2015
и его реализация
Цюрих, ноябрь 2005г.
Лаборатория стратегического планирования IBM
К 2015 году компьютеры будут принимать решения ЛУЧШЕ людей во многих областях бизнеса
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 4
Дорожная карта реализации стратегического прогноза 2005-2015гг
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 5
2011год – Watson победитель игры Jeopardy (USA) - прототип игры «Своя игра»
Шаги реализации прогноза 2011 год
Лучше
людей!
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 6
Шаги реализации прогноза 2013г.
Диплом врача + Лучше людей: от 22-44% к 3-5%ошибки в диагнозе
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 7
Информированность решающего центра.
Амнезия корпораций
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 8
Проклятие размерности Сколько информации мы теряем?
8
Рометти: «В 2013 году 2 дня = всему 2003 (рост в 178 раз!)»
Проклятие размерности Сколько информации мы теряем?
8
IDC, 2008
1,800
1,600
1,400
1,200
1,000
0,800
0,600
0,400
0,200
Exab
yte
s
Available Storage
Information Created Available Storage,
2007
Tape
21%
Disk
56%
Optical
22% Other
1%
264
EB
Information Creation and Available Storage
2005 2006 2007 2008 2009 2010 2011
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 9
«Амнезия корпорации» или объем воспринимаемых ИАС первичных данных
Объем
данных
Время
Что можно обработать
Стандартным подходом
Что можно обработать IBM Big Data
Йоттабайт
Качество ИАС:
1. Объем первичных
данных
2. Глубина и скорость
анализа (площадь
анализа)
3. Кто готовит и кто
принимает решение
Стандарт: запомнил – обработал
IBM Big Data: обработал - запомнил
Потоковая обработка IBM Big Data кардинально повышает
объем используемых данных для аналитической разведки
Потеря
памяти
(амнезия)
Все
доступные
данные
Терабайт
Гигабайт
1 Петабайт
Лимит: скорость обработки
Лимит: Объем базы
ЦБ РФ – 640 Тб
Библиотека им. Ленина – 7Тб
Надо
10 Петабайт
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 10
ПОТОКОВАЯ ОБРАБОТКА (streaming): преодоление проклятия размерности при хранении данных
Идея BigData №1
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 11
1. Любые виды источников
2. Любая скорость потока данных от источника
3. Принятие решения – в потоке (миллисекунды)
IBM получает заказ на разработку технологии:
2002
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 12
Декларативный язык потоковой обработки SPL (streams processing language)
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 13
Big Data: Изменение парадигмы при работе с данными
ИТ
Структурирует данные для
ответа на вопрос
ИТ
Обеспечивает платформу для
креативного анализа
Бизнес
Исследует что можно спросить
Бизнес
Определяет что спросить
Месячная отчетность
Анализ прибыльности
Анализ анкет
Отношение к бренду
Стратегия продуктов
Оптимизация ресурсов
Большие данные Итеративность и исследование
Традиционный подход Структурный и повторяемый анализ
Запомнил - обработал Обработал - запомнил
Ограничение: память Ограничение: производительность
Пример IBM - МРП
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 14
Обучающиеся Системы реального времени
Идея BigData №2
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 15
Фильтрация данных с обратной связью
10011100101001111001000100100010010001000100101
01011001100011101001001001001
11000100101001001011001001010
01100100101001001010100010010
01100100101001001010100010010
11000100101001001011001001010
01100100101001001010100010010
01100100101001001010100010010
01100100101001001010100010010
01100100101001001010100010010
11000100101001001011001001010
01100100101001001010100010010
01100100101001001010100010010
01100100101001001010100010010
01100100101001001010100010010
01100100101001001010100010010
11000100101001001011001001010
01100100101001001010100010010
01100100101001001010100010010
01100100101001001010100010010
11000100101001001011001001010
Adative
Analytics
Model
Now
ca
st
Fo
reca
st
Bootstrap
Enrich
Data Ingest
Opportunity Cost
Starts Here
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 16
2011г. Watson: Обучающийся компьютер!!!
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 17
Открыться цифровому миру
Идея BigData №3
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 18
Какие объемы данных нужны для поддержки принятия решений?
Размещение значимых
данных предприятия:
Внутренние данные - 33%
Внешние данные - 67%
2014-90%
User
Generated
Content*
1,234
Exabytes
Enterprise
Touch
Content**
1,530
Exabytes
Size of Digital Universe in 2011
1,773 Exabytes
**Transported,
Hosted,
Managed or
Secured
**Consumers
and Workers
Creating,
Capturing or
Replicating
Personal
Information
Overlap
-1,000
Exabytes
User Creation: Enterprise Worries
IDC, 2008
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 19
Состав конструктора платформы IBM BigData и философия сборки из конструктора: что собираем?
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 20
Streams
Big
Ins
DE NZ
Декларативные языки
Готовые
средства
разработки
Инструменты
Языки программирования 3-го поколения:
Java, C/C++, Python, Perl
Коннекторы
SPSS (Декларативный
язык PMML)
Cognos BI
Общая схема компонентов платформы Big Data
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 21
Требования к функциям платформы Больших Данных
Подключение источников и
анализ данных «в покое»
Традиционные функции работы со
структурированными данными
Интеграция всех видов данных для
комплексного анализа
Поиск и навигация источников
данных в киберпространстве
Подключение источников и анализ
данных «в движении»
Автоматизация принятия решений
и построение гипотез и прогнозов
Hadoop File System
Watson Content Analytics
InfoSphere Data Explorer
и т.д.
InfoSphere Streams и т.д.
Pure Data for Analytics
(Netezza ) и т.д.
IBM Information Server
IBM Change Data Capture
IBM Cognos
IBM SPSS
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 22
population
tt asR ),(
Более умная аналитика!!!
Акселераторы : ускорители разработки прикладных задач
Простой &
Комплексный
текст
Текст
(слушать, глагол),
(радио,
существительное)
Добыча в
микросекундах
Геопространство
Прогнозирование
Фото & Видео
Звук
Комплексные
математические
модели
Статистика
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 23
IBM i2 Analyst's Notebook
Визуализация и исследование
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 24
Современная схема принятия решений и ее отличия от традиционной
Революция: решения принимают роботы, а не люди
Эволюция: люди пока остаются, но их роли
изменяются
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 25
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 26
Современная схема принятия решений: Чему учить? Работе в креативной команде
Подтверждение
решения
Принятие
решения Цифровая
реальность
CEO
Область
интересов
Поиск в
области
интересов Креативная
команда
(П1 + П3)
Обучение в
области
интересов
Задания
интегральной
инфо
потребности
Навигация
РЕШЕНИЕ: Меры воздействия на
объект управления
Обсуждение
области
интересов
Детализация
области
интересов
Watson Type
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 27
Реальность
Первичные
документы
Представление о
реальности
Индикаторы ГП
Виды
Первичных
документов
Традиционные:
отчеты
Отчеты
Система
сбора
информации
Модели
расчетов
индикаторов
Аналитическая
система
Обратная связь управления: Меры воздействия
КХД
Фирмы холдинга
Международные
документы
Новые:
соц. сети,
СМИ
Информационный
продукт
Цели обучения экспертной системы
1. Необходимое условие – качество информации
2. Достаточное условие – качество моделей
Стратегический контролер
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 28
Вирджиния Рометти – IBM CEO
11 марта 2013 года “В ближайшие 5 лет все компании на рынке
разделятся на победителей и побежденных в
зависимости от качества корпоративных
решений.
И опыт, и интуиция не помогут. Людей надо
переучивать. Нигде этому сейчас не учат, но
мы будем!”
Новой культуре принятия решений
(predictive analytics), обеспечивающей
конкурентные преимущества
Чему учить?
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 29
1. Цели: Освоение и демонстрация технологии IBM Big Data
2. Отраслевая кастомизация технологий
3. Оказание услуг по созданию прототипов корпоративных
решений
4. Предоставление виртуальных стендов IBM Big Data Big для
удаленного использования у заказчика (накопление практик - ВШЭ)
5. Передача знаний от IBM: обучение персонала
6. Реализация проектов
Центр компетенции IBM Big Data ЕС-лизинг (первый в РФ)
В декабре 2012 создан первый полнофункциональный
виртуальный тестовый стенд IBM Big Data для ИПИ РАН
с удаленным доступом к вычислительным ресурсам и
инструментальным средствам
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 30
Центр Компетенции
по IBM Big Data
(ЕС-лизинг)
IBM, ЦБ РФ, ЕС-лизинг Профессионалы,
оборудование,
программные продукты,
пилотные проекты
Институт
МИЭМ НИУ ВШЭ
Создание инфраструкутры исследовательского и учебного процессов в области банковской аналитики в МИЭМ ВШЭ на
основе новейших технологий ИБМ (повторение успеха 1972г)
Проекты
Базовая
кафедра
Учебные
курсы
Консультации
IBM
Лабораторные
работы Тьюторы
Бизнес-
сообщества Сейчас работают
11 организаций
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 31
Лабораторные работы Центра компетенции по технологии IBM Big Data
Наименование лабораторной работы
Инструменты платформы IBM Big Data
Оборудование ЕС-лизинг
1. Знакомство с основами Hadoop – HDFS, Map Reduce, Pig, Hive и Jaql
IBM InfoSphere BigInsights 2.0
ЭВМ IBM zSeries 10, 11 IBM pSeries IBM xSeries IBM Pure Data (Netezza) Операционные системы zOS zLinux Linux VMWare Windows AIX СУБД DB2 (z, Oracle, Linux, Windows) Oracle z
Oracle Linux Oracle Windows
2. Администрирование IBM InfoSphere BigInsights
3. Освоение технологии BigSheets
4. Текстовая Аналитика IBM Data Studio
5. Интеграция IBM InfoSphere BigInsights c DB2
IBM InfoSphere BigInsights 2.0
6. Основы потоковой обработки данных IBM InfoSphere Streams
3.0.0.2 7. Инструменты и консоль IBM InfoSphere Streams
8. Создание приложений с помощью Data Explorer IBM Data Explorer 8.7
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 32
Лабораторные работы Центра компетенции по технологии создания Корпоративных хранилищ данных (КХД) предприятия
Наименование лабораторной работы
Инструменты платформы
Ресурсы ЕС-лизинг
1. Знакомство с принципами и технологиями
построения промышленных корпоративных
хранилищ данных
Best World Practices
Система АП АС БЭСП
Система КХД БР
ЭВМ
IBM zSeries 10, 11
IBM pSeries
IBM xSeries
IBM Pure Data
(Netezza)
Операционные
системы
zOS
zLinux
Linux
VMWare
Windows
AIX
СУБД DB2 (z, Oracle,
Linux, Windows)
Стенды
прикладных
систем:
Стенд АП АС БЭСП
Стенд КХД БР
2. Адаптация промышленных индустриальных
моделей данных фирмы IBM для реализации
КХД на примере модели для банковского сектора
IBM Banking Data Warehouse
Индустриальная модель -IBM Banking
DataWarehouse
IBM Infosphere Data Architect
СУБД IBM DB2
СУБД Oracle
3. Разработка ETL-процедур очистки,
извлечения, трансформации и загрузки
информации от систем-источников для
размещения в КХД
IBM InfoSphere Datastage and QualityStage
4. Построение витрин данных в интересах ИАС IBM Infosphere Data Architect
СУБД IBM DB2
СУБД Oracle
5. Разработка процедур формирования
расчетных аналитических показателей и их
размещения в витрине данных в интересах ИАС
IBM InfoSphere DataStage and QualityStage
6. Система контроля качества данных в витринах
и отчетах ИАС
Разработка ЗАО «ЕС-лизинг» - «Подсистема
межформенного и внутриформенного контроля»
АП АС БЭСП
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 33
Лабораторные работ Центра компетенции по технологии создания Информационно-аналитических систем предприятия
Наименование лабораторной работы
Инструменты платформы
Ресурсы ЕС-лизинг
1. Многомерный анализ данных –
проектирование и разработка
многомерных структур данных, OLAP-
кубов
IBM Cognos BI - Cube designer ЭВМ
IBM pSeries
IBM xSeries
Операционные
системы
Windows
AIX
СУБД DB2 (z,
Oracle, Linux,
Windows)
Стенды
прикладных
систем:
Стенд АП АС БЭСП
2. Создание аналитически отчетов
произвольной формы в реальном времени
IBM Cognos BI – Analysis Studio
3. Создание сложных
параметризированных аналитических
отчетов
IBM Cognos BI – ReportStudio
4. Статистический анализ и
прогнозирование IBM SPSS Analytics
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 34
№ Название задачи Источники
информации
Количество
текстов
1 Прогнозирование «бегства
вкладчиков»
Интернет-форумы,
социальные сети,
публикуемая
отчётность,
ставки по депозитам,
макроэкономические
показатели
До
15 млн.
в день
2 Выявление аффилированных лиц СМИ, социальные сети
3 Оценка степени
удовлетворенности
Тематические интернет-
форумы,
социальные сети,
корпоративные
источники информации
4 Обнаружение фактов инсайда Социальные сети
5 Оценка и прогноз
производственной устойчивости
Финансовая отчетность,
управленческий учет,
СМИ
6 Определение психотипов Социальные сети
Учебные задачи центра компетенции IBM Big Data
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 35
Кафедра ИАС МИЭМ НИУ ВШЭ
ИАП
ЦОД
ЕС-лизинг
Источники информации: -международные;
-федеральные; -региональные; -муниципальные; -хозяйствующие субъекты
Варшавское шоссе, д.125
ИПИ РАН
Макет - стартовая точка создания
любого бизнес-проекта
Облачный доступ
Макет
Создан «пылесос» данных и инфраструктура их обработки в интересах множества задач
Группировка
бизнес-приложений,
тренажеров,
учебных программ
КЛИЕНТЫ: юридические и
физические лица
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 36
Публикации в Интернете
26 марта 2013 г. Агентство маркетинговых коммуникаций CNews Conferences и
CNews Analytics провели круглый стол «Big Data: возможность или необходимость».
В этой конференции с докладом "Big Data: Революция в области философии и
технологий принятия корпоративных решений" выступил А.В. Шмид. Отчет о
круглом столе и выступлениях на конференции можно найти по ссылкам
http://www.cnews.ru/reviews/index.shtml?2013/04/05/525080_1
http://www.cnews.ru/reviews/index.shtml?2013/04/05/525080_4
IBM CEO Джинни Рометти 7 марта 2013 г. выступила на собрании спикеров CFR's
(Council of Foreign Relations) CEO с обсуждением использования больших данных.
http://www.cfr.org/business-and-foreign-policy/conversation-ginni-rometty/p30160
http://www.informationweek.com/software/information-management/ibm-ceo-rometty-
shares-vision-of-big-dat/240150326
В марте 2013 г. вышла вторая, дополненная версия Учебника 4CIO.
Раздел по Большим Данным написан А.В.Шмидом
http://www.4cio.ru/pages/index/221/
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 37
37
Центр компетенции по IBM Big Data
Приглашаем посетить Центр компетенции,
ознакомиться с технологиями IBM Big Data,
принять участие в создании виртуальных
отраслевых стендов
www.ec-leasing.ru
Тел.: (495) 319-58-09 Факс: (495) 319-69-90
e-mail: [email protected]
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 38
38
Выводы
В ближайшие годы потребности в специалистах Data analyst в
направлении predictive analytics составит 50-70 тыс. человек в
год. Однако подготовки студентов по этой специальности нет
ни в одном вузе страны.
Надо готовить учителей для обучаемых компьютеров, учить
замыкать обратные связи на макроуровне экспертных систем.
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 39
«Что нас ожидает в следующие 30 лет -
самообучающиеся компьютеры»
Вирджиния Рометти – IBM CEO:
A Conversation with Ginni Rometty
http://www.cfr.org/business-and-foreign-policy/conversation-ginni-rometty/p30160
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 40
Главная стратегическая угроза!
Toy Story: IBM’s Watson can now talk to your kids
Вместо родителей
«Отдайте мне ваших детей на десять лет,
и ваша страна будет моею.»
Путь воина. Китай.
V век до Рождества Христова
http://venturebeat.com/2015/02/16/toy-story-ibms-watson-can-now-talk-to-your-kids/
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 41
Эпилог «Можно тысячу раз сказать слово халва, но это слово нельзя понять, пока не попробуешь.» Ходжа Насреддин
EC-лизинг
23 апреля 2015 г. Конференция «ИКТ в здравоохранении: успехи и препятствия» Стр. 42
42
www.ec-leasing.ru