big data и bi в медицине 5 волна

Post on 12-Apr-2017

123 Views

Category:

Technology

6 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Сергей Добриднюк, «Диасофт Системы»резидент ИЦ «Сколково»

Big Data и BI в медицине «5-я волна»

Медицинские технологии – одна из самых динамично развивающихся практик

2

Здравоохранение и ЗОЖ напрямую влияет на человеческий капитал !

Риски для РФ (со стартового доклада МФФ 2016, 23.09.2016 г)

3

Видение будущего

В медицинском центре сложнейшую операцию на сердце делает робот. Человек только контролирует его действия на экране компьютера (Roboarts Japan, 1969)

1-я Волна (1960-1980 годы) Экспертные модели

ПринципЭксперты конструируют матрицу входов-выходов и перекладывают ее в ЭВМ. Эксперты, параметры, веса и точность –крайне субъективны

Данная модель легко разрабатывается в продуктах класса Excel или вручную по результатам «мозгового штурма»

Низкая точность. «Улучшение» или «ухудшение» общего целевого балла, если рассматриваемые входные параметры коррелируют между собой

Достоинства

Недостатки

Внедрение в СССР. Дорого и бессмысленно

Примеры ИС, использующих экспертные модели. Настоящее время

WebMD Checker – диагностика по симптомам PROTEGE – набор инструментов для построения баз знанийDXPlain - системы поддержки клинических решений, используется для ассистирования в процессе диагностикиCASNET предназначена для диагностики и выбора стратегии лечения глаукомыMYCIN, EMYCIN - диагностика и лечение инфекционных заболеваний кровиGermwatcher - помощь больничному эпидемиологу. Включает базу знаний, основанную на правилах, используется для генерации гипотез о возможных инфекцияхPEIRS интерпретирует и комментирует отчеты по химическим патологиям Puff - предназначена для интерпретации результатов функционального пульмонологического теста на основе прецедентной информацииHELP –госпитальная ИС с функциями поддержки принятия решений

2-я волна. (1980-2000 годы)Кибернетические системы

Искусственный интеллект (artificial intelligence, AI) –свойство автоматических систем брать на себя отдельные функции человека, в том числе когнитивные и творческие

Кибернетика – наука об общих закономерностях процессов управления и передачи информации в технических, живых и социальных системах

Регрессионные модели на оцифрованных клинических данных

ПринципСтроятся на «полевых данных». Построение полинома (чаще лог-регрессия) на основе обучающей выборки

• Не искажает результат в случае корреляции входных параметров между собой, автоматически обнуляя веса зависимых параметров

• Модель можно перепроверить, т.к у целевой функции существует обратная функция

• Нечувствительность к резкому изменению диапазона значений входных параметров

Достоинства

Деревья решений, Леса решений и пр.

ПринципПостроение дерева (обычно С4.5) на основе обучающей выборки

• Также как и модель лог-регрессии –модель автоматически ранжирует входные параметры по степени влияния на результат, рассчитывая коэффициенты влияния

• Результат представляется в виде «дерева» - которое можно использовать даже в ручном режиме обработки данных

• Модель автоматически убирает ненужные сравнения и расчеты, обеспечивая очень высокую скорость расчета целевого предложения

Достоинства

Точность статистических моделей выше точности экспертных моделей

Переменная

ПараметрКоэффиц

иент1 Число случаев беременности 0.12322 Концентрация глюкозы 0.0352

3Артериальное диастолическое давление, мм. рт. ст.

-0.0133

4Толщина кожной складки трехглавой мышцы, мм.

0.0006

52-х часовой сывороточный инсулин

-0.0012

6 Индекс массы тела 0.0897

7Числовой параметр наследственности диабета

0.9452

8 Возраст, лет 0.0149

AUC=83,9%

*) Из UCI machine learning repositorywww.basegroup.ru

confusion matrix

Фактически

Модель Положит. Отрицат.

Положит. TP FP

Отрицат. FN TN

Примеры статистических модулей, подключаемых к МИС

• Bayesia• Deductor Studio• IBM SPSS Statistics• IBM SPSS Modeler• Matlab• MS Excel• Oracle Data Miner• Orange• Statsoft Statistica• SAS Etnerprise

Miner• Stata• Statsoft Statistica• TIBCO Spotfire

3-я волна. (1958-н.в.) Однослойные нейронные сети

ПринципМодель самообучающихся сетей, имитирующих работу человеческого мозга

• Высокие показатели точности • Позволяет найти закономерности даже

в случае «серой зоны» - когда ни по одному из входных параметров невозможно сделать точный вывод о клиенте и его проблемах

• Очень высокие требования к вычислительным средствам

• Нет обратной функции – «непонятно как объяснить вывод врачу»

• Из-за нелинейности – всплески в необученных и нетиповых ситуациях

Достоинства

Недостатки

Эксперимент «Китайская комната»«Сильный и Слабый искусственный интеллект»

Searle, John. R. (1980) «Minds, brains, and programs. Behavioral and Brain Sciences»

Нужны системы, распознающие контекст и смысл сказанного, умеющие исполнять творческие функции человека

Когнитивные системы, Искусственный интеллект

Можно ли эффективно отвечать на вопросы, если действуешь механически, не понимая смысл вопроса ?

Нейронные сети («Слабый» ИИ)

San-Diego Univ. – разпознавание инфаркта у больных с острой болью MYCIN–ECD – расшифровка ЭКГRES Informatica – кардиодиагностика по спектрам тахограммToronto Univ. – прогноз пребывания в интенсивной терапииMayo Clinic – распознавание маммограмТРИНИТИ – выбор метода лечения базалиомыMultineuron – диагностика меланомыNCI – предсказание механизма действия химиотерапииНИИЯФ МГУ – анализ заболеваний органов слухаSindey Univ – прогноз внезапной смерти новорожденныхPapnet – скрининг и интерпретация пап-мазковVienna Univ. – анализ биопсии простаты и урологических анализовAizenberg – фильтрация и сегментация томограмм мозгаRajapakse – анализ рентгенограмм вн. органов: печень, почкиDokur – анализ 4 специфичных волн ЭКГ при аритмии KBANN – классификация МРТ (фосфор и пр) в онкологииKaiser Hospital – автоматическое назначение анализов (свыше 250)ACR – анализ васкулитных поражений

4-я волна. (2007-н.в.) Deep Learning

ПринципМногослойные нейронные сети с нелинейными преобразованиями, Сверточные сети, Рекуррентные сети

• Очень высокие показатели точности • При объеме выборки точность растет• Возможно восстановление онтологии и

базы знаний без участия человека

• Нужен очень большой объем данных для обучения (миллионы записей)

• Нет обратной функции – невозможно объяснить вывод в терминах врача

• Очень Высокие требования к компьютерам

Достоинства

Недостатки

17

Россия накопила порядка 2% мировых данных. Китай, для сравнения, 15%(McKinsey & Company, 2016)

Big Data уже в национальных хранилищах

2,500,000,000,000,000,000 байт в день (2,5 экзабайта)

История термина BI – «переоткрытие»

Впервые термин Business Intelligenceпредложил американский ученый ХансПетер Лун (Hans Peter Luhn) в статье "A Business Intelligence System" для IBM Journal of Research and Development в 1958 году.

18

В 1989 году его заново открыл известный аналитик из Gartner Ховард Дреснер(Howard Dresner) и дал BI расширенную трактовку, предложив использовать BI в качестве зонтичного термина для различных технологий, предназначенных для поддержки принятия решений

Точность Нейронные сетей нового поколения ( MNN и Deep Learning = «Средний» ИИ )

Обработка радиологических изображений, МРТ, маммограмhttps://www.unitedhealthcareonline.comРаннее обнаружение ракаhttp://www.ijera.comОбработка пренатальных УЗИhttp://www.researchgate.netОбработка эхокардиографических изображенийhttp://ijcsi.org/papers/IJCSI-10-5-1-83-90.pdfДиагностика сложной аритмии по ЭКГ http://www.academia.eduДиагностика туберкулеза (специальная модель)http://www.acsu.buffalo.edu/~grant/47.pdfРасшифровка ЭКГ - (с методом вейвлетных преобразований)http://www.globalcis.org/jcit/ppl/JCIT3851PPL.pdfПредсказание язвенных инцидентовhttp://www.ehob.com/img/documents/document_123.pdfПредсказание кардиологических инцидентовhttp://www.ijaiem.org/Volume4Issue5/IJAIEM-2015-05-30-81.pdf

93%

95%

93,3%

93,7%

99,5%

94,7%

99%

96,9%

94%

5-я волна. (2015-н.в.) «Платформизация», «Цифровая экономика»

«Цифровой бизнес» – новая модель бизнеса, охватывающая людей/бизнес/вещи , масштабируемая глобально для всего мира за счет широкого использования информационных технологий, Интернета и всех их свойств, предполагающая эффективное персональное обслуживание всех, везде, всегда . Gartner, 2014 год

«Диджитализация» - трансформация текущего и создание нового бизнеса с размыванием границ между реальным и виртуальным миром , устранением «цифровых разрывов» между людьми, процессами и вещами, присущих традиционному бизнесу, на основе возможностей, предоставляемых информационными технологиями. IDC, 2015 год

Ключевые свойства «Цифровых Платформ» (прогноз Gartner)

• «Капитализация» данных • Парадигма IT+DT+AI (см Alibaba)• ИТ продукты c ИИ (роботы, алгоритмы) как новый субьект права• «Ресурсогенерация», Виртуальная валюта• «Заражение» смежных отраслей• Принципиально новые объекты, субьекты, отношения, технологии,

финансы, ценности, мотивация, организация• Новые профессии, виды образования и Система разделения труда

21

ИСЧЕЗАЮЩИЕ: 50 ПРОФЕССИЙ / 25 ИНДУСТРИЙ

Прогноз – к 2020 году исчезнут 30% услуг и появится 20% абсолютно пока неизвестных

«Дата-центричные» архитектуры, а не системо- и даже клиенто-центричные

«Озеро данных»

Отечественные разработчики и университеты быстро наращивают экспертизу

DIASOFT FLEXTERA BI

«Цифровая Платформа» будет знать о Вас все

И о стране тоже…(из доклада Е.Паперного, портал «Здоровье»)

Триггер BI, анализирующийвопросы посетителей о симптомах болезней в Интернет, распознал появление эпидемии гриппа в регионах на 1 месяц раньше, чем НИИ Гриппа

Проблемы защиты личных данных возрастут, но будет непонятно от кого защищаться

Вопросы, которые чаще всего задают

Кто должен создавать такие системы – Математик или Врач ?

Только Врач (но знающий математику). Только он способен задавать «правильные» вопросы и делать содержательные глубокие выводы. Но этому не учат ни в одном медицинском ВУЗе – ни математике, ни ИТ. Частично спасет Deep Learning или трансфер специалистов из более развитых отраслей (банки и финтех, web, e-commerce, ритейл)

Откуда взять данные ?

Это самая драматичная часть в России. Мало оцифрованных данных, а те что есть – имеют низкое качество и консистентность. ЕГИСЗ и ЭМК в этом не помогают, они «мозаичны» и «лоскутны».

Можно ли стать успешным разработчиком Аналитической Модели ?

Да, но нужна не модель, а законченное решение (Сервис). Это командный проект для ученых, практиков, разработчиков, чиновников

Спасибо за внимание !

top related