Изучая Вселенную при помощи больших данных и...

58

Upload: nikita-kazeev

Post on 11-Jan-2017

57 views

Category:

Science


2 download

TRANSCRIPT

Page 1: Изучая Вселенную при помощи больших данных и машинного обучения
Page 2: Изучая Вселенную при помощи больших данных и машинного обучения
Page 3: Изучая Вселенную при помощи больших данных и машинного обучения

Изучая Вселенную

при помощи

больших данных

и машинного обученияНикита Казеев

Page 4: Изучая Вселенную при помощи больших данных и машинного обучения

Обомне

› ВыпускникМосковского физико-технического института

› ВыпускникШколы анализа данных Яндекса

› Аспирант на факультете компьютерных наук ВШЭ

› Работаю в Яндексе над совместными data science проектами с Европейской

организаций по ядерным исследованиям

Image: http://www.futuretimeline.net/, Video: http://www.businessinsider.com/ 4

Page 5: Изучая Вселенную при помощи больших данных и машинного обучения

План

› Что изучает физика?

› Как она изучает?

› Как ей в этом помогают компьютерные технологии и при чём здесь Яндекс?

Никита Казеев 5

Page 6: Изучая Вселенную при помощи больших данных и машинного обучения

Что такое физика?

› Получение новых знаний о мире

› Чем-то похожа на тестирование!

› Теория описывает мир – предсказывает эксперимент

› Эксперимент стремится проверить теорию

Никита Казеев 6

Page 7: Изучая Вселенную при помощи больших данных и машинного обучения

Зачем намфизика?

Они [компьютеры] стали возможными благодаря открытиям в фундаменталь-

ной физике, [...] развитию математической логики и потребности физиков-

ядерщиков в 1930е считать частицы.

C. H. Llewellyn Smith, директорЦЕРНа: янв. 1994 – янв. 1999

Никита Казеев 7

Page 8: Изучая Вселенную при помощи больших данных и машинного обучения

Нерешённые проблемы

Page 9: Изучая Вселенную при помощи больших данных и машинного обучения

Image credit: xkcd 9

Page 10: Изучая Вселенную при помощи больших данных и машинного обучения
Page 11: Изучая Вселенную при помощи больших данных и машинного обучения

Тёмная материя

› Наблюдаемые нами гравитационные

эффекты не согласуются с

наблюдаемым нами во Вселенной

количествомматерии

› Предположительно, существуют

неизвестные стабильные,

массивные, электрически

нейтральные частицы, из которых

состоит тёмная материя

Иллюстрация: xkcd 11

Page 12: Изучая Вселенную при помощи больших данных и машинного обучения

Где антиматерия?

› Мы почти не наблюдаем

антиматерию в природе

› Мы умеем получать антиматерию в

лаборатории

› Согласно текущей теории, при

Большом взрыве должно было

родиться примерно одинаково

материи и антиматерии

Иллюстрация: xkcd 12

Page 13: Изучая Вселенную при помощи больших данных и машинного обучения

Физика элементарных

частиц

Page 14: Изучая Вселенную при помощи больших данных и машинного обучения

Самая фундаментальная физика

Материя

Кристалл

Атом

Атомное ядро

Нуклон

Кварки

10-9 м

10-10 м

10-14 м

10-15 м

<�10 -18 м

Макроско-пическая

Иллюстрация: Gabriel Fitzpatrick, http://slideplayer.com/slide/903569/ 14

Page 15: Изучая Вселенную при помощи больших данных и машинного обучения

Стандартная модель

› Наше понимание физики на текущий

момент

› Не противоречит экспериментам

› Найти отклонение - мечта каждого

физика

Никита Казеев 15

Page 16: Изучая Вселенную при помощи больших данных и машинного обучения

Квантовая теория

Думаю, я смеломогу сказать, что квантовоймеханики никто не понимает.

РичардФейнман, один из основоположников квантовой теории, Нобелевский

лауреат по физике 1965 г.

Никита Казеев 16

Page 17: Изучая Вселенную при помощи больших данных и машинного обучения

Квантовая теория

Повторять одно и то же...

получать разный результат.

Никита Казеев 17

Page 18: Изучая Вселенную при помощи больших данных и машинного обучения

Квантовая теория

Повторять одно и то же...

получать разный результат.

Никита Казеев 17

Page 19: Изучая Вселенную при помощи больших данных и машинного обучения

Проверка новой гипотезы X

› Выбрать нулевую (самую проверенную, консервативную) гипотезу

› Предложить такие исходы, которые должны происходить очень редко в

соответствии с нулевой гипотезой, и гораздо чаще – в соответствии с

гипотезой X

› Измерить число событий и сделать вывод, какая гипотеза верна

Никита Казеев 18

Page 20: Изучая Вселенную при помощи больших данных и машинного обучения

Ускоритель

𝑚𝑐2 = 𝐸

Никита Казеев 19

Page 21: Изучая Вселенную при помощи больших данных и машинного обучения

Иллюстрация: http://atlasexperiment.org/ 20

Page 22: Изучая Вселенную при помощи больших данных и машинного обучения

Иллюстрация: Peter Krizan, B-physics: from the beginnings to B-factories http://charm.lebedev.ru/ 21

Page 23: Изучая Вселенную при помощи больших данных и машинного обучения

Детектор

ИллюстрацииNikon, LHCb collaboration 22

Page 24: Изучая Вселенную при помощи больших данных и машинного обучения

Обработка данных

Page 25: Изучая Вселенную при помощи больших данных и машинного обучения

Краткая история анализа

данных в физике

Page 26: Изучая Вселенную при помощи больших данных и машинного обучения

Галилей, XVI в.

› Опроверг теориюАристотеля, о том,

что более тяжелые тела падают

быстрее

› Измерял на глаз

› Вёл заметки на бумаге

Иллюстрация: heritage-history.com 25

Page 27: Изучая Вселенную при помощи больших данных и машинного обучения

Fermilab, 1976

Данные Анализ данныхИллюстрации: слева Fermilab, справа LBNL Image Database 96602983 26

Page 28: Изучая Вселенную при помощи больших данных и машинного обучения

LHCb, 2016

› Регистрирует 40 млн. столкновений

в секунду

› Использует компьютерную систему

для записи, фильтрации и анализа

данных

Иллюстрация: CERN 27

Page 29: Изучая Вселенную при помощи больших данных и машинного обучения

Краткая история анализа данных в физике

Интерлюдия: Яндекс и

ЦЕРН

Page 30: Изучая Вселенную при помощи больших данных и машинного обучения

Европейская организация по ядерным

исследованиям (ЦЕРН)

› Крупнейшая в мире лаборатория по

физике частиц

› Институты из более 100 стран

› Дипломатический иммунитет у

сотрудников (не у меня)

› Лучшая столовая из всех, где я бывал

Никита Казеев 29

Page 31: Изучая Вселенную при помощи больших данных и машинного обучения

МиссияЦЕРНа

Миссия ЦЕРНа была утверждена конвенцией в 1954 и основывается на 4-х

принципах:

› Наука.Поиск ответов на вопросы об устройстве Вселенной

› Технологии. Развитие технологий

› Коллаборация.Международно сотрудничество через науку

› Образование.Подготовка учёных завтрашнего дня

Никита Казеев 30

Page 32: Изучая Вселенную при помощи больших данных и машинного обучения

Миссия Яндекса (выдержка)

› Яндекс— технологическая компания. В основе наших сервисов лежат

сложные, уникальные, трудно воспроизводимые технологии. Именно они

позволяют нам делать то, что еще некоторое время назад люди приняли бы за

волшебство.

› Наука. Нам удалось собрать команду специалистов во многих областях науки

— вматематике, анализе данных, программировании, лингвистике и других

дисциплинах. Вычислительные возможности и алгоритмы Яндекса используют

и наши партнеры для проведения своих научных исследований—например, в

области ядерных исследований и геологоразведки.

Никита Казеев 31

Page 33: Изучая Вселенную при помощи больших данных и машинного обучения

Зачем большие данные?

Очень редкие процессы, вероятность< 10−10.

1 байт на 10 Гб.

Задача – их посчитать.

Никита Казеев 32

Page 34: Изучая Вселенную при помощи больших данных и машинного обучения

Пример: бозон Хиггса

𝑂 (1015) протон-протонных столкновений𝑂 (100) событий найдено

Никита Казеев 33

Page 35: Изучая Вселенную при помощи больших данных и машинного обучения

Эффективность фильтрации

› При отборе теряется известная доля нужных событий

› Сделать фильтрацию точнее позволяет получить тот же физический результат

за меньшее время работы детектора

Никита Казеев 34

Page 36: Изучая Вселенную при помощи больших данных и машинного обучения

Схема (LHCb)

Детектор Ферма GRID

PC

106

cобытий/с104

cобытий/сХранитO(1012)

Триггер

4·107

cобытий/с

Никита Казеев 35

Page 37: Изучая Вселенную при помощи больших данных и машинного обучения

Аппаратный триггер (LHCb)

› Быстро, грубо отбирает события

› 40МГц→ 1МГц

Иллюстрация: L0Workshop 11 Jan 2006, J. Laubser et al. 36

Page 38: Изучая Вселенную при помощи больших данных и машинного обучения

Триггерная ферма (LHCb)

› Сеть 100 Гб/с

› ∼ 1800 узлов› ∼ 25000физических CPU› ∼ 2 ГбОЗУ на ядро

Иллюстрация: University College Dublin, данные: https://cds.cern.ch/record/2011571/files/LHCb-TALK-2015-064.pdf 37

Page 39: Изучая Вселенную при помощи больших данных и машинного обучения

Реконструкция

Никита Казеев 38

Page 40: Изучая Вселенную при помощи больших данных и машинного обучения

Программный триггер (LHCb)

› Использует информацию о треках,

вершинах, типах частиц

› 1МГц→ 10 КГц

› Использует машинное обучение!

Никита Казеев 39

Page 41: Изучая Вселенную при помощи больших данных и машинного обучения

Машинное обучение

› Задача – сделать алгоритм, отличающий интересные события от неинтересных

› Можно вручную

› А можно сгенерировать примеры интересных событий и натренировать

классификатор.

Никита Казеев 40

Page 42: Изучая Вселенную при помощи больших данных и машинного обучения

Топологический триггер [Яндекс]

› Выбирает класс распадов𝐵-адрона с хотя бы 2 заряженными частицами

› Используется 60% анализов LHCb как первичная ступень отбора событий

› Эффективность увеличена от 5 до 50% в зависимости от канала распада

Никита Казеев 41

Page 43: Изучая Вселенную при помощи больших данных и машинного обучения

Топологический триггер [Яндекс]

Никита Казеев 42

Page 44: Изучая Вселенную при помощи больших данных и машинного обучения

Топологический триггер [Яндекс]

› Выбирает класс распадов𝐵-адрона с хотя бы 2 заряженными частицами

› Используется 60% анализов LHCb как первичная ступень отбора событий

› Эффективность увеличена от 5 до 50% в зависимости от канала распада в

сравнении с базовым решением

› N. B. 50% улучшение подразумевает, что физический результат, полученный за

3 года сбора данных старой моделью, мог бы быть получен за 2 года сбора

данных новой моделью.

Никита Казеев 43

Page 45: Изучая Вселенную при помощи больших данных и машинного обучения

Worldwide LHC Computing Grid

› Ресурсы для обработки данных БАК

› ∼ 170 дата-центров по всему миру› Работают на кастомном открытомПО

› Яндекс тоже предоставляет датацентр

Никита Казеев 44

Page 46: Изучая Вселенную при помощи больших данных и машинного обучения

LHCbGRID usage в числах [2015]

› ∼ 5𝑒6CPU› 19Пб на дисках› 34.9Пб на магнитных лентах

Никита Казеев 45

Page 47: Изучая Вселенную при помощи больших данных и машинного обучения

Предсказание использования данных [Яндекс]

› GRID позволяет хранить данные на жестких дисках (дорого) и магнитных

лентах (дешево)

› Мы использовали машинное обучение, чтобы предсказать, какие файлы не

буду востребованы

› при ошибке в 3% и минимальном числе реплик оставшихся на HDDфайлов

равном 2, можно освободить 40% дискового пространства

Никита Казеев 46

Page 48: Изучая Вселенную при помощи больших данных и машинного обучения

Hands-on

Можно прямо сейчас попробовать анализ физических данных. Ничего

устанавливать не требуется thanks to Everware.

https://clck.ru/AHgz9

Никита Казеев 47

Page 49: Изучая Вселенную при помощи больших данных и машинного обучения

Заключение

Большие данные и машинное обучение качественно

расширили круг доступных для изучения

физических явлений.

Никита Казеев 48

Page 50: Изучая Вселенную при помощи больших данных и машинного обучения

КонтактыНикита Казеев

Исследователь-разработчик

[email protected]

49

Page 51: Изучая Вселенную при помощи больших данных и машинного обучения

Резерв

Page 52: Изучая Вселенную при помощи больших данных и машинного обучения

Проекты Яндекса для физики

› Специализированные алгоритмыML –

https://github.com/yandexdataschool/hep_ml

› AWLCG site – https://indico.cern.ch/event/443234/contributions/

1098071/subcontributions/98322/attachments/1157845/1665533/

LHCC-20150922-LHCb.pdf

› Поисковая система по данным LHCb – http:

//iopscience.iop.org/article/10.1088/1742-6596/664/3/032019

› Система для мониторинга –

https://cds.cern.ch/record/2229730?ln=en

Никита Казеев 51

Page 53: Изучая Вселенную при помощи больших данных и машинного обучения

Полезные ссылки

› Объяснение fixion’а –

https://www.explainxkcd.com/wiki/index.php/1621:_Fixion

› Текущее состояние науки про отличие материи и антиматерии –

http://web.mit.edu/physics/news/physicsatmit/physicsatmit_

06_sciollafeature.pdf

› Объяснение фундаментальных взаимодействий “на пальцах” –

https://www.nobelprize.org/nobel_prizes/physics/laureates/

2004/popular.html

Никита Казеев 52

Page 54: Изучая Вселенную при помощи больших данных и машинного обучения

Ссылки на код с примерами

› Browser-based toy physics data analysis – http://www.hep.manchester.ac.

uk/u/parkes/LHCbAntimatterProjectWeb/LHCb_Matter_Antimatter_

Asymmetries/Homepage.html

› And another –

https://github.com/everware/everware-dimuon-example

Никита Казеев 53

Page 55: Изучая Вселенную при помощи больших данных и машинного обучения

Никита Казеев 54

Page 56: Изучая Вселенную при помощи больших данных и машинного обучения

Никита Казеев 55

Page 57: Изучая Вселенную при помощи больших данных и машинного обучения

Кладбище теорий

Model ℓ, γ Jets Emiss

T

∫L dt[fb−1] Mass limit Reference

Ext

radi

men

sion

sG

auge

boso

nsC

ID

MLQ

Hea

vyqu

arks

Exc

ited

ferm

ions

Oth

er

ADD GKK + g/q − 1-2 j Yes 4.7 n = 2 1210.44914.37 TeVMD

ADD non-resonant ℓℓ/γγ 2γ or 2e, µ − − 4.7 n = 3 HLZ NLO 1211.11504.18 TeVMS

ADD QBH→ ℓq 1 e,µ 1 j − 20.3 n = 6 1311.20065.2 TeVMth

ADD BH high Ntrk 2 µ (SS) − − 20.3 n = 6, MD = 1.5 TeV, non-rot BH 1308.40755.7 TeVMth

ADD BH high∑

pT ≥ 1 e, µ ≥ 2 j − 20.3 n = 6, MD = 1.5 TeV, non-rot BH ATLAS-CONF-2014-0166.2 TeVMth

RS1 GKK → ℓℓ 2 e,µ − − 20.3 k/MPl = 0.1 ATLAS-CONF-2013-0172.47 TeVGKK mass

RS1 GKK → ZZ → ℓℓqq/ℓℓℓℓ 2 or 4 e,µ 2 j or − − 1.0 k/MPl = 0.1 1203.0718845 GeVGKK mass

RS1 GKK →WW → ℓνℓν 2 e,µ − Yes 4.7 k/MPl = 0.1 1208.28801.23 TeVGKK mass

Bulk RS GKK → HH → bb̄bb̄ − 4 b − 19.5 k/MPl = 1.0 ATLAS-CONF-2014-005590-710 GeVGKK mass

Bulk RS gKK → tt 1 e,µ ≥ 1 b, ≥ 1J/2j Yes 14.3 BR = 0.925 ATLAS-CONF-2013-0520.5-2.0 TeVgKK mass

S1/Z2 ED 2 e,µ − − 5.0 1209.25354.71 TeVMKK ≈ R−1

UED 2 γ − Yes 4.8 ATLAS-CONF-2012-0721.41 TeVCompact. scale R−1

SSM Z ′ → ℓℓ 2 e,µ − − 20.3 ATLAS-CONF-2013-0172.86 TeVZ′ mass

SSM Z ′ → ττ 2 τ − − 19.5 ATLAS-CONF-2013-0661.9 TeVZ′ mass

SSM W ′ → ℓν 1 e,µ − Yes 20.3 ATLAS-CONF-2014-0173.28 TeVW′ mass

EGM W ′ →WZ → ℓν ℓ′ℓ′ 3 e,µ − Yes 20.3 ATLAS-CONF-2014-0151.52 TeVW′ mass

LRSM W ′R→ tb 1 e,µ 2 b, 0-1 j Yes 14.3 ATLAS-CONF-2013-0501.84 TeVW′ mass

CI qqqq − 2 j − 4.8 η = +1 1210.17187.6 TeVΛ

CI qqℓℓ 2 e,µ − − 5.0 ηLL = −1 1211.115013.9 TeVΛ

CI uutt 2 e,µ (SS) ≥ 1 b, ≥ 1 j Yes 14.3 |C | = 1 ATLAS-CONF-2013-0513.3 TeVΛ

EFT D5 operator − 1-2 j Yes 10.5 at 90% CL for m(χ) < 80 GeV ATLAS-CONF-2012-147731 GeVM∗

EFT D9 operator − 1 J, ≤ 1 j Yes 20.3 at 90% CL for m(χ) < 100 GeV 1309.40172.4 TeVM∗

Scalar LQ 1st gen 2 e ≥ 2 j − 1.0 β = 1 1112.4828660 GeVLQ mass

Scalar LQ 2nd gen 2 µ ≥ 2 j − 1.0 β = 1 1203.3172685 GeVLQ mass

Scalar LQ 3rd gen 1 e, µ, 1 τ 1 b, 1 j − 4.7 β = 1 1303.0526534 GeVLQ mass

Vector-like quark TT → Ht + X 1 e,µ ≥ 2 b, ≥ 4 j Yes 14.3 T in (T,B) doublet ATLAS-CONF-2013-018790 GeVT mass

Vector-like quark TT →Wb + X 1 e,µ ≥ 1 b, ≥ 3 j Yes 14.3 isospin singlet ATLAS-CONF-2013-060670 GeVT mass

Vector-like quark BB → Zb + X 2 e,µ ≥ 2 b − 14.3 B in (B,Y) doublet ATLAS-CONF-2013-056725 GeVB mass

Vector-like quark BB →Wt + X 2 e,µ (SS) ≥ 1 b, ≥ 1 j Yes 14.3 B in (T,B) doublet ATLAS-CONF-2013-051720 GeVB mass

Excited quark q∗ → qγ 1 γ 1 j − 20.3 only u∗ and d∗, Λ = m(q∗) 1309.32303.5 TeVq∗ mass

Excited quark q∗ → qg − 2 j − 13.0 only u∗ and d∗, Λ = m(q∗) ATLAS-CONF-2012-1483.84 TeVq∗ mass

Excited quark b∗ →Wt 1 or 2 e,µ 1 b, 2 j or 1 j Yes 4.7 left-handed coupling 1301.1583870 GeVb∗ mass

Excited lepton ℓ∗ → ℓγ 2 e, µ, 1 γ − − 13.0 Λ = 2.2 TeV 1308.13642.2 TeVℓ∗ mass

LRSM Majorana ν 2 e,µ 2 j − 2.1 m(WR ) = 2 TeV, no mixing 1203.54201.5 TeVN0 mass

Type III Seesaw 2 e,µ − − 5.8 |Ve |=0.055, |Vµ |=0.063, |Vτ |=0 ATLAS-CONF-2013-019245 GeVN± mass

Higgs triplet H±± → ℓℓ 2 e,µ (SS) − − 4.7 DY production, BR(H±± → ℓℓ)=1 1210.5070409 GeVH±± mass

Multi-charged particles − − − 4.4 DY production, |q| = 4e 1301.5272490 GeVmulti-charged particle mass

Magnetic monopoles − − − 2.0 DY production, |g | = 1gD 1207.6411862 GeVmonopole mass

Mass scale [TeV]10−1 1 10√s = 7 TeV

√s = 8 TeV

ATLAS Exotics Searches* - 95% CL ExclusionStatus: April 2014

ATLAS Preliminary∫L dt = (1.0 - 20.3) fb−1

√s = 7, 8 TeV

*Only a selection of the available mass limits on new states or phenomena is shown.

Никита Казеев 56

Page 58: Изучая Вселенную при помощи больших данных и машинного обучения

Videos credits

Sorry, couldn’t manage to overlay.

› Intro. Image: http://www.futuretimeline.net/, video:

http://www.businessinsider.com/

› Black hole: NASA

Никита Казеев 57