Изучая Вселенную при помощи больших данных и...
TRANSCRIPT
Изучая Вселенную
при помощи
больших данных
и машинного обученияНикита Казеев
Обомне
› ВыпускникМосковского физико-технического института
› ВыпускникШколы анализа данных Яндекса
› Аспирант на факультете компьютерных наук ВШЭ
› Работаю в Яндексе над совместными data science проектами с Европейской
организаций по ядерным исследованиям
Image: http://www.futuretimeline.net/, Video: http://www.businessinsider.com/ 4
План
› Что изучает физика?
› Как она изучает?
› Как ей в этом помогают компьютерные технологии и при чём здесь Яндекс?
Никита Казеев 5
Что такое физика?
› Получение новых знаний о мире
› Чем-то похожа на тестирование!
› Теория описывает мир – предсказывает эксперимент
› Эксперимент стремится проверить теорию
Никита Казеев 6
Зачем намфизика?
Они [компьютеры] стали возможными благодаря открытиям в фундаменталь-
ной физике, [...] развитию математической логики и потребности физиков-
ядерщиков в 1930е считать частицы.
C. H. Llewellyn Smith, директорЦЕРНа: янв. 1994 – янв. 1999
Никита Казеев 7
Нерешённые проблемы
Image credit: xkcd 9
Тёмная материя
› Наблюдаемые нами гравитационные
эффекты не согласуются с
наблюдаемым нами во Вселенной
количествомматерии
› Предположительно, существуют
неизвестные стабильные,
массивные, электрически
нейтральные частицы, из которых
состоит тёмная материя
Иллюстрация: xkcd 11
Где антиматерия?
› Мы почти не наблюдаем
антиматерию в природе
› Мы умеем получать антиматерию в
лаборатории
› Согласно текущей теории, при
Большом взрыве должно было
родиться примерно одинаково
материи и антиматерии
Иллюстрация: xkcd 12
Физика элементарных
частиц
Самая фундаментальная физика
Материя
Кристалл
Атом
Атомное ядро
Нуклон
Кварки
10-9 м
10-10 м
10-14 м
10-15 м
<�10 -18 м
Макроско-пическая
Иллюстрация: Gabriel Fitzpatrick, http://slideplayer.com/slide/903569/ 14
Стандартная модель
› Наше понимание физики на текущий
момент
› Не противоречит экспериментам
› Найти отклонение - мечта каждого
физика
Никита Казеев 15
Квантовая теория
Думаю, я смеломогу сказать, что квантовоймеханики никто не понимает.
РичардФейнман, один из основоположников квантовой теории, Нобелевский
лауреат по физике 1965 г.
Никита Казеев 16
Квантовая теория
Повторять одно и то же...
получать разный результат.
Никита Казеев 17
Квантовая теория
Повторять одно и то же...
получать разный результат.
Никита Казеев 17
Проверка новой гипотезы X
› Выбрать нулевую (самую проверенную, консервативную) гипотезу
› Предложить такие исходы, которые должны происходить очень редко в
соответствии с нулевой гипотезой, и гораздо чаще – в соответствии с
гипотезой X
› Измерить число событий и сделать вывод, какая гипотеза верна
Никита Казеев 18
Ускоритель
𝑚𝑐2 = 𝐸
Никита Казеев 19
Иллюстрация: http://atlasexperiment.org/ 20
Иллюстрация: Peter Krizan, B-physics: from the beginnings to B-factories http://charm.lebedev.ru/ 21
Детектор
ИллюстрацииNikon, LHCb collaboration 22
Обработка данных
Краткая история анализа
данных в физике
Галилей, XVI в.
› Опроверг теориюАристотеля, о том,
что более тяжелые тела падают
быстрее
› Измерял на глаз
› Вёл заметки на бумаге
Иллюстрация: heritage-history.com 25
Fermilab, 1976
Данные Анализ данныхИллюстрации: слева Fermilab, справа LBNL Image Database 96602983 26
LHCb, 2016
› Регистрирует 40 млн. столкновений
в секунду
› Использует компьютерную систему
для записи, фильтрации и анализа
данных
Иллюстрация: CERN 27
Краткая история анализа данных в физике
Интерлюдия: Яндекс и
ЦЕРН
Европейская организация по ядерным
исследованиям (ЦЕРН)
› Крупнейшая в мире лаборатория по
физике частиц
› Институты из более 100 стран
› Дипломатический иммунитет у
сотрудников (не у меня)
› Лучшая столовая из всех, где я бывал
Никита Казеев 29
МиссияЦЕРНа
Миссия ЦЕРНа была утверждена конвенцией в 1954 и основывается на 4-х
принципах:
› Наука.Поиск ответов на вопросы об устройстве Вселенной
› Технологии. Развитие технологий
› Коллаборация.Международно сотрудничество через науку
› Образование.Подготовка учёных завтрашнего дня
Никита Казеев 30
Миссия Яндекса (выдержка)
› Яндекс— технологическая компания. В основе наших сервисов лежат
сложные, уникальные, трудно воспроизводимые технологии. Именно они
позволяют нам делать то, что еще некоторое время назад люди приняли бы за
волшебство.
› Наука. Нам удалось собрать команду специалистов во многих областях науки
— вматематике, анализе данных, программировании, лингвистике и других
дисциплинах. Вычислительные возможности и алгоритмы Яндекса используют
и наши партнеры для проведения своих научных исследований—например, в
области ядерных исследований и геологоразведки.
Никита Казеев 31
Зачем большие данные?
Очень редкие процессы, вероятность< 10−10.
1 байт на 10 Гб.
Задача – их посчитать.
Никита Казеев 32
Пример: бозон Хиггса
𝑂 (1015) протон-протонных столкновений𝑂 (100) событий найдено
Никита Казеев 33
Эффективность фильтрации
› При отборе теряется известная доля нужных событий
› Сделать фильтрацию точнее позволяет получить тот же физический результат
за меньшее время работы детектора
Никита Казеев 34
Схема (LHCb)
Детектор Ферма GRID
PC
106
cобытий/с104
cобытий/сХранитO(1012)
Триггер
4·107
cобытий/с
Никита Казеев 35
Аппаратный триггер (LHCb)
› Быстро, грубо отбирает события
› 40МГц→ 1МГц
Иллюстрация: L0Workshop 11 Jan 2006, J. Laubser et al. 36
Триггерная ферма (LHCb)
› Сеть 100 Гб/с
› ∼ 1800 узлов› ∼ 25000физических CPU› ∼ 2 ГбОЗУ на ядро
Иллюстрация: University College Dublin, данные: https://cds.cern.ch/record/2011571/files/LHCb-TALK-2015-064.pdf 37
Реконструкция
Никита Казеев 38
Программный триггер (LHCb)
› Использует информацию о треках,
вершинах, типах частиц
› 1МГц→ 10 КГц
› Использует машинное обучение!
Никита Казеев 39
Машинное обучение
› Задача – сделать алгоритм, отличающий интересные события от неинтересных
› Можно вручную
› А можно сгенерировать примеры интересных событий и натренировать
классификатор.
Никита Казеев 40
Топологический триггер [Яндекс]
› Выбирает класс распадов𝐵-адрона с хотя бы 2 заряженными частицами
› Используется 60% анализов LHCb как первичная ступень отбора событий
› Эффективность увеличена от 5 до 50% в зависимости от канала распада
Никита Казеев 41
Топологический триггер [Яндекс]
Никита Казеев 42
Топологический триггер [Яндекс]
› Выбирает класс распадов𝐵-адрона с хотя бы 2 заряженными частицами
› Используется 60% анализов LHCb как первичная ступень отбора событий
› Эффективность увеличена от 5 до 50% в зависимости от канала распада в
сравнении с базовым решением
› N. B. 50% улучшение подразумевает, что физический результат, полученный за
3 года сбора данных старой моделью, мог бы быть получен за 2 года сбора
данных новой моделью.
Никита Казеев 43
Worldwide LHC Computing Grid
› Ресурсы для обработки данных БАК
› ∼ 170 дата-центров по всему миру› Работают на кастомном открытомПО
› Яндекс тоже предоставляет датацентр
Никита Казеев 44
LHCbGRID usage в числах [2015]
› ∼ 5𝑒6CPU› 19Пб на дисках› 34.9Пб на магнитных лентах
Никита Казеев 45
Предсказание использования данных [Яндекс]
› GRID позволяет хранить данные на жестких дисках (дорого) и магнитных
лентах (дешево)
› Мы использовали машинное обучение, чтобы предсказать, какие файлы не
буду востребованы
› при ошибке в 3% и минимальном числе реплик оставшихся на HDDфайлов
равном 2, можно освободить 40% дискового пространства
Никита Казеев 46
Hands-on
Можно прямо сейчас попробовать анализ физических данных. Ничего
устанавливать не требуется thanks to Everware.
https://clck.ru/AHgz9
Никита Казеев 47
Заключение
Большие данные и машинное обучение качественно
расширили круг доступных для изучения
физических явлений.
Никита Казеев 48
Резерв
Проекты Яндекса для физики
› Специализированные алгоритмыML –
https://github.com/yandexdataschool/hep_ml
› AWLCG site – https://indico.cern.ch/event/443234/contributions/
1098071/subcontributions/98322/attachments/1157845/1665533/
LHCC-20150922-LHCb.pdf
› Поисковая система по данным LHCb – http:
//iopscience.iop.org/article/10.1088/1742-6596/664/3/032019
› Система для мониторинга –
https://cds.cern.ch/record/2229730?ln=en
Никита Казеев 51
Полезные ссылки
› Объяснение fixion’а –
https://www.explainxkcd.com/wiki/index.php/1621:_Fixion
› Текущее состояние науки про отличие материи и антиматерии –
http://web.mit.edu/physics/news/physicsatmit/physicsatmit_
06_sciollafeature.pdf
› Объяснение фундаментальных взаимодействий “на пальцах” –
https://www.nobelprize.org/nobel_prizes/physics/laureates/
2004/popular.html
Никита Казеев 52
Ссылки на код с примерами
› Browser-based toy physics data analysis – http://www.hep.manchester.ac.
uk/u/parkes/LHCbAntimatterProjectWeb/LHCb_Matter_Antimatter_
Asymmetries/Homepage.html
› And another –
https://github.com/everware/everware-dimuon-example
Никита Казеев 53
Никита Казеев 54
Никита Казеев 55
Кладбище теорий
Model ℓ, γ Jets Emiss
T
∫L dt[fb−1] Mass limit Reference
Ext
radi
men
sion
sG
auge
boso
nsC
ID
MLQ
Hea
vyqu
arks
Exc
ited
ferm
ions
Oth
er
ADD GKK + g/q − 1-2 j Yes 4.7 n = 2 1210.44914.37 TeVMD
ADD non-resonant ℓℓ/γγ 2γ or 2e, µ − − 4.7 n = 3 HLZ NLO 1211.11504.18 TeVMS
ADD QBH→ ℓq 1 e,µ 1 j − 20.3 n = 6 1311.20065.2 TeVMth
ADD BH high Ntrk 2 µ (SS) − − 20.3 n = 6, MD = 1.5 TeV, non-rot BH 1308.40755.7 TeVMth
ADD BH high∑
pT ≥ 1 e, µ ≥ 2 j − 20.3 n = 6, MD = 1.5 TeV, non-rot BH ATLAS-CONF-2014-0166.2 TeVMth
RS1 GKK → ℓℓ 2 e,µ − − 20.3 k/MPl = 0.1 ATLAS-CONF-2013-0172.47 TeVGKK mass
RS1 GKK → ZZ → ℓℓqq/ℓℓℓℓ 2 or 4 e,µ 2 j or − − 1.0 k/MPl = 0.1 1203.0718845 GeVGKK mass
RS1 GKK →WW → ℓνℓν 2 e,µ − Yes 4.7 k/MPl = 0.1 1208.28801.23 TeVGKK mass
Bulk RS GKK → HH → bb̄bb̄ − 4 b − 19.5 k/MPl = 1.0 ATLAS-CONF-2014-005590-710 GeVGKK mass
Bulk RS gKK → tt 1 e,µ ≥ 1 b, ≥ 1J/2j Yes 14.3 BR = 0.925 ATLAS-CONF-2013-0520.5-2.0 TeVgKK mass
S1/Z2 ED 2 e,µ − − 5.0 1209.25354.71 TeVMKK ≈ R−1
UED 2 γ − Yes 4.8 ATLAS-CONF-2012-0721.41 TeVCompact. scale R−1
SSM Z ′ → ℓℓ 2 e,µ − − 20.3 ATLAS-CONF-2013-0172.86 TeVZ′ mass
SSM Z ′ → ττ 2 τ − − 19.5 ATLAS-CONF-2013-0661.9 TeVZ′ mass
SSM W ′ → ℓν 1 e,µ − Yes 20.3 ATLAS-CONF-2014-0173.28 TeVW′ mass
EGM W ′ →WZ → ℓν ℓ′ℓ′ 3 e,µ − Yes 20.3 ATLAS-CONF-2014-0151.52 TeVW′ mass
LRSM W ′R→ tb 1 e,µ 2 b, 0-1 j Yes 14.3 ATLAS-CONF-2013-0501.84 TeVW′ mass
CI qqqq − 2 j − 4.8 η = +1 1210.17187.6 TeVΛ
CI qqℓℓ 2 e,µ − − 5.0 ηLL = −1 1211.115013.9 TeVΛ
CI uutt 2 e,µ (SS) ≥ 1 b, ≥ 1 j Yes 14.3 |C | = 1 ATLAS-CONF-2013-0513.3 TeVΛ
EFT D5 operator − 1-2 j Yes 10.5 at 90% CL for m(χ) < 80 GeV ATLAS-CONF-2012-147731 GeVM∗
EFT D9 operator − 1 J, ≤ 1 j Yes 20.3 at 90% CL for m(χ) < 100 GeV 1309.40172.4 TeVM∗
Scalar LQ 1st gen 2 e ≥ 2 j − 1.0 β = 1 1112.4828660 GeVLQ mass
Scalar LQ 2nd gen 2 µ ≥ 2 j − 1.0 β = 1 1203.3172685 GeVLQ mass
Scalar LQ 3rd gen 1 e, µ, 1 τ 1 b, 1 j − 4.7 β = 1 1303.0526534 GeVLQ mass
Vector-like quark TT → Ht + X 1 e,µ ≥ 2 b, ≥ 4 j Yes 14.3 T in (T,B) doublet ATLAS-CONF-2013-018790 GeVT mass
Vector-like quark TT →Wb + X 1 e,µ ≥ 1 b, ≥ 3 j Yes 14.3 isospin singlet ATLAS-CONF-2013-060670 GeVT mass
Vector-like quark BB → Zb + X 2 e,µ ≥ 2 b − 14.3 B in (B,Y) doublet ATLAS-CONF-2013-056725 GeVB mass
Vector-like quark BB →Wt + X 2 e,µ (SS) ≥ 1 b, ≥ 1 j Yes 14.3 B in (T,B) doublet ATLAS-CONF-2013-051720 GeVB mass
Excited quark q∗ → qγ 1 γ 1 j − 20.3 only u∗ and d∗, Λ = m(q∗) 1309.32303.5 TeVq∗ mass
Excited quark q∗ → qg − 2 j − 13.0 only u∗ and d∗, Λ = m(q∗) ATLAS-CONF-2012-1483.84 TeVq∗ mass
Excited quark b∗ →Wt 1 or 2 e,µ 1 b, 2 j or 1 j Yes 4.7 left-handed coupling 1301.1583870 GeVb∗ mass
Excited lepton ℓ∗ → ℓγ 2 e, µ, 1 γ − − 13.0 Λ = 2.2 TeV 1308.13642.2 TeVℓ∗ mass
LRSM Majorana ν 2 e,µ 2 j − 2.1 m(WR ) = 2 TeV, no mixing 1203.54201.5 TeVN0 mass
Type III Seesaw 2 e,µ − − 5.8 |Ve |=0.055, |Vµ |=0.063, |Vτ |=0 ATLAS-CONF-2013-019245 GeVN± mass
Higgs triplet H±± → ℓℓ 2 e,µ (SS) − − 4.7 DY production, BR(H±± → ℓℓ)=1 1210.5070409 GeVH±± mass
Multi-charged particles − − − 4.4 DY production, |q| = 4e 1301.5272490 GeVmulti-charged particle mass
Magnetic monopoles − − − 2.0 DY production, |g | = 1gD 1207.6411862 GeVmonopole mass
Mass scale [TeV]10−1 1 10√s = 7 TeV
√s = 8 TeV
ATLAS Exotics Searches* - 95% CL ExclusionStatus: April 2014
ATLAS Preliminary∫L dt = (1.0 - 20.3) fb−1
√s = 7, 8 TeV
*Only a selection of the available mass limits on new states or phenomena is shown.
Никита Казеев 56
Videos credits
Sorry, couldn’t manage to overlay.
› Intro. Image: http://www.futuretimeline.net/, video:
http://www.businessinsider.com/
› Black hole: NASA
Никита Казеев 57