![Page 1: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/1.jpg)
Задачи анализа данных в астрофизике
Докладчики:Александр Мещеряков (Институт космических исследований РАН)
Сергей Герасимов (ВМК МГУ)
![Page 2: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/2.jpg)
“Наш доклад посвящен описанию особенностей данных астрофизических наблюдений, важнейшим задачам современной астрофизики и тому, как машинное обучение и большие данные помогают решать эти задачи.”
![Page 3: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/3.jpg)
Наблюдательная космология: ключевые задачи
![Page 4: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/4.jpg)
Наблюдательная космология: ключевые задачи
Природа темной (невидимой) материи?Природа темной энергии (ускоренного расширения Вселенной)?
![Page 5: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/5.jpg)
❏ звезды❏ сверхновые❏ галактики❏ скопления галактик❏ квазары
Нужно построить 3D карту небесных объектов на небе
Классы объектов:
![Page 6: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/6.jpg)
Многоволновая астрономия
![Page 7: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/7.jpg)
Многоволновая астрономия
Основной объем данных - в оптическом диапазоне (наземные телескопы)
![Page 8: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/8.jpg)
снимок всего неба = 6×1012pix2
×32bit ×4 = 100Тб
0.3”
0.3” α,δ - координаты F - яркость t - время
пиксельизображения:
Большие данные в оптической астрономии
![Page 9: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/9.jpg)
Крупнейшие будущие проекты: LSST
http://www.lsst.org/
- “все небо за 3 дня”- камера 3200Mpix- 8.4m зеркало
телескопа- 37 ×109 объектов - 5.5 ×106 фотографий- 15 Pb данных (10лет)- 15 Тб/ночь- запуск в 2022 году
![Page 10: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/10.jpg)
Dark Energy Camera Legacy Survey: http://legacysurvey.org/viewer
![Page 11: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/11.jpg)
Как отделить звезду от галактики на картинке с телескопа? Как классифицировать объекты и измерять расстояния до них?
Пример: https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge
![Page 12: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/12.jpg)
Спектры небесных объектов
∼0.5% (5млн.) всех известных небесных объектов - тренировочная выборка для machine learning!
● точная классификация небесных объектов● точное измерение расстояний (по “красному
смещению”)
![Page 13: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/13.jpg)
Закон Хаббла. Расширяющаяся Вселенная.
с(Δλ/λ)= H * d d - расстояние до галактикиΔλ/λ - красное смещение c - скорость света H - постоянная Хаббла
![Page 14: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/14.jpg)
Красное смещение
Δλ/λ = zλ - длина волны
![Page 15: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/15.jpg)
Квазар Галактика
ЗвездаПо спектральным линиям
астрономы точно классифицируют объекты и измеряют расстояния
до галактик.
![Page 16: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/16.jpg)
Изображения неба в разных фильтрах: ∼109 объектов в небесных обзорах - целевая выборка для задач машинного обучения.
Спектр - детальная информация, доступна для ∼0.5% (5млн.) всех объектов. Спектральные каталоги - основная тренировочная выборка.
Изображения и спектры небесных объектов
![Page 17: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/17.jpg)
Продолжение следует ..
![Page 18: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/18.jpg)
Особенности анализа данных небесных обзоров
● Число атрибутов - порядка 500● Необходимость в оценке достоверности прогноза каждого
индивидуального прогноза● Отличающиеся распределения входных атрибутов в обучающей и
целевой выборках● Наличие значений ошибок измерений в качестве атрибутов
![Page 19: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/19.jpg)
Оценка качества модели прогнозирования красного смещения
![Page 20: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/20.jpg)
Алгоритм прогнозирования красного смещения
● Random Forest● Gradient Boosting● XGBoost (в работе) ● Deep Learning (планируется)
![Page 21: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/21.jpg)
Результаты: Δz_norm_err
![Page 22: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/22.jpg)
Оценка достоверности прогноза
z1=0.1 z2=0.1 z3=0.3 z4=0.3 z5=0.4 z6=0.8
● Восстановление плотности вероятности по значениям прогнозов деревьев, входящих в ансамбль (например, гистограмма из 200 бинов).
● Прогноз: zph=∑pizi● Достоверность прогноза: zConf - доля прогнозов деревьев ансамбля,
попавших в доверительный интервал zph(выбирается), например, ±3% - интервал (zph-0.03,zph+0.03)
![Page 23: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/23.jpg)
Примеры
![Page 24: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/24.jpg)
Близкие (яркие) объекты
![Page 25: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/25.jpg)
Среднеудаленные объекты Далекие объекты
![Page 26: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/26.jpg)
Распределения выборок
psp(X)≠pph(X)
Спектральная выборка
Фотометрическая выборка
обучающая тестовая
целеваяконтрольная
с разметкой целевой переменной
без разметки целевой переменной
Как узнать pph(x)/psp(x) для каждой точки x обучающей выборки?
![Page 27: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/27.jpg)
Метод трансформации тренировочной выборки
http://image.diku.dk/jank/papers/ASCOM2015.pdf
тренировочная целевая
вес объекта = 2/4 = 0.5
k=4
![Page 28: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/28.jpg)
Пример
![Page 29: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/29.jpg)
Метод трансформации тренировочной выборки
● Выбор атрибутов для transfer learning - наиболее информативные атрибуты для прогноза
● Необходимость подбора числа соседей k● Метод может быть использован как для улучшения точности за счет
трансформации (взвешивания) тренировочной выборки, так и для создания контрольной выборки.
● На данный момент достигли лишь небольшого улучшения точности.
![Page 30: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/30.jpg)
Система обработки и анализа данных небесных обзоров
Цель:
повышение точности прогнозирования и классификации на данных небесных обзоров за счет:
● унифицированной обработки сырых многоволновых данных небесных обзоров (в т.ч. самых “свежих”, по которым отсутствуют каталоги)
● построения моделей прогнозирования и классификации на многоволновых данных
![Page 31: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/31.jpg)
Система обработки и анализа данных небесных обзоров
![Page 32: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/32.jpg)
MapReduce конвейер
![Page 33: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/33.jpg)
Предстоящие подзадачи● Конвейер для обработки сырых изображений
○ Распараллеливание целевой области на сфере в MapReduce
● Хранение многоволновых каталогов и “виджетов”○ Кросс-коррелирование данных нескольких каталогов
● Распределенное машинное обучение○ Не полностью пересекающиеся каталоги (пропущенные значения)○ Учет ошибок измерений в моделях○ Deep learning
HEALPix
![Page 34: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа](https://reader030.vdocuments.mx/reader030/viewer/2022013113/58efad511a28ab2a758b45f9/html5/thumbnails/34.jpg)
Спасибо за внимание!
Александр Мещеряков,к.ф.-м.н.н.с.
Институт Космических Исследований
Валентина Глазкова,к.ф.-м.н., ассистент ВМК МГУ
лектор Технопарка Mail.Ru
Сергей Герасимов м.н.с. Лаборатории технологий программирования
ВМК МГУ,лектор курса “Большие данные” (ВМК МГУ)
Chief Data Scientist, Bank HCF
Иван Колосов, магистрант 1-го годапо программе “Интеллектуальный анализ
данных”, ВМК МГУ
Евгений Глотов, магистрант 1-го года по программе “Интеллектуальный анализ
данных”, ВМК МГУ
Галия Юлчурина, студент 3-го курсаВМК МГУ
www.astromining.orgBig Data & Machine Learning for Astrophysics