keybunch. Технология объединения данных

18
KeyBunch Технология объединения данных

Upload: nikolay-suschenko

Post on 21-Jan-2017

198 views

Category:

Technology


4 download

TRANSCRIPT

Page 1: KeyBunch. Технология объединения данных

KeyBunchТехнологияобъединенияданных

Page 2: KeyBunch. Технология объединения данных

Аналитика Big Data —это просто…

Визуализация в несколько кликов

Прогноз в 16 строк кода

Page 3: KeyBunch. Технология объединения данных

… если у васподготовленывсе данные

Машинное обучение

Визуализация

Систематизацияданных

Связывание данных

Приведение к единомуформату

Устранение ошибок

Удаление дублей

Page 4: KeyBunch. Технология объединения данных

Обычно схема предобработки данных выглядит так:

Page 5: KeyBunch. Технология объединения данных

Чем больше таблиц, тем сложнее процесс

Время

Количество таблиц

2 3-4 5-6 7-8 9-10

Запроск базе

Запроспосложнее

Нужно писатьскрипты

Проектна неделю

Проектна месяц

15 таблиц - пределдля средней команды

Page 6: KeyBunch. Технология объединения данных

Почему так происходит?

Так выглядят исходные таблицы с данными

300645... 175.654

... ...

№ счета ID на сайте

853565... 543.654

ivan1983 134

... ...

Логин Число друзей

dayryamm 295

986.442 Клик по ссылке

ID на сайте Тип события

175.654 Логин в VK

http://www...

Данные события

ivan1983

Ключи

Данные CRM

Данные веб-аналитики

Данные соцсетей

Page 7: KeyBunch. Технология объединения данных

Почему так происходит?

Обычный подход: объединить все в одну большую таблицу

986.442 Клик по ссылке

ID на сайте Тип события

... ...

http://www...

Данные события

...

ivan1983 134

Логин Число друзей

... ...

300645... 175.654

№ счета ID на сайте

... ...

Page 8: KeyBunch. Технология объединения данных

Как работает KeyBunch

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте:> 175.654> 652.942

Счета:> 2989302384929230430

Телефоны:> +7 (926) 948-24-54> +7 (922) 246-43-64

Логины в соцсетях:> ivan1983> vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Page 9: KeyBunch. Технология объединения данных

В чем разница?Разбор ситуаций

Page 10: KeyBunch. Технология объединения данных

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Если у пользователя по несколько

ключей в каждой таблице

2 аккаунта, 3 счета, заходит на сайтс компьютера и телефона

Обычный подходСтрока-клон на каждую комбинациюключей (2 x 3 x 2)

KeyBunchКаждый ключ помещается находитсвое место в пользовательской истории,дублирования не происходит

1

Page 11: KeyBunch. Технология объединения данных

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте:> 175.654

> 652.942Счета: > 2989302384929230430Телефоны:

> +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях:

> ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Нет ни одного типа ключей, который

бы был у каждого пользователя2Часть пользователей была на сайте,но не открыла счет, часть открыласчет, но не была на сайте

Обычный подходСобрать несколько таблиц, 1 пользователь можетбыть сразу в нескольких таблицах:

Веб-пользователи Пользователи, открывшие счет

KeyBunchПо каждому человеку собираются все доступныеключи, 1 пользователь = 1 пользовательская история

Page 12: KeyBunch. Технология объединения данных

Данные по пользователю в одной

таблице потеряны3Не успели загрузить данные из CRM,

не сработали скрипты веб-аналитики

Обычный подход

В лучшем случае - отсутствующие данные будутзаполнены мусором (NULL, пустые строки, нули)

В худшем случае - все данные по пользователюбудут потеряны

KeyBunch

В лучшем случае - будет проведена склейка данныхпо другим ключам

В худшем случае - пользовательской истории будетприсвоен ярлык “Отсутствуют данные по ключу X”.Остальные данные будут на месте

Page 13: KeyBunch. Технология объединения данных

В чем разница?Итог

Обычный подход

1. Взять данные из нескольких таблиц

2. Очистить от дублей внутри таблиц

3. Очистить от дублей между таблицами

4. Обработать случаи отсутствующих данных

5. Агрегировать строки, относящиесяк одному пользователю

6. Сделать нужные вычисления

KeyBunch

1. Взять данные из пользовательской истории

2. Сделать нужные вычисления

Page 14: KeyBunch. Технология объединения данных

Результат: сложность растет линейно

Время

Количество таблиц

2 3-4 5-6 7-8 9-10

Обычныйподход

KeyBunch

Page 15: KeyBunch. Технология объединения данных

Что это даетбизнесу?

Для анализа доступно больше

информации о пользователе —

точность предиктивной аналитики

повышается

Page 16: KeyBunch. Технология объединения данных

Схема работы

Ваше хранилище данных

KeyBunch

KeyBunch генерируетскрипты предобработки

Склейка производитсяотдельным расширениемк СУБД

Page 17: KeyBunch. Технология объединения данных

Уже готово

Ядро системы

Прототип пользовательского интерфейса

Расширения для СУБД:

MS SQL Server

PostgreSql

BigQuery

В разработке

Модули для СУБД

Vertica

ClickHouse

Веб-интерфейс

Состояние проекта

Page 18: KeyBunch. Технология объединения данных

Спасибо за внимание

KeyBunch Технология объединения данных