keybunch. Технология объединения данных

Post on 21-Jan-2017

198 Views

Category:

Technology

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

KeyBunchТехнологияобъединенияданных

Аналитика Big Data —это просто…

Визуализация в несколько кликов

Прогноз в 16 строк кода

… если у васподготовленывсе данные

Машинное обучение

Визуализация

Систематизацияданных

Связывание данных

Приведение к единомуформату

Устранение ошибок

Удаление дублей

Обычно схема предобработки данных выглядит так:

Чем больше таблиц, тем сложнее процесс

Время

Количество таблиц

2 3-4 5-6 7-8 9-10

Запроск базе

Запроспосложнее

Нужно писатьскрипты

Проектна неделю

Проектна месяц

15 таблиц - пределдля средней команды

Почему так происходит?

Так выглядят исходные таблицы с данными

300645... 175.654

... ...

№ счета ID на сайте

853565... 543.654

ivan1983 134

... ...

Логин Число друзей

dayryamm 295

986.442 Клик по ссылке

ID на сайте Тип события

175.654 Логин в VK

http://www...

Данные события

ivan1983

Ключи

Данные CRM

Данные веб-аналитики

Данные соцсетей

Почему так происходит?

Обычный подход: объединить все в одну большую таблицу

986.442 Клик по ссылке

ID на сайте Тип события

... ...

http://www...

Данные события

...

ivan1983 134

Логин Число друзей

... ...

300645... 175.654

№ счета ID на сайте

... ...

Как работает KeyBunch

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте:> 175.654> 652.942

Счета:> 2989302384929230430

Телефоны:> +7 (926) 948-24-54> +7 (922) 246-43-64

Логины в соцсетях:> ivan1983> vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

В чем разница?Разбор ситуаций

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Если у пользователя по несколько

ключей в каждой таблице

2 аккаунта, 3 счета, заходит на сайтс компьютера и телефона

Обычный подходСтрока-клон на каждую комбинациюключей (2 x 3 x 2)

KeyBunchКаждый ключ помещается находитсвое место в пользовательской истории,дублирования не происходит

1

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте:> 175.654

> 652.942Счета: > 2989302384929230430Телефоны:

> +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях:

> ivan1983 > vanya_vanya

Пользовательская история #4356454546

ИвановПетр Андреевич

Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya

Нет ни одного типа ключей, который

бы был у каждого пользователя2Часть пользователей была на сайте,но не открыла счет, часть открыласчет, но не была на сайте

Обычный подходСобрать несколько таблиц, 1 пользователь можетбыть сразу в нескольких таблицах:

Веб-пользователи Пользователи, открывшие счет

KeyBunchПо каждому человеку собираются все доступныеключи, 1 пользователь = 1 пользовательская история

Данные по пользователю в одной

таблице потеряны3Не успели загрузить данные из CRM,

не сработали скрипты веб-аналитики

Обычный подход

В лучшем случае - отсутствующие данные будутзаполнены мусором (NULL, пустые строки, нули)

В худшем случае - все данные по пользователюбудут потеряны

KeyBunch

В лучшем случае - будет проведена склейка данныхпо другим ключам

В худшем случае - пользовательской истории будетприсвоен ярлык “Отсутствуют данные по ключу X”.Остальные данные будут на месте

В чем разница?Итог

Обычный подход

1. Взять данные из нескольких таблиц

2. Очистить от дублей внутри таблиц

3. Очистить от дублей между таблицами

4. Обработать случаи отсутствующих данных

5. Агрегировать строки, относящиесяк одному пользователю

6. Сделать нужные вычисления

KeyBunch

1. Взять данные из пользовательской истории

2. Сделать нужные вычисления

Результат: сложность растет линейно

Время

Количество таблиц

2 3-4 5-6 7-8 9-10

Обычныйподход

KeyBunch

Что это даетбизнесу?

Для анализа доступно больше

информации о пользователе —

точность предиктивной аналитики

повышается

Схема работы

Ваше хранилище данных

KeyBunch

KeyBunch генерируетскрипты предобработки

Склейка производитсяотдельным расширениемк СУБД

Уже готово

Ядро системы

Прототип пользовательского интерфейса

Расширения для СУБД:

MS SQL Server

PostgreSql

BigQuery

В разработке

Модули для СУБД

Vertica

ClickHouse

Веб-интерфейс

Состояние проекта

Спасибо за внимание

KeyBunch Технология объединения данных

top related