keybunch. Технология объединения данных
TRANSCRIPT
KeyBunchТехнологияобъединенияданных
Аналитика Big Data —это просто…
Визуализация в несколько кликов
Прогноз в 16 строк кода
… если у васподготовленывсе данные
Машинное обучение
Визуализация
Систематизацияданных
Связывание данных
Приведение к единомуформату
Устранение ошибок
Удаление дублей
Обычно схема предобработки данных выглядит так:
Чем больше таблиц, тем сложнее процесс
Время
Количество таблиц
2 3-4 5-6 7-8 9-10
Запроск базе
Запроспосложнее
Нужно писатьскрипты
Проектна неделю
Проектна месяц
15 таблиц - пределдля средней команды
Почему так происходит?
Так выглядят исходные таблицы с данными
300645... 175.654
... ...
№ счета ID на сайте
853565... 543.654
ivan1983 134
... ...
Логин Число друзей
dayryamm 295
986.442 Клик по ссылке
ID на сайте Тип события
175.654 Логин в VK
http://www...
Данные события
ivan1983
Ключи
Данные CRM
Данные веб-аналитики
Данные соцсетей
Почему так происходит?
Обычный подход: объединить все в одну большую таблицу
986.442 Клик по ссылке
ID на сайте Тип события
... ...
http://www...
Данные события
...
ivan1983 134
Логин Число друзей
... ...
300645... 175.654
№ счета ID на сайте
... ...
Как работает KeyBunch
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте:> 175.654> 652.942
Счета:> 2989302384929230430
Телефоны:> +7 (926) 948-24-54> +7 (922) 246-43-64
Логины в соцсетях:> ivan1983> vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
В чем разница?Разбор ситуаций
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Если у пользователя по несколько
ключей в каждой таблице
2 аккаунта, 3 счета, заходит на сайтс компьютера и телефона
Обычный подходСтрока-клон на каждую комбинациюключей (2 x 3 x 2)
KeyBunchКаждый ключ помещается находитсвое место в пользовательской истории,дублирования не происходит
1
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте:> 175.654
> 652.942Счета: > 2989302384929230430Телефоны:
> +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях:
> ivan1983 > vanya_vanya
Пользовательская история #4356454546
ИвановПетр Андреевич
Идентификаторы на сайте: > 175.654 > 652.942Счета: > 2989302384929230430Телефоны: > +7 (926) 948-24-54 > +7 (922) 246-43-64Логины в соцсетях: > ivan1983 > vanya_vanya
Нет ни одного типа ключей, который
бы был у каждого пользователя2Часть пользователей была на сайте,но не открыла счет, часть открыласчет, но не была на сайте
Обычный подходСобрать несколько таблиц, 1 пользователь можетбыть сразу в нескольких таблицах:
Веб-пользователи Пользователи, открывшие счет
KeyBunchПо каждому человеку собираются все доступныеключи, 1 пользователь = 1 пользовательская история
Данные по пользователю в одной
таблице потеряны3Не успели загрузить данные из CRM,
не сработали скрипты веб-аналитики
Обычный подход
В лучшем случае - отсутствующие данные будутзаполнены мусором (NULL, пустые строки, нули)
В худшем случае - все данные по пользователюбудут потеряны
KeyBunch
В лучшем случае - будет проведена склейка данныхпо другим ключам
В худшем случае - пользовательской истории будетприсвоен ярлык “Отсутствуют данные по ключу X”.Остальные данные будут на месте
В чем разница?Итог
Обычный подход
1. Взять данные из нескольких таблиц
2. Очистить от дублей внутри таблиц
3. Очистить от дублей между таблицами
4. Обработать случаи отсутствующих данных
5. Агрегировать строки, относящиесяк одному пользователю
6. Сделать нужные вычисления
KeyBunch
1. Взять данные из пользовательской истории
2. Сделать нужные вычисления
Результат: сложность растет линейно
Время
Количество таблиц
2 3-4 5-6 7-8 9-10
Обычныйподход
KeyBunch
Что это даетбизнесу?
Для анализа доступно больше
информации о пользователе —
точность предиктивной аналитики
повышается
Схема работы
Ваше хранилище данных
KeyBunch
KeyBunch генерируетскрипты предобработки
Склейка производитсяотдельным расширениемк СУБД
Уже готово
Ядро системы
Прототип пользовательского интерфейса
Расширения для СУБД:
MS SQL Server
PostgreSql
BigQuery
В разработке
Модули для СУБД
Vertica
ClickHouse
Веб-интерфейс
Состояние проекта
Спасибо за внимание
KeyBunch Технология объединения данных