hadoop > cascading -> cascalog (short version)

Hadoop -> Cascading -> Cascalog

Обо мне

● Андрей Панфилов● Java-разработчик● Интересуюсь: BigData, ФП

Проблематика

● $600 стоимость диска на который поместится вся музыка в мире

● 5B мобильников использовалось в 2010● 30B расшариваний всякой фигни в Facebook каждый

месяц в 2011-м году● 40% прогнозируемого роста данных во всём мире в год

VS 5% роста ИТ-расходов во всём мире (2011 год)● 235 терабайт данных собрано Библиотекой Конгресса

США в апреле 2011-го● 15 из 17 секторов экономики в США имеют больше

данных, хранящихся на компанию, чем Библиотека Конгресса США

http://bit.ly/big-data-mk-2011

http://bit.ly/big-data-mk-2011

MapReduce история вопроса

● 2004: Опубликована работа “MapReduce: Simplified Data Processing on Large Clusters” (Джеффри Дин и Санжай Гемават)

● 2005: Начат проект Hadoop (Дуг Каттинг и Майк Кафарелла)

● 2005 - 2006: Hadoop развивался усилиями двух разработчиков — Каттинга и Майка Кафареллы в режиме частичной занятости, сначала в рамках проекта Nutch, затем — проекта Lucene.

● 2006: Yahoo пригласила Каттинга возглавить команду разработки (выделение Hadoop в отдельный проект).

● 2008: Yahoo запустила кластер на 10K ядер, управляемую средствами Hadoop.

http://ru.wikipedia.org/wiki/Hadoop



Map & Reduce

● Map x2 to (1 2 3 4 5) --> (2 4 6 8 10)● Reduce "min" to (2 4 6 8 10) --> (2)

http://www.byzantinereality.com/2009/2/Thoughts-on-MapReduce

http://www.byzantinereality.com/2009/2/Thoughts-on-MapReduce

Apache Hadoop

● Java based open source framework● Common (утилиты), HDFS, MapReduce● http://en.wikipedia.org/wiki/Hadoop

http://en.wikipedia.org/wiki/Hadoop

http://en.wikipedia.org/wiki/Hadoop

Cascading

Cascading is a data processing API and processing query planner used for defining, sharing, and executing data-processing workflows on a single computing node or distributed computing cluster.

http://docs.cascading.org/cascading/2.0/userguide/htmlsingle/



Cascading

Cascading с разных точек зрения● бизнеса: управление бизнес процессами для оркестрации

потоков выполнения (аля BPM / BPEL)● системного интегратора: система интеграции гетерогенных

источников данных и платформ вычисления● data scientist: направленный ациклический граф

подчиняющийся закону Амдала*● data architect: физический план управления большими

потоками данных● архитектора: язык паттернов, похожий на план водопровода

или проектирование принципиальных схем устройств● разработчика: связывающий API для скалы, кложура, пайтона,

руби, джава● админа: JAR файл (лежит в Maven Repo)

http://www.slideshare.net/pacoid/cascading-for-the-impatient

http://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD_%D0%90%D0%BC%D0%B4%D0%B0%D0%BB%D0%B0



*для любознательных

Закон Амдала:В случае, когда задача разделяется на несколько частей, суммарное время её выполнения на параллельной системе не может быть меньше времени выполнения самого длинного фрагмента.

История

● Крис Венсель (Chris Wensel)● Начал разработку Cascading’а в начале

2008 (запись в блоге)● Основал компанию Concurrent в

середине 2008● В 2011 Concurrent получила инвестиции

для дальнейшего развития Cascading’а● 2008 20 KLOC● 2013 106 KLOC● 3 контрибьютера

http://www.manamplified.org/archives/2008/01/cascading.html

Общие сведения

● open source https://github.com/cwensel/cascading

● лицензия Apache License 2.0● коммерческая поддержка http://www.

concurrentinc.com/support/

https://github.com/cwensel/cascading



http://www.concurrentinc.com/support/



Аналоги

● Oozie● Crunch● Apache Falcon● Cloudera Morphlines

Основные понятия

● Pipes / трубы (потоки данных)● Filters / фильтры (операции над данными)

Основные понятия

Набор разных pipe’ов позволяет производить над данными следующие операции*:● split● merge● group by● join

* Для каждого кортежа или для группы кортежей.

Основные понятия: tuples

Cascading оперирует кортежами

(“the man sat”, 25)(“hello dolly”, 42)(“say hello”, 1)(“the woman sat”, 10)


[“sentence”, “value”](“the man sat”, 25)(“hello dolly”, 42)(“say hello”, 1)(“the woman sat”, 10)


● Аналог: строка в таблице базы данных.● В каскадинге для кортежей есть

специальный тип: cascading.tuple.Tuple

● Внутри это List<Object> elements;

Основные понятия: fields

[“sentence”, “value”](“the man sat”, 25)(“hello dolly”, 42)(“say hello”, 1)(“the woman sat”, 10)


● Определяет имя элемента кортежа.● В каскадинге для полей есть специальный

тип: cascading.tuple.Fields● Поле может быть строкой, целым

числом или специальным значением из предопределённого множества.

● Специальные значения нужны для выполнения шаблонных операций.


Специальные значения:ALL, RESULTS, REPLACE, SWAP, ARGS, GROUP, VALUES, UNKNOWN, NONE

Основные понятия: pipes

● Это узел в котором может что-то происходить с кортежами (в документации нет чёткого определения pipe’а).

● В каскадинге для pipe’ов есть специальный тип: cascading.pipe.Pipe


Типы pipe’ов:● Класс Pipe: нужен для создания и

именования пайпа (планировщик использует имена для соединения с tap’ами).

● Подкласс SubAssembly: повторное использование сборок pipe’ов.

● Шесть основных подклассов: Each, Merge, GroupBy, Every, CoGroup, HashJoin.


Each:● операции основанные на содержимом

кортежа: анализ, трансформация или фильтрация

● оперирует конкретным кортежем из потока● применяет функции или фильтры такие как

условная замена определённых значений полей, удаление кортежей значение полей которых выходит за заданные пределы…

● откалывание отдельной ветки потока данных● удаление ненужных полей из потока данных


Merge:● слияние нескольких потоков данных в один● принимает несколько потоков с идентичными

полями● отдаёт один поток с кортежами из входных

потоков в произвольном порядке


GroupBy:● группирует кортежи потока данных по общим

значениям указанных полей● если на вход подать несколько потоков, то

перед группировкой происходит слияние (наборы полей потоков должны быть одинаковые)

● обычно группировку делают перед операциями “aggregator” или “buffer”

● по сути сортирует все кортежи в группы (в группах кортежи в произвольном порядке)


Every:● оперирует сгруппированными кортежами● используется для применения операций

“aggregator” или “buffer”● используется только после GroupBy или

CoGroup● можно несколько операций “aggregator”

ставить подряд (для “buffer” не работает)


CoGroup:● выполняет операцию join на нескольких

входных потоках данных или на самом себе● похож на SQL join (тоже может быть inner,

outer, left, или right)● отдаёт поток данных сгруппированный по

указанным полям● выходной поток данных содержит все поля

входных потоков● входные потоки не могут содержать

одинаковые имена полей


HashJoin:● выполняет операцию “join” на нескольких

входных потоках данных или на самом себе● похож на SQL join (тоже может быть inner,

outer, left, или right)● отдаёт поток данных в произвольном прядке● если не нужна группировка, быстрее чем

CoGroup (при условии нескольких маленьких входных потоков и не более одного большого)

Основные понятия: pipe assembly

Простая последовательность pipe’ов без разветвлений и слияний.

Основные понятия: tuple stream

Последовательность кортежей проходящая через ветвь pipe’ов или сборку (assembly).

Паттерны работы с потоками

● Split● Merge● Join


Split: ● Разделение данных из одного

потока на несколько потоков. ● К одному Pipe’у присоединяется

несколько последующих Pipe’ов.


Merge: ● Слияние нескольких потоков

данных в один.● Несколько Pipe’ов

присоединяются к Pipe’у типа Merge или GroupBy.


Join: ● Комбинирование данных из

нескольких потоков с разными полями по общим полям (аналог SQL join).

● Несколько Pipe’ов присоединяются к Pipe’у типа HashJoin или CoGroup.

Основные понятия: tap

“кран” -- источник данных

Основные понятия: sink

“сток” -- пункт назначения данных

Основные понятия: flow

flow = pipe assemblies + source taps + sink taps

(краны + трубы + стоки)


● Важный момент: flow -- это информация о том где брать данные, как обрабатывать и куда складывать результат.

● Где и куда должны существовать в момент выполнения.

● После создания, flow нужно выполнить в одной из платформ.

● Flow можно соединять в цепочки.


Платформы:● Hadoop● Local

Операции

аля юникс команды: sed, grep, sort, uniq и awk

Основные понятия: function

● Ожидает на вход один кортеж.● Хороший тон: указать набор

входных и выходных полей.● Возвращает ноль или больше

кортежей.● Используется с пайпом Each,

который может следовать после пайпа любого типа.

Основные понятия: function

Примеры:● parser● marshallers● преобразователи (одних

полей в другие)

Основные понятия: filter

● Ожидает на вход один кортеж.● Возвращает true или false

(выбрасываем кортеж из потока или нет).

● Используется с pipe’ом Each, который может следовать после pipe’а любого типа.

Основные понятия: aggregator

● Ожидает на вход группу кортежей (вывод pipe’а GroupBy или CoGroup).

● Возвращает ноль или несколько кортежей для каждой входной группы кортежей.

● Примеры: Average, Count, First, Last, Max, Min, Sum

Основные понятия: buffer

● Ожидает на вход группу кортежей (вывод pipe’а GroupBy или CoGroup).

● Возвращает ноль или несколько кортежей для каждой входной группы кортежей.

● Получает всю группу кортежей сразу (доступ через итератор).

● Удобно для вставки кортежа в группу.

Как происходит разделение на Map и Reduce

Hadoop MapReduce Job Planner

Тестирование

● Юнит-тесты для функций, фильтров, агрегаторов и буфферов (cascading.CascadingTestCase).

● cascading.operation.Debug -- фильтр, печатает кортеж в stdout или stderr.

● запуск в локальном режиме.● пишите логи (в коде своих операций)

Debug

● в локальном режиме:https://github.com/ScaleUnlimited/cascading.utilsfinal FlowRunner runner = new FlowRunner();

runner.addFlow(flow);

runner.complete();

● One node Hadoop cluster:export HADOOP_OPTS = "-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=8788"

hadoop jar your-casc.jar <параметры>

https://github.com/ScaleUnlimited/cascading.utils

https://github.com/ScaleUnlimited/cascading.utils

Генерация диаграмм

Deployment

Всё точно так же как если бы вы писали Hadoop

MapReduce Job.

Особенности работы с данными

● файлы: лучше мало больших, чем много маленьких.

● S3 + много маленьких -> s3distcp.

Ещё один шаг вперёд

● Cascading -- это высокоуровневый API● Меньше кода и проще проектировать

сложную обработку данных (по сравнению с обычным MapReduce)

● Следующий логичный шаг -- DSL● Выразительный● Гибкий● Правильная идеология

Тааадааам!

cascalog

Раскрываем тайну названия

cascalog

Datalog

● Декларативный логический язык программирования.

● Синтаксически является подмножеством Пролога.

● Часто используется как язык запросов к дедуктивным базам данных (более выразительный чем SQL).

Datalog

1 родил(Авраам,Исаак).2 родил(Исаак,Иаков).3 предок(X,Y) :- родил(X,Y).4 предок(X,Y) :-5 родил(X,Z),предок(Z,Y).6 ?- предок(Авраам,X).1 - Авраам родитель Исаака; 2 - Исаак родитель Иакова; 3, 4, 5 - правила определения предков; структура правила: <голова> :- <тело>; 3 - X предок Y’а если известно что X родитель Y’а; 4, 5 - X предок Y’а если известно что X родитель Z’а и Z предок Y’а; 6 - запрос “найти всех людей у кого в предках Авраам”, результат: Исаак и Иаков.

История

● Натан Марц (Nathan Marz)● Первый коммит в гитхабе весной 2010

(пруф)● Прародитель● 2010 1 KLOC● 2013 9 KLOC● 29 контрибьютеров

https://github.com/nathanmarz/cascalog/commit/ca89187d513159e03ee3d327690091d12515a625#diff-0fff143854a4f5c0469a3819b978a483

https://github.com/waratuman/cascading-clojure

https://github.com/waratuman/cascading-clojure

Общие сведения

● open source https://github.com/nathanmarz/cascalog

● лицензия Apache License 2.0● коммерческая поддержка не нашёл

https://github.com/nathanmarz/cascalog



Пример

(def age[;; [person age] ["alice" 28] ["bob" 33] ["gary" 28] ["john" 27] ["luanne" 36]])

Пример

(?<- ;; определение и выполнение запроса(stdout) ;; куда попадает вывод[?person ?a2] ;; результат (переменные)

(age ?person ?age) ;; предикат - генератор(< ?age 30) ;; предикат - фильтр(* 2 ?age :> ?a2)) ;; предикат - операция

REPL session

Несколько примеров в консоле.

Пример: Word Count

Проблемы cascalog’а

● Высокий порог вхождения (clojure).● Мало документации.● В Украине практически нет людей с

опытом использования сабжа.● Нет формальной грамматики

описывающей язык запросов.

Сообщество

● Гугл группа cascalog’а.● Гугл-группа cascading’а.● Как ни странно на stackoverflow.com

практически ничего нет о сабжах.● Митапы в Сан-Франциско и Лондоне.

https://groups.google.com/forum/#!forum/cascalog-user

https://groups.google.com/forum/#!forum/cascalog-user

https://groups.google.com/forum/#!forum/cascading-user

https://groups.google.com/forum/#!forum/cascading-user

http://stackoverflow.com

Кто использует cascalog

Развитие

● Каскалог 2.0 не будет привязан к каскадингу.

● Storm -- одна из возможных платформ.

Когда использовать

● Данных должно быть ОЧЕНЬ много (не помещаются в память).

● Исторические данные (логи).● Данные всё время добавляются.

Документация

● Отличный User Guide по каскадингу.● Замечательный туториал по каскадингу.● Вики по каскалогу в гитхабе.


http://docs.cascading.org/impatient/

https://github.com/nathanmarz/cascalog/wiki

https://github.com/nathanmarz/cascalog/wiki

Конец

Вопросы[email protected]

mailto:[email protected]

mailto:[email protected]

hadoop > cascading -> cascalog (short version)

Technology