asakusa frameworkとscalaの密かな関係

2016/10/8

Asakusa FrameworkScala

ScalaSummit 2016

2

1.

ScalaAsakusaFW

2.ScalaSparkAsakusaFW3.ScalaSparkAsakusaFW4.AsakusaFW5.

3

Twitter ID@hishidama

http://hiroba.dqx.jp/sc/character/1091135261820/

AsakusaFWDQ10

4

2004 Scala2006 Apache HadoopJava62010 2 HadoopHBase2010 SparkOSS2010 Scala2011 3 Asakusa Framework2011 7 Spark2012 2 SIer2012 8 DQ102014 2 Apache Spark2014 3 Java8

5

Hadoop1. 2. l Hadoop

http://techblog.yahoo.co.jp/architecture/hadoop/ 6635 53470

l 8 33

3. Hadoopl Twitter

6

HBase1. HadoopNoSQLHBase

RDBHBase

HBaseHadoop

7

NoSQLNoSQLNot Only SQL

SQLRDBDBDB

CAPCconsistencyAavailabilityPpartition toleranceCANoSQLCPNoSQL CA

8

Scala1. HBaseScala

Better JavaScala

import

2. Scala ScalaSeq

orz

9

Asakusa Framework1. Hadoop

HadoopMapReduce Hive Pig Cascading Huahin FrameworkAsakusaFW AZAREA ClusterAsakusaFW

AsakusaFW

10

Spark1. Hadoop

SparkScala

Mesos

SparkHadoop

11

ScalaSparkAsakusaFW

12

Scala

13

Apache Hadoop1/3lHDFSlMapReducelYARN

1.2.MapReducejar

14

Apache Hadoop2/3

DB

app

app

Hadoop

Hadoop

app

app

15

Apache Hadoop3/3Hadoopl Hadoop

HadooplMapReduce

l

16

Apache SparklRDDScalal

lHDFS

AMPLabDatabrickslhttps://databricks.com/spark/aboutlApache Spark

17

Asakusa FrameworklJavaDSLlHadoopSparkM3BP

l http://www.asakusafw.com/

18

ScalaSparkAsakusaFW

19

Scalaval operator = new MyOperator

val s0 : Stream[Data] =

val s1 = s0.filter(operator.f)

val s2 = s1.map(operator.m)

val out1 = s2.toSeq

20

ScalaMyOperatorclass MyOperator {

def f(data: Data) : Boolean =

data.getValue() % 2 == 0

def m(data: Data) : Data =

Data(data.getValue() + 1)

}

21





val out1 = s2.toSeq

DAG

22

DAG1/2l ER

23

DAG2/2Directed Acyclic Graphll

24





val out1 = s2.toSeq

s0 filter

f map m

out1

25

Apache Sparkval sc = new SparkContext()

val operator = new MyOperator

val s0 : RDD[Data] = sc.



s2.saveAsTextFile(out1)

MyOperatorScala

s0 filter

f map m

out1

26

Asakusa FrameworkIn s0 = ; //

Out out1 = ; //

MyOperatorFactory operator = new MyOperatorFactory();

Source s1 = operator.f(s0).out;

Source s2 = operator.m(s1).out;

out1.add(s2);

s0 @Branch

f @Update

m out1

27

Asakusa FrameworkMyOperatorFactorypublic abstract class MyOperator {

@Branch

public Filter f(Data data) {

return (data.getValue() % 2 == 0) ? Filter.OUT : Filter.MISSED;

}

@Update

public void m(Data data) {

data.setValue(data.getValue() + 1);

}

}

MyOperatorFactory

28

DAG

DAG

s0 filter

f map m

out1

s0 @Branch

f @Update

m out1

29

1unionjoinzip

s0

out1

s1

30

1 unionJava8 Stream API

Stream out = Stream.concat(Stream.concat(s0, s1), s2);

Scala Spark

val out = s0 ++ s1 ++ s2

AsakusaFW

Source out = core.confluent(s0, s1, s2);

1,abc

2,def

1,foo

3,bar

1,abc

2,def

1,foo

3,bar

31

1 joinJava8 Stream API

Scala

Spark val out = s0.join(s1)

AsakusaFW

Source out = operator.join(s0, s1).joined; // @MasterJoin

1,abc

2,def

1,foo

3,bar

1,abc,foo

32

1 cogroupJava8 Stream API

Scala

Spark val out = s0.cogroup(s1)

AsakusaFW

Source out = operator.group(s0, s1).out; // @CoGroup

1,abc

2,def

1,foo

3,bar

2,def,null 1,abc,foo

3,null,bar

33

1zip zipJava8 Stream API

Scala Spark

val out = s0.zip(s1)

AsakusaFW

1,abc

2,def

1,foo

3,bar

zip 2,def,3,bar 1,abc,1,foo

34

2duplicate

s0

2 out2

1 out1

35

2duplicate duplicateJava8 Stream API

Scala TraversableOnceSpark

Spark

val out1 = s0.map(operator.m1) val out2 = s0.map(operator.m2)

AsakusaFW

Source out1 = operator.m1(s0).out; Source out2 = operator.m2(s0).out;

36

3branch

s0

out2

out1

37

3 branchJava8 Stream API

Scala Spark

filter

AsakusaFW

// @Branch Branch result = operator.branch(s0); Source out1 = result.out1; Source out2 = result.out2; Source out3 = result.out3;

38

AsakusaDAGDAG

@Convert

@CoGroup

@Summarize

@CoGroup

@MJoinUpdate

1 252

@MJoinUpdate

39

Java8 Stream API

ListStream Stream

Scala

.par

Spark Scala Streaming

AsakusaFW HadoopSparkM3BP

Hadoop, Spark

40

AsakusaFW

41

Asakusa Framework1. Hadoop

Hadoop

2.

3. SparkM3BPScalaJava.NETJava

42

M3 for Batch ProcessingM3BP

https://github.com/fixstars/m3bpOS

Spark

CPUGB

43

1

1

2010Hadoophttp://shiumachi.hatenablog.com/entry/20100703/1278133318CPU 816 1632GB 424TB

http://www.atmarkit.co.jp/ait/articles/1608/22/news027.html CPU 20 256GB 36TB

100GB

44

Asakusa FrameworkAsakusaFWjarHadoopMapReduce

SparkM3BP

45

Asakusa on MapReduce

Asakusa on Spark

Asakusa on M3BP

javac javac javac CMake gcc/g++

MapReducejava

SparkASMclass scalac

C++

SEGV

46

AsakusaAsakusa on MapReduce

Asakusa on Spark

Asakusa on M3BP

1.2GB561 60MB69

110 85 8

29kB900 280B1

15 60 3

11GB21700 940MB783

380 700 260

74MB53 81GB1084

3400 2030 400 256270GB

76GB2420 153MB89

670 360 92

47

CPU

HadoopMapR Spark

13 128 750GB

M3BP 1 88 512GB

l M3BPHadoop Spark M3BP

l M3BP 122 881.11.2

48

Asakusa Framework

M3BP

AsakusaFW

49

1/2Hadoop1HDDHDD

50

2/2

SSD2020100TB

CPU100Asakusa on M3BP

RSACPU110TB

MRAM

51

Asakusa DSL1. AsakusaFWAsakusa DSLJava

DSL

2. DSLScala3. Asakusa DSLScala

AsakusaFWSIer

SIerJava Asakusa Scala DSL

Asakusa Scala DSLhttps://atnd.org/events/13174

53

Apache Spark

ScalaStreaming

HadoopMapReduceAsakusa Framework

ScalaSIerAsakusa Scala DSL

DQ10DQ10 ver3.4 2016/10/6

asakusa frameworkとscalaの密かな関係

Software