hadoop & cloudera workshop

Download Hadoop & Cloudera Workshop

If you can't read please download the document

Upload: serkan-sakinmaz

Post on 16-Apr-2017

859 views

Category:

Data & Analytics


8 download

TRANSCRIPT

Hadoop && Cloudera Workshop

Hakkmda

9+ Java , Java EE

3+ Hadoop,Spark,Pig,Hive,Oozie

Big Data Developer - Comodo

Blogger/Trainer - buyukveri.co

erik

Hadoop Nedir ?

HDFS Mimarisi

YARN Mimarisi

MapReduce Mimarisi

Hadoop Kurulum Modlar

Hadoop Hangi Durumlarda Tercih Edilmemeli

Cloudera Kurulumu

Cloudera zerinde rnek MapReduce uygulamas

Pig ve Hive Nedir ?

Hadoop Nedir?

Byk veri kmeleri ile birden fazla makinada paralel olarak ilem yapmamz salar

Java ile yazlmtr

Ak kaynak kodludur

Byk verileri saklar (HDFS)

Byk veriler zerinde paralel ilem

yapmamz salar (MapReduce)Birden fazla makinede kaynak

ynetimini(ram,cpu) salar (YARN)

HDFS Mimarisi

Petabyte seviyesindeki byk verileri saklayabilir

Pahal bir donanm satn almanza gerek yoktur

Verilere hzl bir eriim sunar

Veriler kk dosya bloklar halinde saklanr

Ayn veriler birden fazla makinede saklanr (replication)

HDFS Mimarisi

En nemli bileenler NameNode ve DataNode

NameNode verilerin adreslerini tutar

DataNode verileri saklar

NameNode(Single point of failure)

YARN Mimarisi

Kaynak ynetimini salar(ram,cpu)

MapReduce,Spark,Tez

uygulamalarn altrabiliriz YARNa dorudan mdahe etmemize

gerek yoktur

MapReduce Mimarisi

Birden fazla makinede verileri paralel olarak ileyebiliriz

Map ve Reduce admlarndan oluur

Hadoop Kurulum Modlar

Standalone ModeTest veya debug amal

HDFS sistemini kullanamayz

Single Node ClusterTek bir makine zerinde alr

HDFS replication factor deeri 1 olarak ayarlanr

Multiple node clusterHDFS replication factor deeri 1 deerinden byk olabilir

Birden fazla makine olduu iin Master ve Worker farkl makinelerde bulunabilir

Hadoop Hangi Durumlarda Tercih Edilmemeli

Stream processingStorm, Spark Streaming

Kelime aramaElasticsearch,solr,splunk

Interactive SQLPresto

Iterative processingMachine Learning (Spark)

Cloudera Kurulumu

MapReduce Uygulamas

Apache Pig

Gelitirmi olduumuz Pig kodlar arka planda MapReduce kodlarna evrilir

Apache Hive

Apache Hive tabanl SQL sorgular gelitirilebilir

select country,count(distinct user_id) from data where log_date >= '2015-04-17' and log_date