aws emr 실행하기

38
AWS EMR 실실실실 1. VPC 실실실실 (Wizard 실실 ) 2. EMR 실실실실 실실실 실실실 & 실실실

Upload: uichanluke-kang

Post on 15-Apr-2017

242 views

Category:

Internet


4 download

TRANSCRIPT

Page 1: Aws emr 실행하기

AWS EMR 실행하기1. VPC 설정하기 (Wizard 사용 )2. EMR 클러스터 만들기

박지인 & 강의찬

Page 2: Aws emr 실행하기

EMR 설치 이유 ?

Aws 상에서 Spark & Zeppelin 사용하기 위함( 우리는 Hadoop, Hive, Spark, Zeppelin 설치 )

Spark 의 등장MapReduce 는 map 과 reduce 의 입출력을 매번 hdfs 에 저장하므로 느림 , 코드 작성 불편

RDD(Resilient Distributed Dataset) 사용 & Scala 언어 사용

RDD 방식으로 메모리사용 극대화 -> interactive, streaming 이 빠르게 처리

Page 3: Aws emr 실행하기

RDD

- 클러스터 전체에서 공유되는 데이터 형태- Immutable(read only)

- Lazy-execution(action 에 해당하는 명령어 사용해야 코드 실행 )

- Transformation 중에 오류 발생해서 종료되더라도 Lineage( 계보 ) 이용해서 데이터 복구 가능

Page 4: Aws emr 실행하기

1. VPC Wizard 로 VPC 설정을 하고2. VPC 설정을 통대로 masternode 와 2 개의 datanode 가 있는 Hadoop 클러스터를 설정하는 것이 목표

Page 5: Aws emr 실행하기

1. VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))

Page 6: Aws emr 실행하기

VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))

Page 7: Aws emr 실행하기

VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))

Page 8: Aws emr 실행하기

VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))

생성 완료

Page 9: Aws emr 실행하기

VPC 서비스로 이동

Page 10: Aws emr 실행하기

클릭버튼

Page 11: Aws emr 실행하기

클릭버튼

Page 12: Aws emr 실행하기

클릭버튼

외부 인터넷과 통신하는 Public Subnet 과내부 서비스 (EC2) 에만 사용 되는 Private Subnet 생성

Page 13: Aws emr 실행하기

클릭버튼

Page 14: Aws emr 실행하기

클릭버튼

아까 만들어 두었던 EIP 를 설정

Page 15: Aws emr 실행하기

클릭버튼

Page 16: Aws emr 실행하기

VPC 생성 중

Page 17: Aws emr 실행하기

완료

Page 18: Aws emr 실행하기

Your VPCs 에서 생성된 VPC 를 볼 수 있다

Page 19: Aws emr 실행하기

2. EMR 서비스로 이동

Page 20: Aws emr 실행하기

클릭버튼 – EMR 클러스터 생성

Page 21: Aws emr 실행하기

디폴트설정으로 생성하는 방법도 있지만 , Zeppelin 을 설치하기 위해 클릭

Page 22: Aws emr 실행하기

필요한 서비스를 선택한다 – Zeppelin 과 Spark 를 선택했다 .

Page 23: Aws emr 실행하기

아까 만들어 두었던 VPC 를 선택한다

Page 24: Aws emr 실행하기

SSH 를 통해 통신하기 때문에 , EC2 Subnet 은 Public 으로 설정해야 한다

Page 25: Aws emr 실행하기

나머지는 디폴트로

Page 26: Aws emr 실행하기

Key pair 설정

Page 27: Aws emr 실행하기

생성 중

Page 28: Aws emr 실행하기

생성 중

Page 29: Aws emr 실행하기

EC2 콘솔에서 MaterNode 를 찾아야 한다

Page 30: Aws emr 실행하기

콘솔창에서 오른쪽으로 가면 Security Group 이 있는데 , 이 것들의 이름을 통해서 어떤 것이 Master 인 지 알 수 있다 .

Page 31: Aws emr 실행하기

Master 그룹을 선택하고 inbound 메뉴에서 Edit 을 누른다

Page 32: Aws emr 실행하기

Master 로의 연결 방식을 설정하는 메뉴이다

Page 33: Aws emr 실행하기

우리는 SSH 로 연결하기 때문에 Add Rule 해서 SSH 를 선택한다

Page 34: Aws emr 실행하기

Save 버튼 클릭

Page 35: Aws emr 실행하기

EMR 콘솔로 돌아간다 -> 버튼 클릭

Page 36: Aws emr 실행하기

MasterNode 의 주소 ( 드래그 부분 ) 를 알 수 있다 putty 로 접속하자

Page 37: Aws emr 실행하기

Zepplelin

- Spark, Spark SQL 사용 가능- Spark, SparkSQL 의 결과 즉시 시각화 가능

특징

사용방법In putty

- whereis zeppelin( 제플린 위치 알려줌 )- cd /usr/lib/zeppelin/bin( 위에서 알려준 제플린 위치 반환 )- sudo ./zeppelin-daemon.sh start

In Browser

Putty 접속시 넣었던 ip 주소 (aws EMR Master public DNS ssh 주소 ):8890

Page 38: Aws emr 실행하기

Zepplelin