aws emr 실행하기
TRANSCRIPT
AWS EMR 실행하기1. VPC 설정하기 (Wizard 사용 )2. EMR 클러스터 만들기
박지인 & 강의찬
EMR 설치 이유 ?
Aws 상에서 Spark & Zeppelin 사용하기 위함( 우리는 Hadoop, Hive, Spark, Zeppelin 설치 )
Spark 의 등장MapReduce 는 map 과 reduce 의 입출력을 매번 hdfs 에 저장하므로 느림 , 코드 작성 불편
RDD(Resilient Distributed Dataset) 사용 & Scala 언어 사용
RDD 방식으로 메모리사용 극대화 -> interactive, streaming 이 빠르게 처리
RDD
- 클러스터 전체에서 공유되는 데이터 형태- Immutable(read only)
- Lazy-execution(action 에 해당하는 명령어 사용해야 코드 실행 )
- Transformation 중에 오류 발생해서 종료되더라도 Lineage( 계보 ) 이용해서 데이터 복구 가능
1. VPC Wizard 로 VPC 설정을 하고2. VPC 설정을 통대로 masternode 와 2 개의 datanode 가 있는 Hadoop 클러스터를 설정하는 것이 목표
1. VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))
VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))
VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))
VPC 에 할당하기 위한 고정아이피를 생성 (EIP(Elastic IP))
생성 완료
VPC 서비스로 이동
클릭버튼
클릭버튼
클릭버튼
외부 인터넷과 통신하는 Public Subnet 과내부 서비스 (EC2) 에만 사용 되는 Private Subnet 생성
클릭버튼
클릭버튼
아까 만들어 두었던 EIP 를 설정
클릭버튼
VPC 생성 중
완료
Your VPCs 에서 생성된 VPC 를 볼 수 있다
2. EMR 서비스로 이동
클릭버튼 – EMR 클러스터 생성
디폴트설정으로 생성하는 방법도 있지만 , Zeppelin 을 설치하기 위해 클릭
필요한 서비스를 선택한다 – Zeppelin 과 Spark 를 선택했다 .
아까 만들어 두었던 VPC 를 선택한다
SSH 를 통해 통신하기 때문에 , EC2 Subnet 은 Public 으로 설정해야 한다
나머지는 디폴트로
Key pair 설정
생성 중
생성 중
EC2 콘솔에서 MaterNode 를 찾아야 한다
콘솔창에서 오른쪽으로 가면 Security Group 이 있는데 , 이 것들의 이름을 통해서 어떤 것이 Master 인 지 알 수 있다 .
Master 그룹을 선택하고 inbound 메뉴에서 Edit 을 누른다
Master 로의 연결 방식을 설정하는 메뉴이다
우리는 SSH 로 연결하기 때문에 Add Rule 해서 SSH 를 선택한다
Save 버튼 클릭
EMR 콘솔로 돌아간다 -> 버튼 클릭
MasterNode 의 주소 ( 드래그 부분 ) 를 알 수 있다 putty 로 접속하자
Zepplelin
- Spark, Spark SQL 사용 가능- Spark, SparkSQL 의 결과 즉시 시각화 가능
특징
사용방법In putty
- whereis zeppelin( 제플린 위치 알려줌 )- cd /usr/lib/zeppelin/bin( 위에서 알려준 제플린 위치 반환 )- sudo ./zeppelin-daemon.sh start
In Browser
Putty 접속시 넣었던 ip 주소 (aws EMR Master public DNS ssh 주소 ):8890
Zepplelin