빅데이터 대중화를 위한 소형 서버 클러스터의 가능성 및...

1
NEWCAMI (팀 13) : 김영선, 박지영, 윤보람 빅데이터 대중화를 위한 소형 서버 클러스터의 가능성 및 활용 빅데이터 분석 및 처리를 위해 필요한 병렬분산처리 시스템은 대용량 서버가 필요하고, 이를 위해서는 높은 구축 비용 및 인력 비용을 지불해야 한다. 따라 서, SBC(Single Board Computer)를 이용하여 저비용으로 손쉽게 빅데 이터 분석이 가능한 빅데이터 처리용 소형 클러스터 를 개발하고자 하였다. 연구 배경 1 중소 기업 및 교육 현장, 더 나아가 개인도 신뢰성 있는 빅데이터 분석을 수행 할 수 있도록 라즈베리 파이 를 이용해 저비용의 클러스터를 구성하고, 하둡 (Hadoop)과 아파치 스파크(Apache Spark) 를 이용하여 빅데이터 분석 플랫폼 을 구축하였다. 그 후, 실제로 구현된 시스템에서 빅데이터 분석 기법 중 하나인 텍스트 마이닝을 수행하여 발전 가능성을 평가하였다. 라즈베리 파이 Model 2 Version B 5대 클러스터 구성 - 1대의 마스터 노드, 4대의 슬레이브 노드를 연결 (네트워크 케이블 이용) 빅데이터 분석 플랫폼 환경 구성 - 하둡(Hadoop)을 설치하여 HDFS(하둡 분산 처리 파일 시스템) 환경을 구성하였고, 분산 처리 시 데이터 저장을 위한 목적으로 사용 - 아파치 스파크(Apache Spark)를 설치하여 Scala 언어 빅데이터 프로그래밍이 가능하도록 구현 시스템 평가 - 구축된 클러스터 평가를 위해 데이터 수집 후 텍스트 마이닝과 수행 시간 측정 - 텍스트 마이닝 결과를 R을 통해 시각화 하여 자료를 분석함 [연구 과정] [시스템 아키텍처] [(좌) 라즈베리 파이 2 모델 B 사양] [(우) 라즈베리 클러스터 구성 요소 사양] 1. 저비용 , 저전력의 빅데이터 분석 플랫폼 구축 2. 교육 현장 (ex. 빅데이터 교육, 프로그래머)에서 활용 가능성 높음 3. 제한된 환경, 개인까지 사용성 확장 가능 [빅데이터 분산처리 플랫폼 성능 비교] - 독자모드(Standalone Mode)와 클러스터 모드(Cluster Mode)의 텍스트 마이닝 처리 시간 : 크기가 작은 데이터는 성능에 큰 차이를 보이지 않지만, 데이터 크기가 GB 단위로 커질 경우 수행 속도에 큰 차이를 보임. 연구 내용 2 연구 과정 및 내용 3 구현 결과 및 분석 4 [라즈베리 파이 클러스터 ERC (ERC#1 : Ewha Raspberry pi Cluster ver.1)] [빅데이터 처리 예 : 메르스, 이대생, 2003-4 노래, 2014-15 최신 노래 워드 클라우드 결과 ] 메르스 이대생 2003-4 노래 2014-15 노래 1 바이러스 이대생 Love 2 격리 이화 Oh 3 보건복지부 여자 사랑 Baby 4 중동 맛집 I 우리 5 서울 학생 다시 6 호흡기질환기 연대 you 지금 7 확진판정 학교 기억 이젠 8 마스크 대학 사람 9 고열 친구 세상 사랑 10 질병 생각 눈물 [텍스트 마이닝 결과 : 키워드 별 Top 10 단어] 기대효과 5

Upload: others

Post on 19-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 빅데이터 대중화를 위한 소형 서버 클러스터의 가능성 및 활용cms.ewha.ac.kr/user/cse/k2board/project/2.pdf · 파일 시스템) 환경을 구성하였고, 분산

NEWCAMI (팀 13) : 김영선, 박지영, 윤보람

빅데이터 대중화를 위한 소형 서버 클러스터의 가능성 및 활용

빅데이터 분석 및 처리를 위해 필요한 병렬분산처리 시스템은 대용량 서버가 필요하고, 이를 위해서는 높은 구축 비용 및 인력 비용을 지불해야 한다. 따라서, SBC(Single Board Computer)를 이용하여 저비용으로 손쉽게 빅데이터 분석이 가능한 빅데이터 처리용 소형 클러스터를 개발하고자 하였다.

연구 배경 1

중소 기업 및 교육 현장, 더 나아가 개인도 신뢰성 있는 빅데이터 분석을 수행할 수 있도록 라즈베리 파이를 이용해 저비용의 클러스터를 구성하고, 하둡(Hadoop)과 아파치 스파크(Apache Spark)를 이용하여 빅데이터 분석 플랫폼을 구축하였다. 그 후, 실제로 구현된 시스템에서 빅데이터 분석 기법 중 하나인 텍스트 마이닝을 수행하여 발전 가능성을 평가하였다.

•  라즈베리 파이 Model 2 Version B 5대 클러스터 구성 - 1대의 마스터 노드, 4대의 슬레이브 노드를 연결 (네트워크 케이블 이용) •  빅데이터 분석 플랫폼 환경 구성 - 하둡(Hadoop)을 설치하여 HDFS(하둡 분산 처리 파일 시스템) 환경을 구성하였고, 분산 처리 시 데이터 저장을 위한 목적으로 사용 - 아파치 스파크(Apache Spark)를 설치하여 Scala 언어 빅데이터 프로그래밍이 가능하도록 구현 •  시스템 평가 - 구축된 클러스터 평가를 위해 데이터 수집 후 텍스트 마이닝과 수행 시간 측정 - 텍스트 마이닝 결과를 R을 통해 시각화 하여 자료를 분석함 [연구 과정]

[시스템 아키텍처]

[(좌) 라즈베리 파이 2 모델 B 사양] [(우) 라즈베리 클러스터 구성 요소 사양]

1. 저비용, 저전력의 빅데이터 분석 플랫폼 구축 2. 교육 현장(ex. 빅데이터 교육, 프로그래머)에서

활용 가능성 높음 3. 제한된 환경, 개인까지 사용성 확장 가능

[빅데이터 분산처리 플랫폼 성능 비교] - 독자모드(Standalone Mode)와 클러스터 모드(Cluster Mode)의 텍스트 마이닝 처리 시간

: 크기가 작은 데이터는 성능에 큰 차이를 보이지 않지만, 데이터 크기가 GB 단위로 커질 경우 수행 속도에 큰 차이를 보임.

연구 내용 2

연구 과정 및 내용 3

구현 결과 및 분석 4

[라즈베리 파이 클러스터 ERC (ERC#1 : Ewha Raspberry pi Cluster ver.1)]

[빅데이터 처리 예 : 메르스, 이대생, 2003-4 노래, 2014-15 최신 노래 워드 클라우드 결과 ]

메르스 이대생 2003-4 노래 2014-15 노래

1 바이러스 이대생 나 Love

2 격리 이화 너 Oh

3 보건복지부 여자 사랑 Baby

4 중동 맛집 I 우리

5 서울 학생 말 다시

6 호흡기질환기 연대 you 지금

7 확진판정 학교 기억 이젠

8 마스크 대학 사람 밤

9 고열 친구 세상 사랑

10 질병 생각 눈물 때

[텍스트 마이닝 결과 : 키워드 별 Top 10 단어]

기대효과 5