빅데이터 대중화를 위한 소형 서버 클러스터의 가능성 및...
TRANSCRIPT
NEWCAMI (팀 13) : 김영선, 박지영, 윤보람
빅데이터 대중화를 위한 소형 서버 클러스터의 가능성 및 활용
빅데이터 분석 및 처리를 위해 필요한 병렬분산처리 시스템은 대용량 서버가 필요하고, 이를 위해서는 높은 구축 비용 및 인력 비용을 지불해야 한다. 따라서, SBC(Single Board Computer)를 이용하여 저비용으로 손쉽게 빅데이터 분석이 가능한 빅데이터 처리용 소형 클러스터를 개발하고자 하였다.
연구 배경 1
중소 기업 및 교육 현장, 더 나아가 개인도 신뢰성 있는 빅데이터 분석을 수행할 수 있도록 라즈베리 파이를 이용해 저비용의 클러스터를 구성하고, 하둡(Hadoop)과 아파치 스파크(Apache Spark)를 이용하여 빅데이터 분석 플랫폼을 구축하였다. 그 후, 실제로 구현된 시스템에서 빅데이터 분석 기법 중 하나인 텍스트 마이닝을 수행하여 발전 가능성을 평가하였다.
• 라즈베리 파이 Model 2 Version B 5대 클러스터 구성 - 1대의 마스터 노드, 4대의 슬레이브 노드를 연결 (네트워크 케이블 이용) • 빅데이터 분석 플랫폼 환경 구성 - 하둡(Hadoop)을 설치하여 HDFS(하둡 분산 처리 파일 시스템) 환경을 구성하였고, 분산 처리 시 데이터 저장을 위한 목적으로 사용 - 아파치 스파크(Apache Spark)를 설치하여 Scala 언어 빅데이터 프로그래밍이 가능하도록 구현 • 시스템 평가 - 구축된 클러스터 평가를 위해 데이터 수집 후 텍스트 마이닝과 수행 시간 측정 - 텍스트 마이닝 결과를 R을 통해 시각화 하여 자료를 분석함 [연구 과정]
[시스템 아키텍처]
[(좌) 라즈베리 파이 2 모델 B 사양] [(우) 라즈베리 클러스터 구성 요소 사양]
1. 저비용, 저전력의 빅데이터 분석 플랫폼 구축 2. 교육 현장(ex. 빅데이터 교육, 프로그래머)에서
활용 가능성 높음 3. 제한된 환경, 개인까지 사용성 확장 가능
[빅데이터 분산처리 플랫폼 성능 비교] - 독자모드(Standalone Mode)와 클러스터 모드(Cluster Mode)의 텍스트 마이닝 처리 시간
: 크기가 작은 데이터는 성능에 큰 차이를 보이지 않지만, 데이터 크기가 GB 단위로 커질 경우 수행 속도에 큰 차이를 보임.
연구 내용 2
연구 과정 및 내용 3
구현 결과 및 분석 4
[라즈베리 파이 클러스터 ERC (ERC#1 : Ewha Raspberry pi Cluster ver.1)]
[빅데이터 처리 예 : 메르스, 이대생, 2003-4 노래, 2014-15 최신 노래 워드 클라우드 결과 ]
메르스 이대생 2003-4 노래 2014-15 노래
1 바이러스 이대생 나 Love
2 격리 이화 너 Oh
3 보건복지부 여자 사랑 Baby
4 중동 맛집 I 우리
5 서울 학생 말 다시
6 호흡기질환기 연대 you 지금
7 확진판정 학교 기억 이젠
8 마스크 대학 사람 밤
9 고열 친구 세상 사랑
10 질병 생각 눈물 때
[텍스트 마이닝 결과 : 키워드 별 Top 10 단어]
기대효과 5