줌인터넷 주 빅데이터 활용사례 - nexr · 로그 수집 체계 로그 포맷 표준화...

16
줌인터넷() 빅데이터 활용사례 김우승

Upload: others

Post on 25-Aug-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

줌인터넷(주)

빅데이터 활용사례

김우승

Page 2: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

소개

줌인터넷(주) 연구소장

이력

줌인터넷

SK 플래닛

SK 텔레콤

삼성전자

http://kimws.wordpress.com

@kimws

Page 3: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

회사 소개 : zum.com

검색 포털 회사

Page 4: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

검색 회사(검색 서비스)가 하는 일 …

출처: http://www.ibm.com/developerworks/web/library/wa-lucene2/

storage

Crawling

Analyzing

Serving

Real-time

Batch

Crawler

Analyzing

Parsing

Page 5: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

Crawl

문서를 크롤하면 (> 10억건)

메타데이터 저장

HTML 저장

제목, 본문 추출

이미지 추출

썸네일 생성

원본 이미지 저장

Structured Data

Unstructured Data

Multimedia Data

Semi-structured Data

Crawler 시스템은 분산 처리를 하기 위해서 MapReduce + Downloader 등으로 구현

Page 6: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

Analyzer

중복 문서 제거

스팸 문서

성인 필터링

검색 랭킹 계산

문서 클러스터링

수십여가지 분석프로세스

(Pig + UDF ) + Python + Shell

Java Map-Reduce program

- 분석 데이터의 종류와 범위에 따라서 다양한 주기로 설정된 스케줄로 프로세스들이 실행

- 프로세스의 우선 순위에 따라 Pig & MR Job에 우선순위와 리소스를 상이하게 할당

Hadoop & Hbase 는 Legacy System !

Page 7: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

Service

Daily 수천만 PV 이상을 처리하기 위해서 …

Web & Application & DB Clustering 필수

각 Layer 별로 Caching System 적용

시스템 장애 감지와 통합 모니터링 시스템 역시 필수

수십/수백대로 구성된 서버팜

오픈 소스 및 자체 개발 시스템을 통합해서 활용

장애 대응을 위한 HA 구성

LVS

Tomcat

Squid

Memcached

100% Linux Server

인덱싱 & 검색 처리

Page 8: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

그 밖에 오픈소스들

서비스와 데이터 요구사항에 맞게 코어가 되는

검색엔진, 미디어 서버, KeyValue 시스템등을 자체 개발

Page 9: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

ZUM Data Platform

로그 수집 체계

로그 포맷 표준화

중앙 데이터 저장소 구축

로그 데이터 수집 프레임워크 개발 (Flume-ng, Fluentd)

Access log

ZUM service log

Application log

분석시스템 개발

Hive 가 메인 도구

Pig 는 Hive Table 을 생성하는 전처리(ETL) 용 스크립트

Job Scheduler

Page 10: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

Log Analysis

각종 Service Log

Server Access Log

Application Log

JSON

Apache

Log Format

Log4J

개발자들이 Apache Pig Script 로 분석

기획자들이 직접 데이터 통계나 분석을 할려면?

Pig

Page 11: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

DAUM용

클러스터 안티피싱

서버

노출/클릭

로그수집

서버

ES-LOG Stats(2대)

(ATS)

NAS

서비스분석

클러스터 es-admin

estat

웹브라우저

검색로그

SAMBA

툴바

안티피싱

안티피싱

서버

Krystal

통계

Admin

CTR피드백

시스템

광고플랫폼

쇼핑

???

-------

ALL Servers access log

미정

광고플랫폼

서비스 로그

zum log

Log4j log

zum log

ES-LOG 개발

클러스터

수집

클러스터

FTP

서버

ES-LOG 통계용

클러스터

URL

수집서버

FTP

서버

em-admin

alto

olb

a lo

g(1/1

0 분

량만

)

http

rsync/scp

DFSClinet API

samba

unknown/undetermined

zum log

----

ftp

Relay DB

DB I/F

인기검색어,Suggest, …

Term weight, URLs for crawler, …

alto

olb

a lo

g

미개발

Other IDC

Log Data Flow Diagram

Get/Redirect

미정

로그수집

admin

alto

olb

a lo

g

Hadoop

MIDAS

zum log

zum

log

뉴스

Page 12: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

통계 지표 관리

고정 지표

상시 분석해서 결과를 파악해야 하는 지표

공통 지표 정의

서비스별 지표 정의

배치성 지표

실시간성 지표

유동 지표

서비스별로 필요한 경우에 따라서 파악할 지표

중요도에 따라 고정지표로 전환

자동화의 대상

Ad-hoc 업무

데이터 분석 업무가 기존 개발자에서

기획자, 데이터 분석가의 손에서 다루어질 수 있도록

Page 13: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

Service 1

… …

Service N

Service N+1

ZUM Data Platform

Log

Agent

Flume-NG

Data Repository (HDFS)

Log

Agent

Log

Agent

Log

Agent

Log

Agent

WebH

DFS

Raw data Hive

Table 결과DB

변환 분석

Web Browser

Job

Scheduler

Data

Viewer

Hive

Console

Reporting Server

R

Excel

Text File

Historical

DB

Service 1

Service 2

… …

Service

Server

Service

Server …

fuse fuse

Hive 는 Metadata 을 담고 있음

SQL 은 개발자가 아닌 기획자들도 간편히 로직 구현 가능

Real-time Analyzer

(ESPER)

TCP/IP

adapter

시스템엔지니어는 로그용량을 고려하여 설정이 된 에이전트 설치

개발자는 Pig등을 이용해서

Raw Data를 Hive Data 등으로 변환

실시간결과

Page 14: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

분석 프로세스 개선

데이터분석담당 개발자 데이터 추출 결과 확인

URL 추출 조건 확인 후 추출 요청

1) 추출된 데이터 확인

2) 추출 조건 수정하여 재 추출

기획자

데이터 추출 요청

데이터 전달

데이터분석담당 기획자

데이터 추출 요청

데이터 전달

Before

After

Page 15: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

마지막으로 요즘 드는 생각 …

Apaceh Hadoop / HBase 가 이미 Legacy System 되어가고 있고

다른 이가 만든 기술에 대한 의존은 여전하고

때론 한계에 부딪히기도 …

Core 에 대한 깊은 이해 없이

대충 이해하고 응용 어플리케이션 / 서비스 만들기도 바쁘다

그래서?

직접 만들어 볼 필요도 있다!!!

Don’t reinvent the wheel?

결국 점점 복잡해지고, 무거워지고, 이해하기 힘들어지고 …

Page 16: 줌인터넷 주 빅데이터 활용사례 - NexR · 로그 수집 체계 로그 포맷 표준화 중앙 데이터 저장소 구축 로그 데이터 수집 프레임워크 개발

감사합니다