저작자표시 비영리 공연 및 방송할 수...

71
저작자표시-비영리-동일조건변경허락 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. l 이차적 저작물을 작성할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약 ( Legal Code) 을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 동일조건변경허락. 귀하가 이 저작물을 개작, 변형 또는 가공했을 경우 에는, 이 저작물과 동일한 이용허락조건하에서만 배포할 수 있습니다.

Upload: others

Post on 01-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

저 시-비 리-동 조건 경허락 2.0 한민

는 아래 조건 르는 경 에 한하여 게

l 저 물 복제, 포, 전송, 전시, 공연 송할 수 습니다.

l 차적 저 물 성할 수 습니다.

다 과 같 조건 라야 합니다:

l 하는, 저 물 나 포 경 , 저 물에 적 허락조건 확하게 나타내어야 합니다.

l 저 터 허가를 러한 조건들 적 지 않습니다.

저 에 른 리는 내 에 하여 향 지 않습니다.

것 허락규약(Legal Code) 해하 쉽게 약한 것 니다.

Disclaimer

저 시. 하는 원저 를 시하여야 합니다.

비 리. 하는 저 물 리 적 할 수 없습니다.

동 조건 경허락. 하가 저 물 개 , 형 또는 가공했 경에는, 저 물과 동 한 허락조건하에서만 포할 수 습니다.

Page 2: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

공 사

Social Network Service Data 주

연 Platform 계

2012 8월

울 원

지 보 과

Page 3: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0
Page 4: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

Social Network Service Data 주

연 Platform 계

지도 수

공 사

2012 8월

울 원

지 보 과

태 사

2012 7월

Page 5: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0
Page 6: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- i -

SNS(Social Network Service) ‘Web 2.0’ 시 Mobile

달 었다. SNS 수억 에 달 는 사 들 실시간 만들어 내

는 계에 주 여, 근 지 다수 연 가 진 어 다.

는 비스 공 가 공개 API(Application Programming Interface) 통 근

수 , 연 에 는 에 그 (Crawler)

통 수집 다.

SNS에 연 는 본 특 가지고 다. 지만 연

에는 규 연 가 연 진 , 당 원 가능 에

수집과 진 다. 연 단계에 수 업 처리

진 는 경우가 많 , 질 량 수집 수 없게 다. 는 연

과 에 시 착 재 업 타 다.

본 연 에 는 러 결 여, 사 고 주

연 도 수 는 SNS 료 수집- Platform 계, 다.

에 수 었 연 들에 어 사 고 수집 어 는

지 다. 다 SNS에 공 는 API 동 과 식 고

링 , SNS 상 는 주 연 수 생 수

는 과 극복 살펴보 다.

단계 내 여러 비스에 가능 가진 수

집- Platform 었다. 통 SNS 상 연 과 에 복 는 공

통 차 간 수 , 에 시 연 상 도 어느 도 결

Page 7: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- ii -

다. Platform 실 연 Case에 가능 과 여,

도 가 수집 는지 다.

주 어 : 트워크 비스, 그 그 스,

크 러, 랫폼

: 2010-22686

Page 8: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- iii -

1 ...................................................................................................................... 1

2 연 ............................................................................................................. 4

1 술 ................................................................................................... 4

2 연 사 .............................................................................................. 6

3 연 ............................................................................................. 15

1 연 ..................................................................................................... 15

2 연 ..................................................................................................... 16

4 능 사 .......................................................................................... 18

1 SNS API .............................................................................................. 18

2 SNS 연 상 ................................................................................ 27

5 Platform 계 .................................................................................................... 32

1 링 .............................................................................................. 32

2 사 스 .............................................................................. 35

3 능 ................................................................................................. 41

6 능 평가 ............................................................................................. 43

1 연 상 결 ................................................................................ 43

2 능 ................................................................................................ 44

7 결 .................................................................................................................... 52

1 .............................................................................................................. 52

2 연 시사 .............................................................................................. 52

3 연 계 언 ................................................................................... 53

Abstract ............................................................................................................................. 60

Page 9: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- iv -

1 Twitter 연 에 사 .................................................... 11

2 Twitter 비스 ................................................................................ 12

3 Facebook 개체 ......................................................................................... 20

4 User 개체 보 ..................................................................................... 21

5 Facebook 동 ......................................................................................... 22

6 Twitter 개체 ......................................................................................... 23

7 Tweet 개체 보 .................................................................................. 24

8 Twitter 동 ............................................................................................. 25

9 YouTube 개체 ( ) ........................................................................... 26

10 비 개체 보 ................................................................................ 27

11 YouTube 동 ........................................................................................ 27

12 Task Model Set ......................................................................... 34

13 사 사도 계산 결과 ................................................................................ 49

14 Tweet 색 어 결과 ................................................................................ 51

Page 10: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- v -

그림 차

그림 1 연 에 수집 사 보 Tweet 수 .................................................. 9

그림 2 Export.ly 결과 ............................................................................. 13

그림 3 XML 결과 .................................................................................. 29

그림 4 Platform 도 ............................................................................................. 32

그림 5 어 리 ......................................................................................... 35

그림 6 업 계 .............................................................................................. 36

그림 7 동 가 상 ..................................................................................... 37

그림 8 ................................................................................ 38

그림 9 수집 .............................................................................................. 38

그림 10 동 택 상 ..................................................................................... 39

그림 11 택 ................................................................................ 39

그림 12 료 택 상 .......................................................................... 40

그림 13 Facebook 사 ....................................................................... 46

그림 14 Task ....................................................................................... 47

그림 15 YouTube 동 상 보 Ontology ....................................................... 48

Page 11: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 1 -

1

‘Web 2.0’ 시 는 찾고- 는 상 는 경

꿔 다 [1]. 달 사 시공간 많

여 주었다. 러 변 수 비스 에는 여러 가지가 겠 ,

그 에 Social Network Service( , SNS)는 가 큰 룬 고

수 겠다. Facebook 경우 계 사 는 2012 재 9억 도

[2], Twitter 경우 5억 수 다 [3]. 는 복 고 도 20억

에 는 계 사 [4] 50%에 달 는 비 SNS 는 것

다.

SNS 는 수많 사 들 동 많 실시간 만들

어 내고 다. 러 는 처리 지 (Raw) 것 , 수량 많 그

체 미 가지 는 들다. 계에 는 량 에 주 여, 여러

통 미 결 내 는 연 계 다.

러 연 가 가능 는, 비스 공 가 공개 API(Application

Programming Interface) 통 보 어 수 도 다.

API 식 가 공개 지 도 웹 탐색 처럼, 사 에

게 보여지는 내 여 수집 수 다. 지만 공 는 API

고 비스 에 맞는 얻어 수 다.

연 는 API 사 여 수집 고, 수집 통계 처

리 통 결 내게 다. 수집 는 과 보통 수집

그 (Crawler 고 는)에 동 수 , 처리 과 에

는 연 개 다.

Page 12: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 2 -

SNS 상 진 는 연 다수는 상 -사 고

, 주 연 는 -사 경 가지는 경우가 많다. 지만 량

다루 는 API 식에 다 , 그

고 실 므 당 연 그룹 내에 든 사 결 어 다.

그 과 에 능 가진 타 연 업 는 것

수 다.

원 연 는 각 연 가 담당 업 만 진 는 것 니 ,

다는 에 , SNS 상 는 연 는

특 다고 수 다. -사 경 연 는 비스 사

가능 동 과 에 고 어 연 주 수 ,

수집과 담당 연 는 연 주 , 경 엇 지

다.

지만 연 상 간 는 쉽지 , 런 차 는 연 진 도

여러 생시킨다. 실 본 과 동료가 2010 Twitter 비

여러 SNS 연 [5], [6] 수 , 연 주 에 많 사 과 API에

, 수집과 과 에 복 업 경험 다.

다 비스에 수집 도 공통 재 수 었

다. 본 어떻게 SNS 연 과 에 시 착 복 과 수

고민 시 었다.

본 에 는 SNS 상 는 주 연 수

생 수 는 과 극복 살펴보도 다. 에 수 었 연 에

어 사 고 수집 어 는지, 실 비스에 는 어 동

과 사 는지 다. 내 , 연 주 사

Page 13: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 3 -

는 SNS 수집- 도 계, 다. 도 계 과 에 는 에

SNS 처리 상 슈들 , 사 편

사 스 공 도 다.

Page 14: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 4 -

2 연

1 술

1. API OpenAPI

API (Application Programming Interface) 그 특 비스 원에

근 는 규 다. 컴퓨 그 에 API는 에

브러리 시스 능에 근 수 것 , 어

개 다. [7]

웹 경에 API 는 어는 특 웹 비스 같 개 사 다.

사 사 에는 HTTP(Hypertext Transfer Protocol) 식 사

시지 주고 , 시지 내 상 XML(Extensible Markup

Language) JSON(JavaScript Object Notification), 식 는 SOAP(Simple

Object Access Protocol) 는 경우가 많다 [8]. 역시 다 변

고 본 미 90 후 에 규 것 다.

새 고 주 만 주 는 ‘Open API’ 고 리는 것 다. ‘Open’

비 없 웹 비스 능과 다 그 는 비스에

수 다는 것 미 다. 러 경 Web 2.0 개 과 께

갔다. Open API 개 상 비스 거 비스에 다

능 가 여 새 운 비스 만들 수 다는 것 다. Google

Maps API Craigslist 동산 보 쳐 지도에 동산 보 보여주도

HousingMaps.com , 에도 수없 많 ‘Mashup’ 비스가

Page 15: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 5 -

만들어 다 [9]. 술 는 REST(Representational State Transfer) 고 여,

가지 에 여러 가지 태 타낼 수 는 것 특징

는 식 비스 는 경우가 많다 [8].

2. (Web) Crawler

(Web) Crawler는 그 , 에 보 수집 고 처리/

는 그 다. 보통 동 수집 ,

것 검색엔진 수집 웹 는 ‘검색 ’ 다.

경우 링크가 재 여 지에 다 여러 지 가리키

에, 처 ‘crawling’ 시 지 수많 지 검색 상 늘어

다. [10] 러 특 여 트워크 체 수 ,

탐색에 많 시간 므 상 략, 건 주 게

가 다. Crawler 연 는 링크 에 연결

계 트워크 다.

Web Crawler 경우 상 웹 에 특

가 없는 경우가 많 므 , Crawler 에 내 처리 각각 달 진

다. 그러 Web Service Crawler 경우 비스에 식 규

에 식에 맞는 처리 탐색 수 게 다.

3. Social Network Service 특징

Social Network Service(SNS)는 사 들 사 사 계 고 상

수 도 만들어진 비스 미 다. 컴퓨 경에 러 비스

Page 16: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 6 -

역사는 었 , 그 는 Instant Messenger 게시

(BBS; Bulletin Board Service), 지 다 다.

근에 사 는 미 SNS는 가지 공통 특 가지고 다. 사

는 비스에 가 여 개 생 고 가지 개 보 개

다. 비스에는 여러 컨 릴 수 주 컨 는 비스에

, 사진, 동 상 등 다 다. 사 는 에 에 는 사

상 미 운 사 상 ‘ ’ 계 , 들에

고 리 수 다. 컴퓨 매개 커 니 특 상 상

계에 시공간 시키 , 러 특징 Mobile 술 달에

욱 가 었다.

근 에 드러지고 는 SNS 특징 실시간 과 다. Mobile 랫

폼과 SNS Application, GPS 내 과 같 술 러 특징 가능 게

다. 사 는 신 재 느 는 감 주변 상 , 사건에 업 드

수 다. 런 특징 단 타 는 2009 미 공 허드슨강

시착 사건 , Twitter 식 달 도가 언 사보다 빨 다 [11].

는 비스는 사 가 재 어 는지 타낼 뿐만 니 , 상

맞 마 주변 다 사 상 가능 게 다. 러

‘Check-in’ SNS Foursquare가 다. [12]

2 연 사

늘 생각 수 는 태 SNS가 공 지는 역사가 그리 지

다. 지만 재 비스 SNS 만 도 수십 가지가 , 사

도가 계 슈 만들어내는 Facebook, Twitter 등

Page 17: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 7 -

비스에 는 많 연 가 루어 다. 여 는 들 Twitter에 루

어진 연 살펴보도 다.

1. Twitter 특징

Twitter 가 큰 특징 주 컨 가 140 다는 것 다.

러 단 시지(SMS) 시스 에 생 었 , 시스

Twitter 컨 고 특 (짧 에 보 포 , 시

) 만들어내 도 다 [13].

사 는 심 는 다 사 ‘follow’ 수 , 게 그 사

가 신 Timeline( 본 컨 보 )에 타 다. 본 다

사 가 follow 경우 그 사 는 ‘follower’ 고 다. Follow following

계는 가 없 , Twitter 만 특징 만든다.

follower 2천7 만에 달 는 Lady Gaga 같 주 는 사 가 는가

, 평균 사 follower 수는 300 짓 다 [14].

사 가 컨 는 Tweet 고 리 , 본 1 누 에게 공개

어 다. Tweet 고 특징 3가지는 다 과 같다.

Mention: 다 사 언 는 능. 에 ‘@user_id’ 같 시

다. 언 사 들 주 시키는 과가 다 [15].

Reply: 원 에 답 는 능. Mention과 연계 어 사 다.

Retweet: 다 사 달 는 능. 에 ‘RT @user_id’ 같

시 는 경우가 많 , 다 식도 다수 재 다 [15]. 원 에 본

1 본 값 에게 공개 , Private 에 비공개 수 다.

Page 18: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 8 -

견 여 달 수 는 (수동) Retweet 식과, Twitter에 공 는 RT

식 (원 복 ) 가지가 재 다 [16].

에 언 Tweet 3가지 특징 원 Twitter에 공 는 능 니

고 사 들 규 것들 , 차 시스 에 포 었다.

Twitter 특질들 (5억에 가 운 가 ), 주 는 사 (

만 상 Follower 가짐), 실시간 슈에 (Michael Jackson 사망 당시

시간 당 10만여 개 Tweet [17]) 는 것과 같 상 타내고

다.

2. Data 주 연 사 Twitter 연

Twitter 에 , 주 연 도 많 진 었다. 시간 과

Twitter 비스 에 창 후 연 주 는 다 변 다.

에는 Twitter 비스 특징과 본 특 에 연 , 후 수

사 수 는 연 가 주 루었다. 근에는 사

들 는 컨 사 트워크 , 보 에 연

가 수 고 다. 그림 1 보 시간 수 수집 량 는 것

볼 수 다.

SNS 상 심 연 수 들 상당수 재 다. 들

에 연 에 당 는 보 , ‘어 ’ ‘언 ’, ‘얼마 ’

다는 것에 다. 미 재 는 그 사 거 직

경우 그 과 주 특징 고 , 여러

사 다 그 수 능 다 [18]. 지만 수집과 처리 ,

Page 19: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 9 -

실 마주 수 는 들에 술 상 에, 후 연

진 고 는 다 연 에 쉬움 느 수 다.

그림 1 연 에 수집 사 보 Tweet 수

Twitter 여 수집 만 다룬 없 , 본

과 가 사 Erramilli [19] 다. 에 는 Twitter

사 쓰 ( ) 동 에 미 고, 동 빈도 시간

다. 240만 사 1천2 만 Tweet 수집 , 에 사

Follower/Following 계, 사 숫 ID, , Tweet 내 과 ID, 다.

수집 량 Tweet 공 는 것 어 에, 에 는

통 사 들 쓰 동 시뮬 수 는 시스

개 여 경 볼 수 도 고 다.

Java [20]에 는 7만 6천 사 130만여 Tweet 상 Twitter 사

특징 과 Trend에 트워크 수 다. 수집 상 사

숫 ID, Follower/Following 계, 보, Tweet 내 과 ID, 다.

10,000

100,000

1,000,000

10,000,000

100,000,000

1,000,000,000

10,000,000,000

User Tweets

Page 20: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 10 -

Krishnamurthy 사 [21]에 는 Twitter 10만 사 상 계

동 수 다. 에 근거가 는 Follower Following,

Tweet 수, 사 숫 ID, 경, Tweet 시간 다.

Huberman [22]에 는 31만여 사 상 실 커 니 어 는

트워크에 수 다. 수집 Follower 수, Following 수,

Tweet 내 , Tweet 다.

Honeycutt [23]에 는 3만 7천여 개 Tweet 상 Twitter

Mention과 능에 다. 근거 개별 Tweet ,

Public Timeline 지 수집 것 다.

Leavitt [24]에 는 12 Twitter 사 그 Following network

상 연 수 다. 량 1천5 만 사 , 13만 Tweet ,

수집 사 Follower , Tweet Timeline과 Reply, Retweet,

Mention 내 다.

boyd [15]에 는 44만여 사 Tweet과 20만여 Retweet 상

Tweet 과 Retweet 동에 다. 수집 상 Public

Timeline Tweet들과 검색 능 수집 Retweet 내 들 다.

Kwak [25] 경우 4200만 사 1억여개 Tweet 상 사

특 과 , 는 Topic에 수 다. 수집 상

Follower/Following Network, Tweet 수, 사 시간 , Retweet 수,

Tweet들 다. 시간 변 는 슈 주 수집

, Spam 검 여 거 다는 특징 다. 수집 량

공개 고 다는 에 가 다.

Page 21: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 11 -

Cha [26]에 는 5천 4 만 사 20억개 follow 연결 사

다. 근거 follower 수, Retweet에 포 사 ,

Mention에 포 사 , Tweet 내 (키워드) , 당 시 에 Twitter 연

는 가 많 수집, 것 다 [27].

다 는 언 들에 수집, 들 리 것 다.

User Profile Tweet 과 Timeline

Num

. ID

Usern

am

e

Nam

e

Location

Bio

.

Follow

er,

Follow

ing #

Rela

tionship

Reg. D

ate

T

ime Z

one

Tota

l T

weet

#

Language

Tw

eet

ID

Sourc

e

Mention

Reply

Retw

eet

Java07 ●

● ● ●

Balachander08 ●

● ●

Huberman09

Honeycutt09

Alex09

● ●

● ● ●

boyd10

Kwak10

● ●

Cha10

Erramilli11 ●

● ● ●

1 Twitter 연 에 사

3. Twitter 비스

고 술 에도, 료 수집 는 많다. 그

크게는 신상 마 시 동 사 개 취미 생

것 지 다 다. 런 , Twitter Open API 여 3

Page 22: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 12 -

비스 공 가 만든 웹 비스가 수 여 재 다 [28]. 는

주 는 비스 사 가 상 고 단 는 곳에

다.

특징 비고

Export.ly Following 사 에 통계 공

Klout (주 별)

Peerindex 주 Topic , 사 랭킹

retweetrank Retweet 빈도 순 API 공

Searchtastic 사 랭킹, Hashtag 검색

Trendistic Issue Topic

TweetEffect Tweet 과 Follower 변동 계 시

Tweetmetrics 사 보 통계

Tweetmix 근 슈 시 내 비스

Tweetrend 사 랭킹, 키워드 내 비스

TweetStats 시간 별 트 보, Reply 통계

twInfluence 사 API 공

Twitaholic 사 랭킹

Twitalyzer

TwitGraph 별 통계, 주 사 단어, 상 Mention

Twitter Grader 사 랭킹, 본 보 통계

TwitterCounter 시간 변 에 Follower/Following/Tweet

Twitturly Tweet에 많 언 URL 열

2 Twitter 비스

열 비스 Export.ly 경우, 스트 보뿐만 니 그림 2 같

그 통계 보 사 가 직 볼 수 다는 특징 다.

Page 23: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 13 -

그림 2 Export.ly 결과

여러 Twitter 비스는 다 과 같 공통 특징 가지고 다.

가. 수집 고 처리 지만, 그 식과 엇 지 지

. API에 공 는 본 , 간단 통계 처리 수

다. 원 는 data set 수 없고 비스가 사 에 역만 볼

고 수집과 처리 비스 경쟁 과 직결 는 만큼, 가 과

같 내역 공개 지 는 는 어느 도 득 수 다. 지만

검 수 없는 도 재 다. 편, Twitter에 시간당 API 수

고 는 만큼, 여러 사 에게 비스 공 는 과 같

본 만 사 거 , 지 체 다

그것 통계 수 게 다. 후 사 경우 타 비스

Page 24: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 14 -

Twitter에 생 든 Tweet 수집 는 것 거 가능 (시간당 생

는 Tweet 수 사 수 ), 주 사 트워크에 거리가 사

경우 통계에 빠지 쉽다는 단 다.

연 에 가 큰 는 다 과 같 , 본 원 는

택 수 없다는 다. 에 열 수많 비스가 에도

고, 신 연 는 직 API 다룰 수 에 없 , 많 시간

과 게 다.

Page 25: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 15 -

3 연

1 연

본 연 술 경 사 도 SNS 상 는 연

계, 진 시키는 어 움 없도 는 다. 술 경 사

는 크게 눌 수 는 , SNS 연 에 심 는 사 과 SNS

API에 직 숙 지 그 다. 경우 에 사 지식

고 연 는 것 편 실 수집과 연

검 에 어 움 겪는다. 후 경우 그 술 가지고 SNS가 가

지고 는 특 과 , 청 에 는 숙 지 다.

러 사 들 사 만 는 수집- Platform

, 다 과 같 연 다.

(연 1) SNS 얻 수 는 도 수 는 보는 엇

료 수집 거 에 어 가 사 가능 지 는 것

우 므 , 비스 직 얻 수 는 보 , 에 계산 등 차 거쳐

도 수 는 보가 엇 지 다.

(연 2) SNS에 수집 주 엇 처

는가

비스 특 과 료 수집 스 진 상 , 수집 과 에

여러 가 생 수 다. 본 연 에 는 러 미리 살펴보

고, 찾 낸 후 수집/ 도 에 도 다.

Page 26: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 16 -

(연 3) SNS 상 는 연 에 사 수집/ 도 에는

어 가 포 어 어떻게 계 어 는가

다 에는 지 지 살펴보 연 비스 , 개 책

수집- 도 ( Platform) 계 도 다. 연 에 수 연

연 도 고 술 도 내 는 어 다. 에 고

는 Platform 차 연 - 경 과 가 단계

에 도움 주는 것 , 후 연 에 능 수

도 다. Platform 통 쉬운 수집 고 처리

는 공 도 다.

2 연

연 1 결 각 SNS에 공 는 API 고, 청

수 는 동 과 다. 든 SNS 상 는

어 우므 , 본 에 는 사 가 많 상 가 생 는 개 비스

(Facebook, Twitter, YouTube) 상 다. 다만 Platform에 변경

없 다 SNS 지원 수 도 계 다. 동 과 경우에도

공 고 는 것 많 , 비 연 에 사 수 다고 단 는 것 우

도 다.

연 2 결 는 실 연 에 생 들 원

살펴보고, 결책 시 다. 특 비스 만 근 보다는 SNS

연 에 수 는 찾는다. 료 원(Source), 수집 ,

그 술 , 처리 등에 살펴보도 다.

Page 27: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 17 -

연 3 는 실 사 가능 그 계, 다. 도

는 독립실 그 태 가진다. 에 듯 수

집과 결과가 복 수 도 택 고 수 도

다. 도 검 수 업 료 수집과 그 료

수집 결과 과 비 고, 실 연 Case에 수 는 과

보도 다.

Page 28: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 18 -

4 능 사

1 SNS API

에 언 것과 같 , (Facebook, Twitter, YouTube) SNS에

API 도 다. YouTube 경우 통상 개 SNS에 포

보다는 비 공 비스 는 경 강 , 매체 특

사 간 상 타 SNS 사 , 다 SNS 상 (링크

생 는) 경우가 많 포 었다. 든 비스 공 는 API

, 가 그 브러리234 참고 다.

1. Facebook

Facebook에 공 는 개 5에 주 료 태( ‘개체’

) 25 열 고 다. 지만 실 각 개체에 개체가 므

체 개체 수는 늘어 다. 연 에 다고 단 는 개 보( ,

쪽지 등) 개체 것 다 과 같다. (개체에 연결

개체 미 )

2 Facebook: RestFB (http://restfb.com/)

3 Twitter: Twitter4J (http://twitter4j.org/)

4 YouTube: Google Data Java Client Library (http://code.google.com/p/gdata-

java-client/)

5 https://developers.facebook.com/docs/reference/api/, 사 그

Page 29: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 19 -

개체

Album 사진들 는

CategorizedFacebookTyp

e

(+ , ) , , 고 보가

들어

Checkin 체크 사 가 에

Checkin.Place 체크 에 보

Checkin.Place.Location 체크 보 보

Comment 들

Event 트 트

FacebookType 고 보가 들어

Group 그룹 그룹

Link 링크 링크 게시

Location 과 보

NamedFacebookType (+ ) 가리키 , , 고

보가 들어

Note 트 트

ObjectTag Object 태그 본 언 (사 ,

지)에 태그 보

Page 지 지

PageConnection 지 여러 지에

Photo 사진 사진 게시

Photo.Image 미지 여러 크 사진에

Photo.PhotoTag 사진 태그 사진에 지 태그

Post 게시 ( 든 ) 게시

Post.Comments 게시 들

Post.Likes 게시 ‘ ’

Post.Place 게시 게시 과 보

Post.Privacy 게시 공 게시 공개 상에

Post.Property 게시 가 보 게시 에 가 보

StatusMessage 상태 시지 상태 시지

User 사 사

User.Education 사 보

User.EducationClass 수업 사 가 들 수업에

Page 30: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 20 -

User.Family 가 사 가 에 보

User.Sport 스포 사 스포 보

User.Work 직 사 직 보

Venue 과 보

Video 비 비 게시

3 Facebook 개체

개체는 User, Post 도 사 개체들 에도 가지고 는

보에 다 차 가 므 (Post Checkin, Link, Note, Photo,

StatusMessage, Video) 에 사 게 다.

다 비스에 도 간 연결 계가 어 지만, Facebook 경우에

는 ‘Graph’ API 여 연결 비스에 게 사 고 다. 개체가

고 뿐 니 URL 갖고 어 통 에 근 수 , 비스

에 재 는 도 URL 통 다는 특징 다.

각 개체 별 보 가지고 는 , User (사 보) 개체

가 가지고 는 보 다 과 같다. 각 값 단 값 경우도 고

(생 ) 값 ( ) 수도 다.

bio 내 개 사 개

birthday 생 사 생 . 도는 공개 지

수 .

connection 보 사 에 보

Education 사 보

Email 주 사 주

favoriteAthletes 는 운동 수 사 가 는 운동 수

favoriteTeams 는 스포 사 가 는 스포

firstName 사

gender 별 사 별

hometown 신지 사 신지

Page 31: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 21 -

id 고 식별 는 고

interestedIn 심사 사 심사

languages 언어 사 가 사 는 언어

lastName 사

link 링크 Facebook 지 는 링크

locale 사 가 비스 사 는 언어 (ISO

드)

location 거주지 사 거주지

meetingFor 심사 ( 별) 사 가 만 는 것 는 상

middleName 가운 사 가운

name

political 사

quotes 는 사 가 는

relationshipStatus 결 /연 상태 사 결 는 연 상태

religion 사

significantOther 결 /연 상 사 결 는 연 상

sports 는 스포 사 가 는 스포

timezone 시간 사 가 곳 시간

type 식 식

updatedTime 수 시간 근 수 시간

username 사 사 고 (주 뒷 )

verified 여 사 지 여

website 웹사 트 사 웹사 트 주

work 직 사 직 에 보

4 User 개체 보

API에 는 주 (URL) 통 비스 보 원에 근 수 도 고 다.

동 재 다 과 같다.

보 가 여러 보 가 다.

보 가 개 보 가 다.

Page 32: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 22 -

에 상 보

간략 보(고 , )만 는 에 상

보 가 다.

게시 보 가 게시 보 가 다.

사 보 가 사 보 가 다.

사 연 보 사 에 연 보 가 다.

사 담벼 사 담벼 가 다.

사 사 들 가 다. 간략 보만 재

, 상 보는 별도 어 니다.

사 보 사 들에 사 보 가 다.

타 본 타 가 다.

사 가 는 사 가 는 지 가 다.

사 사진 사 가 사진 게시 가 다.

사 가 게시 사 가 게시 가 다.

사 상태 시지 사 가 상태 시지 가 다.

사 비 사 가 비 게시 가 다.

5 Facebook 동

2. Twitter

Twitter에 API 통 얻 수 는 개체는 다 과 같다. 비스 특 에

개체 가 상 것 볼 수 다.

개체

GeoLocation 지리상 지

HashtagEntity 시태그 트 에 시 시태그

MediaEntity 미 어 트 에 포 미 어

Place 가 는 지역

Status 트 트

Trend 트 드 트 드

Trends 트 드 특 시간 트 드

URLEntity 주 트 에 포 단 웹주

Page 33: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 23 -

User 사 사 보

UserList 사 리스트 사

UserMentionEntity 트 에 포 사

6 Twitter 개체

가 다고 단 는 Tweet 개체 (Status) 보 다

과 같다. Tweet 상태(새 었는지, 답 지, Retweet 었는지)에

값 재 에 차 가 다.

contributorsIDs 공동 Tweet 공동 고

createdAt 시간 Tweet 시간

geoLocation 보 Tweet과 보

hashtagEntities 시태그 Tweet에 포 시태그

id 고 Tweet 고

inReplyToScreenName 답 사 답 Tweet 상 사

inReplyToStatusId 답 Tweet 답 Tweet 원 Tweet 고

inReplyToUserId 답 사 고

답 Tweet 상 사 고

isFavorited 심 여 Tweet 심 지 는지 여

isTruncated 여 Tweet 본 140 과

는지 여

links 링크 Tweet에 포 링크

mediaEntities 미 어 Tweet에 포 미 어

myRetweetedStatus Retweet

Tweet

당 Tweet에 본 Retweet

place Tweet과

retweetCount Retweet 수 Tweet Retweet 수

retweetedStatus Retweet 원본 Retweet 었 경우, Tweet 원본

Tweet 보가 들어

source 경 Tweet 경 는 어 리

text 본 Tweet 본

urlEntities 주 Tweet에 포 단 웹 주

Page 34: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 24 -

user 사 Tweet 사 보

userMentionEntities Mention Tweet에 포 사 Mention

wasRetweetedByMe 직 Retweet 본 Tweet Retweet 는지 여

7 Tweet 개체 보

특 만 , 비 근에 API가 변경 Tweet에 보들

( ‘Entities’ 는 ) 포 었다는 것 다. 보가 재 지

는 스트 처리 여 직 보 ,

보가 얻어내지 못 는 경우가 생 다. 비스 체에 미리 처리

공 므 러 수고 게 었다.

간 Trend 루 동 Trend 가

재 사 고 재 그 사 고 얻어

사 고

사 고 생 여, 사

상 수 도

Tweet 특징 Tweet에 다 과 같 특징 재 는지 :

Retweet, Mention, Singleton, Hash Tag, 링크.

Tweet 링크 Tweet에 포 든 링크 주

평균 Tweet 수 사 평균 Tweet 수 계산

Tweet 계 사

사 가 계 등 지 짜 수 계산

Follower-Following

비 계산

사 Follower Following 사 수 비 계산

Follow 사 사 Follow 는 다 사 가

Following 사

사 가 Following 다 사 가

사 보 가 사 에 보 가

리스트 사 리스트에 가 사 가

사 리스트 가

사 가 리스트 가

Tweet 가 사 가 Tweet 가

Page 35: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 25 -

사 간 사 다 사 사 에 생 수

주간 Trend 주간 Trend 가

8 Twitter 동

8 API 리 동 다. 가지 동 (사 고

생 , 트 링크 등) 연 에 다고 단 어 가 다.

3. YouTube

비 심 비스에 맞게 비 비 에 보, 미 어

타 보에 재 다. 40개 개체 들 개체

다 같다.

개체

Category 특 타냄

CommentEntry

Content 내 내 에 보

FeedLink 링크 에 링크

Link 링크 다 에 링크

MediaThumbnail 미리보 동 상 특 시 에 미리보

Person 간략 사 보 ( 등)

PlaylistEntry 재생 재생

PlaylistLinkEntry 재생 링크 재생 에 링크

PlaylistLinkFeed 재생

여러 재생 에

SubscriptionEntry 독 사 가 독

SubscriptionFeed 독 사 가 독 들에

TextConstruct 스트 스트 보가 들어 습니다.

UserProfileEntry 사 보 사 에 보

VideoEntry 비 비 에 보

Page 36: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 26 -

VideoFeed 비 비 에

YouTubeMediaGroup 미 어 보 미 어에 상 보

9 YouTube 개체 ( )

개체들 가 심 비 보는 다 과 같 보 가진

다. YouTube 특징 Category마다 어 개체 시 다는

것 , 에 보 얻 여러 단계 개체 거쳐 들어가

다. ( 에 것 개체 것 다)

authors

categories

commentEntries 에 달린

content 내 내

contributors 여 여

edited 편집 시간 편집 시간

embeddable 공 가능 사 트에 동 상 공 수 는지 여

geoCoordinates 과 에 보

id 고 고

kind

label 블 블

location 비

mediaGroup 미 어 보 미 어에 상 보

publicationState 공개 상태 비 공개 진 상태

published 시간 시간

racy 컨

비 에 컨 가 포 어 는지

rating 평 평 에 보

recorded 시간 시간

relatedVideos 비 비

responseVideos 답 비 답 비

Page 37: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 27 -

rights 과 보

statistics 비 통계 비 에 통계 보

summary

title

updated 근 수 시간 근에 수 시간

ytIncomplete 결 비 타 보에 빠진 는지 여

ytRating YouTube 평 평 에 보

10 비 개체 보

마지막 비스에 공 는 동 다. 개체에 보

많 에, 사 수 는 개별 동 수는 많지 것 볼 수 다.

사 가능 비 막 사 가능 비 막 언어 가

비 가 비 가

비 보 가 비 보 가

비 막 가 비 막 가

사 보 가 사 들 보 가

재생 가 사 재생 들 가

독 가 사 독 들 가

겨찾 가 사 가 겨찾 비 가

린 비 사 가 린 비 가

검색어 찾 지 검색어 비 찾습니다.

키워드 찾 지 키워드 비 찾습니다.

11 YouTube 동

2 SNS 연 상

에는 SNS 상 는 연 진 연 에 경험 연

(사 과 그 포 )가 주 맞닥 릴 수 는 들에 살

펴보도 다.

Page 38: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 28 -

1. 어 가 는지 어 움

에 살펴보 듯 각 비스 별 개체, 재

각각 미 단 어 다. 특 각 단순 값(숫 스

트) 것 니 다 개체 경우 그 는 것 욱

어 워진다. 같 료 가 복 원 , 료 식 계

진 거 (XML 경우), 료 달에 복 없 많 보 담

수 다. API 경우 러 료 는 그 보여주지 못 고

뚱그 식 여, 에 어 움 주고 다.

러 료 쉽게 는 원 계 ,

에 개체 식 는 그 보여주어 가 다. 각 료 별

어 식 고 어느 경우에 사 다는 같 수 어 다.

2. 사 어 운 업들

SNS API 식 거 XML 는 JSON 식 , 는 웹

비스 경 에 것 다. XML 경우 ( 진 식에 비 ) 사

수 는 식 고 도 지 다. 실 SNS에 API 통

어 원본 XML 직 다 도 어 에 어 가 는

것 지 어 다.

Page 39: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 29 -

그림 3 XML 결과

연 에 에 도 러 사

직 처리 는 들다. 원본 사 보다는 웹 상 사

스에 찾는 것 게 다. 지만 사 스는

상 에 , 든 보가 에 보여지지 므

많 동 다.

XML JSON 식 사 보다는 그 처리 쉬우므 ,

그 여 사 가 수 도 다.

각 다 상에 같 업 수 는 복 업 경우에도,

그 처리 는 것 리 다. 역시 상 고 그 상에

업 복 도 다 결 수 는 다.

Page 40: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 30 -

3. 연 과 에 data set 변경

연 과 거 data set 고, 료 게

다. set 변동 지 겠 , 다 보 특

가 경우가 생 다. 빠진 보 다시 수집 는 는 생각보다 많

시간 걸리는 , 개 경우 만 수집 다 도 에 린

든 보 청 다. 거 원 수집만큼 시간

다.

결 는 당 지 보 도 단

었다가, 만 택 사 는 다. 단, 다 에 API

수 공간 가 에, 는 보

는 청에 가 수 는 것 는 것 당 다.

4. API 사 상

각 SNS가 Open API 공 고 , 우 사 들에게 원 비

스 공 는 것 우 다. API 통 량 청 고

다. Twitter 경우 IP에 비 그 시 시간 당 150 , 그 시 350

비스 가능 다6. 사 Whitelist에 등 경우 시간당 2만 지 비

스 수 늘릴 수 , 사 상 ( 그 , 비스)

것 닐 경우 허 주지 는 경우가 많다.

6 Twitter Traffic 에 값 그 가 수도 다. [30]

Page 41: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 31 -

YouTube 경우 시간 당 없 , 짧 시간 내에 여러 료 청

경우 도 늦춰 것 청 는 시지 다. 개 7에

런 경우 10 동 비스에 청 지 것 고 다. Facebook

경우 진 청 수 과 같 것 없지만, 비스 상태에

신 시지가 는 경우가 다.

러 에 수집 수 다. Twitter에 실

수집에 , 1시간 10 만에 주어진 수 사 고

지 시간 동 는 상 생 다. 비 비스 개 ( : 사

보 청 여 수 감 시킴) 러

수 다. API 도 원 만큼, 상 내에

청 고 근 다.

비스 상태에 돌 생 는 처리 다. 상

도 비스 사 가 많 경우 지 수 ,

게 빠진 는 료에 곡 가 수 다. 비스 에 맞 어 재시도

거 당 처리 는 것 처 수 다.

7 https://developers.google.com/youtube/faq#limits

Page 42: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 32 -

5 Platform 계

단계 사 Platform 계 다. Platform

Social Network Inspector 고 여, 그 통 Social Network

들여다 볼 수 타내었다.

User Interface

Execution Module

Eclipse RCP Data Model Service Model

Task/Action Model

Triple Store XML

Java

그림 4 Platform 도

1 링

그 에 고 사 링 다.

Platform에 사 는 는 크게 비스에 보 실 내 담 것,

업(Task)에 3가지 뉜다.

1. Service Model

비스 개체, 료 타내 다. 다 과 같

어 다.

Page 43: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 33 -

가. Service: 각 SNS 비스에 보 담고 다. 본 보 ( ,

) 에 Action과 Type 갖는다.

. Action: 비스에 수 수 는 동 들 다. 본 보 매개 변

수(Parameter) 갖는다.

다. Parameter: 동 수 는 값 다.

. Type: 비스 개체 료 에 보 다. 본 보 에

Field( ) 값 갖는다.

마. Field: 보 에 내 담고 다.

것 곧 SNS에 타 보 고 수 , 각 비스 별 내

술 XML 여 여 에 보 다. 과 에 후 변

경 없 다 비스 가, 변경 수 도 다.

2. Data Model

SNS 상에 재 는 실 담고 는 , 비스 달

값 여 는 맡는다. Service Model에 ‘ 료 ’에

당 다.

본 SNS 공 식(XML, JSON) 는 그

브러리가 에 도 , 편 가 는 거

재 다.

수집 차 진 료 는 , Database가 사

었다. 경우 계 Database에 Table 계 고 게

지만, SNS 료 는 계 가지고 보 수도 매우 가변

Page 44: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 34 -

다. 러 결 Ontology 보 사 는

Triple Store 도 다. 에 가 SNS 보 Ontology linked

data 타낼 수 는 능 가능 다.

3. Task Model

컴퓨 에 업 시키 그 는 것처럼, 료 수집

차 간단 Set 다. 여 체

Task(‘ 업’) 고 고, 각 동 Action(‘동 ’) 고

다. Action 지 동 수 고 그 결과 Data set 가지고 다.

Set는 다 과 같다.

Combine 병 여러 동 실 결과 다.

Crawl 수집 비스 수집 다.

Input 료 원본 러 다.

Jump 순 동 단계 실 결과가 참 , 지 순

동 다.

Output 료 다.

Script 스크립트 능 , 스크립트 실 다.

Select 택 택 거 는다.

Store 에 수 다.

12 Task Model Set

Input 수집에 는 료 러 사 많 특

에 가 었다. Jump 경우 에 단계 돌 갈 수 는 ,

게 미 수집 원본 다 가 수집 는 동

수 수 다.

Page 45: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 35 -

러 Task는 보 담고 는 XML 거 어 들 수 다.

Task 실 Module Task XML 어 차에 실 , 수집

Triple Store에 다.

2 사 스

Task 계 고 업 수 차 시 사 스

다. 다 운 체 사 는 경우가 많 진 만큼, Platform Java 언어

Eclipse RCP (Rich Client Platform) 에 만들어 다.

1. 어 리

그림 5 어 리

사 스 체 다 과 같다.

Page 46: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 36 -

가. 쪽 - Task XML 볼 수 는 트 탐색

. 가운 - 업 계 (편집 )

다. 쪽 - 동 에

. - Task 실 상태 시 는 결과 창

2. 업 계

그림 6 업 계

업 계 에 는 동 (Action) 가, 삭 , 순 변경 수 다. 에

는 동 타내는 과 실 순 , 동 , 동 값

시 다.

동 가 경우 다 과 같 동 가 상 가 시 , 가 동

택 수 다.

Page 47: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 37 -

그림 7 동 가 상

에 특 동 택 경우 다 동 시 다.

3. 동

동 에 는 각 동 과 값 수 다.

경우 , , 헤 , 경 , 내 지

수 다. 경 내 상 타 , 내

러 거 창에 내 간단 게 직 수 도 다. 지원 는

는 처리 스트 , 많 사 는 Excel 식 포

다.

경우 과 비슷 ( 에 계 여 내

것 가) 값 고 직 수 없 , 헤 ( 릿 ) 지

수 다.

Page 48: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 38 -

그림 8

수집 에 는 비스 동 택 수 , 동 과 연 매개

변수 값 수 다.

동 택 동 택 상 에 원 는 동 택 다. 어느 동

어 비스에 는지 보여주 계 시 , 동 어

는지 시 다.

그림 9 수집

Page 49: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 39 -

그림 10 동 택 상

택 에 는 수집 data set에 어 보

지 결 다. 에 여러 보 택 수 , 본 능

(개수, , 평균, , ) 지원 다. 값 택 경우 료 택

상 가 시 다.

그림 11 택

Page 50: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 40 -

그림 12 료 택 상

료 택 상 는 동 택 마찬가지 비스 개체,

계 , 각 에 시 다.

단순 값 니 개체 경우 그 개체 다시 택 수 도

다.

Combine 과 병 , Jump 과 순

동 , Script 과 스크립트 , Store 과

다.

Page 51: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 41 -

3 능

1. 비스 가

Platform과 술 는 XML 과 실 동 드

어 다. 러 Platform 리 여 러그 만들어,

후 능 가 가능 다. 미 재 는 능 변경 는 경우에

도 들어가는 다.

러그 식 능 는 에 것과 같 가지

( 비스 술 XML, 동 드)가 다. 러 들

net.theyt.sni.service.( 비스 ) 키지 에 다.

비스 술 XML 경우 동 료 에 보 실 드에 맞게 채

워 주 , service.xml 고 어 다. 비스 체 동

처리 는 Class는 ServiceHandler 는 가지 , 미리 지 다.

Data Model 경우 net.theyt.sni.service.( 비스 ).model 키지에 ,

에 특별 없다. 비스 사 트에 공 는 에 맞게

다.

능 체 미 3가지 비스 내 참 여

수 다.

2. Script 능

본 공 는 Task 동 Set 편 다. 는 Task 실 Engine

과 비스 가 가능 다. 지만 실 상 에 는 많 가

Page 52: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 42 -

능 에 /후 처리가 , 러 사 에

Script 능 었다.

Script 능 사 가 별도 스크립트 실 수 는 능 다.

재 Platform에 지원 는 스크립트 언어 는 Beanshell, Java, Javascript,

Python (JPython) 후 가 가능 다. 그 에 지식 는

사 경우 Platform에 수집, 처리 스크립트 내에 가공

고, 다시 수 다.

스크립트 내에 는 단계 결과 ‘input’ 는 변수

수 , 처리 결과 ‘output’ 는 변수 돌 수 다. 복

처리 Ontology Triple Store에 직 근 수도 다.

스크립트 사 능 는 다 에 볼 수 다.

Page 53: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 43 -

6 능 평가

1 연 상 결

에 SNS 연 상 가지 살펴보 다. Platform 에

어 어떻게 결 었는지 다.

1. 어 가 는지 어 움

사 스 상에 동 료 택 상 공 여, 비스에

어 동 사 수 고 어 료 택 수 는지 다.

특징에 맞게 계 보여주 , 각 쉬운 과 여

도 다. 보 계 는 경 태( ) 타내었다.

2. 사 어 운 업들

원본 (XML, JSON) 사 에게 숨 고 료 택 여 그 값

다룰 수 도 다. Jump 동 과 같 복 능 가 , 다

수 비스 동 에 값 수 게 여 같 동 -다

에 복 게 다.

3. 연 과 에 data set 변경

비스에 청 여 수 는 든 보가 Ontology Store에 므

, 에 들어가는 보 언 든지 가 수집 없 수 다.

Page 54: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 44 -

수집 경우에도 미 수집 진 수 도

다.

4. API 사 상

사 에 API 사 직 처리 는 없도 사

에 처 다. 시간당 수가 는 경우(Twitter)에는 Platform 수

에 수 는 없 , 청 간 간격 여 결 수 는

경우 비스 청 도 동 시간 간격 도

다.

비스 에 원 는 수집 지 못 경우,

수 내에 재시도 도 여 곡 가능 다.

2 능

Platform 동 평가 개 Task 만들고, 실 결

과 살펴보 다.

1. Facebook 사 보 수집

Facebook에 그 재 사 얻고, 그 들 개 보

( , , 생 , 별) 수집 는 Task 다. 사 가 업 수 경

우 다 과 같다.

1. 비스에 그

2. 지 동

Page 55: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 45 -

3. 각 지 동

4. 보 지에 보 찾 복사

5. 다 사 에 복 (3단계 )

Platform에 업 수 경우 다 과 같다.

1. 비스 그 ( 동 )

2. 수집: Facebook 사 보 가 ( 그 사 )

3. 수집: Facebook 사

4. 수집: Facebook 사 보

5. 택: 사 . , 사 . , 사 .생 , 사 . 별

6. : Excel

업 비 볼 다 간 차 가 는 것 볼 수 다. 는 사

웹 스 API 차 , 는 사 과 그 보 식

차 에 것 다.

Social Network Inspector Platform Facebook API 고 , 특

동 는 그 거 사 에게

다. 럴 경우 다 과 같 창 시 어 단계 진 수 다.

Page 56: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 46 -

그림 13 Facebook 사

업 수 결과 4 20 에 걸쳐 89 (본 + 88 ) 보 상

어 다.

2. Twitter Follow 사 Follower가 가 많 수 찾

Twitter 사 가 Follow 사 , 가 Follower 수가 많 경우

지 보는 Task 다. 업 다 과 같다.

1. 수집: Twitter 재 사 고

2. 수집: Twitter 사 보 가

3. 수집: Twitter Follow 사

4. 택: 사 . 워 수 ( 값 )

5. : 스트

Page 57: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 47 -

그림 14 Task

업 수 결과 25 동 수 었 ( 상 Follower 사 수 54 ),

결과 값 상 다.

3. YouTube에 사 가 가 많 시청 비 보 얻

에는 YouTube에 사 가 가 많 시청 비 얻어

는 Task 다. 업 다 과 같다.

1. :

2. 수집: YouTube 비 가 ( 사 가 많 시청 비

주 8)

3. : Ontology

수집 든 볼 수 도 Ontology 식

다. 업 수 결과 19 에 걸쳐 98개 비 보 수집, 다.

수집 Ontology 체 엔진에 에 습

다 과 같다. Linked data 각 개체가 어 에, 다

Hyperlink 통 동 당 보 수 다.

8 https://gdata.youtube.com/feeds/api/standardfeeds/kr/most_viewed

Page 58: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 48 -

그림 15 YouTube 동 상 보 Ontology

4. 게시 시간에 사 사도 계산

Script 능 복 다. SNS에 연 는

단순 수집과 통계 어 [29]에 같 Homophily 트워크

(Hub, Authority, Influence 등)과 같 복 고

다. 에 는 그 , Twitter에 사 가 Tweet 시간

포 사 간 사도 계산 도 다. 계산 다 과 같다.

1. 여러 사 에 Tweet 수집 다.

2. 각 사 Tweet 시간 별 (24시간) 여 수 다.

3. 수 각 사 Tweet 수 누어 규 시킨다. Tweet

Page 59: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 49 -

시간 별 Vector 고 다.

4. 사 다 사 Tweet 시간 별 Vector에

Cosine 사도 계산 다.

∑ ×

∑ ( )

× ∑ ( )

식 과 같 A B는 각 사 Tweet 시간 별 Vector 다.

다 본 (본 포 ) 7 사 에 Cosine 사도 계산

것 다.

사용자 유사도

(본 ) 1.0000

사 1 0.8317

사 2 0.7276

사 3 0.8536

사 4 0.8032

사 5 0.7610

사 6 0.7677

13 사 사도 계산 결과

본 신 경우에는 가 동 므 사도 값 1 , 사 에

사도 값에 차 가 는 것 볼 수 다. 다만 사 원 시간 사

에 사도 편차가 심 지는 다. 러 보

평가 가 수 수 다.

Page 60: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 50 -

5. 게시 본 어 색 어

에는 그 여, 사 가 게시 색 어

도 다. 색 어 에는 어 태 9 사 다.

트 도우미 계 (@dowoomi) 근 Tweet 200개 상 본 수집

고, 태 통 색 어 다. 에 Tweet

에 도 수도 Tweet 특 상 연 고 보 어 우므

각 Tweet 별도 처리 다. 각 트 색 어 색 어 수가 가

것 여 빈도 고 결과는 다 과 같다. (빈도수 3 상)

단어 빈도

트 69

t.co/va7dHVRm 13

재 13

11

비 8

운 원 6

편 5

5

계 4

사 4

미지 4

드폰 4

도움말 3

3

비공개 3

3

타 3

9 Korean Language Technology (KLT):

http://nlp.kookmin.ac.kr/HAM/kor/index.html

Page 61: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 51 -

3

14 Tweet 색 어 결과

원 계 특 (트 사 지원 계 )에 맞는 단어들 상 에 는

것 볼 수 다. 결과 웹 주 는 사 지원과 지 다.

러 통 계 스트 수 여, 사

수 수 것 단 다.

Page 62: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 52 -

7 결

1

본 에 는 SNS 수집 고 는 도 Social Network

Inspector Platform 계, 다. 각 SNS 특징, 주 동

료 여 Model 다. 연

SNS 상 료 수집 는 과 에 생 수 는 견 고

책 찾 보 다.

Platform 크게 Task 실 Module과, 사 스 었다. Task

실 Module Task 실 고 수집 결과 는 역 , 사

스는 Task 계 고 실 결과 지 볼 수 도 만들어 다.

동 여 그 에는 Service Model, Data Model, Task

Action Model 각각 보 지 고 다.

Platform 결과 실 동 가능 Task 계 고 실 수 었 ,

도 상 수집 었다.

2 연 시사

(Web) Crawler 보 , 지 지 여러 동 수집

그 재 다. 지만 SNS 상 특 Task에

Platform에 는 직 지 진 과가 보고 없다.

Platform 여 SNS에 생 연 연 진척에 도움

것 고 다. 특 처 에 연 단계에 에

Page 63: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 53 -

는 가 없 , 다 능 보 다 본격 수집과 에도

수 것 고 단 다.

3 연 계 언

여러 사 수집과 고민에도 고 Platform 계 상에 미

재 , 개 가 고 생각 다.

1. 동 료 개

비스 동 료 돕 계 태 에

다. 지만 료 경우 그 가 많 , 지 그

수는 비스당 수 개가 는다. SNS에 가 경우 원 는 어

는지 찾는 것도 쉬운 과 가 닐 수 다.

러 결 는 ‘ 주 사 는 료 ’ 여

편에 시 거 보 도 강 는 다.

2. 병 수집

SNS 연 량 수집 가고 , Big data

계에 재 각 는 다. 에 술 다시 컴퓨

에 료 청 는 거는 경우가 어, 량 지 수

집 경우 실 수집 는 시간 낮 지고는 다.

Page 64: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 54 -

결 여러 컴퓨 병 수집 수 다.

Platform 경우 수집 Database에 도 10 고 여러 컴

퓨 에 실 다 병 수집 수 다. 지만 럴 경우 주

원본 data set 수집 data가 겹 지 도 는 것

다.

개 사 지만 처 달 만큼, 시험 거쳐 연 들에게

리 사 수 다 연 에 큰 도움 것 다.

10 Ontology Store 상 경 트워크 상 다 컴퓨 경 지 수

다.

Page 65: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 55 -

참고 헌

[1] Tim O'Reilly, "What Is Web 2.0: Design Patterns and Business Models for

the Next Generation of Software," International Journal of Digital

Economics, no. 65, pp. 17-37, 2007.

[2] PCMag.com. (2012, Apr.) Facebook Now Totals 901 Million Users, Profits

Slip. [Online]. http://www.pcmag.com/article2/0,2817,2403410,00.asp

[3] mediabistro. (2012, Feb.) Twitter To Surpass 500 Million Registered

Users On Wednesday. [Online].

http://www.mediabistro.com/alltwitter/500-million-registered-

users_b18842

[4] Miniwatts Marketing Group. (2011) Internet World Stats. [Online].

http://www.internetworldstats.com/stats.htm

[5] Boram Park, Changjin Han, and Namjun Kang, "Network Topology of

Social Media and Information Behavior Pattern," in The 1st Conference on

Pioneering Convergence Technologies, Jeju, Korea, 2011, pp. 56-59.

[6] Eunbin Kim and Yong-tae Hwang, "Communication Networks on Twitter:

How Many of Twitter Followers Does One Actually Communicate with?,"

in The 1st Conference on Pioneering Convergence Technologies, Jeju,

Korea, 2011, pp. 52-55.

[7] (1996) PC Magazine. [Online].

http://www.pcmag.com/encyclopedia_term/0,2542,t=application+program

Page 66: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 56 -

ming+interface&i=37856,00.asp

[8] Djamal Benslimane, Schahram Dustdar, and Amit Sheth, "Services

Mashups: The New Generation of Web Applications," IEEE Internet

Computing, vol. 12, no. 5, pp. 13-15, Sep. 2008.

[9] Sunilkumar Peenikal, "Mashups and the Enterprise," Mphasis, New York,

USA, White Paper 2009.

[10] Mei Kobayashi and Koichi Takeda, "Information retrieval on the web,"

ACM Computing Surveys, vol. 2, no. 32, pp. 144-173, June 2000.

[11] Helena Deards. (2009) Twitter first off the mark with Hudson plane crash

coverage. [Online].

http://www.editorsweblog.org/multimedia/2009/01/twitter_first_off_the_m

ark_with_hudson_p.php

[12] Jason Kincaid. (2009, Mar.) Foursquare Scores Despite Its Flaws.

[Online]. http://www.washingtonpost.com/wp-

dyn/content/article/2009/03/18/AR2009031802819.html

[13] D. Zhao and B. M. Rosson, "How and Why People Twitter: The Role that

Micro-blogging Plays in Informal Communication at Work," in Proceedings

of the ACM 2009 International Conference on Supporting Group Work,

New York, USA, 2009, pp. 243-252.

[14] Boris Veldhuijzen van Zanten. (2010, Sep.) The Next Web - Twitter

Statistics: 82% of Twitter users have less than 350 followers. [Online].

http://thenextweb.com/socialmedia/2010/09/30/twitter-statistics-82-of-

Page 67: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 57 -

twitter-users-have-less-than-350-followers/

[15] d. boyd, S. Golder, and G. Lotan, "Tweet, Tweet, Retweet: Conversational

Aspects of Retweeting on Twitter," in Proceedings of the 43rd Hawaii

International Converence on System Sciences, Kauai, Hawaii, USA, 2010.

[16] Twitter, Inc. (2010, May) Twitter API Documentation. [Online].

http://dev.twitter.com/doc/post/statuses/retweet/:id

[17] Maggie Shiels. (2009, June) BBC News: Web slows after Jackson's death.

[Online]. http://news.bbc.co.uk/2/hi/technology/8120324.stm

[18] Christo Wilson, Bryce Boe, Alessandra Sala, Krishna P. N. Puttaswamy,

and Ben Y. Zhao, "User Interactions in Social Networks and their

Implications," in Procedings of EuroSys 2009, Nuremberg, Germany, 2009.

[19] Vijay Erramilli, Xiaoyuan Yang, and Pablo Rodriguez, "Explore what-if

scenarios with SONG: Social Network Write Generator," Spain, 2011.

[20] A. Java, X. Song, T. Finin, and B. Tseng, "Why We Twitter: Understanding

Microblogging Usage and Communities," in Proceeedings of the Joint 9th

WEBKDD and 1st SNA-KDD Workshop, San Jose, Califonia, USA, 2007.

[21] Balachander Krishnamurthy, Phillipa Gill, and Martin Arlitt, "A Few Chirps

About Twitter," in Proceedings of the First Workshop on Online Social

Networks, New York, USA, 2008, pp. 19-24.

[22] B. A. Huberman, D. Romero, and F. Wo, "Social Networks that Matter:

Twitter Under the Microscope," First Monday, no. 14, pp. 1-9, Jan. 2009.

Page 68: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 58 -

[23] Courtenay Honeycutt and Susan C. Herring, "Beyond Microblogging:

Conversation and Collaboration via Twitter," in Proceedings of 42nd

Hawaii International Conference on System Sciences, USA, 2009, pp. 1-

10.

[24] Alex Leavitt, Evan Burchard, David Fisher, and Sam Gilbert, "The

Influentials: New Approaches for Analyzing Influence on Twitter," Web

Ecology Project, 2009.

[25] H. Kwak, C. Lee, H. Park, and S. Moon, "What is Twitter, a social network

or a news media?," in Proceedings of the 19th International World Wide

Web Conference, USA, 2010.

[26] M. Cha, H. Haddadi, F. Benevenuto, and K. Gummadi, "Measuring user

influence in twitter: The million follower fallacy," in Proceedings of the

4th International Conference on Weblogs and Social Media, USA, 2010.

[27] Jeff Young. (2010, May) The Chronicle: Researchers Find ‘Million-

Follower Fallacy’ in Twitter. [Online].

http://chronicle.com/blogs/wiredcampus/researchers-find-million-

follower-fallacy-in-twitter/24290

[28] (2011, Jan.) Twitter Fan Wiki - Apps. [Online].

http://twitter.pbworks.com/w/page/1779726/Apps

[29] De Munmun Choudhury, Hari Sundaram, Ajita John, Doree Duncan

Seligmann, and Aisling Kelliher, ""Birds of a Feather": Does User

Homophily Impact Information Diffusion in Social Media?," in

Page 69: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 59 -

arXiv:1006.1702, 2010.

[30] Benny Evangelista. (2010, Sep.) San Francisco Chronicle: Twitter now has

145 million users after growth spurt. [Online]. http://www.sfgate.com/cgi-

bin/blogs/techchron/detail?entry_id=71579

[31] Twitter, Inc. Rate Limiting FAQ. [Online].

http://dev.twitter.com/pages/rate_limiting_faq

[32] Infochimps, Inc. (2011, Mar.) Twitter Census. [Online].

http://www.infochimps.com/collections/twitter-census

Page 70: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 60 -

Abstract

Social Network Inspector: A Platform for Data-driven

Research of Social Network Services

Hwang, Yong-tae

Department of Digital Contents Convergence

The Graduate School

Seoul National University

The development of the Social Network Services was induced by the era of

'Web 2.0' and increasing use of the mobile devices. Enormous data is being

created and researchers are paying attention to them. These data can be

accessed by Application Programming Interface (API) which is publicly opened

by service providers. Most of data-driven research requires program called

'crawler' due to large amount of data.

Researches on SNS require interdisciplinary approach which typically

requires more people than single subject research. However, there are many

cases which require achievement by smaller group of members in early stage of

the study. Also, they most likely rely on manual data collecting, it may cause

unwanted errors.

In this paper, data collecting and analysis platform for researching Social

Network Services has proposed. First, previous studies were reviewed on

Page 71: 저작자표시 비영리 공연 및 방송할 수 있습니다s-space.snu.ac.kr/bitstream/10371/133310/1/000000005405.pdf · 저작자표시-비영리-동일조건변경허락 2.0

- 61 -

"types of data", and "collecting methods". Next, API actions and data types

provided by services were strategically modeled. Also, problems and solutions

which could be occurred while conducting SNS researches were addressed.

Based on the proceeding research, extensible and easy-to-use data

crawling platform was made. By using this platform, common procedure for SNS

researches can be simplified, and most of prior mentioned problems were

resolved. Finally, several case study for real-world research tasks,

performance test and data validation were achieved.

Keywords: Social Network Services (SNS), Application Programming Interface

(API), Crawler, Platform

Student Number: 2010-22686