issue crawler

21
Issue Crawler 언언언언언언 언언 언언언언언 언언언언언언 2011 언 1 언언 < 언언언언언언언언언언언언 > 언언언언 : 언언언 언언언

Upload: webometrics-class

Post on 25-Jan-2015

602 views

Category:

Education


5 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Issue crawler

Issue Crawler

언론정보학과 장윤

영남대학교 언론정보학과 2011 년 1 학기 < 웹보메트릭스의이해및실습 >지도교수 : 박한우 교수님

Page 2: Issue crawler

Issue Crawler

•Issue Crawler 는 온라인상의 웹사이트간 링크를 네트워크로 표현하고자 만들어졌다 .

•자동화된 프로그램을 통해 현재 웹상의 링크들을 네트워크로 표현하는 것을 목표로 한다 .

Page 3: Issue crawler

Issue Crawler

• 시작 URL(uniform resource locator ) 을 설정하고 , 그 URL 에서 연결된 페이지 ( 어디까지 연결될지는 설정 가능 ) 를 찾고 , 대상이 된 URL 간의 링크를 찾아 네트워크 데이터 형태로 표현해준다 .

Page 4: Issue crawler

Issue Crawler

“The Lobby” - 프로그램과 관련한 다양한 뉴스들이 올라온다 .

“Issue Crawler” - 프로그램이 시작되는 페이지이다 .

Page 5: Issue crawler

Issue Crawler

“Network Man-ager” - 자신의 계정에 축적된 조사결과를 보여준다 .

“Archive” - 다른 이들의 연구결과물을 확인할 수 있다 .

Page 6: Issue crawler

Issue Crawler

Issue Crawler 프로그램 실행

분석대상이 되는 페이지의 수는 최소한 두 개 이상이어야 한다 .

<- 이 빈 칸에 원하시는 페이지의 URL 을 입력하면 링크 수집이 시작 .

Page 7: Issue crawler

Issue Crawler

•“Harvester” 페이지에 최대한 링크가 직접적으로 연결된 URL 을 넣으시는 것이 좋다 .

( 예 : www.site.com/links).

Page 8: Issue crawler

Issue Crawler

Co-link 분석

첫 단계에서는 처음 입력한 URL 중에서 두 개 이상의 링크가 아웃된 페이지를 찾는다 . 두 번째 단계는 시작 페이지 및 이전 단계에서 수집된 페이지 간의 링크를 찾습니다

Page 9: Issue crawler

Issue Crawler

•Privilege Starting Points : 처음 시작할 때 설정한 URL 프로그램이 반복될 경우 (“Set iter-ation” 옵션이 2 이상으로 설정하였을 경우 ) 에도 분석대상으로 설정할지를 결정한다 . 1 이상의 링크만 받더라도 앞으로 반복될 프로그램에서 분석대상으로 남도록 설정한다 . (Off – default)

Page 10: Issue crawler

Issue Crawler

•Perform co-link analysis by : “site” 간의 링크를 구할 것인지 , “page” 간의 링크를 구할 것인지 설정하는 옵션이다 . “page” 간의 링크를 선택하시는 것이 더 구체적인 결과를 얻으실 수 있다 .

Page 11: Issue crawler

Issue Crawler

•Set iterations : 같은 설정의 이슈크롤러 프로그램을 몇 번 반복해서 실행하는지를 설정한다 .

•처음 입력한 URL 및 이 URL 로부터 두 개 이상의 링크를 받아 분석대상으로 수집된 URL 모두가 시작 URL(seed URL) 로 설정된다 . 여러 번 반복할수록 , 중심성이 강한 노드의 크기가 더 커진다고 볼 수 있다 .

• 웹사이트 간의 사회연결망 조사를 하시는 경우 , “1” 로 설정하시는 것이 좋다 . . (1– default)

Page 12: Issue crawler

Issue Crawler

•Set crawl depth : 하나 , 둘 , 셋까지의 웹사이트 내 링크를 조사할 깊이 설정이 가능합니다 . 처음 입력한 URL 페이지의 경우 “ depth” 는 0으로 설정됩니다 . 여기서 클릭으로 들어갈 수 있는 다음 페이지의 “ depth” 가 1 로 설정됩니다 . (2– default)

Page 13: Issue crawler

Issue CrawlerSnowball : Co-link 옵션이 처음 입력한 URL 에서 두 개 이상의 링크를 받아야 분석대상이 된다면 , 이 옵션에서는 하나의 링크를 받는 주소도 수집된다 .

Page 14: Issue crawler

Issue Crawler

•처음 입력된 URL 에서 연결된 링크를 찾는 단계가 “ separation 1 단계”입니다 . 1 단계에서 모인 링크 ( 처음 입력한 URL + 수집된 URL) 에서 다시 한 번 연결된 링크를 찾는 단계가 2 단계 , 같은 작업을 한 번 더하면 3 단계가 된다 . 이처럼 링크를 통해 페이지 수를 ‘눈덩이’처럼 늘려나가는 옵션이다 . 그렇기 때문에 처음 시작 URL 을 신중히 결정할 필요가 있다 .

Page 15: Issue crawler

Issue Crawler

•Set degrees of separation : 링크를 찾는 단계를 몇 번 반복할지를 결정합니다 .

•Set crawl depth : 위에서 설명된 바와 같습니다 .

Page 16: Issue crawler

Issue Crawler

•Inter-actor : 처음 입력한 URL 사이의 링크만을 찾도록 하는 옵션이다 .

•Co-link 옵션이나 Snowball 옵션과는 달리 , 노드의 수가 추가로 늘어나지 않는다 .

Page 17: Issue crawler

Issue Crawler

•“Launch Crawl” 을 누르면 링크 수집이 시작됩니다 .

Page 18: Issue crawler

Issue Crawler

Choose Nodes to be mapped : 링크수가 많은 최상 몇 순위의 노드만을 대상으로 설정하여 지도에 표기할 수 있습니다 .

Selection of ties by specificity : 위의 옵션이 노드순위를 대상으로 지도에 표시할 노드를 설정했다면 이 옵션은 링크에 제한을 두어 옵션을 설정합니다 . 노드의 질적 관계를 고려하여 관계의 크기를 제한합니다 .

Page 19: Issue crawler

Issue Crawler

  Selection of ties by fre-quency : 이 옵션은 링크의 크기를 양적으로 제한하여 설정할 노드를 제한합니다 . Size of nodes by : 노드의 사이즈를 이 웹사이트를 관계의 대상으로 설정한 정도만을 나타내는“ inlink” 만을 대상으로 하는지 , 이 노드가 다른 노드를 관계로 설정한 “ outlink” 까지 포함하는지를 결정합니다 .  

Page 20: Issue crawler

Issue Crawler

“advanced option” 페이지 혹은 이전 “ network details” 페이지에서 “ view depic-tion” 을 누르시면 아래와 같은 결과페이지를 보실 수 있습니다 .

Page 21: Issue crawler

Issue Crawler