웹크롤러 조사
TRANSCRIPT
WEB CRAWLER전북대학교����������� ������������������
200924031����������� ������������������ 김윤섭
Focus1.����������� ������������������ 웹����������� ������������������ 크롤러?����������� ������������������
2.����������� ������������������ 응용����������� ������������������ 방향����������� ������������������
3.����������� ������������������ 검색����������� ������������������ 엔진용����������� ������������������ 크롤러����������� ������������������ 정책����������� ������������������
4.����������� ������������������ 기타����������� ������������������ 이슈
1.����������� ������������������ 웹����������� ������������������ 크롤러?
웹����������� ������������������ 크롤러의����������� ������������������ 소개
1.1What is Crawler?
자동으로����������� ������������������ 웹����������� ������������������ 페이지를����������� ������������������ 수집하는����������� ������������������ 프로그램����������� ������������������
수집한����������� ������������������ 페이지의����������� ������������������ url으로����������� ������������������ 이동하며����������� ������������������ 범위를����������� ������������������ 넓혀감
크롤링의����������� ������������������ 핵심����������� ������������������
정보����������� ������������������ 수집����������� ������������������
ex)����������� ������������������ 주커버그의����������� ������������������ 예쁜여자����������� ������������������ 찾기����������� ������������������ ����������� ������������������
~����������� ������������������ 검색엔진의����������� ������������������ 기반
1.1What is Crawler?
1.2 web crawler
자동으로����������� ������������������ 웹����������� ������������������ 페이지를����������� ������������������ 수집하는����������� ������������������ 프로그램����������� ������������������
수집한����������� ������������������ 페이지의����������� ������������������ url으로����������� ������������������ 이동하며����������� ������������������ 범위를����������� ������������������ 넓혀감
2.����������� ������������������ 응용해보기
남의����������� ������������������ 기술로����������� ������������������ 훌륭한����������� ������������������ 서비스����������� ������������������ 만들기����������� ������������������
DDOS����������� ������������������
데이터����������� ������������������ 마이닝(트렌드����������� ������������������ 분석,����������� ������������������ 게시글����������� ������������������ 성향����������� ������������������ 분석����������� ������������������ 등)
2.1����������� ������������������ 남의����������� ������������������ 기술로����������� ������������������ 서비스����������� ������������������ 만들기
크롤링을����������� ������������������ 통해����������� ������������������ 수집한����������� ������������������ 데이터를����������� ������������������ 토대로����������� ������������������ 또����������� ������������������ 다른����������� ������������������ 서비스����������� ������������������ 제작����������� ������������������
뉴스,����������� ������������������ 블로그����������� ������������������ 글����������� ������������������ 모아보기����������� ������������������ 등����������� ������������������
ex)����������� ������������������ 최저가����������� ������������������ 사이트를����������� ������������������ 모아,����������� ������������������ 그����������� ������������������ 중의����������� ������������������ 최저가를����������� ������������������ 다시����������� ������������������ 보여주는����������� ������������������ 쿠챠����������� ������������������ 같은..
특정����������� ������������������ 서버에게����������� ������������������ 수많은����������� ������������������ 접속����������� ������������������ 시도를����������� ������������������ 만들어����������� ������������������ 다른����������� ������������������ 이용자가����������� ������������������ 정상적으로����������� ������������������ 서비스����������� ������������������ 이용을����������� ������������������ 하지����������� ������������������ 못하게����������� ������������������ 하거나,����������� ������������������ 서버의����������� ������������������ TCP����������� ������������������ 연결을����������� ������������������ 바닥내는����������� ������������������ 등의����������� ������������������ 공격이����������� ������������������ 이����������� ������������������ 범위에����������� ������������������ 포함된다.
2.2 DDOS
페이지의����������� ������������������ 정보����������� ������������������ 취득보다����������� ������������������ 접근으로����������� ������������������ 서버에����������� ������������������ 부하를����������� ������������������ 주는����������� ������������������ 것이����������� ������������������ 목적.����������� ������������������
ex)����������� ������������������ 우리����������� ������������������ 학교����������� ������������������ 기관����������� ������������������ 검색을����������� ������������������ thread����������� ������������������ 로����������� ������������������ 다중����������� ������������������ 접근하면����������� ������������������ 금방����������� ������������������ 서버가����������� ������������������ 마비됩니다..
2.2 DDOS
2.3 mining
3. Crawler for Search
검색엔진용����������� ������������������ 크롤러����������� ������������������ 정책
3.1����������� ������������������ 크롤러����������� ������������������ 정책
크롤러의����������� ������������������ 활용도는����������� ������������������ 다양����������� ������������������
그����������� ������������������ 중����������� ������������������ 가장����������� ������������������ 정석이����������� ������������������ 되는����������� ������������������ 검색엔진용����������� ������������������ 크롤러����������� ������������������ 정책
3.1.1����������� ������������������ 선택정책
저장할����������� ������������������ 페이지를����������� ������������������ 선별하여����������� ������������������ 담는다.
3.1.1����������� ������������������ 선택정책-세부
탐색����������� ������������������ 링크����������� ������������������ 제한����������� ������������������
html형식의����������� ������������������ 링크만����������� ������������������ 탐색����������� ������������������
MIME(멀티미디어)����������� ������������������ 링크는����������� ������������������ 제외
3.1.1����������� ������������������ 선택정책-세부
URL����������� ������������������ 정규화����������� ������������������
url����������� ������������������ 작성의����������� ������������������ 차이로����������� ������������������ 동일����������� ������������������ 페이지에����������� ������������������ 접근을����������� ������������������ 막는다.
3.1.1����������� ������������������ 선택정책-세부
경로����������� ������������������ 상승����������� ������������������ 필터링����������� ������������������
seed가����������� ������������������ 되는����������� ������������������ url에서����������� ������������������ 전혀����������� ������������������ 다른����������� ������������������ 가지로����������� ������������������ 뻗어나가����������� ������������������ 탐색����������� ������������������ 범위를����������� ������������������ 넓힘����������� ������������������
abc.com/monkey����������� ������������������ ->����������� ������������������ abc.com/rabbit,����������� ������������������ /tiger..
3.1.1����������� ������������������ 선택정책-세부
집중����������� ������������������ 크롤링����������� ������������������
화제가����������� ������������������ 되는����������� ������������������ 주제에����������� ������������������ 관련된����������� ������������������ 페이지를����������� ������������������ 우선����������� ������������������
페이지����������� ������������������ 수집의����������� ������������������ 정확도����������� ������������������ 향상����������� ������������������ 목표
3.1.2����������� ������������������ 재방문����������� ������������������ 정책
페이지의����������� ������������������ 변화를����������� ������������������ 감지하여����������� ������������������ 재방문����������� ������������������ 여부를����������� ������������������ 정함
3.1.2����������� ������������������ 재방문����������� ������������������ 정책
정의����������� ������������������
페이지의����������� ������������������ 변화를����������� ������������������ 감지하여����������� ������������������ 재방문����������� ������������������ 여부를����������� ������������������ 정함����������� ������������������
웹은����������� ������������������ 매우����������� ������������������ 역동적,����������� ������������������ 주기적으로����������� ������������������ 정보����������� ������������������ 수집����������� ������������������ 여부를����������� ������������������ 조사해야함.����������� ������������������
수집시,����������� ������������������ 추가/변화를����������� ������������������ 보관하여����������� ������������������ 재방문의����������� ������������������ 조건으로����������� ������������������ 사용
3.1.2����������� ������������������ 재방문����������� ������������������ 정책
본����������� ������������������ 정책의����������� ������������������ 최대����������� ������������������ 가중치����������� ������������������ 요소����������� ������������������
ㄴ����������� ������������������ 신선도,����������� ������������������ 최신여부
3.1.2����������� ������������������ 재방문����������� ������������������ 정책-세부
균일����������� ������������������ 정책����������� ������������������
모든����������� ������������������ 재방문����������� ������������������ 가중치는����������� ������������������ 똑같은����������� ������������������ 조건으로����������� ������������������ 수행
3.1.2����������� ������������������ 재방문����������� ������������������ 정책-세부
비례����������� ������������������ 정책����������� ������������������
재방문률은����������� ������������������ 가중치에����������� ������������������ 비례����������� ������������������
신선도,����������� ������������������ 최신순����������� ������������������ 어느����������� ������������������ 하나도����������� ������������������ 따르지����������� ������������������ 않는다면����������� ������������������ 최악의����������� ������������������ 재방문����������� ������������������ 정책.
3.1.3����������� ������������������ 공손정책
정의����������� ������������������
서버에����������� ������������������ 무리가����������� ������������������ 가는����������� ������������������ 접근은����������� ������������������ 피한다����������� ������������������
부분적����������� ������������������ 해결법으로����������� ������������������ robot����������� ������������������ 제외����������� ������������������ 프로토콜����������� ������������������ 사용
3.1.4����������� ������������������ 병렬화����������� ������������������ 정책
정의����������� ������������������
분산����������� ������������������ 웹����������� ������������������ 크롤러를����������� ������������������ 조정한다.����������� ������������������
동일����������� ������������������ 페이지����������� ������������������ 중복����������� ������������������ 저장을����������� ������������������ 피하기����������� ������������������ 위함����������� ������������������
동일����������� ������������������ 도메인에����������� ������������������ 분산����������� ������������������ 크롤링을����������� ������������������ 피하되,����������� ������������������ 불가피����������� ������������������ 하다면����������� ������������������ 회피����������� ������������������ 정책이����������� ������������������ 추가����������� ������������������ 필요
3. ETC.. but, Fun.
ajax에����������� ������������������ 의해����������� ������������������ 생긴����������� ������������������ 동적����������� ������������������ 페이지����������� ������������������ 크롤링����������� ������������������
모바일의����������� ������������������ 증가에����������� ������������������ 따른����������� ������������������ 크롤����������� ������������������ 데이터����������� ������������������ 감소
3.1 ajax
ajax����������� ������������������ 때문에����������� ������������������ 생긴����������� ������������������ 이슈����������� ������������������
웹페이지����������� ������������������ 자체에����������� ������������������ ajax데이터의����������� ������������������ 크롤링을����������� ������������������ 허가����������� ������������������ 해주는����������� ������������������ 방법����������� ������������������
크롤링����������� ������������������ 규칙이����������� ������������������ 정해져����������� ������������������ 있다면,����������� ������������������ url접근����������� ������������������ 정도에����������� ������������������ 따라����������� ������������������ 가능.
3.1 mobile Data
모바일����������� ������������������ 기반����������� ������������������ 서비스의����������� ������������������ 증가.����������� ������������������
폐쇄형����������� ������������������ 데이터����������� ������������������ 보관으로����������� ������������������ 인해����������� ������������������ 크롤러����������� ������������������ 접근����������� ������������������ 불가����������� ������������������
최근,����������� ������������������ 기업의����������� ������������������ 협력등을����������� ������������������ 통한����������� ������������������ 데이터����������� ������������������ 교류로����������� ������������������ 해소한다고����������� ������������������ 함.����������� ������������������
Thanks