구글을 지탱하는 기술
DESCRIPTION
구글을 지탱하는 기술TRANSCRIPT
Google 을 지탱하는 기술
By Sid
구글을 지탱하는 기술
구글을 지탱하는 기술 – chapter1.ppt
Index
1. First Appearance of Google
2. Main Concepts3. Search Engine Structure
- ‘s Roll - Back-end Structure - Index Structure
4. Total Structure
First Appearance of Google
• Why?
Get useful results
• Who?
Sergey Brin & Larry Page
Main Concepts
Hardware expands
Ranking Function
– Page Rank
– Anchor Text– Word
Search Engine Structure
Search EngineInternet
Search Engine Structure
Search Server’s Roll
• 통신 관리
• 요청 해석하여 처리할 내용 판단
• 인덱스에서 필요한 정보 찾아냄
• 결과를 편집해 이용자에게 보냄
Search
ServerIndex
Back-end
Search Engine Structure
Back-end’s Roll
• Crawling
•Web page 수집해 오는 기술
•많은 시간 -> 복수의 crawler 사용
•수집한 것을 Repository 에 보관
• Creating Index
•Repository 에 저장된 web page 로 Index 를 만들어 냄
•구조분석 , 단어처리 , 링크 처리 랭킹 등
Search
ServerIndex
Back-end
Search Engine Structure
Index’s Roll
• 주어진 Data 를 안전하게 저장
• 요청 받은 Data 를 찾아냄
• Search Engine 의 Data Base 역할
Search
ServerIndex
Back-end
Search Engine Structure Back-end Structure
Crawling
Web page 수집해 오는 기술
초기 Google 2400 만개 Web Page 등록
초당 avg40page 를 유지하기 위해선동시에 수백 개의 download 유지
-> 현재는 ??
구글 검색했을 때 3,070,000,000 개 결과
Search Engine StructureBack-end Structure
Crawler
URL server 가 전체 crawler 지휘
각 crawler 는 지시에 따라 Web Page download
Repository 에 임시 저장
• docID – 고유 숫자 값• url – URL• text – 압축물 • etc. – date, page length…
URL server
crawler
crawler
crawler
Internet
Repository
Search Engine StructureBack-end Structure
Crawler
주소해석이 시간 많이 소요-> 내부에 DNS cache 관리
Repository 에 저장후 URL server 가 다음주소 할당
URL server
crawler
crawler
crawler
Internet
Repository
Search Engine StructureBack-end Structure
Creating Index
Analyzing Web Page struc-tures
DocIndex – Web Page 의 기본정보 저장– docID 를 key 로 사용
URLlist– url 을 key 로 사용– docID 를 가져오기 위함
<html><head>
<title> 세종대학교 </ti-tle>
</body><h1> 학사정보 <h1>
….
docIDurl1
Se-jong.ac.kr
• Title• 기타
• 세종대학교
• …
DocIndexdocID url title etc.
URLlisturl docID
Search Engine StructureBack-end Structure
Creating Index
Word Index
Lexicon – word -> wordID
Barrels – docID wordID position size etc.
Inverted Index – wordID 를 Key 로 사용
Lexicon
word wordID
세종 101
대학교 102
학사 201
정보 202
Barrels
Barrels
docID wordID#1Position#
1Size#1 Etc.#1
Position#2
Size#2 Etc.#2
wordID#2Position#
1Size#1 Etc.#1
Position#2
Size#2 Etc.#2
…
Search Engine StructureBack-end Structure
Creating Index
Link Index
URLlistLinks
Anchortext- A information of linked page
docIDurl1
Se-jong.ac.kr
URLlist Sejong.ac.kr 1 Cyworld.com 3
docIDurl3
Cyworld.-com
Link
Links 1 3
Search Engine StructureBack-end Structure
Creating Index
Ranking Index
Page Rank - Link
Anchortext Word - Barrels
Web Page 사이의 link 를 일종의 투표처럼 분석 -> 더 많은 link 를 받은 문서 = 더 좋은 문서
Search Engine Structure Index Structure
DocIndex– Web Page 의 기본정보 저장– docID 를 key 로 사용
Lexicon– word -> wordID
Barrels– storages
DocIndex
Lexicon
Barrels
Total Structure
Internet
SearchServ
er
Index
DocIndex
Lexicon
BarrelsBarrelsBarrels
Back-end
URL server
Repository
crawler
crawler
crawler
Struc-ture
word
Link
RankingLink
s
URLlist
User
Thanks for your attention