next generation search engines - krnet.or.krb9%da%b9%ce%bf%ec.pdf · 지식검색...

26
박민 민우 2001.6.7 2001.6.7 Next Generation Search Engines Next Generation Search Engines (차세대 차세대 검색엔진의 검색엔진의 발전방향 발전방향 및 및 전망 전망)

Upload: others

Post on 30-Aug-2019

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

박박 민민 우우

2001.6.72001.6.7

Next Generation Search EnginesNext Generation Search Engines((차세대차세대검색엔진의검색엔진의발전방향발전방향및및전망전망))

Page 2: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

22 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

목차목차

1. 검색엔진의 역사

요람기 유년기 성년기 성숙기

2. 검색 서비스와 검색 엔진

서비스와 엔진의 차이 검색 서비스 분석 신개념의 검색 서비스

3. 검색 시나리오 분석

4. 진보된 검색 기술

개요 시각화 자연어 검색 기술 문서 자동 분류

5. 차세대 검색 기술

MAP 기반 검색 엔진 개인화된 검색 엔진 추론 엔진

Page 3: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

33 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

1. 1. 검색엔진의검색엔진의역사역사

요람기요람기 (1945(1945년년~1955~1955년년))

정보검색이란용어의사용

1950년초반 1세대컴퓨터의등장시기미국에서사용 1945년Vannervar Bush 의논문에서처음제시

검색엔진의태동기

기계번역에대한최초의제안들이제시

1949년Warren Weaver, Andrew D. Booth 정보검색, 기계번역에대한모든아이디어가제시된시기 이러한이론들을바탕으로 60년대시스템을구축하는계기마련

Page 4: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

44 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

1. 1. 검색엔진의검색엔진의역사역사

유년기유년기 (1960(1960년대년대))

위대한경험의시대

대용량의정보검색시스템의초기모델이제시

현재거론되는모든검색기법이이 시대에정립

Free-text indexing 기법이보편화

정보검색시스템평가기준완성

1966년 Cyril Cleverdon : 재현율, 정확률기준마련 Relevance feedback등의신검색기술이태동 1968년Gerard Salton : 다국어검색기법이제시 대용량정보검색시스템구현 : BRS

Page 5: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

55 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

1. 1. 검색엔진의검색엔진의역사역사

성년기성년기 (1970(1970년대년대))

전자문서의시대

워드프로세서의등장

• 처리해야할문서의수와양이비약적인증가• 디스크드라이브가처음발표 : 1메가당 2000달러

대용량검색시스템들의상용화

• Dialog, Orbit, BRS

OCLC 등장 Online Computer Library Center 세계최대규모의도서관네트웍

64개국 26,000개도서관정보를제공

Page 6: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

66 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

1. 1. 검색엔진의검색엔진의역사역사

성년기성년기 (1970(1970년대년대) ) ––계속계속

데이터베이스시스템의등장

데이터베이스와검색엔진의차이

• DB : Data관점, 관리중심, 결정구조, SQL -> MIS로발전• IR : Information 관점, 검색중심, 비정형구조, 자유검색

계층모델과네트웍모델에기반한제품이주류

인공지능분야에서분리

정보검색은인공지능의한 분야로취급

• 70년대에와서AI에서분리, 워드처리방식접근이보편화• AI는무용론제기, IR은고속의성장• 최근다시AI-IR 접목이시도

Page 7: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

77 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

1. 1. 검색엔진의검색엔진의역사역사

성숙기성숙기 (1980(1980년대년대))

본격적인전문검색엔진등장

컴퓨터의성능향상, 저렴한가격, CD-ROM의등장 원문검색에대한요구사항증가

도서관위주의검색기술의지속적인발달

검색엔진의과거

시대적구분 : 1945년~1989년까지 IT 기술적구분 : WWW의등장전 (1990년초반) 정보검색측면에서 WWW는새로운시대를여는계기마련

Page 8: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

88 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

1. 1. 검색엔진의검색엔진의역사역사

시대 년도 시대적 배경 주요 기술 주요인물

요 람기

1945~1955

1세대 컴퓨터 등장

하이퍼텍스트 개념 정립기계번력 이론

VannervarBushWarrenWeaver

유 년기

1960 년대

대용량 처리시스템의 등장

Free-Text 색인기법검색엔진 평가기준의정립다국어 검색기법

CyrilCleverdonGerardSalton

성 년기

1970 년대

워드프로세서 등장OCLC 등장

대용량 정보검색 시스템의 상용화데이터베이스 등장

E.F.Codd

성 숙기

1980 년대

CD-ROM 등장 네트워크 기반의 정보검색 시스템

시대별 검색엔진 관련 주요 기술 정리

Page 9: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

99 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

2. 2. 검색서비스와검색서비스와검색엔진검색엔진

검색서비스와검색서비스와검색엔진의검색엔진의차이차이

검색서비스

인터넷검색엔진이라부른는야후, 알타비스타, 라이코스 엔진에대한비중보다브랜드에대한비중이높다. 언제라도검색엔진은교체가가능하다. Inktomi, Google -> Yahoo에검색엔진제공

검색엔진

대량의문서를취급하는도서관이나기업이주 고객

90년이전의검색엔진기술들의맥을이어오고있음 DataWare, Fulcrum, Excalibur, Search97, …

Page 10: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1010 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

2. 2. 검색서비스와검색서비스와검색엔진검색엔진

검색검색서비스서비스분석분석

검색엔진의색인데이터량비교

인터넷상의정보가기하급수적으로증가함에따라서1개의검색엔진이모든정보를보유할수없음

전세계웹페이지수 : 10억페이지 16초마다 1개의신규사이트생성 8개월마다사이트수가 2배로증가

하드웨어사용의부담증가

Google : 6700대서버운영 Yahoo : 1500대서버운영

검색엔진웹페이지인덱스

인덱스비율

GOOGLE 350 35%

FAST 340 34%

ALTAVISTA 250 25%

EXCITE 214 21%

INFOSEEK 50 5%

LYCOS 50 5%

( 단위 : 백만원, 총 10억 페이지 )

자료 : [SEARCHENGINE.COM],[조선일보 (2000.8.11)]

Page 11: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1111 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

2. 2. 검색서비스와검색서비스와검색엔진검색엔진

신신개념의개념의검색검색서비스서비스

www.google.com Relevance feed-back counter 기법

• 검색의정확도는단일문서의분석을통해서결정하기어려움• 해당문서를링크하고있는다른문서의수에의해랭킹결정• 세계에서가장인기있는검색엔진으로자리잡음

www.directhit.com Event information analysis

• 다른사용자의이벤트정보를분석해정확도를결정• 질의어, 페이지에머무른시간, 선택된사이트정보• 인간의사용패턴에근접한검색모델을제시

Page 12: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1212 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

3. 3. 검색검색시나리오시나리오분석분석

Oracle MS SQL

DB Gate Way

R 색인기

질의기

사용자

File서버 1 File서버 2 File서버 3

Index file dispatcher

R

통합 색인기

색인파일

색인파일

질의기

사용자

통합 질의기

인터넷

R 색인기

에이전트 수집

색인파일

질의기

검색원문

색인

검색&통합검색

통합검색 시나리오 (1)

Page 13: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1313 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

3. 3. 검색검색시나리오시나리오분석분석

Oracle

MS SQL

File서버 1

File서버 2

EDMS GroupWare

R

색인기

통합색인 파일

EDMS Interface

통합 질의기

GroupWare API

LOCAL

DATA

BROKER

로컬색인 파일

EDMS 질의기 GW 질의기

로컬 질의기

메타 질의기

인터넷

통합검색 시나리오 (2)

Page 14: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1414 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

진보된진보된검색검색기술기술개요개요

검색 기술 내용

자연어 검색 지식베이스를 기반으로 질의어와 가장 유사한 질의어를 통계적인 기법이나 퍼지이론을 통해서 결과를 제시한다.

자동 분류 문서들간의 키워드 가중치나 위치 정보를 기반으로 유사도를 기반으로 관련된 문서들을 그룹핑하여 목차를 생성시킨다.

지식 검색 사용자들의 정보나 문서에 추론엔진을 결합시켜서 새로운정보를 생성하고 검색할 수 있도록 제공한다.

시각화 검색결과의 재현율이 높은 경우 검색의 효과가 없어지기때문에 다양한 시각화 기법을 통해서 체감 정확도를 높을수 있도록 한다.

지능형 에이전트 하나의 시스템에서 검색을 완료하는 것이 아니라 다른 에이전트들과의 협력을 통해서 최종적인 결과를 구해낸다.

Page 15: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1515 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

시각화시각화 (Visualization)(Visualization)

통합 View를통합정확율향상 지식검색에서가장상단에위치한기술

HCI를기반으로한사용자인터페이스제공

Knowledge map Cyber folder와같이 KMS에서주로사용되는형태 Knowledge broker를통해서수집된지식을추론엔진또는학습엔진을통해서사용자에게개인화된모습으로서비스

Reference• Brain Search : http://www.thebrain.com• 3D Bot : http://www.3dbot.com/index1.html

Page 16: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1616 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

자연어자연어검색검색 (Natural Language Processing)(Natural Language Processing)

지능형검색기술중상용화에성공한모델

1단계 : 실시간형태소분석을통한불리언치환모델• 대표적인 1단계자연어검색모델 : 엠파스

2단계 : 지식베이스를구축한뒤퍼지집합을이용한모델• AskJeeves, Autonomy, DataWare, Excalibur

가장진보된자연어검색엔진 : Autonomy사의AgentWare DRE(Dynamic Reasoning Engine) –동적추론엔진내장 문장을파싱하여문맥을분석하여키워드기반의의미추출

조건부확률(Bayesian) + 신경망(Neural Network) 기술이용 개인화를바탕으로사용자에게가장적합한결과를제시

Page 17: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1717 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

자연어 검색 엔진 서비스들

http://www.askjeeves.com http://www.autonomy.com

Page 18: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1818 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

문서문서자동자동분류분류 (Document Clustering)(Document Clustering)

Clustering 기술이란 정보나지식들의내부를의미단계에서분석하여관련성이높은정보들끼리그룹을만들어주는기법

Clustering 기술의분류 Off-line clustering• 기업내부에 존재하는 수많은 정보와 지식은 정리되어 있지않다.

• 지식관리시스템을 도입하기 위해서는 사전 작업으로 반드시기존 지식에 대한 분류작업은 필수적이라 할 수 있다.

On-line clustering• 인터넷상의정보를실시간으로수집하는과정에서동시에많은정보를주어진시간내에원하는방식으로분류해준다.

Page 19: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

1919 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

Clustering EngineClustering Engine의의구조구조

Clustering 문제접근방법 문서들간의유사도를어떻게수치화할 것인가? 어떤기준으로문서를분할할 것인가?

문서간의유사도구하기

기하학적인입장에서각 문서사이의거리를구하는방식

문서를단어의가중치벡터로재구성

• 통계적인기법을이용하여빈번히발생하는단어는제외• 벡터의길이에의해정규화하는과정이중요하다.• 단어의위치, 단어사이의간겨, 순서등이빈도수보다더중요

자주사용되는유사도함수

• Dice 계수, Jaccard 계수, Cosine 계수

Page 20: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

2020 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

적당한수의클러스터로분류하기

적당한임계치를설정하고이를기준으로군집을판단

결과의유형에따라비계층적기법과계층적기법으로구분

비계층적기법을이용한 Clustering 계층적기법에비해서계산량이적어속도가빠름

Partitioning : 전체데이터집합을분할 Criterion : 미리정의된기준이최적이되도록문서를재배치 비계층적 Clustering 방법들

• Single Pass • Reallocation

Page 21: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

2121 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

4. 4. 진보된진보된검색검색기술기술

계층적기법을이용한 Clustering 문서의중첩을허용하며최종적으로모든데이터의집합이연결돼합쳐지는형태

Dendrogram :계층적Clustering을트리모양으로나타낸것 계층적 Clustering 방법들

• Single link • Complete link• Group average link• 최소분산기법• Centroid 기법• Median 기법

클러스터구조의갱신 동적인데이터집합구조에의해기존데이터의빠른추가/삭제가필수적이다. (향후연구과제)

Page 22: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

2222 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

5. 5. 차세대차세대검색검색기술기술

MAP MAP 기반기반검색검색엔진엔진

방사사고(Radiant Thinking)의형상화 '중심체로부터 사방으로 뻗어나간다'는 의미를 지닌

방사사고의 표현

인간의 두뇌에는 약 100억 개의 뉴론이 연관성을 가지면서존재

정보의 MAP 각문서의중요문구에대한유사도형성

각문서에대한유사도를기준으로문서의 Grouping 각 Group의관계형상화

Page 23: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

2323 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

5. 5. 차세대차세대검색검색기술기술

개인화된개인화된검색엔진검색엔진

개인화 (Personalization) 효과적으로개인의성향에맞는검색

Relevance feedback Filtering System

• 사용자의성향을 interest profile 을통해서분석 Short-term user models

• 한번의검색으로사용자성향파악 Long-term user models

• 여러번의검색으로사용자성향파악

Page 24: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

2424 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

5. 5. 차세대차세대검색검색기술기술

Relevance feedback 개인화를위해서는반드시필요

• 그러나사용자로부터 relevance information 을얻어내기어렵다

Query expansion techniques• 부분적으로사용되는 relevance feedback

Language Models Relevance feedback를정의하기위한언어필요

• Optimal query( Salton, 1968)• Bayesian classification model of retrieval (Van Rijsbergen,

1979)• 확률에기반한모델제시(Ponte 2000)

Page 25: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

2525 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

5. 5. 차세대차세대검색검색기술기술

추론추론엔진엔진 (Inference Engine)(Inference Engine)

Inference Engine 기구축된지식을이용해서새로운지식에대한추론을한다. General Logic based Inference Engines, 알고리즘을사용하는 inference Engine

General Logic based Inference Engines Higher Order Logic Full first Order Logic Description Logic Datalog and Logic Programming

Page 26: Next Generation Search Engines - krnet.or.krB9%DA%B9%CE%BF%EC.pdf · 지식검색 사용자들의정보나문서에추론엔진을결합시켜서새로운 정보를생성하고검색할수있도록제공한다

2626 // Copyright(c) 2000 WAKANO Inc.©Copyright 2001 MetaWise, Inc.

5. 5. 차세대차세대검색검색기술기술

알고리즘을사용하는 inference Engine Problem Solving Methods

• Knowledge Based Systems 에서사용되는알고리즘• expert systems 에서실제로추론함수로사용된다