제4장 불리언 검색
TRANSCRIPT
![Page 1: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/1.jpg)
제 4 장 .불리언 검색
정보검색INFORMATION RETRIEVAL
강의 : 정창용 ([email protected])http://www.facebook.com/hhuIR
Korea Maritime UniversityNavis Control Inc.
![Page 2: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/2.jpg)
불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted index fi le)불리언 모델에서 문헌의 적합성 순위화
OVERVIEW
![Page 3: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/3.jpg)
불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화
OUTLINE
![Page 4: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/4.jpg)
불대수 (Boolean algebra) 를 사용하여 질의를 만족시키는 문헌을 검색하는 방법
대부분의 상용 검색엔진에서 사용검색 예
“ 유럽 AND 배낭여행” “ 발렌타인데이 OR 화이트데이” “ 스마트폰 NOT 갤럭시”
검색방법 질의어가 색인어로 출현한 모든 문헌들을 탐색 Boolean algebra 연산으로 탐색된 문헌을 선별
불리언 검색 (Boolean Search) 이란 ?
![Page 5: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/5.jpg)
문헌 - 용어 행렬
불리언 연산이론
단어 문헌 1 2 3 4 5
a 1 1 0 1 0
b 1 1 0 1 1
c 1 0 1 0 0
a AND b AND c a : 1 1 0 1 0b : 1 1 0 1 1c : 1 0 1 0 0─ ─ ─ ─ ─ ─ 1 0 0 0 0
a OR b OR c a : 1 1 0 1 0b : 1 1 0 1 1c : 1 0 1 0 0─ ─ ─ ─ ─ ─ 1 1 1 1 1
a AND b NOT c a : 1 1 0 1 0b : 1 1 0 1 1c : 0 1 0 1 1─ ─ ─ ─ ─ ─ 0 1 0 1 0
![Page 6: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/6.jpg)
역색인파일 (Inverted index fi le)
불리언 연산이론 – CONT.
색인어 문헌빈도 문헌번호
a 3 1 2 4
b 4 1 2 4 5
c 2 1 3
a AND b AND c ▶ (1, 2, 4) AND (1, 2, 4, 5) AND (1, 3) ▶ 문헌 1a OR b OR c ▶ (1, 2, 4) OR (1, 2, 4, 5) OR (1, 3) ▶ 문헌 1, 2, 3, 4, 5a AND b NOT c ▶ (1, 2, 4) AND (1, 2, 4, 5) NOT (1, 3) ▶ 문헌 2, 4
![Page 7: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/7.jpg)
질의 처리된 질의
LC (and > or) A OR B AND C A OR (B AND C)
Dialog (not > and > or) A OR B AND C A OR (B AND C)
Google (or > and) A B OR C A AND (B OR C)
EBSCO ( 입력된 순서대로 왼쪽부터 )
A OR B AND C (A OR B) AND C
불리언 연산자 우선순위
![Page 8: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/8.jpg)
불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화
OUTLINE
![Page 9: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/9.jpg)
불리언 연산자 AND 를 용어의 출현위치로 제한하는 것 출현순서 출현거리 색인 시 용어의 출현위치를 색인해야 함
예 )
인접연산자
두 단어의 출현위치 제한 Dialog EBSCO Google/LC
순서대로 m 단어 내에 (mW) Wm
순서 관계없이 m 단어 내에 (mN) Nm
순서대로 이어서 (w) 혹은 () W “ ”
순서 관계없이 이어서 (N) N
![Page 10: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/10.jpg)
단어 문헌빈도 문헌번호 출현위치
a 3 1 7
2 5
4 2
b 4 1 6
2 6
4 10
5 19
c 2 1 8
3 2
인접연산자의 탐색 예
탐색 1) a AND b ▶ 1, 2, 4a 의 포스팅 : 1, 2, 4b 의 포스팅 : 1, 2, 4, 5
탐색 2) a (w) b ▶ 2a 의 포스팅 : 1-7, 2-5, 4-2b 의 포스팅 : 1-6, 2-6, 4-10, 5-19
![Page 11: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/11.jpg)
예 1) Education as Growth Life Long Learning TI1 TI2 TI3 TI4 TI5 TI6
예 2) Consumer Responser to Telecommunica-tions Dereg. TI1 TI2 TI4 TI5
Dialog 의 출현위치 부여 예
![Page 12: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/12.jpg)
불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화
OUTLINE
![Page 13: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/13.jpg)
역색인파일 (Inverted index fi le) 색인어 + 문헌번호
포스팅파일
역색인파일과 포스팅파일
문헌번호 색인어
1 a b c
2 a b
3 c
4 a b
5 b
색인어 포스팅 수 문헌번호
a 3 1 2 4
b 4 1 2 4 5
c 2 1 3
색인어 포스팅 수 포인터
a 3 10
b 4 20
c 2 30
포스팅
1 2 4
1 2 4 5
1 3
문헌파일
도치색인파일
사전파일 포스팅파일
![Page 14: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/14.jpg)
역색인파일의 저장장치 활용 사전파일 – 주기억장치에 저장 포스팅 리스트 – 디스크에 저장 ( 문헌번호로 정렬 )
역색인파일을 이용한 탐색 “and” 이용한 검색 시 포스팅 수가 적은 집합부터 비교
역색인파일과 포스팅파일 – CONT.
![Page 15: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/15.jpg)
필드검색을 위한 도치색인파일 운영
개별 역색인파일
Dialog 의 색인파일 형식
a 1, 2
b 2, 4
서명 키워드 색인
a 2
b 1, 5
저자 키워드 색인
a 4
주제명 키워드 색인
a 1.ti, 2.au, 4.su, 4.ti
b1.au, 2.ti, 4.ti,
5.au
기본색인파일 형식
title.a 1, 4
author.a 2
subject.a 4
title.b 2, 4
author.b 1, 5
기본색인파일 형식
![Page 16: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/16.jpg)
불리언 검색인접연산자와 단어 출현위치 부여도치색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화
OUTLINE
![Page 17: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/17.jpg)
전통적 불리언 탐색의 단점 질의어에 대한 상대적 중요도 부여 안됨 질의와 완전 일치한 문헌들만 검색 문헌과 질의와의 적합성 정도에 따른 순위화 할 수 없음
순위화 방법 문헌용어에 가중치 부여
퍼지집합 이론 MMM (Mixed Min and Max) 모형
문헌용어와 질의용어에 가중치 부여 P-Norm 모형
적합성 순위화
![Page 18: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/18.jpg)
논리합 정규형 (Disjunctive Normal Form: DNF) 가중치 없이 불리언으로 검색된 문헌을 순위화 하는 방법 불리언 질의를 논리적으로 항등한 논리합 (OR) 질의로 변환
(A AND B) AND C (A AND C) OR (B AND C) (A NOT B AND C) OR (A AND B AND C) OR (NOT A AND B AND C)
논리합 정규형에 의한 순위화
![Page 19: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/19.jpg)
a AND (b OR C) 에 대한 결과 (a AND b) OR (a AND c) 로 변환
논리합 정규형에 의한 순위화 예
문헌 1 2 3 4 5
단어 a 1 1 1 1 0
단어 b 1 1 0 1 1
단어 c 1 0 1 0 0
아톰 수 2 1 1 1 0
![Page 20: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/20.jpg)
논리합 정규형 순위화보다 간단용어가 출현하는 필드에 가중치 부여하여 순위화하는 방법예 ) 필드 가중치가 아래와 같을 때
서명 (ti): 0.3, 주제 (su): 0.2, 저자 (au): 0.1
질의 “ a” 인 경우 , 문헌 1: 0.3, 문헌 2: 0.1, 문헌 4: 0.5 ( 순위 : 4 > 1 > 2)
질의 “ a AND b” 인 경우 문헌 1: 0.4, 문헌 2: 0.4, 문헌 4: 0.8 ( 순위 : 4 > 1 = 2)
필드 가중치에 의한 순위화
a 1.ti, 2.au, 4.su, 4.ti
b 1.au, 2.ti, 4.ti, 5.au
![Page 21: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/21.jpg)
퍼지집합 (Fuzzy Set) 전통적인 집합이론을 확장 Membership-degree function
전체집합의 모든 멤버들을 구간 [0, 1] 에 매핑시킨 것 0: 집합에 포함되지 않음 1: 집합에 완전히 포함됨
합집합 (A∪B) fA∪B = max[fA(X), fB(X)] → max(A, B)
교집합 (A∩B) fA∩B = min[fA(X), fB(X)] → min(A, B)
차집합 (~A) fA(X) = 1 - fA(X)
퍼지집합 이론에 의한 순위화
![Page 22: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/22.jpg)
문헌색인어 가중치 질의로 검색된 문헌의 적합성 가중치
a b c (A AND B) OR C A AND (B OR C)
1 0.1 0.5 0.3 0.3 0.1
2 0.4 0.2 0 0.2 0.2
3 0 0 0.4 0.4 0
4 0.6 0.5 0 0.5 0.5
5 0 0.1 0 0 0
퍼지집합 이론에 의한 순위화 – CONT.
![Page 23: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/23.jpg)
MMM (Mixed Min and Max) 모형 최대값 , 최소값 문헌 가중치를 선형으로 결합하여 질의와 문헌의
유사도 (similarity) 를 구함
Sim(D, QOR) = C1 * 최대값 + C2 * 최소값 Sim(D, QAND) = C1 * 최소값 + C2 * 최대값
MMM 모형에서의 순위화
![Page 24: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/24.jpg)
예 ) C1=2, C2=1 일 때 , (A AND B) OR C ?
MMM 모형에서의 순위화 – CONT.
문헌색인어 가중치 질의로 검색된 문헌의 적합성 가중치
a b c (A AND B) (A AND B) OR C
1 0.1 0.5 0.3 2*0.1 + 1*0.5 = 0.7 2*0.7 + 1*0.3 = 1.7
2 0.4 0.2 0 2*0.2 + 1*0.4 = 0.8 2*0.8 + 1*0 = 1.6
3 0 0 0.4 2*0 + 1*0 = 0.0 2*0.4 + 1*0 = 0.8
4 0.6 0.5 0 2*0.5 + 1*0.6 = 1.6 2*1.6 + 1*0 = 3.2
5 0 0.1 0 2*0 + 1*0.1 = 0.1 2*0.1 + 1*0 = 0.2
![Page 25: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/25.jpg)
확률이론을 적용한 방법 A, B 가 독립적일 때 ,
X 가 A 와 B 를 가질 확률 = X 가 A 를 가질 확률 * X 가 B 를 가질 확률
A AND B = Wa * Wb
A OR B = Wa + Wb – (Wa * Wb) NOT A = 1 - Wa
퍼지집합 이론을 응용한 기타 순위화
![Page 26: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/26.jpg)
퍼지집합 응용한 기타 순위화 – CONT.
문헌색인어 가중치 질의로 검색된 문헌의 적합성 가중치
a b c (A AND B) (A AND B) OR C
1 0.1 0.5 0.3 0.1 * 0.5 = 0.05 0.05 + 0.3 – (0.05 * 0.3) = 0.335
2 0.4 0.2 0 0.4 * 0.2 = 0.08 0.08 + 0 – (0.08 * 0) = 0.08
3 0 0 0.4 0 0 + 0.4 – (0 * 0.04) = 0.4
4 0.6 0.5 0 0.6 * 0.5 = 0.3 0.3 + 0 - (0.3 * 0) = 0.3
5 0 0.1 0 0 0 + 0 – (0 * 0) = 0
![Page 27: 제4장 불리언 검색](https://reader035.vdocuments.mx/reader035/viewer/2022070321/558ce5c2d8b42a9c628b46bc/html5/thumbnails/27.jpg)
문헌과 질의의 유사도 (similarity) 를 거리로 측정
P-Norm