5장 질의 연산

최신정보검색론 Chapter 12 1

5 장 질의 연산

5.1 소개5.2 사용자 연산 피드백5.3 자동 지역 분석5.4 자동 전역 분석5.5 연구 동향 및 쟁점5.6 참고 문헌 고찰


5.1 소개

• 질의어 확장과 가중치 재계산으로 처음 질의를 개선하는 방법들을 소개

- 사용자 피드백 정보를 이용하는 방법 - 처음 검색된 문헌 집합 - 문헌 집합 전체에서 추출된 정보를 이용하는 방법

• 벡터 및 확률 모델에 있어서 사용자 연관 피드백 방법• 지역 분석에 대한 두 가지 방법• 두 가지 전역 분석 방법


5.2 사용자 연관 피드백

• 연관 피드백 : 질의 재작성 방법

• 적합성 피드백의 장점 - 사용자는 문헌 연관성 정보만 제공 - 연관 피드백 과정의 자세한 사항은 알 필요가 없음 - 전체 검색 프로세스를 이해하기 쉬운 작은 단계로 분할함 - 용어의 강조 , 다른 용어의 중요도를 감소를 위해 통제된 과정을

제공


5.2.1 벡터 모델에서의 질의 확장 및

용어 가중치 재부여• 연관 문헌인 경우 - 연관 문헌들의 용어 -가중치 벡터와 서로 유사한 사실을 이용• 비연관 문헌인 경우 - 연관 문헌들의 용어 -가중치 벡터와는 다른 벡터라고 가정함• 질의 q 의 처리에 대한 추가적인 용어 정의 Dr : 검색된 문헌 중에서 사용자에 의해 연관 문헌으로 판단된 문헌 집합 Dn : 검색된 비연관 문헌 집합 Cr : 컬렉션 내 모든 문헌 중 연관 문헌 집합 |Dr|, |Dn|, |Cr| : 각 집합 Dr, Dn, Cr의 문헌 수 : 조절 상수 ,,


5.2.1 벡터 모델에서의 질의 확장 및

용어 가중치 재부여 ( 계속 )• 최적 질의 벡터

• 수정된 질의 을 계산하는 세가지 방법

Crdjj

Crdjjopt d

CrNd

Crq

||11

)(max:__

:Re_

||:_Standard

jrelevantnonj

Dndj

m

j

Dndj

j

Dndj

m

j

Dndjnj

Dndjrm

ddqqHiDecIde

ddqqgularIde

dD

dD

qqRocchio


5.2.2 확률 모델에서의 용어 가중치 재부여

• 질의 q 와 유사한 문헌들을 확률 순위화 원칙에 의해 동적으로 순위화함

• 문헌 dj와 질의 q 의 유사도

• 초기 검색을 위한 가정들 - P(ki|R)값은 모든 용어 ki에 대해 상수 값 (보통 0.5) - 용어 분포 확률은 전체 컬렉션 분포로 근사함

Rkp

RkpRkp

Rkpwwqdjsimi

i

i

it

i

jiqi|

|1log|1

|log,0

,,

NnRkP

RkPi

i

i

|

5.0|


5.2.2 확률 모델에서의 용어 가중치 재부여 (계속 )

• 확률 P(ki|R)와 P(ki| )의 비교 ( 근사함 )

• |Dr|,|Dr,i|가 매우 작아지는 문제로 조정 계수 (0.5) 를 합함

t

i i

ijiqiitial

nnNwwqdjsi log),(m ,,in

R

t

i irir

iri

irr

irjiqi

r

irii

r

iri

DnDNDn

DDD

wwqdjsim

DNDn

RkPDD

RkP

1 ,

,

,

,,,

,,

)(log),(

)|(;)|(

15.0

)|(;1

5.0)|(

,,

r

irii

r

iri

DNDn

RkPD

DRkP


5.2.2 확률 모델에서의 용어 가중치 재부여 (계속 )

• 조정 계수 0.5 는 불만족스러운 결과를 생성할 수 있음• ni/N 또는 (ni-|Dr,i|)와 같은 다른 조정 계수를 제안

• 이 연관 피드백 과정의 주요 장점 - 피드백 과정이 질의 용어의 새로운 가중치 계산과 직접적 연관 - 이진 색인 , 색 인어 독립성을 가정시 용어 가중치 재부여가 최적화• 단점 - 피드백 과정에서 문헌 내 용어 가중치가 고려되지 않음 - 이전 질의에서의 용어 가중치가 무시됨 - 질의 확장이 없음

1)|(;

1)|(

,,

r

iiri

ir

iir

iDN

NnDn

RkPD

NnD

RkP


5.2.3 확률적 용어 가중치 재부여의 변형• 확률화 순위와 식

• Croft의 초기 검색과 피드백 검색에 다른 수식을 제안

- 는 정규화된 문헌 내의 출현 빈도 - 인수 C, K는 각 컬렉션에 맞게 조정 - 자동 색인된 컬렉션에서는 C 가 초기에 0 으로 지정

qji

t

i

jiqi Fwwqdjsim ,,

0

,,,

ji

jiji

jiqji

ffKKf

fidfiCF

,

,,

,,,

max)1(

)(

jif ,


5.2.3 확률적 용어 가중치 재부여의 변형(계속 )

• Croft가 제안한 피드백 검색에서 Fi,j,q 식

• 확률적 용어 가중치 재부여 변형 방법의 장점 - 문헌 내 출현 빈도를 고려 - 정규화된 출현 빈도를 사용 - C, K상수를 도입하는데 매우 큰 융통성을 제공• 단점 - 더 복잡한 수식을 사용 - 질의 확장이 없음

jii

i

i

iqji f

RkPRkP

RkPRkPCF ,,,

)|()|(1log

)|(1)|(log


5.2.4 연관 피드백 방법들의 평가

• Rocchio식을 이용한 검색 성능 향상 평가

- 피드백 과정에서 연관된 집합 R 내의 문헌들에게 높은 순위를 줌

- 이 문헌들은 검사하였기 때문에 이러한 평가는 비현실적임

• 현실적인 방법

- 잔여 컬렉션만을 고려하는 것

잔여 컬렉션을 대상으로 재현율 -검색률 측정이 일반적


5.3 자동 지역 분석

• 전역적 방법 - 컬렉션 내 전체 문헌을 사용 - 용어 연관성을 나타내는 전역적 유사 소서러스 구조를 작성 - 사용자는 자신에게 제시된 이 구조를 이용 - 질의 확장을 위한 용어를 선택

• 지역적 방법 - 질의 q 에 의해 검색된 문헌들을 이용 - 질의 시간에 질의 확장을 위한 용어를 선택 - 사용자의 도움이 필요 없음 - 지역 클러스터링 , 지역 문맥 분석 방법


5.3.1 지역 클러스터링을 통한 질의 확장

• 정의

• 이 전략의 지역적 성질

• 현재 질의에 의해 검색된 문헌만을 대상으로 작업• 검색된 문헌의 내용에 접근해야 할 필요성이 빈번하게 발생• 이 지역 전략을 웹 환경에 적용하는 것은 비현식적

V(s)는 공집합이 아니며 , 전체 단어의 부분 집합으로 서로 문법적 이형태 (variants) 단어들을 모은 집합이라고 하자 . V(s)의 정규 형태 s 를 스템 (stem)이라고 한다 . 예를 들어 V(s)={polish, polishing, polished}이라면 s=polish가 된다 .

주어진 질의 q 에 대해 , 검색된 문헌 집합 Dl을 지역 문헌 집합이라고 하고 이 지역 문헌 집합에 나타나는 서로 다른 모든 집합 Vl을 지역 어휘라고 부른다 . Vl집합으로부터 추출된 서로 다른 모든 스템의 집합을 Sl로 표시한다 .


5.3.1 지역 클러스터링을 통한 질의 확장 ( 계속 )

• 연관 (association)클러스터

• 연관 계수를 정규화

문헌 내에서의 어떤 스템 si의 빈도를 f si,j로 표시한다. 는 |Sl|행과 |Dl|열로 구성된 연관 행렬이며 , mij= f si,j 은 의 도치 (transpose) 행렬이며 , 행렬 은 지역 스템간 연관 행렬이 된다 . 의 각 요소 는 스템 와 의 연관도 c u,v를 나내며 다음과 같이 구할 수 있다 .

)(, ljj Ddd ijmm

mt

mt

mms s vus , us vs

Didj

jsujsuvu ffC ,,,

vuvvuu

vuvu

ccccs

,,,

,,


5.3.1 지역 클러스터링을 통한 질의 확장 (계속 )

• 지역 연관 클러스터

• 질의 시간에 효과적으로 계산될 수 있다는 것을 의미함

연관 행렬 의 u 번째 행 (즉 , 스템 의 모든 용어를 표시하는 행 )을 고려해보자U 번째 열을 받아 모든 (v 는 지역 스템을 정의역으로 하며 , 이다 ) 값들 중 가장 큰 n 개의 값을 반환하는 함수를 (n)이라고 하자 . 그러면 (n)은 스템 의 지역 연관 클러스터를 정의하게 된다 . 만약 가 식 5.6 을 이용하여 계산되면 연관 클러스터는 정규화되지 않았다고 하며 , 식 5.7 을 이용하여 계산되면 연관 클러스터는 정규화되었다고 한다 .

s usvus , uv

us ususvus ,



• 메트릭 (Metric)클러스터

• 다르게 연관 계수를 정규화 (5.9)

두 키워드 ki와 kj 사이의 거리 r(ki, kj)를 한 문헌 내에서 두 키워드 사이에 출현하는 단어의 수로 정의한다 . 만약 두 키워드 ki, kj가 같은 문헌에 출현하지 않으면 이다 . 지역 스템간 메트릭 연관 행렬 는 다음과 같이 되는데 s 의 각 요소 는 스템 와 사이의 연관도 c u,v를 나타낸다 . 즉 ,

),( ji kkr svus , us vs

)( )(

,),(

1SuVk SuVk ji

vu

i j kkrC

)(|)(,

,uu

vuvu

SVSVcs


5.3.1 지역 클러스터링을 통한 질의 확장 ( 계속 )

• 지역 메트릭 클러스터의 정의

메트릭 연관 행렬 의 u 번째 행렬 (즉 , 스템 에 대한 모든 연관을 나타내는 행 )을 입력으로 하여 , 모든 (v 는 지역 스템을 정의역으로 하며 , 이다 ) 값들 중 가장 큰 n 개의 값을 반환하는 함수를 (n)이라고 하자 . 그러면 (n)은 스템 의 지역 메트릭 클러스터를 정의하게 된다 . 만약 가 식 5.8을 이용하여 계산되면 메트릭 클럴스터는 정규화되지 않았다고 말하며 , 식 5.9 를 이용하여 계산되면 메트릭 클러스터는 정규화되었다고 한다 .

s usvus , uv

uSus us vus ,



• 스칼라 (Scalar)클러스터

을 스템 와 의 연관 계수벡터라고 하자 . = ( ) 를 스칼라 연관 행렬이라고 하면 , 각 는 다음과 같이 정의 된다 .

(5.10)

),....,(),,....,( ,2,1,,2,1, nvvvvnuuuu ssssssss us vss vus , vus ,

vu

vuvu

ss

sss

,

(n)을 식 5.10 에서 정의 된 모든 ( ) 값 중 가장 큰 n 개의 값을 반환하는 함수라고 하면 Su(n)은 스템 의 스칼라 클러스터를 정의하게 된다 .

uS vus , uv us



• 대화적 탐색 명시


5.3.2 지역 문맥 분석을 통한 질의 확장

• 지역 문맥 분석 방법 : 전역 분석의 아이디어를 검색된 지역 문헌에만 적용한 예

• 전역분석과 지역 분석을 결합한 것 - 전역 분석 방법 : 전체 컬렉션을 이용하여 용어 연관 관계를 탐색하는 것

• 지역 문맥 분석 과정 - 현재 질의를 사용하여 상위 n 개의 단락을 검색 - 해당 개념과 전체 질의와의 유사도 sim(q,c)를 계산 - m 개의 상위 순위 개념이 원래 질의에 추가 - 각 개념에 1-0.9*i/m의 가중치가 부여 - 원래 질의 q 에 있던 용어들은 가중치를 2로 부여함 (강조 )


5.3.2 지역 문맥 분석을 통한 질의 확장 ( 계속 )

idfi

qki

i

nidfckcfcqsim

log,log),(

• 각 연관 개념 c 와 원래 질의 q 사이의 유사도 sim(q,c)• N: 상위 순위 단락의 수

n

j

jcjii pfpfkcf1

,,),(

)5

/log,1max( 10 ii

npNidf )5

/log,1max( 10 cc

npNidf


5.4 자동 전역 분석

• 컬렉션 전체 문헌으로부터 추출된 정보를 이용하여 질의를 확장

• 이 절에서 소개하는 방법은 컬렉션 전체 문헌을 이용하여 작성된 유사 시소러스 구조를 사용

• 시소러스를 작성하는 방법과 질의 확장을 위한 용어 선택 방법은 매우 상이함


5.4.1 유사도 시소러스를 이용한 질의 확장

• 정의

앞에서와 같이 , t 는 전체 컬렉션의 용어 수 , N 은 컬렉션 내의 총 문헌 수 , fi,j 를 문헌 dj에서의 용어 ki의 빈도 , tj를 문헌 di의 색인어 수라고 하자. 또 , itfi 를 문헌 di의 역 용어 빈도라고 하면 itfi는 역문헌 빈도 정의와 비슷하게 다음과 같이 정의된다 .

jj

ttitf log

N

l jl

jl

ji

itfjfi

jfi

itfjfi

jfi

w

12

2,

),(max,5.05.0

),(max,5.05.0

dj

jujuvuvu wwkkc ,,,

(5.11) (5.12)


5.4.1 유사도 시소러스를 이용한 질의 확장 ( 계속 )

• 전역 유사 시소러스 질의 확장의 3단계1. 색인 용어를 표현하기 위해 사용된 개념 공간상에 질의표시2. 각 용어 kv에 대한 전체 질의에 대한 유사도 sim(q,kv)계산3. sim(q,kv)에 따라 정렬한 상위 r 개의 용어를 사용 /질의

확장• 색인 용어 벡터의 개념 공간상에 표시

질의 q 에 대해 다음과 같은 용어 -개념 공간상의 벡터 가 부여된다 .

여기서 wi,q 색인어 -질의 쌍 [ki,q]에 부여된 가중치이며 , 식 5.11 의 색인어 -문헌 가중치와 비슷하게 계산된다 .

q

i

qki

qi kwq

,


5.4.1 유사도 시소러스를 이용한 질의 확장 (계속 )

• 각 용어 kv와 사용자 질의와의 유사도 sim(q,kv)

Qkv

vuquuv cwkqkqsim ,,),(

[ 그림 5.2] 질의 중심 Qc 로부터 주어진 용어 Kv 까지의 거리는 각각의 질의 용어로부터 Kv 까지의 거리와 매우 다를 수 있다


5.4.1 유사도 시소러스를 이용한 질의 확장 ( 계속 )

qku

qu

vqu

wkqsimw

,`,

),(

djkv qku

vuqujvj cwwadqsim ,,,),(


5.4.1 유사도 시소러스를 이용한 질의 확장 (계속 )

[ 그림 5.3] 완전 링크 알고리즘을 이용해 작성된 세 클러스터 계층 ( 클러스터간 유사도는 타원 내 숫자로 표시 )


5.4.2 통계 시소러스를 이용한 질의 확장

• 완전 링크 (complete link) 알고리즘 - 각 문헌을 다른 클러스터에 둠 - 모든 클러스터 쌍 사이의 유사도를 계산 - 클러스터간 유사도가 가장 큰 클러스터 쌍 [Cu,Cv]를

결정 - 두 클러스터 Cu, Cv를 통합 - 정지 조건을 검사 - 클러스터 계층을 반환


5.4.2 통계 시소러스를 이용한 질의 확장 (계속 )

• 전역 시소러스의 클래스를 구성하는 용어의 선택

- 클래스 임계값 , 클래스 문헌 수 , 역 문헌 빈도 최소값 인수를 얻음

- Cu와 Cv 가 한 시소러스 클래스를 생성하려면 sim(Cu,Cv)가 임계값 보다 커야 함

- NDC 인수를 사용하여 대상 클러스터의 크기를 제한함 - 한 클러스트 내중 오직 저빈도 문헌에서만 시소러스 클래스

용어가 선택


5.4.2 통계 시소러스를 이용한 질의 확장 (계속 )

• 각 시소러스 클래스 C 에 대한 평균 용어 가중치

• 시소러스 클래스 가중치

Cw

wtC

ici

c 1

,

5.0Cwtw c

c


5.5 연구 동향 및 쟁점

• 최신 정보 시스템의 그래픽 인터페이스에 바로 적용• 그러나 대화성이 중요하므로 피드백 정보를 얻는 새로운

기술이 요구됨• 전역 분석 기술은 질의에 제공된 지역 문맥을 활용함• 중요한 연구 과제 - 지역 분석 , 전역 분석 , 시각 표시 장치와 대화적

인터페이스를 조합하는 문제• 중요한 쟁점 - 사용자로 하여금 문헌 공간을 시각적으로 항해하는 문제 - 질의 작성을 돕는 단서를 제공하는 문제


5.6 참고 문헌 고찰• 1960년 Maron, Kuhn[547]: 사용자 질의를 확장의 초기 연구• 1965년 Rocchio[678]: 질의 확장과 가중치 재계산 연구 • 1976년 Robertson, Sparch Jones[677]: 초기 확률 모델• 1978 년 Harper, van Rijabergen: 확률적 질의 확장을 위해

클러스터링 기술을 이용• 1983년 Croft[198]: 문헌 내 용어 빈도를 위해 확률식에 C, K

인수를 도입• Voorhees[793], Crouch, Yang[200], Qui, Frei[655]의 실험 : 전역 분석을 이용한 질의 확장이 일관성 있게 검색 성능을 개선• 1977년 Attar, Fraenkel[35]: 지역 분석을 통한 질의 확장 논의• 1996년 Xu, Croft[838]: 지역 문맥 분석• Qui, Frei[655]: 전역 유사 시소러스를 통한 질의 확장• Crouch, Yang[200]: 전역 통계 시소러스를 통한 질의 확장

5장 질의 연산

Documents