information retrieval (chapter 2: modeling)
DESCRIPTION
์์ ์ฐ๊ต์ Office: ๊ณตํ๊ด 816 Tel: 705-8488 Email: [email protected]. Information Retrieval (Chapter 2: Modeling). 2.1 ์๊ฐ - ์ฉ์ด ์ ๋ฆฌ. ์ปฌ๋ ์ (Collection) : ๋ฌธ์์ ๋ชจ์ ๋ฌธ์ (Document) : ์์ฐ์ด ๋ฌธ์ฅ์ ๋์ด ์์ธ์ด (index term) ์งํฉ ( ์ ๋ณด๊ฒ์ ) ์์ธ์ด : ์๋ฏธ (meaning) ๋ฅผ ๊ฐ์ง๋ ํค์๋ ํน์ ํค์๋ ๋ฌด๋ฆฌ ๋ฌธ์ ๋ด์ฉ์ ์์ฝ ๋๋ถ๋ถ์ ๋ช ์ฌ - PowerPoint PPT PresentationTRANSCRIPT
Sogang University: Dept of Computer Science
Information RetrievalInformation Retrieval
(Chapter 2: Modeling)(Chapter 2: Modeling)
์์ ์ฐ๊ต์์์ ์ฐ๊ต์Office: Office: ๊ณตํ๊ด ๊ณตํ๊ด 816816
Tel: 705-8488Tel: 705-8488
Email: Email: [email protected]@sogang.ac.kr
Page 2Information Retrieval
Chapter 2: Modeling
2.12.1 ์๊ฐ ์๊ฐ - - ์ฉ์ด ์ ๋ฆฌ์ฉ์ด ์ ๋ฆฌ2.12.1 ์๊ฐ ์๊ฐ - - ์ฉ์ด ์ ๋ฆฌ์ฉ์ด ์ ๋ฆฌ ์ปฌ๋ ์ (Collection) : ๋ฌธ์์ ๋ชจ์ ๋ฌธ์ (Document) : ์์ฐ์ด ๋ฌธ์ฅ์ ๋์ด
์์ธ์ด (index term) ์งํฉ ( ์ ๋ณด๊ฒ์ ) ์์ธ์ด : ์๋ฏธ (meaning) ๋ฅผ ๊ฐ์ง๋ ํค์๋ ํน์ ํค์๋ ๋ฌด๋ฆฌ
๋ฌธ์ ๋ด์ฉ์ ์์ฝ ๋๋ถ๋ถ์ ๋ช ์ฌ ์์ธ์ด ์งํฉ์ ์ฌ์ฉ์์ ์ ๋ณด์๊ตฌ๋ ๋ฌธ์์ ์๋ฏธ์ ์ธ ํํ์ผ๋ก ๊ฐ์ฃผํจ .
๋ฌธ์ ์ 1: โ ๊ณผ์๋จ์ํ (oversimplification problem) : ์ ๋ณด์๊ตฌ๋ ๋ฌธ์์
์ผ๋ถ๋ฅผ ์์ด๋ฒ๋ฆฐ๋ค .โ ๋ถ์ ํํ ์ ํฉ : ์ฌ์ฉ์ ์๊ตฌ์ ๋ํ ๋ฌธ์๋ฅผ ์ ํํ๊ฒ ์ฐพ์ ์ ์๋ค .
๋จ์ด ๋ฌธ์ ์ปฌ๋ ์ ์ง์ (Query) : ๋ฌธ์๋ฅผ ์ฐพ๊ธฐ ์ํ ์ฌ์ฉ์์ ์๊ตฌ
Page 3Information Retrieval
Chapter 2: Modeling
์๊ฐ ์๊ฐ - - ์ฉ์ด ์ ๋ฆฌ์ฉ์ด ์ ๋ฆฌ (cont.)(cont.)์๊ฐ ์๊ฐ - - ์ฉ์ด ์ ๋ฆฌ์ฉ์ด ์ ๋ฆฌ (cont.)(cont.)
์ ๋ณด๊ฒ์์ ๋ฌธ์ ๊ฒ์๋ชจ๋ธ
: ์์ธ์ด ๊ณต๊ฐ์ ํ ์ ์ผ๋ก ํํ๋ ๋ฌธ์์ ์ง์๊ฐ ์ด๋ป๊ฒ ๊ด๋ จ์ด ์๋์ง๋ฅผ ๊ฒฐ์ ํ๋๊ฐ ?
์์ ๊ฒฐ์ (Ranking) ์๊ณ ๋ฆฌ์ฆ : ๊ฒ์๋ ๋ฌธ์๊ฐ ์ง์์ ๊ฐ์ฅ ์ ํฉํ์ง๋ฅผ ์ด๋ป๊ฒ ๊ฒฐ์ ํ
๊ฒ์ธ๊ฐ ? ๊ฒ์๋ ๋ฌธ์๋ค์ ์ ์ ํ ์์๋ก ์ฌ์ ๋ ฌํ๋ค . ๊ฐ๋ฅํ๋ฉด ์ฌ์ฉ์์ ์๊ตฌ ( ์ง์์ด ) ์ ๊ฐ์ฅ ์ ํฉํ
์์ผ๋ก ์ ๋ ฌํ๋ค .
Page 4Information Retrieval
Chapter 2: Modeling
2.2 IR 2.2 IR ๋ชจ๋ธ์ ๋ถ๋ฅ์ฒด๊ณ๋ชจ๋ธ์ ๋ถ๋ฅ์ฒด๊ณ2.2 IR 2.2 IR ๋ชจ๋ธ์ ๋ถ๋ฅ์ฒด๊ณ๋ชจ๋ธ์ ๋ถ๋ฅ์ฒด๊ณ
์งํฉ๋ก ์ ๋ชจ๋ธ
ํผ์ง์งํฉ๋ชจ๋ธํ์ฅ ๋ถ๋ฆฌ์๋ชจ๋ธ
๋์๋ก ์ ๋ชจ๋ธ
์ผ๋ฐ ๋ฒกํฐ ๋ชจ๋ธ์ ์ฌ์๋ฏธ ์์ธ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ
ํ๋ฅ ๋ก ์ ๋ชจ๋ธ
์ถ๋ก ๋ง ๋ชจ๋ธ์ ๋ ๋ง ๋ชจ๋ธ
์ฌ์ฉ์
์์
๊ฒ์ :
์ถ์ (Adhoc)
์ฌ๊ณผ (filtering)
๋ธ๋ผ์ฐ์ง
์ ํต๋ชจ๋ธ๋ถ๋ฆฌ์ ๋ชจ๋ธ๋ฒกํฐ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธ
๊ตฌ์กฐ์ ๋ชจ๋ธ
๋น์ค์ฒฉ ๋ฆฌ์คํธ ๋ชจ๋ธ๊ทผ์ ๋ ธ๋ ๋ชจ๋ธ
๋ธ๋ผ์ฐ์งํ๋ฉด (flat)
๊ตฌ์กฐ๊ธฐ๋ฐํ์ดํผํ ์คํธ
Page 5Information Retrieval
Chapter 2: Modeling
๊ฒ์ ๋ชจ๋ธ ๋ถ๋ฅ๊ฒ์ ๋ชจ๋ธ ๋ถ๋ฅ๊ฒ์ ๋ชจ๋ธ ๋ถ๋ฅ๊ฒ์ ๋ชจ๋ธ ๋ถ๋ฅ
์์ธ์ด ์ ๋ฌธ ์ ๋ฌธ + ๊ตฌ์กฐ
๊ฒ์
์ ํต(classic)
์งํฉ๋ก ๋์๋ก ํ๋ฅ ๋ก
์ ํต (classic)
์งํฉ๋ก ๋์๋ก ํ๋ฅ ๋ก
๊ตฌ์กฐ
๋ธ๋ผ์ฐ์ง ํ๋ฉด (flat)ํ๋ฉด (flat)
ํ์ดํผํ ์คํธ๊ตฌ์กฐ ๊ธฐ๋ฐ
ํ์ดํผํ ์คํธ
๋ฌธํ์ ๋ ผ๋ฆฌ์
์ฌ
์ฉ
์
๊ณผ
์
Page 6Information Retrieval
Chapter 2: Modeling
2.3 2.3 ๊ฒ์์ ์ข ๋ฅ ๊ฒ์์ ์ข ๋ฅ 2.3 2.3 ๊ฒ์์ ์ข ๋ฅ ๊ฒ์์ ์ข ๋ฅ ์ถ์ ๊ฒ์ (Ad hoc retrieval)
: ์ปฌ๋ ์ ๋ด์ ๋ฌธ์๋ ๋ณํ์ง ์๊ณ ์ฌ์ฉ์๊ฐ ๊ทธ๋ ๊ทธ๋ ์ํ๋ ์ง์๋ฅผ ํ๋ ๊ฒ์๋ฐฉ๋ฒ .
์ผ๋ฐ์ ์ธ ์ ๋ณด๊ฒ์์์ ๋ง์ด ๋ํ๋๋ ๊ฒ์ ์ ํ
์ฌ๊ณผ ๊ฒ์ (Filtering): ์๋ก์ด ๋ฌธ์๊ฐ ๊ฒ์์์คํ ์ ๊ณ์ ๋ค์ด์ค๊ณ ์ง์์๊ตฌ๋ ํญ์
๊ณ ์ ๋์ด ์๋ ๊ฒ์ ๋ฐฉ๋ฒ ์ฌ์ฉ์ ํ๋กํ์ผ (user profile)
๊ฐ ์ฌ์ฉ์๊ฐ ์ํ๋ ์ ๋ณด๋ฅผ ๊ธฐ์ ํด ๋์ ๊ฒ ์ฌ๊ณผ๊ฒ์์์๋ ๋จ์ํ ๊ด๋ จ์ด ์๋ค๊ณ ํ๋จ๋๋ ๋ฌธ์๋ฅผ ์ ๋ฌ ๋ผ์ฐํ (Routing)
์ฌ๊ณผ๋ ๋ฌธํ์ ์์๋ฅผ ๊ณ์ฐํด์ ์ ๊ณตํ๋ ์ฌ๊ณผ ๊ฒ์
Page 7Information Retrieval
Chapter 2: Modeling
์ฌ์ฉ์ ํ๋กํ์ผ ์ฌ์ฉ์ ํ๋กํ์ผ (user profile)(user profile)์ฌ์ฉ์ ํ๋กํ์ผ ์ฌ์ฉ์ ํ๋กํ์ผ (user profile)(user profile)
Static user profile ์ฌ์ฉ์๊ฐ ์์ ์ด ์ํ๋ ์ ๋ณด์ ํด๋นํ๋ ํค์๋๋ฅผ ๊ฒฐ์ ํ์ฌ
์ ๋ ฅํจ์ผ๋ก์จ ์์ ์ profile ์ ์ ์ Dynamic user profile
์ฒ์์ ๋ช ๊ฐ์ ํค์๋ ์ ๋ ฅ Filter ์์ ์ ๊ณตํ๋ ๊ฒฐ๊ณผ ๋ฌธ์์ ๋ํด feedback ์ ์ฃผ๋ฉด ์์คํ ์ด
๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์๋ ๋ถ์ํ์ฌ ํ๋กํ์ผ์ ํค์๋๋ฅผ ๋ณ๊ฒฝ ์ด๋ฌํ relevance feedback cycle ์ ๊ณ์
Page 8Information Retrieval
Chapter 2: Modeling
2.4 IR 2.4 IR ๋ชจ๋ธ์ ํ์ ํน์ฑ๋ชจ๋ธ์ ํ์ ํน์ฑ (formal characterization)(formal characterization)2.4 IR 2.4 IR ๋ชจ๋ธ์ ํ์ ํน์ฑ๋ชจ๋ธ์ ํ์ ํน์ฑ (formal characterization)(formal characterization)
IR ๋ชจ๋ธ [D, Q, F, R(qi, dj)]
ํจ์ ์์๊ฒฐ์ ๊ฒฐ์ ํ๋ ์ฐ๊ด๋๋ฅผ ๋ฅผ๋ฌธํ ์ ์ง์ ๊ตฌ์ฑ ์ ๋ฆฌ๋ก ๋ฒ ์ด์ฆ ,์ฐ์ฐ ํ๋ฅ ํ์ค ,์งํฉ -๋ชจ๋ธ ํ๋ฅ
๊ตฌ์ฑ ์ฐ์ฐ์ผ๋ก ์ ํ๋์ ํ์ค ,๊ณต๊ฐ ๋ฒกํฐ t์ฐจ์์ -๋ชจ๋ธ ๋ฒกํฐ
๊ตฌ์ฑ ์ฐ์ฐ์ผ๋ก ์งํฉ ํ์ค ,์งํฉ ๋ฌธํ -๋ชจ๋ธ ๋ถ๋ฆฌ์
)(framework ๊ณจ๊ฒฉ ๋ชจ๋ธ๋งํ๊ธฐ์ํ ๊ด๊ณ๋ฅผ ์ด๋ค์ ์ง์์ ,ํํ ๋ฌธํ์ง์ ์งํฉ์ธ )ํํ ์ (์ ๋๋ ๋ ผ๋ฆฌ ์ ๋ณด์๊ตฌ์ ์ฌ์ฉ๋
์งํฉ ํํ์ ๋๋ view) (logical์ ๋ ผ๋ฆฌ ๋ํ ๋ฌธํ์ ์์ฅ๋
jiji dqdqR
F
Q
D
: ),(
:
:
:
Page 9Information Retrieval
Chapter 2: Modeling
2.5 2.5 ์ ํต์ ์ธ ์ ๋ณด๊ฒ์ ๋ชจ๋ธ์ ํต์ ์ธ ์ ๋ณด๊ฒ์ ๋ชจ๋ธ2.5 2.5 ์ ํต์ ์ธ ์ ๋ณด๊ฒ์ ๋ชจ๋ธ์ ํต์ ์ธ ์ ๋ณด๊ฒ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ (Boolean) ๋ชจ๋ธ
์งํฉ (Set) ๋ชจ๋ธ ๋ฌธํ๊ณผ ์ง์๊ฐ ์์ธ์ด์ ์งํฉ์ผ๋ก ํํ ์งํฉ๊ณผ ํ์ค์ ์ธ ์งํฉ ์ฐ์ฐ์๋ก ๊ตฌ์ฑ
๋ฒกํฐ (Vector) ๋ชจ๋ธ ๋์ (Algebra) ๋ชจ๋ธ ๋ฌธํ๊ณผ ์ง์๊ฐ t ์ฐจ์ ๊ณต๊ฐ์ ๋ฒกํฐ๋ก ํ์ ๋ฒกํฐ ๊ณ์ฐ์ ์ํ ํ์ค ์ ํ ๋์ ์ฐ์ฐ์๋ก ๊ตฌ์ฑ
ํ๋ฅ (Probabilistic) ๋ชจ๋ธ ๋ฌธํ๊ณผ ์ง์ ํํ์ด ํ๋ฅ ๋ก ์ ๊ทผ๊ฑฐ ์งํฉ , ํ๋ฅ ์ฐ์ฐ๊ณผ ๋ฒ ์ด์ฆ ์ ๋ฆฌ (Bayesโ theorem) ๋ก ๊ตฌ์ฑ
Page 10Information Retrieval
Chapter 2: Modeling
๊ธฐ๋ณธ ๊ฐ๋ ๊ธฐ๋ณธ ๊ฐ๋ ๊ธฐ๋ณธ ๊ฐ๋ ๊ธฐ๋ณธ ๊ฐ๋ ์์ธ์ด (index term)
๋ฌธํ์ ์ฃผ์ ๋ฅผ ๋ํ๋ด๋ ์๋ฏธ๋ฅผ ์ง๋ ๋จ์ด ์ฃผ๋ก ๋ช ์ฌ
๋ช ์ฌ๋ ์์ ๋ง์ ์๋ฏธ๋ฅผ ์ง๋ ๊ฐ์ค์น (Weight)
๋ฌธํ์ ๊ธฐ์ ํ๋ ์ ์ฉ์ฑ์ ์ฐจ์ด๋ฅผ ๋ํ๋ ์ ์ (Definition)
)) ,์ฆ(
ํจ์ ๋ฐํํ๋ ๊ฐ์ค์น๋ฅผ ์ ์์ธ์ด ์์ ๋ฒกํฐ ์ฐจ์- t:
๊ฐ์ค์น ์ ์์ธ์ด ์์ ๋ฌธํ:
),...,( : ๋ฌธํ
},...,{: ์งํฉ ์์ธ์ด
21
1
ijji
ii
ijij
tjjjj
t
wd(g
kg
kdw
wwwdj
kkK
Page 11Information Retrieval
Chapter 2: Modeling
๊ธฐ๋ณธ ๊ฐ๋ ๊ธฐ๋ณธ ๊ฐ๋ ๊ธฐ๋ณธ ๊ฐ๋ ๊ธฐ๋ณธ ๊ฐ๋ ์์ธ์ด ์ํธ ๋ ๋ฆฝ์ฑ ๊ฐ์
(ki, dj) ์ ๊ฐ์ค์น wij ๋ (ki+1, dj) ์ ๊ฐ์ค์น w(i+1)j ์ ๋ฌด๊ดํ๋ค๊ณ ๊ฐ์
์์ธ์ด ๊ฐ์ค์น ๊ณ์ฐ์ ๋จ์ํ ๋น ๋ฅธ ์์ ๊ณ์ฐ ๊ฐ๋ฅ
์์ธ์ด ์ํธ ์ฐ๊ด์ฑ ์ค์ ๋ฌธํ ๋ด์์์ ์์ธ์ด ์ถํ์ ์๋ก ์ฐ๊ด ์ )
์ปดํจํฐ ๋คํธ์ํฌ ๋ถ์ผ : โ ์ปดํจํฐโ์ โ๋คํธ์ํฌโ ๋ ๋จ์ด๋ ์ํธ ์ฐ๊ด๋์ด ๊ฐ์ค์น์ ์ํฅ
์ค์ ์ํฉ์์ ์์ธ์ด ์ฐ๊ด์ฑ์ ์ด์ฉํ์ฌ ์์ํ์ ํฌ๊ฒ ๋์์ด ๋๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ ์ ์ด ์์
๋ฐ๋ผ์ , ์ฐ๊ด์ฑ์ด ํ์คํ ๋์์ด ๋๋ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง๊ธฐ ๊น์ง๋ ๋ ๋ฆฝ์ฑ ๊ฐ์ ์ด ์ ํจํจ
Page 12Information Retrieval
Chapter 2: Modeling
๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ์งํฉ๋ก ๊ณผ ๋ถ๋ฆฌ์ ๋์ํ์ ๊ธฐ๋ฐํ๋ ๊ฐ๋จํ ๋ชจ๋ธ ์์ธ์ด ๊ฐ์ค์น wi,j {0, 1}
์ฐ๊ด๋ ๋ฌธ์์ธ์ง ์๋์ง๋ง ์์ธก ๋ฌธ์๋ฅผ ์์ํํ ์ ์๋ค . ์ง์
์ฌ์ฉ์๊ฐ ์์ ์ ์๊ตฌ๋ฅผ Boolean expression ์ผ๋ก ์ ํํ๊ฒ ํํํ๋ ๊ฒ์ ๊ทธ๋ฆฌ ์ฌ์ด ์ผ์ด ์๋๋ค
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋ถ๋ฆฌ์ ๋ชจ๋ธ์ ๊ฐ์ฅ ์ค๋ซ๋์ ์ฌ์ฉ๋์ด ์จ ๋ํ์ ์ธ ์ด์ฐฝ๊ธฐ ๊ฒ์๋ชจ๋ธ์ด๋ค .
์ฐ์ฐ์ : not, or, and
์ ์ ( ๊ต๊ณผ์ ์ฐธ์กฐ )
Page 13Information Retrieval
Chapter 2: Modeling
๋ถ๋ฆฌ์ ๋ชจ๋ธ๋ถ๋ฆฌ์ ๋ชจ๋ธ๋ถ๋ฆฌ์ ๋ชจ๋ธ๋ถ๋ฆฌ์ ๋ชจ๋ธ ์์ 1)
์์ธ์ด ( ์ญํ์ผ์ด๋ผ๊ณ ํจ ) curve:{12, 25, 36, 89, 125, 128, 215} fitting:{11, 12, 17, 36, 78, 136, 215} interpolation: {11, 18, 36, 125, 132}
์ง์ : ((curve and fitting) or interpolation)
1. (curve and fitting) = {12, 36, 215}
2. ((curve and fitting) or interpolation)
= {12, 36, 215} or {11, 18, 36, 125, 132}
= {11, 12, 18, 36, 125, 132, 215}
Page 14Information Retrieval
Chapter 2: Modeling
๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์์ )
)0,0,1()0,1,1()1,1,1(
)(
dnf
cba
q
kkkq
ka kb
kc
Page 15Information Retrieval
Chapter 2: Modeling
๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
)1,0,1()0,1,1()1,1,1(
)(
dnfq
q
์์คํ ํ๋ก๊ทธ๋จ๋ณ๋ ฌ๋ณ๋ ฌ ํ๋ก๊ทธ๋จ
์์คํ ๋ฌธ์
์์ธ์ด์ ์ฌ๋
๋ณ๋ ฌ ํ๋ก๊ทธ๋จ ์์คํ โฆ
001 1 0 1 โฆ 1
002 0 0 1 โฆ 0
003 0 1 1 โฆ 0
004 1 1 0 โฆ 1
Page 16Information Retrieval
Chapter 2: Modeling
๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋ถ๋ฆฌ์ ๋ชจ๋ธ (( ๊ณ์๊ณ์ )) ์ฅ์
์ง๊ด์ ์ด๊ณ ์ดํดํ๊ธฐ ์ฝ๋ค . ์ฌ์ฉ์ ์๊ตฌ์ธ ์ง์์ ์๋ฏธ๊ฐ ๋ช ํํ๋ค .
๋จ์ ์์ํ๋ฅผ ์ ์ฉํ๊ธฐ์ ๊ณค๋ํ๋ค . ์ฌ์ฉ์ ์๊ตฌ๋ฅผ ๋ถ๋ฆฌ์ ํํ์ผ๋ก ์ ํํ๊ฒ ํํํ๊ธฐ ์ฝ์ง ์๋ค . ๋ถ๋ถ์ ํฉ (partial matching) ์ด ๋ถ๊ฐ๋ฅ . (All or nothing systems)
์ฌ์ฉ์ ์๊ตฌ๊ฐ (A and B and C and D) ๋ผ๋ฉด (A, B, and C but not D) ๋ฅผ ๊ฒ์๋์ง ์๋๋ค .
์ฌ์ฉ์ ์๊ตฌ์ ํํ๋ ๋ชจ๋ ๋จ์ด (term) ์ ์ค์๋๋ ๊ณผ์ฐ ๋๋ฑํ๊ฐ ?
๊ฒ์ ๊ฒฐ๊ณผ์ ํฌ๊ธฐ๋ฅผ ํต์ ํ ์ ์๋ค (Too much or too little)
Page 17Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ ๋๊ธฐ
์ด์ง ๊ฐ์ค์น {0, 1} ์ ๋๋ฌด ์ ํ์ ์ด๋ค . ๊ฐ์ค์น๋ก ์ค์ (float-point) ๋ฅผ ์ฌ์ฉํ์ .
๋ถ๋ถ ์ ํฉ์ด ๊ฐ๋ฅํ๋๋ก ํ์ . ๊ฒ์๋ ๋ฌธ์์ ์ฐ๊ด ์ ๋ฌด๋ฟ ์๋๋ผ
โ ์ง์์์ ์ ์ฌ๋์ ๋ฐ๋ผ ๊ฒ์๋ ๋ฌธํ์ ์์ํํ๋ค . Cosine ์ ์ฌ๋ ์
Page 18Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ 2)D1 = 2T1 + 3T2 + 5T3
D2 = 3T1 + 7T2 + T3
Q = 0T1 + 0T2 + 2T3
T3
T1
T2
D1 = 2T1+ 3T2 + 5T3
D2 = 3T1 + 7T2 + T3
Q = 0T1 + 0T2 + 2T3
7
32
5
โข D1 ํน์ D2 ์ค ์ด๋ ๊ฒ์ด Q ์ ๋ ์ ์ฌํ๊ฐ ?
โข ์ด๋ป๊ฒ ์ ์ฌ๋ ( ๊ฑฐ๋ฆฌ , ๊ฐ๋ ๋ฑ ) ๋ฅผ ์ธก์ ํ ๊ฒ์ธ๊ฐ ?
Page 19Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ง์์ ๋ฌธํ์ t- ์ฐจ์์ผ๋ก ํํํ๋ค . ๋ฌธํ dj = (w1,j, w1,j, ..., wt,j)
์ง์ q = (w1,q, w1,q, ..., wt,q)
๊ฐ์ค์น 0 wi,j 1 : ์์ธ์ด์ ์ค์๋ ์ง์ / ๋ฌธํ์ ์ ์ฌ๋ sim(dj, q) ์ ๋ฐ๋ผ ๊ฒ์๋ ๋ฌธํ์
์์ํํ๋ค . ์ ์ฌ๋ sim(dj, q) = (dj q) / (|dj| |q|) =
์ง์๊ฐ ๋ถ๋ถ์ ์ผ๋ก ์ ํฉ๋ ๊ฒฝ์ฐ๋ ๊ฒ์ํ ์ ์๋ค . (sim(dj, q) > )
t
i qi
t
i ji
t
i qiji
ww
ww
1
2,1
2,
1 ,,
Page 20Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ - - ์ ์ฌ๋์ ์ฌ๋๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ - - ์ ์ฌ๋์ ์ฌ๋
t
1=i
t
1=i
22
t
1=i
2
|Y|+|X|
|YX| 2
ii
ii
yx
yx
Dice Coefficient
t
1=i
|YX| ii yxInner Product
t
1=i 1
22
t
1=i1/21/2
|Y||X|
|YX|
t
iii
ii
xy
yx
Cosine Coefficient
Jaccard Coefficient
t
1=i
t
1=i
t
1=i
22
t
1=i
|YX|-|Y|+|X|
|YX|
iiii
ii
yxyx
yx
Page 21Information Retrieval
Chapter 2: Modeling
ki 1 2 โฆ 17 โฆ 456 โฆ 693 โฆ 5072d1 0 0.3 0 0.5 0 0d2 0.2 0.6 0.3 0 0.8 0.3...dn 0 0.2 0 0 0.6 0 q 0.3 0.7 0 0 0.7 0
๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ ์ฌ๋๊ฐ ๋ด์ (inner product) ์ผ ๊ฒฝ์ฐ :
sim(d1, q) = 0.3*0 + 0.7*0.3 + 0.7*0 = 0.21
sim(d2, q) = 0.3*0.2 + 0.7*0.6 + 0.7*0.8 = 1.04
sim(dn, q) = 0.3*0 + 0.7*0.2 + 0.7*0.6 = 0.56
๊ฒ์ ๊ฒฐ๊ณผ (if = 0.5)
d2, dn
์ฉ์ด - ๋ฌธํ ํ๋ ฌ (Term-Document Matrix)
Page 22Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ - - ์ฉ์ด๊ฐ์ค์น์ฉ์ด๊ฐ์ค์น๋ฒกํฐ๋ชจ๋ธ๋ฒกํฐ๋ชจ๋ธ - - ์ฉ์ด๊ฐ์ค์น์ฉ์ด๊ฐ์ค์น
ํด๋ฌ์คํฐ๋ง ๋ฌธ์ ํด๋ฌ์คํฐ๋ด ์ ์ฌ๋ (intra-clustering similarity)
์ด๋ค ๊ฐ์ฒด๋ฅผ ์ ์ค๋ช ํ๋ ํน์ฑ์ด ๋ฌด์์ด๋ ? ํด๋ฌ์คํฐ๊ฐ ๋น์ ์ฌ๋ (inter-cluster dissimilarity)
์ด๋ค ๊ฐ์ฒด๋ฅผ ๋ค๋ฅธ ๊ฐ์ฒด์ ๊ตฌ๋ถํ๋ ํน์ฑ์ด ๋ฌด์์ด๋ ?
์ ๋ณด๊ฒ์ ๋ฌธ์ ํด๋ฌ์คํฐ๋ด ์ ์ฌ๋ (intra-clustering similarity)
์ฉ์ด๋น๋์ (term frequency): tf, freqi,j
๋ฌธํ dj ์์ ์ฉ์ด ki ์ ์์ ๋น๋์ ํด๋ฌ์คํฐ๊ฐ ๋น์ ์ฌ๋ (inter-cluster dissimilarity)
์ญ๋ฌธํ๋น๋์ (inverse document frequency): idf ๋ฌธํ ์ปฌ๋ ์ ์์ ์ฉ์ด ki ์ ๋น๋์์ ์ญ์
Page 23Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
๊ฐ์ค์น ๊ธฐ๋ฒ ์ฉ์ด ๋น๋์ (tf)
๋ฌธํ๋ด ์ฉ์ด ๋น๋์๊ฐ ๋์ ์๋ก ์ฐ๊ด์ด ํผ
์ญ๋ฌธํ ๋น๋์ (idf) ๋ง์ ๋ฌธํ์ ์ถํํ ์ฉ์ด๋ ์ฐ๊ด / ๋น์ฐ๊ด ๋ฌธํ์ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์
)document in the termoffrequency Raw : ( max jiij
ljl
ijij dkfreq
freq
freqf
documents ofnumber Total :
appears index term hein which t documents ofNumber :
log
N
kn
n
Nidf
ii
ii
Page 24Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ ์๋ ค์ง ์์ธ์ด ๊ฐ์ค์น ๊ธฐ๋ฒ tf ์ idf ์ ๊ท ํ (tf-idf ๊ธฐ๋ฒ )
์ง์์์ ์ฉ์ด ๊ฐ์ค์น ๊ธฐ๋ฒ
iij
iijij
idff
n
Nfw
log
iiq
ilql
iqiq
idff
n
N
freq
freqw
)5.05.0(
logmax
5.05.0
Page 25Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
truck"ain arrived gold ofShipment " :
ck"silver tru ain arrivedsilver ofDelivery " :
fire" ain damaged gold ofShipment " :
3
2
1
D
D
D
ii n
Nidf log
ck"silver tru gold" :Q
Term a arrived damaged delivery fire gold in of silver shipment truck
idf 0 .176 .477 .477 .477 .176 0 0 .477 .176 .176
iijij idffw iiqiq idffw
Page 26Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ๋ชจ๋ธ ๋ฒกํฐ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11
D1 0 0 .477 0 .477 .176 0 0 0 .176 0
D2 0 .176 0 .477 0 0 0 0 .954 0 .176
D3 0 .176 0 0 0 .176 0 0 0 .176 .176
Q 0 0 0 0 0 .176 0 0 .477 0 .176
ij
t
iiqj wwDQSC
1
),(
031.0)176.0(
)0)(176.0()176.0)(0()0)(477.0()0)(0()0)(0()176.0)(176.0(
)477.0)(0()0)(0()477.0)(0()0)(0()0)(0(),(
2
1
DQSC
486.0)176.0()477.0)(954.0(),( 22 DQSC
062.0)176.0()176.0(),( 223 DQSC
Hence, the ranking would be D2, D3, D1
Document vectors
Not normalized
Page 27Information Retrieval
Chapter 2: Modeling
๋ฒกํฐ ๋ชจ๋ธ ๋ฒกํฐ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))๋ฒกํฐ ๋ชจ๋ธ ๋ฒกํฐ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ฅ์ ์ฉ์ด ๊ฐ์ค์น๋ ๊ฒ์์ฑ๋ฅ์ ํฅ์์ํจ๋ค . ๋ถ๋ถ์ ํฉ์ด ๊ฐ๋ฅํ๋ค . ๊ฒ์๋ ๋ฌธํ์ ์์ํํ ์ ์๋ค .
๋จ์ ์์ธ ์ฉ์ด๋ค๊ฐ์ ์ฐ๊ด์ฑ์ ๊ณ ๋ คํ์ง ์์๋ค .
์ฉ์ด๊ฐ ์ํธ๋ ๋ฆฝ ๊ฐ์ ์ ๋ชจ์์ด๋ค . ์ฉ์ด๋ค ์ฌ์ด์ ์์กด์ฑ์ ๊ณ ๋ คํ์ง ์์๋ค .
์ฐ๊ด ํผ๋๋ฐฑ์ ์ง์ ํ์ฅ ์์ด ์ฑ๋ฅ ๊ฐ์ ์ด ์ด๋ ต๋ค .
Page 28Information Retrieval
Chapter 2: Modeling
ํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธ - - ๊ธฐ๋ณธ๊ธฐ๋ณธํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธ - - ๊ธฐ๋ณธ๊ธฐ๋ณธ
๊ฒฝ์ฃผ๋ง ๋ฐฑ๋์ฐ์ ํต์ฐ 100 ๋ฒ์ ๊ฒฝ์ฃผ๋ฅผ ๋ฐ์๋ค . ๊ทธ ์ค 20 ๋ฒ์ ๊ฒฝ์ฃผ์์ ์ฐ์นํ๋ค .
P( ๋ฐฑ๋์ฐ =Win) = 20/100 = .2 ๊ทธ ์ค 30 ๋ฒ์ ๋น๊ฐ ์๊ณ ๋๋จธ์ง๋ ๋ง์๋ค .
P(Weather=Rain) = 30/100 = .3 ๊ทธ ์ค ๋ฐฑ๋์ฐ์ 15 ๋ฒ์ ์ด๊ฒผ๋ค .
โ ์กฐ๊ฑด ํ๋ฅ P( ๋ฐฑ๋์ฐ =Win|Weather=Rain) = 15/30 = .5โ P(Win|Rain)= P(Win, Rain)/P(Rain) โ = 0.15/0.3 = .5
P(Rain|Win) =? Bayesโ theorem
75.02.0
3.05.0
P(W)
P(R)P(W|R) P(R|W)
P(B)
P(A)P(B|A)P(A|B)
Page 29Information Retrieval
Chapter 2: Modeling
ํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธ ๋๊ธฐ
IR ๋ฌธ์ ๋ฅผ ํ๋ฅ ์ ์ผ๋ก ํด์ํ๋ค . 1976 ๋ ์ Robertson ๊ณผ Sparck Jones[677] ๊ฐ ์ ์ํ๋ค .
๊ฐ์ ( ํ๋ฅ ์์น ) ์ฐ๊ด ํ๋ฅ (Probability of relevance) ์ ๋ฌธํ๊ณผ ์ง์ ํํ์๋ง ์ข ์๋๋ค .
์ง์ q ์ ์ด์์ ์ธ ์ ๋ต ์งํฉ (R) ๊ฐ์ ํ์ . ์งํฉ R ์ ๋ฌธํ๋ง ์ง์ q ์ ์ฐ๊ด (relevant) ๋๊ณ ๋ค๋ฅธ ๋ฌธํ์
์ฐ๊ด๋์ง ์๋๋ค .
Page 30Information Retrieval
Chapter 2: Modeling
ํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธ ์ ์
t
i i
i
i
iijiqj
dg idg i
dg idg i
j
jj
j
j
j
j
j
jj
iqij
RkP
RkP
RkP
RkPwwqsim(d
RkPRkP
RkPRkPqdsim
qddRP
R
R
RdP
RdP
RPRdP
RPRdP
dRP
dRPqdsim
ww
jiji
jiji
1
0)(1)(
0)(1)(
)|(
)|(1log
)|(1
)|(log~),
)|()|(
)|()|(~),(
query theorelevant t is document y that theProbabilit :)|(
relevant-non be known to documents ofSet :
relevant be known to documents ofSet :
)|(
)|(~
)()|(
)()|(
)|(
)|(),(
binary all are riables weight vaindex term : }1,0{},1,0{
Bayesโ rule ๋์ผ ๋ฌธํ์ ๋ชจ๋ ์ )(),( RPRP
์์ธ์ด ๋ ๋ฆฝ์ฑ ๊ฐ์
Log ๋ฅผ ์ทจํ๊ณ ,
์์ ๋ฌด์1)|()|( RkPRkP ii
Page 31Information Retrieval
Chapter 2: Modeling
ํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธํ๋ฅ ๋ชจ๋ธ ์ด๊ธฐ ํ๋ฅ
ํ๋ฅ ์ ๊ฐ์
iii
i
i
knN
nRkP
RkP
index term econtain th which documents ofnumber : )|(
5.0)|(
ii
iii
iiiii
ii
iii
kVV
VVN
N
nVn
VN
Vn
VN
VnRkP
VN
nV
V
V
V
VRkP
index term econtain th which ofsubset :
retrievedinitially documents ofsubset :11
5.0)|(
1
1
5.0 )|(
๋๋ฌด ์์ V ์ Vi
์ ๊ฒฝ์ฐ ,
์กฐ์ ์์๋ฅผ ๋ํจ
Page 32Information Retrieval
Chapter 2: Modeling
ํ๋ฅ ๋ชจ๋ธ ํ๋ฅ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))ํ๋ฅ ๋ชจ๋ธ ํ๋ฅ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
Advantage ์ฐ๊ด ํ๋ฅ ์ ๋ฐ๋ผ ๋ฌธํ ์์ํ๊ฐ ๊ฐ๋ฅํ๋ค .
Disadvantage ์ด๊ธฐ ๋ฌธํ์ด ์ฐ๊ด / ๋น์ฐ๊ด์ผ๋ก ๋ถ๋ฆฌ๋์๋ค๋ ๊ฐ์ ์ด ํ์ํ๋ค . ์์ธ์ด์ ๋ฌธํ๋ด ๋น๋์๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค . ์์ธ์ด๋ค ๊ฐ์ ๋ ๋ฆฝ์ฑ์ ๊ฐ์ ํ๊ณ ์๋ค .
๊ทธ๋ฌ๋ , ๋ ๋ฆฝ์ฑ ๊ฐ์ ์ด ๋ฌธ์ ๊ฐ ๋๋ ๊ฒ์ธ์ง๋ ์์ง ๋ชจ๋ฆ !!
Page 33Information Retrieval
Chapter 2: Modeling
์ ํต ๋ชจ๋ธ์ ๋น๊ต์ ํต ๋ชจ๋ธ์ ๋น๊ต์ ํต ๋ชจ๋ธ์ ๋น๊ต์ ํต ๋ชจ๋ธ์ ๋น๊ต ๋ถ๋ฆฌ์ ๋ชจ๋ธ
๊ฐ์ฅ ๋จ์ํ ๋ชจ๋ธ ๋ถ๋ถ ์ ํฉ ์ธ์ ๋ถ๊ฐ -> ๋ฎ์ ์ฑ๋ฅ
๋ฒกํฐ ๋ชจ๋ธ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ฒ์ ๋ชจ๋ธ
๋ฒกํฐ ๋ชจ๋ธ๊ณผ ํ๋ฅ ๋ชจ๋ธ Croft
ํ๋ฅ ๋ชจ๋ธ์ด ๋ ์ข์ ๊ฒ์ ์ฑ๋ฅ์ ์ ๊ณต Salton, Buckley
์ผ๋ฐ ์ปฌ๋ ์ ์์ ๋ฒกํฐ ๋ชจ๋ธ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
Page 34Information Retrieval
Chapter 2: Modeling
ํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธ
๋๊ธฐ ์ผ๋ฐ์ ์ผ๋ก ๋ฌธํ๊ณผ ์ง์๋ ํค์๋ ์งํฉ์ผ๋ก ํํํ๋ค . ๋ฌธํ๊ณผ ์ง์์ ์ค์ ์ ์ธ ์๋ฏธ์ ๋ถ๋ถ์ ์ธ ํํ์ด๋ค . ๋ฌธํ๊ณผ ์ง์์ ์ ํฉ (matching) ์ ๊ทผ์ , ๋๋ ๋ชจํธํ ์ ํฉ์ด ๋๋ค
๊ฐ ์ฉ์ด๋ ํผ์ง ์งํฉ (fuzzy set) ์ผ๋ก ์ ์ํ๋ค . ๊ฐ ๋ฌธํ์ ๊ฐ ์ฉ์ด์ ํผ์ง ์งํฉ์์ ์์ ์ ๋ (degree of
membership) ๋ฅผ ๊ฐ์ง๋ค .
Page 35Information Retrieval
Chapter 2: Modeling
ํผ์ง ์งํฉ์ ์๊ฐํผ์ง ์งํฉ์ ์๊ฐ ํผ์ง ์งํฉ A ์ x ์ ์์ ์ ๋ A(x) :
A(x) : X [0,1] X : ์ ์ฒด ์งํฉ (universal set) [0,1] : 0 ๊ณผ 1 ์ฌ์ด์ ์ค์
์ ) ์ ์ฒด ์งํฉ U = {4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8}
ํผ์ง ์งํฉ TALL={0/4.5, 0.2/5, .5/5.5, .7/6, 1/6.5, 1/7, 1/7.5, 1/8} ์์ํจ์ (membership function)
4.5 5.5 6 6.5
0.5
1.0
0 0 Height in feet
LL0.7
Page 36Information Retrieval
Chapter 2: Modeling
ํผ์ง ์งํฉ์ ์ฐ์ฐ ํผ์ง ์งํฉ์ ์ฐ์ฐ ํผ์ง ์งํฉ ์ฐ์ฐ์ ๋งค์ฐ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ์ ์๋๋ฉฐ ์ฌ๊ธฐ์ ํ
์๋ฅผ ๋ณด์ธ๋ค .
๊ต์งํฉ A B ์ ์์ํจ์ : AB(x)= min{(x), (x)} or (x)= (x)(x) for all xX
ํฉ์งํฉ A B ์ ์์ํจ์ : (x)= max{A(x), (x)} or (x)= (x)+(x)- (x)(x)
์ฌ์งํฉ Aโ ์ ์์ํจ์ : Aโ(x)= 1-(x)
Page 37Information Retrieval
Chapter 2: Modeling
ํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธ ํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธ ๋ฌธํ D ์ ํํ : ๊ฐ์ค์น ๋ฒกํฐ (w1,โฆ,wt),
wi = Ti(D)
์ฉ์ด Ti ์ ํผ์ง ์งํฉ์์ ๋ฌธํ D ์ ์์ ์ ๋ ์ :
POLITICS={politics(D1)/ D1 , politics(D2)/ D2 ,โฆ, politics(DN)/ DN}
์ง์์ ๋ํ ์ฐ๊ด ์ ๋ :
๋ฌธํ D ์ ์์ ์ ๋ณด์ ๋ํด (Ti AND Tj): min(wi, wj) ๋ก ๊ณ์ฐ
(Ti OR Tj) : max(wi, wj) ๋ก ๊ณ์ฐ
(NOT Ti) : 1-wi ๋ก ๊ณ์ฐ
Page 38Information Retrieval
Chapter 2: Modeling
ํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธ ํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธ -- ์์ ์์ ์ 1) - AND
D1: elephant/1 + Asia/0.2 + ... D2: elephant/0.2 + Asia/0.2 + ... Q2= elephants AND Asia D1 : min(1, 0.2) = 0.2. D2 : min(0.2,0.2) = 0.2 D1 better
์ 2) - OR D1:elephant/0.8 + hunting/0.1 + ... D2: elephant/0.7 + hunting/0.7
+ ... Q3= elephants OR hunting D1 : max(0.8, 0.1)=0.8 D2 : with max(0.7, 0.7)=0.7 D2 better
์ 3) - NOT D1: mammals/0.5+Asia/0.2+... D2:
mammals/0.51+Asia/0.49+... Q4 = (mammals AND NOT
Asia)
D1 : min(0.5, 1-0.2) = 0.5 D2 : min(0.51, 1-0.49) = 0.51
Page 39Information Retrieval
Chapter 2: Modeling
ํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธํผ์ง ์ ๋ณด๊ฒ์ ๋ชจ๋ธ ์์ํจ์๋ฅผ ์ด๋ป๊ฒ ๊ณ์ฐํ ๊น ?
์ฉ์ด - ์ฉ์ด ์ฐ๊ด ํ๋ ฌ ์ฌ์ฉํ๋ค .
์ฉ์ด - ์ฉ์ด ์ฐ๊ด ํ๋ ฌ (Term-term correlation matrix) CNM
๋ ์ฉ์ด ki ์ kl ์ ์ฐ๊ด๋ cij :
liil
ii
illi
ilil
kkn
kn
nnn
nc
and termecontain th which documents ofNumber :
termecontain th which documents ofNumber :
k1 k2 โฆ
K1 C11 C12
K2 C12 C22
โฆ
์์ ํจ์ (Degree of membership) ๋ฌธํ dj ๊ฐ ์ฉ์ด ki ์ ๊ด๋ จ๋ ์์์ ๋ณด
jl dk
ilij c )1(1
Page 40Information Retrieval
Chapter 2: Modeling
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ๋๊ธฐ
๋ถ๋ฆฌ์ ๋ชจ๋ธ ๊ฐ๋จํ๋ค . ์ฉ์ด ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ ์ ์๋ค . ๊ฒ์๋ ๋ฌธํ๋ฅผ ์์ํํ ์ ์๋ค . ๊ฒ์๋ ๋ฌธํ์ ์๊ฐ ๋๋ฌด ํฌ๊ฑฐ๋ ๋๋ฌด ์๋ค .
๋ฒกํฐ ๋ชจ๋ธ ๊ฐ๋จํ๊ณ ๋น ๋ฅด๋ค . ๊ฒ์ ์ฑ๋ฅ์ด ์ข๋ค .
๋ถ๋ฆฌ์ ๋ชจ๋ธ์ ์ง์ ํ์์ ๋ฒกํฐ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ๋ถ๋ถ ์ ํฉ์ด๋ ์ฉ์ด ๊ฐ์ค์น๋ฅผ ์ด์ฉํ์ .
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ
Page 41Information Retrieval
Chapter 2: Modeling
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ ))ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ ))
๋ถ๋ฆฌ์ ๋ ผ๋ฆฌ์ ๊ฐ์ ์ ๋ํ ๋ฌธ์ ์ง์ ์ฉ์ด์ ๋ถ๋ฆฌ์ ํฉ : q = kx ky
์ฉ์ด kx ํน์ ky ๋ฅผ ํฌํจํ๋ ๋ฌธํ์ ๋ ์ฉ์ด kx ์ ky ๊ฐ ํฌํจ๋์ง ์์ ๋ค๋ฅธ ๋ฌธํ๋งํผ ์ง์ q ์ ์ฐ๊ด๋์ง ์์ ์ ์๋ค .
์ง์ ์ฉ์ด์ ๋ถ๋ฆฌ์ ๊ณฑ : q = kx ky
์ฉ์ด kx ์ ky ๋ฅผ ํฌํจํ๋ ๋ฌธํ์ ๋ ์ฉ์ด kx ํน์ ky ๊ฐ ํฌํจ๋ ๋ฌธํ๋ณด๋ค ์ง์ q ์ ์ฐ๊ด๋์ง ์์ ์ ์๋ค .
Page 42Information Retrieval
Chapter 2: Modeling
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ ))ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ )) ์ )
๋ ์ฉ์ด kx ๊ณผ ky ์ ๋ํด์ ์๊ฐํด๋ณด์ .
๊ฐ์ค์น (normalized tf-idf factor)
2 ์ฐจ์ ๊ณต๊ฐ์์ ์ง์์ ๋ฌธํ์ ์ ์ฌ๋
)10( max
)10( max
yjii
yyjyj
xjii
xxjxj
widf
idffw
widf
idffw
(1,1)
kx
ky
(1,0)
(0,1)
(0,0)
๊ฐ์ฅ ์์น ์์ d
x y(1,1)
kx
ky
(1,0)
(0,1)
(0,0)
๊ฐ์ฅ ์ํจ .d
x y
Page 43Information Retrieval
Chapter 2: Modeling
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ ))ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ )) ๋ ผ๋ฆฌํฉ ์ง์ :
์ ์ฌ๋ : ์ขํ (0,0) ์ผ๋ก๋ถํฐ์ Normalized ๋ ๊ฑฐ๋ฆฌ์ด๋ค .
๋ ผ๋ฆฌ๊ณฑ ์ง์ :
์ ์ฌ๋ : ์ขํ (1, 1) ๋ก๋ถํฐ์ ๊ฑฐ๋ฆฌ์ ์ญ์
yxor kkq
yxand kkq
2),(
22 yxdqsim or
2
)1()1(1),(
22 yxdqsim and
Page 44Information Retrieval
Chapter 2: Modeling
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ ))ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ )) P-norm ๋ชจ๋ธ
๊ฑฐ๋ฆฌ ๊ฐ๋ ์ผ๋ฐํ : ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ฟ ์๋๋ผ p- ๊ฑฐ๋ฆฌ์ ๊ฐ๋ ์ผ๋ก ์ผ๋ฐํํ
๋ชจ๋ธ์ด๋ค . p ๊ฐ์ ์ง์ ์ ์ค๋ค . ์ผ๋ฐํ๋ ๋ ผ๋ฆฌํฉ ์ง์ (Generalized disjunctive query)
์ผ๋ฐํ๋ ๋ ผ๋ฆฌ๊ณฑ ์ง์ ( Generalized conjunctive query)
mppp
or kkkq ...21
mppp
and kkkq ...21
Page 45Information Retrieval
Chapter 2: Modeling
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ ))ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ )) P-norm ๋ชจ๋ธ์์ ์ง์ - ๋ฌธํ์ ์ ์ฌ๋ (query-document
similarity)
์ )
ppm
pp
jand
ppm
pp
jor
m
xxxdqsim
m
xxxdqsim
1
21
1
21
)1(...)1()1(1),(
...),(
321 )( kkkq pp
p
p
p
ppp
j
xxx
dqsim
1
3
1
21
2
2)1()1(
1
),(
Page 46Information Retrieval
Chapter 2: Modeling
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ ))ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ ((๊ณ์๊ณ์ )) P-norm ๋ชจ๋ธ์ ํน์ฑ
p = 1 ์ ์ฌ๋ ๊ธฐ๋ฐํ ๋ฒกํฐ ๋ชจ๋ธ
p = ์ ์ฌ๋ ๊ธฐ๋ฐ ํผ์ง ์งํฉ ๋ชจ๋ธ
1< p < ๋ก p๊ฐ์ ๋ณํ์ํค๋ฉด ๋ฒกํฐ๋ชจ๋ธ๊ณผ ํผ์ง์งํฉ๋ชจ๋ธ์ ์ค๊ฐ ์ฑ์ง์ ๊ฐ์ง ๊ฒ์๋ชจ๋ธ์ด ๋๋ ์ ์ฐ์ฑ์ด ์ฅ์ ์ด๋ค
ํ์ฅ ๋ถ๋ฆฌ์ ๋ชจ๋ธ์ 1983 ๋ ์ ์๊ฐ๋ ๊ฐ๋ ์ด์ง๋ง ์ค์ ๋ง์ด ์ฌ์ฉ๋์ง ์๊ณ ์๋ค . ๊ทธ๋ฌ๋ ์ฌ๋ฌ๊ฐ์ง ์ด๋ก ์ ์ธ ์ฅ์ ์ ๋ง์ด ๊ฐ์ง๊ณ ์์ด์ ๋ฏธ๋์ ๊ฒ์๋ชจ๋ธ๋ก ์ฌ์ฉ๋ ๊ฐ๋ฅ์ฑ์ด ๋ง๋ค
m
xxdqsimdqsim m
jandjor
...),(),( 1
)(min),(
)(max),(
iijand
iijor
xdqsim
xdqsim
Page 47Information Retrieval
Chapter 2: Modeling
์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ฉ์ด๋ค ๊ฐ์ ์์กด์ฑ ๊ณ ๋ ค์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ฉ์ด๋ค ๊ฐ์ ์์กด์ฑ ๊ณ ๋ ค์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ฉ์ด๋ค ๊ฐ์ ์์กด์ฑ ๊ณ ๋ ค์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ฉ์ด๋ค ๊ฐ์ ์์กด์ฑ ๊ณ ๋ ค Ti : ์์ธ์ด i ๋ฅผ ํํํ๋ ๋ฒกํฐ
dri : ๋ฌธํ Dr ์์ ์์ธ์ด i ์ ๊ฐ์ค์น
qsi : ์ง์ Qs ์์ ์์ธ์ด i ์ ๊ฐ์ค์น ์ง์์ ๋ฌธํ์ ์ ์ฌ๋ ๋ด์ ์ ์ฌ์ฉํ ๊ฒฝ์ฐ
t
jjrjs
t
iirir TqQTdD
11
t1
sr
and So
T,...,T vectors theofn combinatiolinear a are
Qquery andDDocument
jji
isjri
t
jjsj
t
iiris TTqdTqTdQ
,11r ))((D
:get product weinner Using
Page 48Information Retrieval
Chapter 2: Modeling
์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ ์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ - - ์์ ์์
D1=2T1+3T2+5T3
D2=3T1+7T2+1T3
Q =0T1+0T2+2T3
sim(D1, Q) = (2T1+ 3T2 + 5T3) * (0T1 + 0T2 + 2T3)
= 4T1T3 + 6T2T3 + 10T3T3
= 4*0-6*0.2+10*1= 8.8
sim(D2, Q) = (3T1+ 7T2 + 1T3) * (0T1 + 0T2 + 2T3)
= 6T1T3 + 14T2T3 + 2T3T3
= 6*0-14*0.2+2*1= -.8
๊ฒ์๊ฒฐ๊ณผ (if = 0.5): D1
T1 T2 T3
T1 1 .5 0
T2 .5 1 -.2
T3 0 -.2 1
Page 49Information Retrieval
Chapter 2: Modeling
์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ฉ์ด์ฉ์ด -- ์ฉ์ด ํ๋ ฌ์ฉ์ด ํ๋ ฌ (term-term matrix)(term-term matrix)์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ผ๋ฐํ๋ ๋ฒกํฐ ๋ชจ๋ธ โ ์ฉ์ด์ฉ์ด -- ์ฉ์ด ํ๋ ฌ์ฉ์ด ํ๋ ฌ (term-term matrix)(term-term matrix)
์ฉ์ด -๋ฌธํ ํ๋ ฌ : MNM
N: ๋ฌธํ ์ , M: ์ฉ์ด (์์ธ์ด ) ์ ์ฉ์ด -์ฉ์ด ํ๋ ฌ : TNN
T = M M-t
์ ) (์ค์ ๊ณ์ฐ์์๋ ์ ๊ทํ๋ ๊ฐ์ค์น๋ฅผ ์ฌ์ฉํ๋ค .)
์ฉ์ด๊ฐ ์๊ด์ฑ์ด ๊ฒ์์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ์ฆ๊ฑฐ๋ ์์ง ์๊ณ , ๊ณ์ฐ๋์ด ๋ง์์ ์ผ๋ฐํ๋ ๋ฒกํฐ๋ชจ๋ธ์ด ์ ํต๋ฒกํฐ๋ชจ๋ธ๋ณด๋ค ์ ํธ๋์ง ๋ชปํจ ์ด๋ก ์ ์ธ ๊ด์ ์์ ํ์ฅ๋ ์์ด๋์ด๋ฅผ ์ ๊ณตํ๋ ๊ธฐ๋ฐ์ด ๋จ
262213t
225827t
132713t
ttt
173
532
ttt
15t
73t
32t
dd
T
3
2
1
321
2
1
321
2
2
1
21
d
d
Page 50Information Retrieval
Chapter 2: Modeling
์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (Latent Semantic Indexing Model)(Latent Semantic Indexing Model)์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (Latent Semantic Indexing Model)(Latent Semantic Indexing Model)
๋๊ธฐ ์ดํ์ ์ ํฉ์ ๋ฌธ์ ์
๊ฐ๋ (concept) ์ ํํํ๋ ๋ฐฉ๋ฒ์ ๋ค์ํ๋ค .(synonymy)โ ์์ธ๋์ง ์์์ผ๋ ์ฐ๊ด ๋ฌธํ์ ๊ฒ์๋์ง ์๋๋ค .
๋๋ถ๋ถ์ ๋จ์ด๋ ์ฌ๋ฌ ๊ฐ์ง ์๋ฏธ๋ฅผ ์ง๋๋ค .(polysemy)โ ๋น์ฐ๊ด ๋ฌธํ์ด ๊ฒ์ ๊ฒฐ๊ณผ์ ํฌํจ๋๋ค .
๊ธฐ๋ณธ ๊ฐ๋ ์ง์์ ๋ฌธํ์ ์ ํฉ ๊ณผ์ ์ ์์ธ์ด ์ ํฉ ๋์ ์ ๊ฐ๋ ์ ํฉ (con
cept matching) ์ ์ฌ์ฉํ๋ค . ๋ฌธํ ๋ฒกํฐ์ ์ง์ ๋ฒกํฐ์ ์ฐจ์์ ๊ฐ๋ ๋ฒกํฐ๋ก ๋์์ํจ๋ค . ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๋ ๋ฒกํฐ์ ์ฐจ์์ ์์ธ์ด ๋ฒกํฐ์ ์ฐจ์๋ณด๋ค ์๋ค .
์๋ํ๋ฉด ํ๋์ ๊ฐ๋ ์ ์ฌ๋ฌ ๊ฐ์ ์์ธ์ด ( ์ฉ์ด ) ๋ฅผ ํฌํจํ๋ค .
Page 51Information Retrieval
Chapter 2: Modeling
์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ )) ์ฉ์ด - ๋ฌธํ ํ๋ ฌ (term-document matrix) MtN =(Mij)
Mij = wi,j : ๋ฌธํ dj ์ ์ฉ์ด ki ์ ๊ด๋ จ๋
๋จ์ผ ๊ฐ ๋ถํด (singular value decomposition, SVD) ๋ฅผ ์ฌ์ฉํด์ M ์ KSD ์ผ๋ก ๋ถํดํ๋ค . K : ์ฉ์ด - ์ฉ์ด ์๊ด ํ๋ ฌ (term-to-term correlation matrix) MMt ๋ก ๊ตฌํ ์
์๋ ๊ณ ์ ๋ฒกํฐ ํ๋ ฌ (matrix of eigenvectors) Dt : ๋ฌธํ - ๋ฌธํ ํ๋ ฌ (document-document matrix) MtM ๋ฅผ ์ ์นํ์ฌ (transpose)
๊ตฌํ ์ ์๋ ๊ณ ์ ๋ฒกํฐ ํ๋ ฌ S : ๋จ์ผ๊ฐ (singular values) ์ ๋๊ฐํ๋ ฌ (diagonal matrix) r r,
์ฌ๊ธฐ์ r = min(t, N) ์ M ์ ์ฐจ์ (rank). ์๋ ํ๋ ฌ M ์ ๊ฐ์ฅ ๊ฐ๊น์ด Ms ๋ฅผ ๊ตฌํ๋ค .
Ms ์ ์ฐจ์ s < r Ms = KsSsDs
Page 52Information Retrieval
Chapter 2: Modeling
์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
๋จ์ผ๊ฐ๋ถํด (Singular Value Decomposition)
0
aluesingular v : ),,(
ectorsingular vright :
ectorsingular vleft :
orthogonal :
121
1
nrr
n
nTT
T
diag
V
U
IVVUU
VUA
A U VT=
m x n m x n n x n n x n
Page 53Information Retrieval
Chapter 2: Modeling
์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ ์ฌ์๋ฏธ์์ธ
์ฉ์ด - ๋ฌธํ ํ๋ ฌtf-idf ๊ฐ์ค์น ๋ฐฉ๋ฒ์์ ์ฉ
Page 54Information Retrieval
Chapter 2: Modeling
์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ ์ฌ์๋ฏธ์์ธ k: ์ค์ฌ์ง ๊ฐ๋ ๊ณต๊ฐ์ ์ฐจ์
์ฉ์ด์ ๋ฌธํ ์ฌ์ด์ ์๊ด๊ด๊ณ๋ฅผ ์ถฉ๋ถํ ์ฐพ์ ์ ์์ ์ ๋๋ก ์ปค์ผ ํ๋ค .
๋จ์ด ์ฌ์ฉ์์ ์ฌ๋ฌ ๊ฐ์ง ๋ณํ์ ์ํ ์ก์์ ์ ๊ฑฐํ ์ ์์ ์ ๋๋ก ์์์ผ ํ๋ค .
๊ฒ์ ์ง์ ์ ์ฌ๋ : ์ฝ์ฌ์ธ ์ ์ฌ๋
๋ฌธ์์ ์์ํ ์ง์๋ฅผ ์ฒซ๋ฒ์งธ ๋ฌธ์ D0 ๋ก ๋ชจ๋ธ๋งํ๋ค . Ms
tMs ์์ ์ฒซ๋ฒ์งธ ์ค์ ์ง์์ ๋ํ ๋ชจ๋ ๋ฌธ์์ ์์๋ฅผ ์ ๊ณตํ๋ค .
1ห kkTUqq
Page 55Information Retrieval
Chapter 2: Modeling
์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ์ ์ฌ์๋ฏธ์์ธ ๋ชจ๋ธ (( ๊ณ์๊ณ์ )) ์ฅ์
ํจ์จ์ ์ด๊ณ ๊ฐ๋ ์ ์ธ ์์ธ ๋ชจ๋ธ์ด๋ค . ์์ธ์ด์ ์ก์๊ณผ ์์ธ์ด ๋ฒกํฐ์ ์ฐจ์์ ์ค์ผ ์ ์๋ค .
์์ธ์ด์ ์ ํฉ์ด ์์ ๊ฒฝ์ฐ์๋ ๊ฒ์๋ ์ ์๋ค . ๋ค์์ด ๋ฌธ์ ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค .
ํ ๋จ์ด๊ฐ ์ฌ๋ฌ ๊ฐ์ง์ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด โ ๊ทธ ๋จ์ด๋ ์ฌ๋ฌ ์๋ฏธ์ ํ๊ท ๊ฐ์ค์น๋ก ํํํ๋ค .
๋จ์ ๊ฒ์ ์๋๊ฐ ๋ฆ๋ค .
์ญ์์ธ ํ์ผ์ด ์๋ค . ์ง์ ๋ฒกํฐ์ ๊ฐ ๋ฌธํ ๋ฒกํฐ๋ฅผ ๊ณฑํด์ผ ํ๋ค .
SVD ๊ณ์ฐ์ ๋ฆ๊ณ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๊ตฌํ๋ค . ๋ค์์ด ๋๋ฌธ์ ํ ๋จ์ด๋ ์ฌ๋ฌ ๊ฐ์ ๋ฒกํฐ๋ก ํํ๋ ์๋ ์๋ค .
Page 56Information Retrieval
Chapter 2: Modeling
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ ๋๊ธฐ
์ ๋ณด๊ฒ์ ์์คํ ๋ฌธํ ๋ฒกํฐ์ ์ง์๋ฒกํฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ์ฌ ์์ํํ๋ ๊ฒ์ด๋ค . ๋ฌธํ๊ณผ ์ง์์ ํฌํจ๋ ์์ธ์ ์ ํฉ๋์ด์ผ ํ๊ณ ์ ์ ํ
๊ฐ์ค์น๋ฅผ ๊ฐ์ง๊ณ ์์ด์ผ ์์ํ๋ฅผ ํ ์ ์๋ค .
์ ๊ฒฝ๋ง์ด ์ด์ ๊ฐ์ ์ผ์ ์ ์ํํ ์ ์๋ ํจํด ์ ํฉ๊ธฐ์ด๋ค .
์ ๊ฒฝ๋ง ๋ชจ๋ธ 3์ธต์ผ๋ก ๊ตฌ์ฑ
์ง์ ์ฉ์ด , ๋ฌธํ ์ฉ์ด , ๋ฌธํ
Page 57Information Retrieval
Chapter 2: Modeling
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ )) ์๋ฃํํ :
๊ตญ๋ถํํ (local representation) ์ ๋ ฅ์ธต : ์์ธ์ด ๋น ํ๋์ ๋ ธ๋ ์ถ๋ ฅ์ธต : ๋ฌธ์ ๋น ํ๋์ ๋ ธ๋
ํ์ต : ๋ชจ๋ ๊ฐ์ค์น๊ฐ ํ์ต ์๊ณ ๋ฆฌ์ฆ์
์ํด์ ๊ฒฐ์ ๋๋ค . ํ์ต ๋ฐ์ดํฐ : term vector
dj [k1, k2, ..., kt] 1 [1, 0, ..., 1]
์คํ : ์ ๋ ฅ : query vector ์ถ๋ ฅ : query vector ์ ๋ํ
์ถ๋ ฅ์ธต์ ๊ฐ ๋ ธ๋์ ํ์ฑํ๋ ๊ฐ์ ๋ฐ๋ผ์ ๋ฌธ์์ ์์๊ฐ ๊ฒฐ์ ๋๋ค .
์ ๋ ฅ์ธต ์ถ๋ ฅ์ธต
Page 58Information Retrieval
Chapter 2: Modeling
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ )) ์์ )
D1 Cats and dogs eat.
D2 The dog has a mouse
D3 Mice eat anything
D4 Cats play with mice and rats
D5 Cats play with rats
์ง์ Do cats play with mice?
Page 59Information Retrieval
Chapter 2: Modeling
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
์ง์ ์ฉ์ด (query term) ๋ ธ๋ ์ง์ ์ฉ์ด (query term) ๋ ธ๋์ ๊ฐ์ค์น : 1.0 ์๋์ ๊ฐ์ ์ฐ๊ฒฐ ๊ฐ์ค์น (connection weight) ๋ฅผ ํตํด์ ๋ฌธํ์ฉ์ด
(document term) ๋ ธ๋์ ์ ํธ๋ฅผ ๋ณด๋ธ๋ค .
๋ฌธํ ์ฉ์ด (document term) ๋ ธ๋ ์๋์ ๊ฐ์ ์ฐ๊ฒฐ ๊ฐ์ค์น (connection weight) ๋ฅผ ํตํด์ ๋ฌธํ ๋ ธ๋์
์ ํธ๋ฅผ ๋ณด๋ธ๋ค
t
i iq
iqiq
w
ww
1
2
t
i ij
ijij
w
ww
1
2i
ijij n
Nfw log
ilql
iqiq n
N
freq
freqw log
max
5.05.0
Page 60Information Retrieval
Chapter 2: Modeling
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๊ฒฝ๋ง ๋ชจ๋ธ (( ๊ณ์๊ณ์ ))
๋ฌธํ ๋ ธ๋ ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ์ ๋ ฅ ์ ํธ๋ค์ ํฉํ๋ค .
t
i ij
t
i iq
t
i ijiqij
t
iiq
ww
wwww
1
2
1
2
1
1
Cosine measure