lsi vs. wordnet ontology for dimension reduction in information retrieval

LSI vs. WordNet Ontology for Dimension Reduction

in Information Retrieval

Pavel Moravec, pavel.moravec_at_vsb.czMichal Kolovrat, [email protected]

Václav Snášel, [email protected]

Katedra informatikyVŠB-Technická univerzita Ostrava

Dateso 2004

Obsah

Vektorový model Singulární rozklad Indexování latentní sémantiky WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí

Vektorový model

Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A

D1 D2 D3 … Dm

T1 0.1 0 0 … 0

T2 0 0.15 0 … 0

T3 0 0 0.3 … 0

… … … … … …

Tn 0.2 0 0 … 0.2

Vyhledávání ve vekt. modelu

Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra.

Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat.

Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat

Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné

Redukce dimenze matice A

Na matici A lze použít postupy známé z lineární algebry (zejména rozklady)

Výpočet vlastních čísel kovarianční matice (PCA) Singulární rozklad matice

(SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.

Singulární rozklad

n 1

Matici A lze rozložit singulárním rozkladem na součin matic U VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a je diagonální matice obsahující singulární čísla

Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A

k-redukovaný singulární rozklad

Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů

Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti

nejvýše k minimalizuje Ak hodnotu ||A-C||F

Indexování latentní sémantiky (LSI) a skrytá sémantika

LSI – k-redukovaný singulární rozklad matice termů v dokumentech

Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu

Matice dokumentů Dk= Vk k (resp. Dk’ = Vk)

Matice termů Tk= Uk k (resp. Tk’ = Uk)

Dotaz v red. dimenzi qk= UkT q (resp. qk’ = k

-1 UkT

q)

Klady a zápory LSI

Klady+ Snížení dimenze vektorů+ Omezení vlivu „prokletí dimenzionality“+ Nalezení skrytých vztahů v datech+ Až na určení redukované dimenze lze provádět

zcela automaticky Zápory

- Časová složitost výpočtu- Problematické přidávání dokumentů a termů

Dvoufázový algoritmus výpočtu LSI (Papadimitriou)

1. Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl)

2. Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi

Euklidovské vzdálenosti budou dostatečně zachovány

Frobeniova norma aproximace matice vůči LSIk je

kde je koeficient změny vzdálenosti z J-L lemmatu.

WordNet

Tezaurus, slovník synonym V ontologii jsou uloženy synsety - sady synonym

pro podstatná jména, přídavná jména, slovesa a příslovce

Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum

Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index

Ukázka konceptů ve WordNetu

biology, biological science

=> life science, bioscience

=> natural science

=> science, scientific discipline

=> discipline, subject, subject area, … , branch of knowledge

=> knowledge domain, knowledge base

=> content, cognitive content, mental object

=> cognition, knowledge, noesis

=> psychological feature

Využití WordNetu místo LSI

Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat

rozklad, snadnější vkládání nových termů a dokumentů

Jak? Převedeme termy na synsety a na jejich základě

spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty

na nejvyšších úrovních

Tvorba konceptů

1. Započteme váhy termů do synsetů2. Váhu synsetu započteme do váhy hypernyma na

dané úrovni (předchozí; 1. – l-tá)3. Je-li potřeba, vybereme jen k nejvýznamnějších

synsetů4. Vytvoříme projekční matici termů na synsety5. Promítneme matici termů v dokumentech do

redukované dimenze6. Je-li redukovaná dimenze příliš vysoká, využijeme

dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici

Klady a zápory metody

Klady+ Snížení dimenze vektorů+ Využití synonym, matice dokumentů stále dosti řídká+ Snadné přidávání nových dokumentů a termů+ Zvýšení úplnosti + Přesnost a úplnost při použití dvoufázového

algoritmu by měly být vyšší než u náhodných projekcí

Zápory- Jen podstatná jména a slovesa, obsažená ve

WordNetu- Vyšší dimenze než u LSI

Experimenty – testovací data

Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89)

Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi)- relevantní dokumenty- nerelevantní dokumenty- ostatní dokumenty (pravděpodobně nerelevantní)

Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý)

Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech

Experimenty – provedené testy

Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000

Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu

LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu

Experimenty – čas a velikost

Experimenty – přesnost a úplnost

Závěr

Lepší výsledky než náhodné projekce Srovnatelné s LSI, lze použít tam kde by byl výpočet

LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích

pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů

Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy

Možnost vyzkoušet jinou ontologii

Literatura1. D. Achlioptas. Database-friendly random projections. In

Symposium on Principles of Database Systems, 2001.2. E. Bingham and H. Mannila. Random projection in

dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001.

3. M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996.

4. C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998.

5. K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003

lsi vs. wordnet ontology for dimension reduction in information retrieval

Documents