lsi vs. wordnet ontology for dimension reduction in information retrieval
DESCRIPTION
LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval. Pavel Moravec , pavel.moravec _at_ vsb.cz Michal Kolovrat , [email protected] Václav Snášel , [email protected] Katedra informatiky VŠB-Technická univerzita Ostrava. Dateso 2004. Obsah. Vektorový model - PowerPoint PPT PresentationTRANSCRIPT
LSI vs. WordNet Ontology for Dimension Reduction
in Information Retrieval
Pavel Moravec, pavel.moravec_at_vsb.czMichal Kolovrat, [email protected]
Václav Snášel, [email protected]
Katedra informatikyVŠB-Technická univerzita Ostrava
Dateso 2004
Obsah
Vektorový model Singulární rozklad Indexování latentní sémantiky WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí
Vektorový model
Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A
D1 D2 D3 … Dm
T1 0.1 0 0 … 0
T2 0 0.15 0 … 0
T3 0 0 0.3 … 0
… … … … … …
Tn 0.2 0 0 … 0.2
Vyhledávání ve vekt. modelu
Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra.
Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat.
Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat
Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné
Redukce dimenze matice A
Na matici A lze použít postupy známé z lineární algebry (zejména rozklady)
Výpočet vlastních čísel kovarianční matice (PCA) Singulární rozklad matice
(SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.
Singulární rozklad
n 1
Matici A lze rozložit singulárním rozkladem na součin matic U VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a je diagonální matice obsahující singulární čísla
Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A
k-redukovaný singulární rozklad
Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů
Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti
nejvýše k minimalizuje Ak hodnotu ||A-C||F
Indexování latentní sémantiky (LSI) a skrytá sémantika
LSI – k-redukovaný singulární rozklad matice termů v dokumentech
Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu
Matice dokumentů Dk= Vk k (resp. Dk’ = Vk)
Matice termů Tk= Uk k (resp. Tk’ = Uk)
Dotaz v red. dimenzi qk= UkT q (resp. qk’ = k
-1 UkT
q)
Klady a zápory LSI
Klady+ Snížení dimenze vektorů+ Omezení vlivu „prokletí dimenzionality“+ Nalezení skrytých vztahů v datech+ Až na určení redukované dimenze lze provádět
zcela automaticky Zápory
- Časová složitost výpočtu- Problematické přidávání dokumentů a termů
Dvoufázový algoritmus výpočtu LSI (Papadimitriou)
1. Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl)
2. Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi
Euklidovské vzdálenosti budou dostatečně zachovány
Frobeniova norma aproximace matice vůči LSIk je
kde je koeficient změny vzdálenosti z J-L lemmatu.
WordNet
Tezaurus, slovník synonym V ontologii jsou uloženy synsety - sady synonym
pro podstatná jména, přídavná jména, slovesa a příslovce
Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum
Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index
Ukázka konceptů ve WordNetu
biology, biological science
=> life science, bioscience
=> natural science
=> science, scientific discipline
=> discipline, subject, subject area, … , branch of knowledge
=> knowledge domain, knowledge base
=> content, cognitive content, mental object
=> cognition, knowledge, noesis
=> psychological feature
Využití WordNetu místo LSI
Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat
rozklad, snadnější vkládání nových termů a dokumentů
Jak? Převedeme termy na synsety a na jejich základě
spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty
na nejvyšších úrovních
Tvorba konceptů
1. Započteme váhy termů do synsetů2. Váhu synsetu započteme do váhy hypernyma na
dané úrovni (předchozí; 1. – l-tá)3. Je-li potřeba, vybereme jen k nejvýznamnějších
synsetů4. Vytvoříme projekční matici termů na synsety5. Promítneme matici termů v dokumentech do
redukované dimenze6. Je-li redukovaná dimenze příliš vysoká, využijeme
dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici
Klady a zápory metody
Klady+ Snížení dimenze vektorů+ Využití synonym, matice dokumentů stále dosti řídká+ Snadné přidávání nových dokumentů a termů+ Zvýšení úplnosti + Přesnost a úplnost při použití dvoufázového
algoritmu by měly být vyšší než u náhodných projekcí
Zápory- Jen podstatná jména a slovesa, obsažená ve
WordNetu- Vyšší dimenze než u LSI
Experimenty – testovací data
Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89)
Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi)- relevantní dokumenty- nerelevantní dokumenty- ostatní dokumenty (pravděpodobně nerelevantní)
Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý)
Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech
Experimenty – provedené testy
Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000
Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu
LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu
Experimenty – čas a velikost
Experimenty – přesnost a úplnost
Závěr
Lepší výsledky než náhodné projekce Srovnatelné s LSI, lze použít tam kde by byl výpočet
LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích
pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů
Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy
Možnost vyzkoušet jinou ontologii
Literatura1. D. Achlioptas. Database-friendly random projections. In
Symposium on Principles of Database Systems, 2001.2. E. Bingham and H. Mannila. Random projection in
dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001.
3. M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996.
4. C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998.
5. K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003