![Page 1: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/1.jpg)
LSI vs. WordNet Ontology for Dimension Reduction
in Information Retrieval
Pavel Moravec, pavel.moravec_at_vsb.czMichal Kolovrat, [email protected]
Václav Snášel, [email protected]
Katedra informatikyVŠB-Technická univerzita Ostrava
Dateso 2004
![Page 2: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/2.jpg)
Obsah
Vektorový model Singulární rozklad Indexování latentní sémantiky WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí
![Page 3: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/3.jpg)
Vektorový model
Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A
D1 D2 D3 … Dm
T1 0.1 0 0 … 0
T2 0 0.15 0 … 0
T3 0 0 0.3 … 0
… … … … … …
Tn 0.2 0 0 … 0.2
![Page 4: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/4.jpg)
Vyhledávání ve vekt. modelu
Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra.
Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat.
Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat
Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné
![Page 5: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/5.jpg)
Redukce dimenze matice A
Na matici A lze použít postupy známé z lineární algebry (zejména rozklady)
Výpočet vlastních čísel kovarianční matice (PCA) Singulární rozklad matice
(SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.
![Page 6: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/6.jpg)
Singulární rozklad
n 1
Matici A lze rozložit singulárním rozkladem na součin matic U VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a je diagonální matice obsahující singulární čísla
Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A
![Page 7: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/7.jpg)
k-redukovaný singulární rozklad
Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů
Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti
nejvýše k minimalizuje Ak hodnotu ||A-C||F
![Page 8: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/8.jpg)
Indexování latentní sémantiky (LSI) a skrytá sémantika
LSI – k-redukovaný singulární rozklad matice termů v dokumentech
Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu
Matice dokumentů Dk= Vk k (resp. Dk’ = Vk)
Matice termů Tk= Uk k (resp. Tk’ = Uk)
Dotaz v red. dimenzi qk= UkT q (resp. qk’ = k
-1 UkT
q)
![Page 9: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/9.jpg)
Klady a zápory LSI
Klady+ Snížení dimenze vektorů+ Omezení vlivu „prokletí dimenzionality“+ Nalezení skrytých vztahů v datech+ Až na určení redukované dimenze lze provádět
zcela automaticky Zápory
- Časová složitost výpočtu- Problematické přidávání dokumentů a termů
![Page 10: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/10.jpg)
Dvoufázový algoritmus výpočtu LSI (Papadimitriou)
1. Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl)
2. Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi
Euklidovské vzdálenosti budou dostatečně zachovány
Frobeniova norma aproximace matice vůči LSIk je
kde je koeficient změny vzdálenosti z J-L lemmatu.
![Page 11: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/11.jpg)
WordNet
Tezaurus, slovník synonym V ontologii jsou uloženy synsety - sady synonym
pro podstatná jména, přídavná jména, slovesa a příslovce
Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum
Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index
![Page 12: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/12.jpg)
Ukázka konceptů ve WordNetu
biology, biological science
=> life science, bioscience
=> natural science
=> science, scientific discipline
=> discipline, subject, subject area, … , branch of knowledge
=> knowledge domain, knowledge base
=> content, cognitive content, mental object
=> cognition, knowledge, noesis
=> psychological feature
![Page 13: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/13.jpg)
Využití WordNetu místo LSI
Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat
rozklad, snadnější vkládání nových termů a dokumentů
Jak? Převedeme termy na synsety a na jejich základě
spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty
na nejvyšších úrovních
![Page 14: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/14.jpg)
Tvorba konceptů
1. Započteme váhy termů do synsetů2. Váhu synsetu započteme do váhy hypernyma na
dané úrovni (předchozí; 1. – l-tá)3. Je-li potřeba, vybereme jen k nejvýznamnějších
synsetů4. Vytvoříme projekční matici termů na synsety5. Promítneme matici termů v dokumentech do
redukované dimenze6. Je-li redukovaná dimenze příliš vysoká, využijeme
dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici
![Page 15: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/15.jpg)
Klady a zápory metody
Klady+ Snížení dimenze vektorů+ Využití synonym, matice dokumentů stále dosti řídká+ Snadné přidávání nových dokumentů a termů+ Zvýšení úplnosti + Přesnost a úplnost při použití dvoufázového
algoritmu by měly být vyšší než u náhodných projekcí
Zápory- Jen podstatná jména a slovesa, obsažená ve
WordNetu- Vyšší dimenze než u LSI
![Page 16: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/16.jpg)
Experimenty – testovací data
Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89)
Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi)- relevantní dokumenty- nerelevantní dokumenty- ostatní dokumenty (pravděpodobně nerelevantní)
Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý)
Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech
![Page 17: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/17.jpg)
Experimenty – provedené testy
Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000
Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu
LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu
![Page 18: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/18.jpg)
Experimenty – čas a velikost
![Page 19: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/19.jpg)
Experimenty – přesnost a úplnost
![Page 20: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/20.jpg)
Závěr
Lepší výsledky než náhodné projekce Srovnatelné s LSI, lze použít tam kde by byl výpočet
LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích
pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů
Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy
Možnost vyzkoušet jinou ontologii
![Page 21: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval](https://reader035.vdocuments.mx/reader035/viewer/2022070406/56814155550346895dad2f95/html5/thumbnails/21.jpg)
Literatura1. D. Achlioptas. Database-friendly random projections. In
Symposium on Principles of Database Systems, 2001.2. E. Bingham and H. Mannila. Random projection in
dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001.
3. M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996.
4. C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998.
5. K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003