text ové datab á zy
DESCRIPTION
Text ové Datab á zy. Ján GENČI PDT. Obsah. Literat úra Terminol ógia Vymedzenie pojmu textové databázy Typy dotazov Fulltextové vyhľadávanie Lingvistick é korpusy. Literatúra. Pokorný J. : Datab ázové systémy 2, Nakladatelství ČVUT, 2007 - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/1.jpg)
Textové Databázy
Ján GENČI
PDT
![Page 2: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/2.jpg)
2
Obsah
• Literatúra
• Terminológia
• Vymedzenie pojmu textové databázy
• Typy dotazov
• Fulltextové vyhľadávanie
• Lingvistické korpusy
![Page 3: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/3.jpg)
3
Literatúra
• Pokorný J.: Databázové systémy 2, Nakladatelství ČVUT, 2007
• Pokorný J., Snášel V., Kopecký M.: Dokumentografické informačné systémy, Nakladatelství Karolinum, 2005.
• Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine: Encyclopedia Of Database Technologies And Applications. Idea Group Publishing, 2005 (heslo Text Databases, p. 688)
• Erickson J.: Database Technologies: Concepts, Methodologies, Tools, and Applications. IGI Global, 2009. ISBN 978-1-60566-058-5 (pp. 931-939)
![Page 4: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/4.jpg)
4
Literatúra (cont.-1)
![Page 5: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/5.jpg)
5
Literatúra (cont.-2)
• Oracle Text. http://www.oracle.com/technology/products/text/index.html
• Oracle Text. An Oracle Technical White Paper. June, 2007 (prečítať) http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf
![Page 6: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/6.jpg)
6
TXT DB – Terminológia
• Information retrieval
• Textové databázy (informačné systémy)
• Dokumentové databázy (Document databases)
• Dokumentografické informačné systémy
![Page 7: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/7.jpg)
7
Definícia
• Text je akákoľvek postupnosť symbolov z nejakej abecedy.
• Veľká časť informácií dostupných v elektronickej podobe je práve v textovej forme :– Text prirodzeného jazyka (napr. knihy, časopisy, noviny,
právne dokumenty, databázy, korporátna informácia, Web), – Biologické sekvencie (napr. DNA, sekvencie proteinov),– ...
• Textová databáza je systém, ktorý spravuje (zvyčajne veľké) kolekcie textov a poskytuje rýchly a bezchybný/presný prístup k nim.
• Tieto požiadavky sú protichodné, ale obe sú kritické, ak máme mať úžitok z texotvých kolekcií.
![Page 8: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/8.jpg)
8
TXT DB – Typy dotazov
– Syntaktické vyhľadávanie (vyjadrené ako postupnosť znakov prítomných v texte):
• String matching (najjednoduchší typ dotazu, cely rad algoritmov – Knut-Morris-Pratt first O(n))
• Regulárne výrazy• Approximate searching (poskytuje možnosť eliminovať rôzne typy
chýb, ktoré môžu byť obsiahnuté v texte – či už prehľadávanom, alebo dotaze - napr. edit distance)
– Sémantické vyhľadávanie (má veľký význam) – používateľ zadá informáciu, ktorú požaduje a systém vyhľadá súbor textov (dokumentov) relevantných požiadavkám používateľa; dokonca aj vtedy ak sa výsledok priamo neobjavuje v dotaze. Systém ohodnocuje dokumenty a dokumenty s najvyšším ohodnotením ponúkne používateľovi. V tomto prípade nehovoríme o správnej alebo nesprávnej odpovedi, ale iba lepšej alebo horšej.
![Page 9: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/9.jpg)
9
Fulltextové vyhľadávanie
• V tradičných SRBD je manipulácia s textom obmedzená bežnými reťazcovými funkciami (exact matching podreťazcov)
• Tradičné reťazcové operácie sú mimoriadne drahé pre veľké dokumenty – SRBD nemajú efektívnu podporu pre tieto operácie a preto sú rozširované o špeciálne moduly – fulltexotvého vyhľadávania (full-text search; FTS).
![Page 10: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/10.jpg)
10
Alternatívy implementácie FTS
• FTS moduly ako súčasť SRBD (Oracle, Microsoft SQLServer, Postgres, mySQL; Informix Text Datablade; )
• Databázovo nezávislé FTS (SPSS LexiQuest, SAS Text Miner, dtSearch, Statistica Text Miner, ...)
![Page 11: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/11.jpg)
11
Spôsoby spracovania
• Text mining
• Full text search
![Page 12: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/12.jpg)
12
Text mining
• Podoblasť správy dokumentov, ktorej cieľom je spracovanie, vyhľadávanie a analýza dokumentov
• Cieľ – objaviť netriviálne skryté charakteristiky dokumentov samotných alebo ich súborov
• Interdisciplinárna oblasť strojového učenia, ktorá využíva prístupy a nástroje z oblastí:– computational linguistics, – natural language processing, – information retrieval, – data mining.
![Page 13: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/13.jpg)
13
Schéma aplikácie text mining-u
![Page 14: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/14.jpg)
14
Information Extraction
• Príklady podúloh:– Rozpoznanie pomenovaných objektov (osoby,
geografické názvy, firmy, kluby, ...), – co-reference resolution – identifikácia
fragmentov textu odkazujúcich na tie isté entity/objekty,
– Identifikácia rolí a ich vzťahov
![Page 15: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/15.jpg)
15
Kategorizácia textov
• Cieľ – zaradenie dokumentov v rámci stanovenej kategorizácie; napr.:– document filtering –spam filtering, alebo
newsfeed;– patent document routing – determination of
experts in the given fields;– assisted categorization – helping domain
experts in manual categorization with valuable suggestion;
– automatic metadata generation.
![Page 16: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/16.jpg)
16
Zhlukovanie dokumentov
• Zhlukovanie/združovanie elementov kolekcie na základe ich podobnosri.
• Dokumenty su zvyčajne zhlukované na základe obsahu.
• Zhlukovanie môže byť aplikované napr. na:– Zhlukovanie výsledkov vyhľadávania kvôli lepšej
orientácii používateľa vo výsledkoch,– Zvýšenie výkonnosti tzv. vector space based
information retrieval,– Realizáciu „navigačného“ prístupu k prehľadávaniu
dokumentov.
![Page 17: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/17.jpg)
17
Summarizácia
• Automatické generovanie krátkeho zhrnutia dokumentu
![Page 18: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/18.jpg)
18
FULL-TEXT SEARCH (FTS)ENGINES
![Page 19: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/19.jpg)
19
Fulltextové indexy
• Kľúčový problém v oblasti spracovanie textov (information retrieval) je návrh a implementácia efektívnych dátovych štruktúr a algoritmov pre indexovanie a vyhľadávanie informačných objektov, ktoré sú opísané nejasne.
• Najčastejšie používané štruktúry:– invertované súbory (inverted files);– signatúrové súbory (signature files);– bitmapové indexy.
![Page 20: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/20.jpg)
20
Informix
• Excalibur Text DataBlade Module provides text search capabilities that include:– phrase matching, – exact and fuzzy searches, – compensation for misspelling, – synonym matching.
![Page 21: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/21.jpg)
21
Lingvistické korpusy
• Kolekcie textov v konkrétnom jazyku určené primárne pre lingvistický výskum
• Značkované texty
• Príklady:– British National Corpus (100 mil. slov)– Slovenský národný korpus (530 mil. tokenov)– Český národný korpus (300 mil. slov)
• Paralelné korpusy
![Page 22: Text ové Datab á zy](https://reader036.vdocuments.mx/reader036/viewer/2022062422/56813b2a550346895da3ede4/html5/thumbnails/22.jpg)
22
Otázky?