Tartalomgazdagítás (content enrichment)

Download Tartalomgazdagítás (content enrichment)

Post on 16-Jul-2015

153 views

Category:

Internet

1 download

Embed Size (px)

TRANSCRIPT

<p>PowerPoint Presentation</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>Linked Open Data felhasznlsa ajnlrendszerekbenDr. Tikk Domonkos, CEO@domonkostikkVzlatAjnlrendszerek s motivciTartalomgazdagts szksgessgeSzemantikus hl alap technolgiaHol van szksg szvegbnyszatra</p> <p>Tartalomgazdagts szvegbnyszattalTartalomgazdagts szvegbnyszattalAjnlrendszerek s motivciAjnlrendszerekKollaboratv filtering felhasznlk tartalmakkal val interakcii alapjn mkdikinterakcik hasonlsgltens modellek kzelsge</p> <p>Tartalom alap szrstartalmak leri alapjn mkdiktartalmak hasonlsgafelhasznl trtnetre vettve</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>Kollaboratv filtering vs. tartalom alap szrs+ pontosabb+ domnfggetlen</p> <p> indulsnl nem mkdik nehezen magyarzhat</p> <p>+ kevs adat esetn is mkdik+ jl magyarzhat</p> <p> domnfgg pontatlanabb bezrtsg</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>MotivciHagyomnyos tartalom keressi s felfedezsi mdszerek nem kielgtek a mai tartalomrengetegbenTartalomgazdagts szvegbnyszattal</p> <p>ClMsorinformci + videotka informci s felhasznli viselkeds alapjn relevns tartalmak ajnlsaTartalomgazdagts szvegbnyszattal</p> <p>Tartalomgazdagts szvegbnyszattalTartalomgazdagtsMilyen adatok llnak rendelkezsre?Hagyomnyos TV opertornlMtelekomUPC</p> <p>Adatok: cm, gyrtsi v, lers, rendez, fszereplk, sorozat, stb.Videomegoszt oldalakYoutubeDailymotion</p> <p>Adatok: cm, feltlt, lers, feltlts adatai, kategria, hossz, stb.</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>A metaadatok fggenek az entits tpustlA TV programokban klnbz entitsok vannak jelen:Film (The Shining)Sorozat (Six Feet Under)Rendez (Stanley Kubrick)Foci csapat (Manchester United F.C.)Klnbz sportemberek (Federer Djokovic)Talk-show hzigazda (Steven Colbert)Domnfgg a fenti entitsokhoz tartoz metaadatok tpusa:film: kiadsi v, cm, rendez(k), sznsz(ek) stb.sznsz: nv, szletsi hely s id, stb.TV sorozat: vad, epizdFoci csapat: jtkosok, szkhely stb.</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>One size fits all??Tartalomgazdagts szvegbnyszattalOne size fits all mirt nem mkdikA metaadatzlet is 20/80-as elv szerint mkdikTartalom 20%-a gazdag metaadatban (TOP csatornk), 80% csak a kltsgeket fedezikAjnlsnak 100%-nak kell lennie a teljes spektrumon!!!EPG s videotka katalgusok ms forrsbl jnnek, de egysgesen kell kezelni ketMs megoldsok kellenek a klnbz szolgltatstpusok esetn IPTV s OTT megoldsokVideomegoszt oldalak (felhasznli tartalom)Tartalomgazdagts szvegbnyszattalHol tallhatk a metaadatok?A metaadatok klnbz n. Linked Open Data (LOD) adatbzisokban vannak:Filmek: Freebase, IMDB, LinkedMDB, TheTVDBSport: Freebase, DBPediaSzemlyek: DBpedia, FreebaseZene: Magnatune, MusicbrainzTermkek: POD (Product Open Data)</p> <p>Tartalomgazdagts szvegbnyszattalTartalomgazdagts szvegbnyszattalSzemantikus hl alap technolgiaGravity Metaadat architektraF tulajdonsgokTV-s s videotka tartalmak egysgek kezelse s sszekapcsolsaTbbnyelv tartalomfeldolgozsNyelvfgg (cm, lers)Nyelvfggetlen (szerepl, mfaj, epizdszm)Tbb adatbzis egyttes kezelseSklzdsTartalomgazdagts szvegbnyszattalSzemantikus hlHogyan trolhatak illetve modellezhetk egysgesen egy adott entitshoz tartoz tulajdonsgok:Resource Description Framework (RDF) az adatmodellezsre lett kitallvaAz RDF alany llts trgy hrmasokban rja le a vilgotsubject: predicate: object: </p> <p>Tartalomgazdagts szvegbnyszattalApache Stanbolhagyomnyos CMS adatbzisok kiegsztse szemantikus szolgltatsokkal</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>LOD integrlsa: EntityHub modullalEntityhub (/entityhub): entitsok loklis kezelst teszi lehetv, amelyeket kls site-okrl (LOD) is lehetnek importlva. Site Manager(/entityhub/sites): A SiteManager egysgestett csatlakozsi felletet knl a kezelt LOD-okhoz. Egy adott lekrdezs az sszes megkapcsolt LOD vgponthoz tovbbtja a krst. Sites(/entityhub/site/{siteId}): egy konkrt LOD-hoz (entitsszolgltathoz) val integrciReferencedSite: Kls szolgltat. Loklis caching s indexelst is tmogat, ezrt nem kell mindig kapcsoldni a kls LOD-hoz, csak ha az cache-ben nincs meg az adat.ManagedSite: sajt entits menedzsels</p> <p>Tartalomgazdagts szvegbnyszattalEntityHubTartalomgazdagts szvegbnyszattal</p> <p>Gravity Metaadat motorLOD integrlsa: RDF mapping definilsa, ha nem ltezikReferencedSite definilsa minden integrland LOD-hozlokl cache ltrehozsa, ha a LOD tmogatja ezt (teljes adatbzis dump)ahol nincs tmogatva (csak egyedi lekrsek), ott a ReferencedSite cache-t hasznljukNvelemek azonostsra Stanbol Enhancer hasznlataTartalomgazdagts szvegbnyszattalStanbol EnhancerTartalomgazdagts szvegbnyszattal</p> <p>Enhancer hasznlataTartalomgazdagts szvegbnyszattal</p> <p>AdattrolsNagy mret adatbzisok (Freebase: 400M triplet)Sklzhat httradatbzisknt: Titan DBElosztott grf adatbzis, ami RDF adatbzisknt is hasznlhat a GraphSail interfszen keresztlHBase s Cassandra backendet tmogatJelenleg 2 csompontbl ll Hadoop klasztert hasznlunk HBase-zel50 konkurens folyamat kiszolglsra bven elgFaunus grfelemz motort hasznlunk az adatok betltsre100M adat betltse csak 3 raTartalomgazdagts szvegbnyszattalTartalomgazdagts szvegbnyszattalHol hasznlunk szvegbnyszatot?Szvegbnyszati feladatokNvelemek felismerse</p> <p>Nvelemek egyrtelmstse</p> <p>Nvelemek tulajdonsgainak meghatrozsa</p> <p>Inkonzisztens adatok egyrtelmstse</p> <p>Tartalomgazdagts szvegbnyszattalNvelemek felismerseSzabad szvegben meghatrozni, hogy melyek azok az entitsok, amelyek rdekesek lehetnek szmunkraSztr alap megkzeltsFgg az adat minsgtlMelyik adatforrsokat akarjuk felhasznlni?Szekvenciatanuls alap megkzeltsHMM, CRFMennyire rzkeny a rendszer a hibra?Stanbol Enhancer Tartalomgazdagts szvegbnyszattalNvelemek egyrtelmstseAdott egy entits, melyik LOD-entitsra lehet lekpezniMelyik LOD-adatbzisban kell keresni?Szolgltat fgg adatsmanem egysges lekrdezsApache Marmotta: Linked Data ClientStandard RDF formtumra alaktja a LOD-ok egyedi vlaszformtumtEzutn a Marmotta LOD cache-t lehet hasznlniSzksg van az adat szemantikjrarendez, filmsznsz, stb. klnben nagyon zajos lesz a lekrdezs eredmnye</p> <p>Tartalomgazdagts szvegbnyszattalHasonlsgMely tulajdonsgok hatroznak meg egyrtelmen adott filmet? Cm:Revolver (2005) vs Revolver (1991)The Bourne Identity (2002) vs The Bourne Identity (1988) Cm + Kiads ve:The Bourne Identity (2002) vs A Bourne-rejtly (2002)Terminator (1984) vs Termintor - A halloszt (1984)Kiads ve + Rendez:Elg j, de mg mindig nem felttlenl egyrtelmElrsi hibk: Jonnie vs JohnnyKlnbz kiadsi v: tnyleges kiadsi v (2007) vs vettsi v az adott orszgban (2008)</p> <p>Tartalomgazdagts szvegbnyszattalHasonlsgLtrehozunk egy vektort: v = [kiadsi v, rendez, vettsi id]v1 = [1999, ['Steven', 'Allan', 'Spielberg''], 120]v2 = [1999, ['Stanley', 'Kubrick'], 118]v3 = [1999, ['Steven', 'Spielberg'], 115]Kt vektor tavolsga:|| v_src v_target ||_2</p> <p>A klnbsg kt nv kztt:['Steven', 'Allan', 'Spielberg''] - ['Steven', 'Spielberg']Egyszer megolds: | halmaz(A) \ halmaz(B) |Komplexebb megolds: min(Levenshtein tvolsg(a_i,b))</p> <p>Tartalomgazdagts szvegbnyszattalNvelemek tulajdonsgainak meghatrozsaHa mr adott a LOD adatbzis s a lekrdezs, akkor SPARQL lekrdezssel megkaphatk az entits tulajdonsgaiSimple Protocol and RDF Query Language (SPARQL)SQL-szer RDF lekrdez nyelvA SPARQL lekrdezsek triple mintkbl, konjunkcikbl, diszjunkcikbl s opcionlis mintkbl llnakA lekrdezs sztoszthat tbb SPARQL vgponthoz (szolgltatsok, melyek fogadjk SPARQL lekrdezseket s eredmnyt adnak vissza), kiszmolja, s sszegyjti az eredmnytTartalomgazdagts szvegbnyszattalSPARQL 1. plda Woody Allennel egy filmben szerepl sznszek:</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>SPARQL 2. plda Olyan sznszek, akik Stanley Kubrick s Steven Spielberg filmben is szerepeltek</p> <p>Tartalomgazdagts szvegbnyszattal</p> <p>Ksznm!</p> <p>www.gravityrd.com Legfrissebb hrek:www.facebook.com/gravityrd Dr. Tikk DomonkosCEO</p> <p>Tel: +36 30 5470780tikk.domonkos@gravityrd.com </p>