discovering relative importance of skyline attributes

Download Discovering  Relative  Importance of  Skyline  Attributes

Post on 24-Feb-2016

28 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

Discovering Relative Importance of Skyline Attributes. Denis Mindolin , Jan Chomicki. Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio. Scenario Skyline. Vorrei una macchina di buona marca, nuova e poco costosa…. ≻ make : bmw  ford  kia. ≻ year : dal più nuovo. - PowerPoint PPT Presentation

TRANSCRIPT

Discovering Relative Importance of Skyline Attributes

Discovering Relative Importance of Skyline AttributesGruppo 8Altobelli Andrea (Relatore)Ciotoli FabioDenis Mindolin, Jan Chomicki1Scenario SkylineIdMakePriceYeart1ford30k2007t2bmw45k2008t3kia20k2007t4ford40k2008t5bmw50k2006make : bmw ford kiayear : dal pi nuovoprice : dal meno costoso

Vorrei una macchina di buona marca, nuova epoco costosa2Scenario SkylineEquivalenza degli attributi (Pareto improvement principle):Alto numero di tuple incomparabili allaumentare del numero di attributi crescita dello skyline esponenzialeImpossibilit da parte dellutente di esprimere limportanza relativa tra attributi

IdMakePriceYeart1ford30k2007t2bmw45k2008t3kia20k2007t4ford40k2008t5bmw50k2006make : bmw ford kiayear : dal pi nuovoprice : dal meno costoso3Scenario P-SkylineIdMakePriceYeart1ford30k2007t2bmw45k2008t3kia20k2007t4ford40k2008t5bmw50k2006make : bmw ford kiayear : dal pi nuovoprice : dal meno costosoYear pi importante di Price e Make

Vorrei una macchina principalmente nuova, poi di buona marca e poco costosa4Scenario P-SkylineIntroducono il concetto di importanza tra attributi:Numero maggiore di tuple comparabili riduzione della dimensione dello skylineMaggiore capacit espressiva da parte degli utenti

IdMakePriceYeart1ford30k2007t2bmw45k2008t3kia20k2007t4ford40k2008t5bmw50k2006make : bmw ford kiayear : dal pi nuovoprice : dal meno costosoYear pi importante di Price e Make5P-Skyline relationRelazione di ordinamento totale A indotto da un attributo singolo A: = { (t,t) | t.A >A t.A }Pareto accumulation di relazioni p-skyline ( ha la stessa importanza di ): = & Prioritized accumulation di relazioni p-skyline ( ha maggiore importanza di ): =

6P-Skyline relationRelazione di ordinamento totale A indotto da un attributo singolo A: = { (t,t) | t.A >A t.A }

Yearyear : dal pi nuovo7P-Skyline relationPareto accumulation di relazioni p-skyline ( ha la stessa importanza di ): = & make : bmw > ford > kiayear : dal pi nuovoprice : dal meno costosoYearPriceMake = year & make & price

8P-Skyline relationPrioritized accumulation di relazioni p-skyline ( ha maggiore importanza di ): = make : bmw ford kiayear : dal pi nuovoprice : dal meno costosoYear pi importante di Price e MakeYearPriceMake2 = year (make & price)

9Linterazione con lutenteBisogna conoscere limportanza relativa degli attributi e linformazione deve essere estratta dagli utenti. Come?Lutente indica esplicitamente limportanza relativa degli attributiPer ogni coppia: n*(n-1)/2 confronti!!!Ammesso che l'utente abbia le idee chiareUso dei feedback dell'utente: esempi superiori (Great) ed inferiori (Worst)

10Great & Worst examplesGreat examples:Tuple che piacciono allutenteWorst examples:Tuple che non piacciono allutente

GWCome utilizzare tale informazione?!?

11ObiettiviDati un insieme G e un insieme W:

Verificare l'esistenza di almeno una p-skyline relation Costruire la p-skyline relation, ed in particolare quella ottimale tra tutte

12ObiettiviVerificare l'esistenza di una p-skyline relation che:Favorisca le tuple preferite GLe tuple G devono far parte dellinsieme delle migliori tuple secondo Sfavorisca quelle non preferite WLe tuple W non devono far parte dellinsieme delle migliori tuple secondo

13ObiettiviCostruire la p-skyline relation, ed in particolare quella ottimale tra tutte:

YearPriceMakeIdMakePriceYeart1ford30k2007t2bmw45k2008t3kia20k2007t4ford40k2008t5bmw50k20062 = year (make & price)

14ObiettiviCostruire la p-skyline relation, ed in particolare quella ottimale tra tutte:Massimizza le relazioni di importanza tra gli attributiMaggior numero di oggetti confrontabiliMinimizza gli oggetti nel risultatoCorrispondenza pi precisa con le preferenze dell'utente

YearPriceMakeIdMakePriceYeart1ford30k2007t2bmw45k2008t3kia20k2007t4ford40k2008t5bmw50k20062 = year (make & price)

ott = year make price

15Complessit del ProblemaVerifica dell'esistenza: NP-CompletoCostruzione della relazione: FNP-CompletoDifficile costruire W

Versione semplificata del problema, considerando solo l'insieme GComplessit Polinomiale!!!

16Il winnow di ogni p-skyline relation contenuto nel winnow di una skyline relationAffinch G possa rappresentare il winnow di una relazione p-skyline deve valere: G skyline

p-skyline1 p-skyline2Verifica dellesistenza skyline17Costruzione: Algoritmo DiscoverA partire dall'insieme G, generazione di un insieme di vincoli (G, )Costruzione della relazione ottima

18Costruzione: Algoritmo DiscoverA partire dall'insieme G, generazione di un insieme di vincoli (G, )Garantiscono che gli esempi superiori non siano dominati da alcun oggettoG = {t3}, da cui t3 non deve essere dominato:t1t3, t2t3, t4t3 e t5t3Es. t1t3

IdMakePricet1ford30kt3kia20kt1.make > t3.maket3.price > t1.pricePriceMake

In generale: linsieme degli attributi in cui t domina t non deve essere contenuto nellinsieme dei figli degli attributi in cui t domina t19Costruzione della relazioneSi parte dalla relazione skyline (uguale importanza degli attributi)Si applicano regole di trasformazione al grafoOgni trasformazione introduce una sola relazione di importanza tra attributi (estensione minima del grafo)Una regola pu essere applicata solo se rispetta i vincoli!!!

YearPriceMakeYearMakePriceYearPriceMakeCostruzione: Algoritmo Discover20Costruzione della relazionePer ogni attributo si itera il punto 2 finch possibileIn questo modo si ottiene il grafo ottimale (con il massimo numero di connessioni tra attributi)Nel pieno rispetto dei vincoli!!!

YearPriceMakeYearPriceMakePriceMakeYearCostruzione: Algoritmo Discover21ComplessitO(|| |A|3) dove:N l'insieme dei vincoliA l'insieme degli attributi

Polinomiale!!!22Finora i vincoli (G, ) creati tra ogni elemento di G e tutti gli elementi di |(G, )|= |G|(||-1)G estratto dal winnow della relazione skylineGli oggetti di G non possono essere dominati dagli oggetti al di fuori del winnowNecessari solo i vincoli con il resto del winnow:|(G, )|= |G|(|skyline()|-1)

Ottimizzazione dei vincoliskylineGskylineG23Esperimenti: AccuratezzaO: database reale, statistiche giocatori NHL, circa 10K tupleAttributi rilevanti: |A| = {12, 6}100 relazioni p-skyline fav generate casualmenteGfav generato prelevando 5 tuple per volta dal wfav(O)

24Esperimenti: AccuratezzaQuando |Gfav| > 15 l'accuratezza supera l'83%L'accuratezza converge a 1 velocemente per minor numero di attributi, a causa della minore dimensione dello skylineFn-ratio relativamente alto per |Gfav| piccola, poich con pochi esempi l'algoritmo non riesce a catturare esattamente le preferenze dell'utente nella soluzione ottima

25Esperimenti: EfficienzaTre data set da 50K tuple, con dati uniformi, correlati e anticorrelati|A| = {10, 15, 20}G costruito prendendo tuple simili tra loro (distanza L2)Utilizziamo lalgoritmo Discover per calcolare che favorisce G

26Esperimenti: EfficienzaTempo di esecuzione:In funzione di |G|, si stabilizza per valori maggiori di 20All'aumentare del data set, aumenta la dimensione dello skyline e quindi il numero vincoliAllaumentare degli attributi:Lefficienza dell'algoritmo ne risente!!! O(|N| |A|3) Cresce lo skyline e il numero di vincoli

27ConclusioniLe p-skyline relation: maggiore potenza espressivaIl feedback utente: by exampleLalgoritmo Discover: scalabile, preciso

28

Grazie per lattenzione!!!29