priprema podataka -...

44
Priprema podataka Nenad Miti´ c Matematiˇ cki fakultet [email protected]

Upload: others

Post on 08-Sep-2019

37 views

Category:

Documents


1 download

TRANSCRIPT

Priprema podataka

Nenad MiticMatematicki fakultet

[email protected]

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.2

Uvod

• Razliciti izvori i formati podataka• Nedostajuci i nekonsistentni podaci,

greške• Podatke je neophodno pripremiti za

proces IP-a• Preprocesiranje podataka

• Izdvajanje karakteristika• Prenosivost tipova podataka• Cišcenje podataka• Izbor i transformacija podataka• Redukcija podataka

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.3

Izdvajanje karakteristika

• Izdvajanje karakteristika izravnih/nestruktuiranih podataka

• Karakteristika koja se izdvaja zavisi odaplikacije (slike, veb logovi, tekstualnipodaci, ...)

• Podaci mogu da sadrže heterogenetipove

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.4

Prenosivost tipova podataka

• Neke karakteristike onemogucujuprimenu gotovih alata

• Pojedini algoritmi rade samo saodredjenim tipovima podataka

• Potrebna je promena tipa nekogpodataka

• Moguce je gubljenje informacija• Najcešca transformacija u numericke

podatke

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.5

Prenosivost tipova podataka

Prenosivost podataka izmedu tipova• Diskretizacija - neprekidni u kategoricke

atribute

• Binarizacija - kategoricki u numericke atribute

• Tekstualni atributi u u numericke

• Podaci iz vremenskih serija u diskretne niske

• Podaci iz vremenskih serija u numerickepodatke

• Diskretne niske u numericke podatke

• ...

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.6

Diskretizacija

Transformacija neprekidnih u kategorickeatribute• Obicno se primenjuje na atribute u klasifikaciji

ili analizi zasnovanoj na pravilima pridruživanja• Koraci u transformaciji

• odabrati broj kategorija n• interval brojeva se deli na n podintervala• sve vrednosti iz jednog podintervala se

preslikavaju u istu kategoricku vrednost

• Izmedju dobijenih vrednosti (oznaka) ne postojiuredjenje (kategoricke vrednosti!)

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.7

Nacin izbora intervala

• Jednake širine intervala

• Ako su a i b granice intervala [a,b] tada jeb − a jednako za sve intervale

• Za svaki atribut se interval [min,max ] delina n podintervala

• Nekorektno ako je distribucija elemenataneravnomerna po intervalima

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.8

Nacin izbora intervala (nastavak)

• Jednaki log-intervali

• Ako su a i b granice intervala [a,b] tada jelog(b)− log(a) jednako za sve intervale

• Ima efekat u slu caju geometrijskogpovecanja granica intervala[a,a× α], [a× α, a× α2], itd. za α > 1.

• Nekorektno ako je distribucija elemenataneravnomerna po intervalima

• Ako distribucija elemenata atributa može da semodelira funkcionalom f tada se biraju intervali[a,b] takvi da je f (b)− f (a) jednako za sveintervale

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.9

Nacin izbora intervala (nastavak)

• Jednak broj elemenata u intervalu

• Vrednosti atributa se prebroje, i dobijenibroj k podeli sa n

• Vreddnosti atributa se sortiraju i u svakiinterval se uzima k/n elemenata

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.10

Primer - broj klasa poznat

Po 3 kategorije za x i y Po 5 kategorija za x i y

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.11

Primer -broj klasa nepoznat

Originalni podaci

Jednaka frekvencija

Intervali jednake širine

K-sredine

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.12

Binarizacija

Binarizacija - transformacija neprekidnih idiskretnih atributa u binarne• Obicno se primenjuje na atribute u analizi

zasnovanoj na pravilima pridruživanja

• Cest redosled: neprekidni→ kategoricki→skup binarnih atributa

• Postupak• Ako kategoricki atribut ima n vrednosti formira se

n binarnih atributa• Svaki binarni atribut odgovara jednoj vrednosti

kategorickih promenljivih• U jednom redu tacno jedna od n vrednosti ima

vrednost 1

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.13

Tekstualni podaci u numericke

• Predstavljanje tekstualnih podataka retkog numerickogvektora nije pogodno za najveci broj IP metoda

• Na takve podatke mogu da se primenjuju samo nekemere (npr. kosinusna mera, ali ne i Euklidsko rastojanje)

• Latentna semanticka anliza (LSA) - tekst u ne-retkureprezentaciju manje dimenzije

• Posle transformacije dokument X = (x1, x2, ..., xd ) seskalira funkcijom 1√∑d

i=1 x2(x1, x2, ..., xd )

• Na ovako dobijene podatke može da se primeniEuklidsko rastojanje

• U praksi se IP algoritmi primenjuju direktno da podatkedobijene sa LSA dok se dalja transformacija ne radi

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.14

Podaci iz vremenskih serija u diskretneniske

Konverzija se vrši SAX algoritmom (simbolicka aproksimacijaagregata, eng. symbolic aggregate approximation)

1 U prvom koraku se serija deli u prozore velicine w zakoje se racuna prosecna vrednost atributa (vremenskeserije) za koju je prozor odredjen

2 U drugom koraku se srednje vrednosti vremenskih serijadiskretizuju pomocu tehnike sa intervalima koji imaju istibroj elemenata

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.15

Podaci iz vremenskih serija u diskretneniske (nastavak)

Drugi korak SAX algoritma

• Pretpostavka je da se vrednosti u vremenskim serijamaimaju normalnu (Gausovu) raspodelu

• Srednja vrednost i standardna devijacija vrednostivremenskih serija iz prozora se procenjuju na osnovuparametara normalne raspodele

• Za odredjivanje granica intervala se koriste kvantilinormalne raspodele

• Diskretizacija se vrši najcešce u 3–10 intervala koji sepreslikavaju u simbolicke vrednosti

Za dati numericki atribut x i broj p ∈ [0,100], p-ti percentil jevrednost x-a takva da je p% posmatrane vrednosti x manje odnje. Na primer, 50-ti percentil je vrednost od koje je manje 50%vrednosti u x-u.

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.16

Podaci iz vremenskih serija u numerickepodatke

Omogucava upotrebu algoritama koji rade sa multidimenzionimpodacima

1 Najcešce se koristi diskretna transformacija talasicima(DWT, eng. discrete wavelet transform)

2 Konvertuje podatke iz vremenskih serija umultidimenzione kao skup koeficijenat akoji predstavljarazlike izmedju razlicitih delova serije

3 Može da se koristi i diskretna Furijeova transformacija(DFT, eng. discrete Fourier transform)

4 Zajednicka osobina obe metode je da dobijenikoeficijenti nisu zavisni kao u originalnim podacima

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.17

Diskretne niske u numericke podatke

Transformacija se vrši u dva koraka

1 Diskretne niske se konvertuju u skup binarnihvremenskih serija ciji je broj jednak broju razlicitihsimbola

2 Svaka serija se konvertuje u multidimenzioni vektorpomocu transformacije talasicima. Osobine iz ovihvektora se kombinuju i formira se multidmenzioni slog.

Primer: DNK sekvenca

ACACACTGTGACTG10101000001000010101000001000000001010001000000001010001

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.18

Cišcenje podataka

Aspekti

1 Rad sa nedostajucim podacima

2 Rad sa nekorektnim podacima

3 Rad sa dupliranim podacima

4 Skaliranje i normalizacija

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.19

Rad sa nedostajucim podacima

Razlozi za pojavu

• Informacije nisu prikupljene (npr. ljudi odbijaju daprikažu svoju težinu, starost, velicinu plate,...)

• Atributi nisu primenljivi u svim slucajevima (npr. platanije primenljiva na decu)

• Šta raditi u takvim slucajevima?

Rukovanje nedostajucim vrednostima

1 Kompletni slogovi (ceo objekat) koji sadrže takavpodatak se brišu

2 Nedostajuca vrednost se procenjuje i unosi (imputacija)

3 Algoritam može da obraduje i atribute/slogove sanedostajucim podacima

4 Zamena sa mogucim vrednostima (u zavisnosti da lizavisi do njega ili ne)

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.20

Rad sa nekorektnim podacima

Aspekti

1 Otkrivanje nekonzistentnosti (npr. podaci iz više izvorakoji se odnose na istu stvar su razliciti)

2 Domensko znanje

3 Metoda orijentisana ka podacima

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.21

Rad sa dupliranim podacima

Najcešce se javljaju kod spajanja podatakaiz heterogenih izvora

• Primer: Ista osoba sa više elektronskih adresa

• Najcešce se eliminišu iz materijala

• Kada duplirane podatke ne treba brisati?

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.22

Skaliranje i normalizacija

• Transformacija promenljive oznacava transformaciju kojase primenjuje na sve vrednosti te promenljive

• Za svaki objekat, transformacija se primenjuje navrednosti promenljive za taj objekat

• Jednostavne funkcije, npr.√

x , xk , log(x),ex , |x |,1/x

• U statistici se cesto koriste√

x , log(x) i 1/x raditransformacije podataka koji nemaju Gausovu(normalnu) raspodelu u podatke koji imaju tu raspodelu

• U IP postoje i drugi razlozi. Npr. ako je vrednostpromenljive izmedu 1 i 1.000.000.000, primenom logfunkcije se dobijaju bolji odnosi kod poredenja (npr. 108sa 109 i 10 sa 1000)

• Oprez - moguca promena prirode podataka (npr.transformacija sa 1/x)

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.23

Skaliranje i normalizacija

• Potreba za normalizacijom - više atributa koji su razlicitoskalirani

• Standardizacija: neka j-ti atribut ima srednju vrednost µj

i standardnu devijaciju σj . Tada se vrednost x ji j-tog

atributa sloga Xi normalizuje primenom izraza z ji =

x ji −µj

σj

• Za normalnu raspodelu dobijene vrednosti najcešce senalaze u intervalu [−3,3]

• Za svodjenje u interval [0,1] primenjuje se min-maks

skaliranje y ji =

x ji −minj

maxj−minj

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.24

Redukcija i transformacija podataka

Manja kolicina podataka - efikasnija primena algoritama

1 Agregacija

2 Uzimanje uzoraka

3 Izbor karakteristika

4 Redukcija podataka pomocu rotacije osa

5 Ostale metode dimenzione redukcije

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.25

Agregacija

Kombinovanje dva ili više atributa (ili objekata) ujedan atribut (objekat)

Svrha

1 Redukcija podataka (smanjivanje broja atributaili objekata)

2 Promena skale (npr. umesto 365 danadobijamo 12 meseci)

3 ’Stabilniji’ podaci (agregirani podaci imajutendenciju da imaju manja odstupanja)

4 ...

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.26

Primer agregacije vrednost padavina uAustraliji

St.dev. prosecnih mesecnih padavina St. dev. prosecnih godišnjih padavina

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.27

Uzimanje uzoraka

• Izbor uzoraka je glavna tehnika koja se koristi uizdvajanju podataka.

• Cesto se koristi kako za preliminarnaistraživanja tako i za konacne analize podataka

• Statisticari biraju uzorke jer je dobijanjekompletnog skupa podataka koji su od interesajako skupo i vremenski zahtevno

• Izbor uzoraka se koristi u IP jer je obradakompletnog skupa podataka koji je od interesatakode jako skupa ili vremenski zahtevna

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.28

Uzimanje uzoraka

Kljucni principi za efektivan izbor uzoraka su:

• Korišcenjem uzoraka koji su reprezentativnidobija se efekat skoro isti kao da je radeno nakompletnom skupu podataka

• Uzorak je reprezentativan ako imaaproksimativno iste osobine kao i originalniskup podataka

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.29

Tipovi uzoraka

• Jednostavan slucajni uzorak (jednakaverovatnoca za izbor bilo koje slucajne stavke)

• Sa i bez vracanja (duplikata iz originalnogskupa)

• Pristrasno uzorkovanje (neki podaci su važnijiod drugih)

• Stratifikovano uzorkovanje (uzorkovanje saraslojavanjem)

• Podaci se dele u više delova, a zatim sebira jednostavan slucajni uzorak iz svakogod delova

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.30

Velicina uzorka

Velicina uzorka treba da bude dovoljno velika da sene naruši struktura objekta ili uklone interesantneosobine

Velicine uzorka su redom 8000, 2000 i 500 tacaka

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.31

Izbor karakteristika

1 Jedan od nacina za smanjenjedimenzionalnosti

2 Eliminacija redundatnih karakteristika (npr. brojpoena i ocena)

3 Eliminacije irelevantnih karakteristika

4 Razvijen je veliki broj tehnika, pogotovu zaklasifikaciju

5 Cesto se formiraju novi atributi koji ukljucujuvažne karakteristike zbog efikasnije obrade

6 Preslikavanje u novi prostor (npr. Furijeovaanaliza, talasici)

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.32

Redukcija podataka pomocu rotacije osaKorelacije izmedju razlicitih atributa u podacima

−2

0

2−2

0

2

−0.4−0.2

00.20.4

−20

2−2 0 2

−0.4

−0.2

0

0.2

0.4

xy

−20

2−2 0 2

−0.4

−0.20

0.2

0.4

xy

−202−2 0 2−0.4

−0.2

0

0.2

0.4

xy

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.33

Redukcija podataka pomocu rotacije osa

• Automatsko uklanjanje koordinatnih osapomocu rotacije?

• PCA (Principal Component Analysis)

• SVD (Singular Value Decomposition)

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.34

Principal Component Analysis

• Smanjenje broja dimenzija podataka

• Nalaženje obrazaca u podacima velikedimenzionalnosti

• Vizealizacija podataka velike dimenzionalnosti

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.35

Principal Component Analysis (nastavak)

• Osnovna ideja: rotacija podataka u sistem saosama gde je najveci broj varijansi pokrivennajmanjim brojem dimenzija

• Novi sistem sa osama zavisi od korelacijeizmedju atributra

• PCA se (najcešce ) primenjuje posleoduzimanja srednje vrednosti od svake tacke

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.36

Principal Component Analysis (nastavak)

• Za matricu podataka D reda m × n može da seformira matrica kovarijansi C sa elementimacij = cov(d∗i ,d∗j) (cij je kovarijansa i-te i j-tekolone (atributa) podataka)

• Kovarijansa je mera kako se atributi menjaju uparu. Ako je i = j tada je kovarijnsa jednakavarijansi atributa.

• Ako se matrica D prethodno pripremi tako da jesrednja vrednost svakog od atributa jednaka 0,tada je C = DT D

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.37

Principal Component Analysis (nastavak)

Cilj PCA je nalaženje transformacijepodataka za koju važi

1 Svaki par novodobijenih atributa imakovarijansu 0

2 Atributi su uredjeni u odnosu na velicinuvarijanse (u opadajucem redosledu) koja jepokrivena od strane atributa

3 Zahteva se ortogonalnost izmedju atributa,tako da svaki naredni atribut pokriva što jemoguce veci broj preostalih varijansi

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.38

Principal Component Analysis (nastavak)

Transformacija se vrši upotrebomsopstvenih vrednosti matrice kovarijansi

1 Neka su λi (nenegativne) sopstvene vrednostiCm uredjene u redosleduλ1 ≥ λ2 ≥ ...λm−1 ≥ λm

2 Neka je U = [u1, ...,un] matrica sopstvenihvektora od C uredjena tako da i-ti vektorodgovara i-toj najvecoj sopstvenoj vrednosti

3 Neka je matrica D prethodno pripremljena takoda je srednja vrednost svakog od atributajednaka 0

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.39

Principal Component Analysis (nastavak)

1 Matrica D′ = DU je tražena transformaisanamatrica podataka

2 Novi atribut je linearna kombinacija starihatributa: težine linearne kombinacije i-togatributa su komponenete i-tog sopstvenogvektora.

3 Varijansa novog i-tog atributa je λi . Zbirvarijansi originalnih atributa je jednak zbiruvarijansi novih atributa

4 Novi atributi se nazivaju glavne komponente;prvi novi atribut je prva glavna komponenta, itd.

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.40

Principal Component Analysis (nastavak)

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.41

Singular Value Decomposition

1 Identican je PCA ako je srednja vrednostsvakog atributa matrice jednaka 0

2 Formalno, matrica D dimenzije m × n može dase predstavi kao D = UΣPT , gde je U matricareda n × n levo singularnih vektora ui , Σ jen ×m dijagonalna matrica singularnihvrednosti, i P je m ×m matrica desnosingularnih vektora.

3 SVD dekompozicija matrice podatakazadovoljava sledece osobine

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.42

Singular Value Decomposition (nastavak)

1 Obrasci u atributima su obuhvaceni desnosingularnim vektorima. Kolone matrice Q suortonormirani sopstveni vektori od DDT .

2 Obrasci u objektima su obuhvaceni levosingularnim vektorima. Kolone matrice P suortonormirani sopstveni vektori od DT D.

3 Neka su podaci na dijagonali u Σ uredjeni uopadajucem redosledu, a kolone u P i Q suuredjene u skladu sa tim.

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.43

Singular Value Decomposition (nastavak)

4 Neka su Pk i Qk skracene m× k i n× k matriceizdvajanjem prvioh k kolona, i neka je Σkmatrica reda k × k koja sadrži k najvecihsingularnih vrednosti.

5 Tada SVD faktorizacija aproksimirareprezentaciju m dimenzionalnih podatakapocetnog skupa D formulom D ≈ Qk ΣkPT

k

Uvod

PreprocesiranjepodatakaIzdvajanje karakteristika

Prenosivost tipova podataka

Diskretizacija

Binarizacija

Tekstualni u numericke

Podaci iz vremenskihserija

Diskretne niske unumericke

Cišcenje podataka

Rad sa nedostajucimpodacima

Rad sa nekorektnimpodacima

Rad sa dupliranimpodacima

Skaliranje i normalizacija

Redukcija i transformacijapodataka

Agregacija

Uzimanje uzoraka

Izbor karakteristika

Redukcija podatakapomocu rotacije osa

1.44

Ostale metode dimenzione redukcije

• LSA

• Talasici

• Furijeove transformacije

• Analiza faktora

• Multidimenziono skaliranje (MDS), Brzopreslikavanje, ISOMAP

• Spektralna transformacija grafova

• ...