Transcript
Page 1: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

INFORMACIONI SISTEMI ZA PODRŠKU

MENADŽMENTU

OBLAST: Visualization

ČVOROVI (WIDGET):

Distributions, Att. statistics, Scatterplot, Linear projections,

RadViz, PoliViz

SKUPOVI PODATAKA:

Anneal

AUTOR: Ana Pinčić 226/07

2011, Beograd

Page 2: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Šta je Orange?

To je program namenjen razvoju i primeni procesa otkrivanja zakonitosti u podacima i razvijen je od strane Univerziteta u Ljubljani (Fakulteta za računarstvo i informatiku). Obuhvata module i procedure za: Unos podataka i pretprocesiranja (sampling, filtering, scaling, discretization..) Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode regresije Celovite pristupe (boosting and baggining) Klasterovanje Konstruktivnu indukciju Validaciju, selekciju, diskretizaciju

U nastavku će biti prikazano šest čvorova softvera Orange. Korišćena baza podataka je „ Credit Approving “. To su sledeći čvorovi:

1. Distributions 2. Attribute Statistics 3. Scatterplot 4. Linear Projection 5. Radviz 6. Polyviz

Pred nama se nalazi početni ekran aplikacije (Slika 1.), koji se pojavljuje nakon pokretanja softvera Orange i ovde se odvija sam proces otkrivanja zakonitosti u podacima. Čvorovi koje ćemo koristiti za procesiranje svrstani su u grupu Visualize- i to su čvorovi za vizuelni prikaz podataka.

Slika 1. Početni ekran aplikacije softvera Orange

Čvor odgovoran za učitavanje podataka je čvor File, duplim klikom na njega otvara nam se prozor u kome biramo bazu podataka koju ćemo koristiti za procesiranje i u ovom slučaju to je „Kredit “ baza u „csv“ formatu (Comma Separeted Values), vrednosti atributa svakog slučaja

su odvojene zarezom.

Page 3: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 2. Izbor baze podataka „Kredit“

Povezivanjem čvora File sa čvorom DataTable možemo videti učitane podatke u proces, odnosno o kojim podacima je reč (povezivanje vršimo prevlačenjem plavih krajeva čvorova jednog na drugi). Sa leve strane (sl.3). u Info odeljku možemo pročitati sledeće podatke : Primer ima 1000 slučajeva i 20 atributa (checking_status, duration real, credit_history, purpose, credit_amount real, savings_status, employment, installment_commitment, personal_status, other_parties, residence_since, property_magnitude, age, other_payment_plans, housing, existing_credits, job, num_dependents, own_telephone, foreign_worker) a izlaz pokazuje u koju grupu za

odoobravanje kredita spada pojedinac dobru ili lošu. Nedostajućih vrednosti nema. U Settings-u možemo na + i – podešavati širine kolona, zatim odmah ispod u Colors-u birati opciono da li želimo da istaknemo numeričke vrednosti (Visualize continuous values) i obeležiti kojoj klasi klijenata za odobravanje kredita pripadaju( Color by class value). Sve prethodne izmene se na kraju mogu sačuvati i dati na razmatranje. ( Selection deo, opcije Send selections i Commit on any change).

Page 4: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 3. Učitavanje i prikaz podataka

Vizuelizacija je proces transformisanja podataka, informacija i znanja u grafičku prezentaciju da bi se podržali zadaci kao što su: analiza podataka, pretraživanje informacija, razjašnjavanje informacija, predviĎanje trendova, uviĎanje šablona, promena i slično. Bez pomoći vizuelizacije, dolazi do znatno manjeg opažanja i razumevanja podataka, informacija ili znanja od strane ljudi, iz više razloga. U njih se mogu uključiti ograničenja ljudskog vida i shvatanja, ili nevidljivost i apstraktnost podataka, informacija i znanja. Analizom podataka kroz vizuelizaciju se mogu uočiti neki paterni u podacima.

Distributions čvor je medju prvim čvorovima vizuelizacije koji razmatramo. On

prikazuje raspodelu slučajeva po vrednostima izabranog atributa i njime se može ostvariti dodatni uvid u podatke. Na raspodeli se bojama ukazuje na broj slučajeva izlaznog atributa. U zavisnosti od toga da li se radi o diskretnim ili numeričkim atributima, grafički prikazi ovog čvora se razlikuju. U okviru dela VISUALIZE, sa slike 1. biramo čvor Distributions i povezujemo ga sa

našom bazom podataka. Dobijamo sledeće: Za diskretne atribute, graf pokazuje koliko puta (na primer, u koliko slučajeva podataka) se svaka od vrednosti atributa pojavljuje u podacima. Na sledećoj slici, uzimajući u obzir naš primer možemo da primetimo da se krediti u najvećem broju slučajeva traže i uzimaju zbog kupovine kola, nameštaja i televizora/radio ureĎaja, a najreĎe radi kućnih aparata, popravki i ulaganja u sopstvenu edukaciju.

Page 5: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 4.

Atributi u odnosu na koje čitamo i posmatramo podatke se mogu menjati npr da li posmatramo „purpose“ ili „credit history“(Variable), a možemo i odabrati da li gledamo oba

prikazana izlaza (good /bad klase) ili samo jedan od njih tj raspodele vrednosti za slučajeve odreĎenih klasa (ishoda). Zatim slede General Graph Settings gde se podešavaju opcije vezane za sam graf i sliku, x/y osu, intervale poverenja itd. Probability plot je grafički način,

tehinka poredjenja dva skupa podataka, konkretno u našem primeru „dobrih“ i „loših“ kandidata za odobrenje kredita. Stoga je u okviru ove opcije moguće i podešavanje vezano za prikazivanje verovatnoća i intervala poverenja na grafiku. Postoji i opcija za prikazivanje jedinstvene vrednosti odreĎene klase (Outcomes-izlazi) i za skupove podataka koji pripadaju nekoj klasi možemo isto tako štiklirati i u skladu sa tim i iščitatii sa slike verovatnoću da specifična vrednost atributa pripada nekoj klasi (Target value). Za numeričke atribute, vrednosti se diskretizuju i prikazane su u vidu histograma. Number of bars može da se iskoristi kako bi se izmenila, preuredila korišćena diskretizacija. Pomoću

ove opcije možemo kontrolisati tj podešavati broj barova, ovih stubića, na slici. Verovatnoće pripadnosti nekoj klasi su ovde posmatrane uglavnom preko izgleda krive podešavanja intervala poverenja i čitamo ih sa desne strane grafika Možemo primetiti sa slike kad je naš primer u pitanju da što je kraći period uzimanja kredita, veće su šanse da ga dobijemo tj da nas svrstaju u klasu pogodnih kandidata za odobrenje kredita.

Page 6: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 5.

Sledeći čvor, Attribute Statistics se koristi kao i predhodni čvor i služi za prikaz

deskriptivnih statističkih pokazatelja svakog od atributa. Njime se takoĎe može ostvariti dodatni uvid u podatke. Na ulazu ima Examples (slučajeve) i nakon povezivanja sa File čvorom, aktivira se duplim klikom na čvor. Sa leve strane vršimo

odabir atributa, kako bi došli na osnovu datih podataka do nekih zaključaka koji nam mogu biti od koristi za dalji rad. To sve izgleda ovako: Za diskretne atribute (Slika 6), pravougaonici (barovi) predstavljaju broj slučajeva sa

svakom pojedinačnom vrednošću atributa tj od dve moguće grupe izlaza koliko koja ima slučajeva konkretno za naš primer. 700 ljudi pripada klasi pogodnoj za odobravanje kredita, a 300 njih ne zadovoljava uslove.

Slika 6.

Page 7: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Kada posmatramo u odnosu na numeričke atribute (Slika 7), gledaju se minimalne i maksimlane vrednosti. U slučaju Credit Amount Real ( tačan iznos traženog kredita) to su 250 kao minimalna vrednost i 18 424 kao maksimalna. IzmeĎu su 75% percentil (3972.50), medijana(2319.50) i 25% percentil(1365). Odstupanje i standardna devijacija su označeni crvenom bojom na slici. U donjem levom uglu može se pročitati veličina uzorka ( 1000 total values).

Slika 7.

Klikom na svaki od atributa pojedinačno levo, desno se prikazuju grafovi različitog oblika u zavisnosti od tipa atributa i njihove vrednosti.Value sorting opcija omogućava

podešavanje slike, omogućava sortiranje podataka ili ne i ako želimo, da li želimo rastući (Ascending) ili opadajući (Descending) da prikažemo podatke. Za obe vrste atributa, graf se može sačuvati klikom na Save Graph. Analizom podataka kroz vizuelizaciju se mogu uočiti neki paterni u podacima. Sa slike 8 se, na primer, može uočiti da od 300 slučajeva koji spadaju u klasu za potencijalno odbijanje zahteva za kredit to je u najvećem broju zbog loših iskustava sa plaćanjem u prošlosti i probijanju rokova.

Page 8: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 8. Isto tako, patern uočen na slici 9, u pogodnu grupu za odobrenje kredita spadaju neoženjeni muškarci i žene(udate/razvedene) u perodu života 25-40 godina.

Slika 9. Attribute Statistics čvor je takoĎe jako koristan za pronalaženje svojstava, osobina odreĎenih skupova podataka, na primer, grupa slučajeva ručno definisana u nekom drugom čvoru kao npr Scatterplot ili slučajevi koji pripadaju istom klasteru ili drvo klasifikacije i sl.

Page 9: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Scatterplot je sledeći čvor kome posvećujemo pažnju. On je tip matematičkog

dijagrama koji koristi Cartesian-ove koordinate kako bi prikazao vrednosti dve varijable za odreĎeni skup podataka. On klasifikuje u odnosu na dva izabrana atributa i pruža dvodimenzionu vizuelizaciju i za numeričke i za diskretne atribute. Podaci se prikazuju kao skup - kolekcija tačaka od kojih svaka ima vrednost jedne promenljive koja odreĎuje položaj na horizontalnoj osi i vrednost druge promenljive koja odreĎuje položaj na vertikalnoj osi. Ova vrsta grafikona se još naziva i skater grafikon, skatergram, raspršeni dijagram ili graf. Razna svojstva grafa kao što su boja, veličina i oblik tačaka kontrolisane su kroz odgovarajuću postavku Main menija, dok su ostali ( legende, ose, jittering options) postavljeni u okviru prozora Settings u gornjem levom

uglu prozora.

Slika 11. U slučaju diskretnih atributa, jittering (Jittering options) bi trebalo da se koristi da se zaobiĎu preklapanja tačaka sa istim vrednostima za obe ose, kao i da se dobiju oblasti gde gustina tačaka u odreĎenom regionu odgovara bolje gustini podataka sa tom kombinacijom vrednosti.

Page 10: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Kao primer takvog grafičkog prikaza, scatterplot za naš skup podataka izveštava o polu ljudi i njihovom ličnom statusu i njihovom poslu, sagledavajući i zadužene u ovom trenutku nekim drugim kreditima-njihov broj. ( Slika 12)

Slika 12. Većina scatterplot opcija je prilično standardna, poput onih za izbor atributa za boje tačaka, oblika i veličine (Main), ili onih koji kontrolišu prikaz različitih elemenata u grafikonu kao ose, naslov, mrežu linija, itd (Settings). Pored ovih, Orange je u okviru

scatterplot čvora takoĎe primenio inteligentnu tehniku vizualizacije (Intelligent Data Vizuelization) koja se zove VizRank. Može da se desi da skup podataka ima puno atributa pa je nemoguće trenutno i lako skenirati i uočiti sve parove atributa a samim tim i pronaći zanimljive scatterplot-ove i veze. Postoji tehnika koja nam pomaže u svemu tome i automatski pronalazi takve parove. Alatka VizRank tu igra ključnu ulogu i ona može da se koristi samo sa

klasifikovanim skupovima podataka tj sa slučajevima sa diskretnim klasama. Ulaskom u opciju VizRank treba kliknuti Starting Evaluating projections kako bi program započeo pretragu projekcija. Može se prekinuti u bilo kom trenutku pretraga i broj dobijenih projekcija može bit jako visok. Program ih traži menjanjući jedan od dva atributa sa nekim drugim atributom. Treba pronaći takve scatterplot projekcije gde su slučajevi sa različitim oznakama klasa dobro razdvojeni. Pronašli smo dva atributa koji su adekvatni primeri za odvojene različite klase (Slika 13).

Projekcija koja se pojavljuje na vrhu liste svih projekcija je najinteresantnija, slede liste drugih potencijalno zanimljivih projekcija. Izborom svake od ovih projekcija levo će se promeniti i graf koji se prikazuje u scatterplot desno, tako da lista i povezane projekcije mogu biti pregledne na ovaj način.

Page 11: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 13. TakoĎe sa slike 13 možemo uočiti da dva atributa koja najbolje klasifikuju su ’iznos traženog kredita’ i ’stambeno pitanje’. Opcije VizRanka još uvek nisu usavršene pa ukoliko niste stručnjak za ovu oblast najbolje bi bilo da ih ostavite na njihove podrazumevane vrednosti onako kako je po default-u. Grupisane su prema različitim aspektima metoda. Percent of data used se koristi za jako velike podatke.

Slika 14.

Page 12: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Show advanced settings, u prevodu Dodatna napredna podešavanja, sadrži opcije

ukoliko na primer želimo da ograničimo vreme evaluacije ili broj projekcija. U Manage&Save delu slike 14 se po default-u vrše razvrstavanja po svim atributima,

mi naravno možemo odabrati samo neke i mogu se sačuvati najbolji grafovi i projekcije (Save, Save Best, Remove Similar), kao i podesiti odgovarajući parametri. Reevalutate Projection se koristi kada smo već učitali listu najboljih projekcija iz datoteke, ali stvarne podatke smo promenili od poslednjeg ocenjivanja. Reevaluate se koristi za

procenu trenutne projekcije bez angažovanja projekcije za pretragu i ako želimo da učitamo neku projekciju a podaci su nam se u medjuvremenu promenili. Projekcije se procenjuju na osnovu učinka k najbližih klasifikatora, a rezultati ovih procena su ispravno ili pogrešno klasifikovani broj slučajeva i dostupani su preko dva k-NN tastera(Show k-NN Correct/Wrong). U Dialog-s boksu, na osnovu brojnih zanimljivih projekcija VizRank-a dostupni su nam alati za post analizu kao što su Attribute Ranking, Attribute Interactions, Graph Projection Scores itd.. Atrribute Ranking (Slika 15) prikazuje graf koji pokazuje koliko se puta atributi

pojavljuju u najbolje ocenjenoj projekciji. Barovi moge biti u boji, u skladu sa klasom ili sa maksimalnom prosečnom vrednošću atributa.

Slika 15.

Attribute Interactions (Slika 16) pokazuje toplotna mapa koja prikazuje koliko puta se dva atributa pojavljuju u najbolje ocenjenoj projekciji, a Graf Projection Scores ( Slika 17) prikazuje distribuciju projekcija rezultata.

Slika 16.

Page 13: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 17. Scatterplot, zajedno sa ostatkom čvorova Orange-a sadrži alate za precizniju i bolju analizu podataka (Zoom/Select Toolbox).

Jako korisna alatka ovde je Zoom na koji samo kliknemo prvo levo, a zatim ga prevučemo desno ka grafu tj na sliku, kako bi zumirali bliže sliku- zoom in. Za zoom out opciju desni klik miša nas vraća u prethodno stanje. Sledeća dva dugmeta u ovom Toolbox-u su poligona i pravougaona selekcija. Selekcije mogu biti uklonjene sve odjednom pritiskom na x-dugme ili pak mogu biti vraćene korak unazad pritiskom na dugme sa strelicom. Poslednji dugme na traci sa alatkama se koristi da se dalje pošalju svi promenjeni podaci sa slike. Pošto se ovo radi automatski nakon svake promene selekcije, ova poslednja funkcija nije posebno korisna.

Slika 18.

Page 14: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slikom 18. želimo da vam prikažemo primer jednostavnije šeme gde smo selektovali slučajne podatke tri pravougaona regiona i zahvaljujući čvoru Data Table koji smo

pominjali na samom početku možemo te selektovane podatke možemo prikazati u vidu tabele preglednije. Nije razlog za paniku ukoliko se broj tačaka sa scatterplot slike ne podudara sa brojem tačaka iz tabele, već su samo u pitanju neki slučajevi preklapanja (dva atributa imaju istu vrednost) podataka pa izgleda da ih ima manje na slici. Mogli smo da upotrebimo Jittering opciju kako bi ih izdvojili.

Ok, sada prelazimo na čvor Linear Projection . Pre svega, želimo da vam

napomenemo da ovaj čvor kombinuje veći broj metoda vizuelizacije koje se još uvek ispituju i pod istraživanjima su. Vremenom će se verovatno raspasti na grupu jednostavnijih čvorova od kojih će svaki izvršavati svoj zadatak. Ovaj specifičan vid vizuelizacije postiže se korišćenjem FreeViz opcije. FreeViz dugme u Main meniju otvara dijalog iz koga možemo da pristupimo četiri različite metode. Prva je FreeViz, mi ćemo se zadržati na njoj samo, koja koristi paradigmu iz fizike: tačke u istoj klasi privlače jedne druge, one iz različitih klasa odbijaju jedne druge, a ispravnost rezultat se ispoljava kroz sidra atributa tj kroz jedinične vektore ze svaku osu dimenzije. FreeViz Optimizacija se koristi da se pozove optimizaciju procesa (Optimize separation) ili da se izvrši jedan korak optimizacije. Radi se u stvari odvajanje ovih slučajeva, traže se neke zakonitosti i sve to radi bolje preglednosti podataka. Rezultat optimizacije može da zavisi od početnog podešavanja sidra, koje se može podesiti u krug(Cirlcle), proizvoljno-nasumično(Random) ili čak ručno(Manual)-ovu vrstu koriste ljudi velikog iskustava u ovoj oblasti (Set anchor position). Single step opcija

omogućava odvajanje u jednom koraku. Ovaj čvor prikazuje površinu, mesto zapravo, gde se spajaju linearne projekcije klasterovanih podataka i imaju za cilj pronalaženje dvodimenzionalne projekcije gde su primeri različitih klasa najbolje odvojeni. Primećujemo na našem primeru slike 19 nismo išli na Show all odabir svih atributa zboh njihovog velikog broja već smo samo neke izdvojili na osnovu kojih ćemo pokušati da nadjemo neku relaciju medju podacima. Sidra tj ove sive linije koje povezuju atribute sa slučajevima negde su kraće, negde duže a negde se recimo ne vide uopšte. To znači da ti atributi ne igraju ključnu ulogu u razdvajanju ovih slučajeva i mogli bismo recimo u nekom od sledećih koraka, iteracija slobodno da ih eliminišemo kako bi postigli bolju preglednost. Situacija nije baš sjajna u smilsu jasnog izdvajanja dobrih i loših grupa za izdavanje kredita ali eto može se na primer uočiti da u zavisnosti od toga da li ste podstanar ili živite u svojoj kući recimo utiče na zahtev za odobrenje kredita.

Slika 19.

Page 15: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Dobar pokazatelj optimizacije bi bila sledeća slika 20 na osnovu druge baze podataka-

Iris gde su tačke iste klase prilično jasno odvojene i može se izvući odreĎeni zaključak sa slike kao npr koja se karakteristike cveta( dužina/širina čašice i lista cveta) iris ističu u zavisnosti od vrste iris cveta( iris setosa, iris virginica, iris versicolor). Nažalost, sa našom bazom podataka nismo u mogućnosti ovako jasnu klasifikaciju da napravimo.

Slika 20. Zatim se vraćamo našem primeru sa kredit bazom podataka i opciji VizRank koja nam sledi i koja pokazuje koji atributi najbolje odvajaju različite slučajeve. Ovde su to job, checking status, purpose i duration real. (Slika 21) Opcija Locally Optimize Best

Projections nalazi zamenu za neki od ovih atributa tj sledeće najbolje rešenje.

Slika 21.

Page 16: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

RadViz je jednostavna, nelinearna, multidimenziona tehnika vizuelizacije koja može

da prikaže podatke o tri ili više atributa u dvodimenzionoj projekciji. Atributi su predstavljeni kao tačke po obodu kruga podjednako udaljene od samog centra i jedne od drugih. Podaci iz našeg skupa podataka se prikazuju kao tačkice unutar kruga. Vrednosti atributa se kreću izmeĎu nula i jedan. Slučajevi koji su bliži tačkama na obodu kruga imaju veću vrednost i značajniji su za te tačke po kružnici nego druge vrednosti tačaka unutar kruga.

Slika 22. Kako bi dobili bolje razumevanje same slike i tačaka u dvodimenzionom prostoru, savetujemo da štiklirate opciju Show value lines i Tooltips show spring values. Ostale opcije u okviru Settings-a su prilično standardne i već smo ponešto rekli o njima. Point properties podešava veličinu tačaka na slici i njihovu transparentnost. Jittering Options smo već napomenuli da u slučaju diskretnih atributa rešavaju slučajeve koji se preklapaju tj ukoliko ima pojedinih atributa sa istim vrednostima. Scaling Options mogu da smanje ili rašire vizuelizaciju iz centralne tačke. General Graph Options, tu najviše stavljamo akcenat na Show value lines opciju jer ona kaže čvoru da u stvari obeleži

svaki podatak linijama i naravno svaka odgovara svom atributu. Dužine ovih linija su proporcionalne vrednosti atributa (nema linije ako je vrednost minimalna). Klizač sa desne strane podešava razmere, skalu u kojoj su linije nacrtane. Tooltips setings je za prikazivanje informacija kada se preĎe pokazivačem preko podataka.

Slika 23.

Page 17: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika22 i Slika23 su vezane na naš primer ’kredit’ baze podataka i na osnovu njih

možemo uočiti eto da eto lični status i stambeno pitanje uglavnom utiču na to da ste klasifikovani za nepodobnu grupu ljudi za izdavanje kredita mada je jako teško izvući neke zakonitosti jer je slika malo nepregledna. Ne pokazuje baš u najboljem svetlu kako sve prethodno navedeno treba da izgleda jer atributi na kružnici i boje klasa nisu baš najsjajnije prikazani kao što je to recimo na sledećoj slici:

Slika 24. Na slici 24 korišćena je isto ’iris’ baza podataka. Prosto moramo se nadovezati na nju i

pojasniti teorijske navedene stvari jer je naša baza nepogodna za jasan i pregledan zaključak nažalost. Sa ove slike vidimo da je sepal width jasan pokazatelj da se radi o iris setosa vrsti cveta, a sepal length o iris virginica. Kao i do sad pojedini raĎeni čvorovi i ovaj sadrži alate za intelligent vizuelizaciju podataka, VizRank i FreeViz i ima slična, takoreći ista podešavanja opcija osim Projections dela gde umesto četiri metode u prethodnom čvoru ovde se nudi samo jedna i to Start Random Touring.

Poslednji čvor o kome ćemo govoriti u okviru vizuelizacije i ove skripte je PolyViz. To

je tehnika vizuelizacije slična RadViz-u samo u ovom slučaju umesto jednog fiksnog atributa-sidra, podaci u vidu tačaka su fokusirani na sidra čije vrednosti zavise od pozicija. Obratite pažnju na sledeću sliku 25 koja pokazuje vizuelizaciju „Kredit“ baze podataka, koristeći sve svoje atribute. Ona nam pokazuje da dobroj kategoriji kandidata pripadaju zaposleni ljudi, u braku ili nevenčani (da nisu razvedeni ili udovac,ica) koji imaju rešeno stambeno pitanje i da nisu pod drugim kreditima tj ukoliko jesu izmiruju svoje obaveze na vreme.

Page 18: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 25.

Pošto veliki broj atributa pravi malu konfuziju na slici i veliku nepreglednost podataka i atributa evo na primer da smestimo podatke o slučajevima unutar trougla – 3 atributa izdvajamo a to su duration real, purpose i credit amount real (Slika 26). U zavisnosti od broja atributa menja se i oblik grafa ( pet atributa-petougao, šest atributa-šestougao itd).

Slika 26. Na osnovu ove slike vidimo i da se krediti najčešće odobruju za radio/tv, business, polovna kola, namestaj i retraining, za male periode vraćanja(kratke) i za male iznose traženog kredita.

Page 19: INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTUodlucivanje.fon.bg.ac.rs/wp-content/uploads/Distributions-Att... · Tehnike klasifikacije, drveće, linearne klasifikatore Poznate metode

Slika 27. Nakon VizRank opcije dobijamo najbolju projekciju što je u ovom slučaju kombinacija 4 atributa i to duration real,checking status, purpose i credit history u kojoj zaključujemo da parametri koji vam ne idu u korist za dobijanje kredita su kašnjenja pri plaćanju postojećih kredita, veliki duration real,manji od 0 checking status.

Sve u svemu gledano, ovi čvorovi su jako zanimljiv i koristan način prikazivanja podataka i nekih zakonitosti izmedju njih. Ne vrše klasifikaciju podataka već samo pronalaze zanimljive relacije meĎu njima. Naravno, pod uslovom da je baza podataka sa kojom radimo prikladna za prikazivanje svrhe čvorova vizuelizacije, što mislim da nije bio slučaj sa našom bazom podataka za odobrenje kredita u potpunosti. Naravno, došli smo do par korisnih zaključaka i svakako nam neće škoditi. Treba dobiti smislene rezultate kako bi nam to pomoglo u daljem radu.


Top Related