informacioni sistemi za podršku menadŽ · pdf filetehnike klasifikacije, drveće,...

Click here to load reader

Post on 26-Oct-2019

1 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • INFORMACIONI SISTEMI ZA PODRŠKU

    MENADŽMENTU

    OBLAST: Visualization

    ČVOROVI (WIDGET):

    Distributions, Att. statistics, Scatterplot, Linear projections,

    RadViz, PoliViz

    SKUPOVI PODATAKA:

    Anneal

    AUTOR: Ana Pinčić 226/07

    2011, Beograd

  • Šta je Orange?

    To je program namenjen razvoju i primeni procesa otkrivanja zakonitosti u podacima i razvijen je od strane Univerziteta u Ljubljani (Fakulteta za računarstvo i informatiku). Obuhvata module i procedure za:  Unos podataka i pretprocesiranja (sampling, filtering, scaling, discretization..)  Tehnike klasifikacije, drveće, linearne klasifikatore  Poznate metode regresije  Celovite pristupe (boosting and baggining)  Klasterovanje  Konstruktivnu indukciju  Validaciju, selekciju, diskretizaciju

    U nastavku će biti prikazano šest čvorova softvera Orange. Korišćena baza podataka je „ Credit Approving “. To su sledeći čvorovi:

    1. Distributions 2. Attribute Statistics 3. Scatterplot 4. Linear Projection 5. Radviz 6. Polyviz

    Pred nama se nalazi početni ekran aplikacije (Slika 1.), koji se pojavljuje nakon pokretanja softvera Orange i ovde se odvija sam proces otkrivanja zakonitosti u podacima. Čvorovi koje ćemo koristiti za procesiranje svrstani su u grupu Visualize- i to su čvorovi za vizuelni prikaz podataka.

    Slika 1. Početni ekran aplikacije softvera Orange

    Čvor odgovoran za učitavanje podataka je čvor File, duplim klikom na njega otvara nam se prozor u kome biramo bazu podataka koju ćemo koristiti za procesiranje i u ovom slučaju to je „Kredit “ baza u „csv“ formatu (Comma Separeted Values), vrednosti atributa svakog slučaja

    su odvojene zarezom.

  • Slika 2. Izbor baze podataka „Kredit“

    Povezivanjem čvora File sa čvorom DataTable možemo videti učitane podatke u proces, odnosno o kojim podacima je reč (povezivanje vršimo prevlačenjem plavih krajeva čvorova jednog na drugi). Sa leve strane (sl.3). u Info odeljku možemo pročitati sledeće podatke : Primer ima 1000 slučajeva i 20 atributa (checking_status, duration real, credit_history, purpose, credit_amount real, savings_status, employment, installment_commitment, personal_status, other_parties, residence_since, property_magnitude, age, other_payment_plans, housing, existing_credits, job, num_dependents, own_telephone, foreign_worker) a izlaz pokazuje u koju grupu za

    odoobravanje kredita spada pojedinac dobru ili lošu. Nedostajućih vrednosti nema. U Settings-u možemo na + i – podešavati širine kolona, zatim odmah ispod u Colors-u birati opciono da li želimo da istaknemo numeričke vrednosti (Visualize continuous values) i obeležiti kojoj klasi klijenata za odobravanje kredita pripadaju( Color by class value). Sve prethodne izmene se na kraju mogu sačuvati i dati na razmatranje. ( Selection deo, opcije Send selections i Commit on any change).

  • Slika 3. Učitavanje i prikaz podataka

    Vizuelizacija je proces transformisanja podataka, informacija i znanja u grafičku prezentaciju da bi se podržali zadaci kao što su: analiza podataka, pretraživanje informacija, razjašnjavanje informacija, predviĎanje trendova, uviĎanje šablona, promena i slično. Bez pomoći vizuelizacije, dolazi do znatno manjeg opažanja i razumevanja podataka, informacija ili znanja od strane ljudi, iz više razloga. U njih se mogu uključiti ograničenja ljudskog vida i shvatanja, ili nevidljivost i apstraktnost podataka, informacija i znanja. Analizom podataka kroz vizuelizaciju se mogu uočiti neki paterni u podacima.

    Distributions čvor je medju prvim čvorovima vizuelizacije koji razmatramo. On prikazuje raspodelu slučajeva po vrednostima izabranog atributa i njime se može ostvariti dodatni uvid u podatke. Na raspodeli se bojama ukazuje na broj slučajeva izlaznog atributa. U zavisnosti od toga da li se radi o diskretnim ili numeričkim atributima, grafički prikazi ovog čvora se razlikuju. U okviru dela VISUALIZE, sa slike 1. biramo čvor Distributions i povezujemo ga sa

    našom bazom podataka. Dobijamo sledeće: Za diskretne atribute, graf pokazuje koliko puta (na primer, u koliko slučajeva podataka) se svaka od vrednosti atributa pojavljuje u podacima. Na sledećoj slici, uzimajući u obzir naš primer možemo da primetimo da se krediti u najvećem broju slučajeva traže i uzimaju zbog kupovine kola, nameštaja i televizora/radio ureĎaja, a najreĎe radi kućnih aparata, popravki i ulaganja u sopstvenu edukaciju.

  • Slika 4.

    Atributi u odnosu na koje čitamo i posmatramo podatke se mogu menjati npr da li posmatramo „purpose“ ili „credit history“(Variable), a možemo i odabrati da li gledamo oba

    prikazana izlaza (good /bad klase) ili samo jedan od njih tj raspodele vrednosti za slučajeve odreĎenih klasa (ishoda). Zatim slede General Graph Settings gde se podešavaju opcije vezane za sam graf i sliku, x/y osu, intervale poverenja itd. Probability plot je grafički način,

    tehinka poredjenja dva skupa podataka, konkretno u našem primeru „dobrih“ i „loših“ kandidata za odobrenje kredita. Stoga je u okviru ove opcije moguće i podešavanje vezano za prikazivanje verovatnoća i intervala poverenja na grafiku. Postoji i opcija za prikazivanje jedinstvene vrednosti odreĎene klase (Outcomes-izlazi) i za skupove podataka koji pripadaju nekoj klasi možemo isto tako štiklirati i u skladu sa tim i iščitatii sa slike verovatnoću da specifična vrednost atributa pripada nekoj klasi (Target value). Za numeričke atribute, vrednosti se diskretizuju i prikazane su u vidu histograma. Number of bars može da se iskoristi kako bi se izmenila, preuredila korišćena diskretizacija. Pomoću

    ove opcije možemo kontrolisati tj podešavati broj barova, ovih stubića, na slici. Verovatnoće pripadnosti nekoj klasi su ovde posmatrane uglavnom preko izgleda krive podešavanja intervala poverenja i čitamo ih sa desne strane grafika Možemo primetiti sa slike kad je naš primer u pitanju da što je kraći period uzimanja kredita, veće su šanse da ga dobijemo tj da nas svrstaju u klasu pogodnih kandidata za odobrenje kredita.

  • Slika 5.

    Sledeći čvor, Attribute Statistics se koristi kao i predhodni čvor i služi za prikaz deskriptivnih statističkih pokazatelja svakog od atributa. Njime se takoĎe može ostvariti dodatni uvid u podatke. Na ulazu ima Examples (slučajeve) i nakon povezivanja sa File čvorom, aktivira se duplim klikom na čvor. Sa leve strane vršimo

    odabir atributa, kako bi došli na osnovu datih podataka do nekih zaključaka koji nam mogu biti od koristi za dalji rad. To sve izgleda ovako: Za diskretne atribute (Slika 6), pravougaonici (barovi) predstavljaju broj slučajeva sa

    svakom pojedinačnom vrednošću atributa tj od dve moguće grupe izlaza koliko koja ima slučajeva konkretno za naš primer. 700 ljudi pripada klasi pogodnoj za odobravanje kredita, a 300 njih ne zadovoljava uslove.

    Slika 6.

  • Kada posmatramo u odnosu na numeričke atribute (Slika 7), gledaju se minimalne i maksimlane vrednosti. U slučaju Credit Amount Real ( tačan iznos traženog kredita) to su 250 kao minimalna vrednost i 18 424 kao maksimalna. IzmeĎu su 75% percentil (3972.50), medijana(2319.50) i 25% percentil(1365). Odstupanje i standardna devijacija su označeni crvenom bojom na slici. U donjem levom uglu može se pročitati veličina uzorka ( 1000 total values).

    Slika 7.

    Klikom na svaki od atributa pojedinačno levo, desno se prikazuju grafovi različitog oblika u zavisnosti od tipa atributa i njihove vrednosti.Value sorting opcija omogućava

    podešavanje slike, omogućava sortiranje podataka ili ne i ako želimo, da li želimo rastući (Ascending) ili opadajući (Descending) da prikažemo podatke. Za obe vrste atributa, graf se može sačuvati klikom na Save Graph. Analizom podataka kroz vizuelizaciju se mogu uočiti neki paterni u podacima. Sa slike 8 se, na primer, može uočiti da od 300 slučajeva koji spadaju u klasu za potencijalno odbijanje zahteva za kredit to je u najvećem broju zbog loših iskustava sa plaćanjem u prošlosti i probijanju rokova.

  • Slika 8. Isto tako, patern uočen na slici 9, u pogodnu grupu za odobrenje kredita spadaju neoženjeni muškarci i žene(udate/razvedene) u perodu života 25-40 godina.

    Slika 9. Attribute Statistics čvor je takoĎe jako koristan za pronalaženje svojstava, osobina odreĎenih skupova podataka, na primer, grupa slučajeva ručno definisana u nekom drugom čvoru kao npr Scatterplot ili slučajevi koji pripadaju istom klasteru ili drvo klasifikacije i sl.

  • Scatterplot je sledeći čvor kome posvećujemo pažnju. On je tip matematičkog dijagrama koji koristi Cartesian-ove koordinate kako bi prikazao vrednosti dve varijable za odreĎeni skup podataka. On klasifikuje u odnosu na dva izabrana atributa i pruža dvodimenzionu vizuelizaciju i za numeričke i za diskretne atribute. Podaci se prikazuju kao skup - k