pjesa 3 gjetja e marrëdhënieve ndërmjet variablave prof. ass ... e të dhënave 3...numerike...
TRANSCRIPT
Analiza e të dhënave
Pjesa 3 – Gjetja e marrëdhënieve ndërmjet variablave
Prof. Ass. Dr. Ermir Rogova
Hyrje
Interesimi primar në analizën e të dhënave është zakonisht në marrëdhëniet ndërmjet variablave.
Matja përmbledhëse numerike më e dobishme është korelacioni.
Grafikoni më i dobishëm është scatterploti.
Në Excel®, pivot tabela bën shpërbërjen e variables ashtu që shumë shpejt gjenden marrëdhënie të ndryshme.
Diagrami në vijim na udhëzon se cila analiza janë të përshtatshme për cilat data-tipe dhe cilat vegla janë më të mirat për kryerjen e analizave të ndryshme.
Hyrje
Purpose of analysis
Describe individual variables
(Chapter 2)
Categorical variables (Section 2.3)
Counts of categories
Charts of counts
Numerical variables
(Section 2.4)
Cross-sectional data
Summary measures (mean, median,
standard deviation, quartiles, etc.)
Histograms, box plots
Time seriesTime series charts for
patternsTrend lines
Find relationships between variables
(Chapter 3)
Categorical vs categorical
(Sections 3.2, 3.5)
Tables of joint counts (cross-tabs or pivot
tables)
Charts of joint counts
Categorical vs numerical
(Sections 3.3, 3.5)
Summary measures by category
Side-by-side boxplots
Pivot tables
Numerical vs numerical
(Sections 3.4, 3.5)
ScatterplotsTrend lines (regression)
Correlations (and covariances)
Pivot tables
Marrëdhëniet ndërmjet variablave
kategorike
Mënyra më e kuptimplote për të hulumtuar
marrëdhëniet ndërmjet dy variablave kategorike
është me numërime dhe me grafikonet përkatëse
të këtyre numrimeve.
Mund të bëjmë numërimin e kategorive për secilën
variabël veçmas, si dhe numërimet e kategorive të
përbashkëta të të dy variablave.
Përqindjet përkatëse të totaleve dhe grafikonet
ndihmojnë për të paraqitur situatën.
Praktikohet paraqitja e të gjithë këtyre numrimeve
në një lloj tabele që quhet crosstabs
Shembull: Marrëdhënia ndërmjet pirjes së
duhanit dhe alkoholit
Objektivi: Përdorimi i
crosstabs për të shqyrtuar
marrëdhënien ndërmjet pirjes
së duhanit dhe alkoholit.
Zhgjidhja: Data seti paraqet
veset e pirjes se alkoholit dhe
duhanit të 8761 personave.
Kategoritë janë koduar si: “N,”
“O,” “H,” “S,” and “D” për
“Non,” “Occasional,” “Heavy,”
“Smoker,” and “Drinker.”
Shembull: Marrëdhënia ndërmjet pirjes së
duhanit dhe alkoholit
Krijimi i crosstabs në Excel® bëhet duke përdorur funksionin COUNTIFS për të populluar tabelën me numrime të kategorive të përbashkëta.
Pastaj, llogariten shumat e rreshtave dhe kolonave.
Pastaj numrimet paraqiten si përqindje të rreshtave dhe kolonave.
Shembull: Marrëdhënia ndërmjet pirjes së
duhanit dhe alkoholit
Numërime apo përqindje Nuk ka një mënyrë të vetme të duhur për paraqitjen e
të dhënave në crosstabs.
Paraqitja si përqindje e totalit të rreshtave apo kolonave zakonisht bën marrëdhëniet të duken më qartë.
Grafikonet korresponduese poashtu janë shumë të dobishme.
Marrëdhëniet ndërmjet variablave
kategorike dhe numerike
Problemi i krahasimit është njëri nga problemet
më të rëndësishëm në analizën e të dhënave.
Paraqitet kurdo që duam të krahasojmë një matje
numerike përmes dy apo më shumë nënpopullata.
Shembuj
Nënpopullatat janë meshkujt dhe femrat dhe matja
numerike është paga.
Nënpopullatat janë regjione të ndryshme të vendit dhe
matja numerike është kostoja e jetesës.
Nënpopullata janë ditët e javës dhe matja numerike është
numri i klientëve që vizitojnë një zingjir të caktuar
restorantesh.
Formatet Stacked dhe Unstacked
Egzistojnë dy formate të mundshme të të dhënave. Stacked dhe unstacked.
Të dhënat janë stacked (pirg - tufë) nëse aty janë dy variabla “të gjata”, si psh Gjinia dhe Paga. Këtu thuhet që pagat e meshkujve janë bërë grumbull me pagat e femrave.
Ky është formati në shumicën dërrmuese të situatave.
Herë-pas-here shohim të dhëna në formatin unstacked, ku duken dy variabla “të shkurtëra” si psh Paga e Meshkujve dhe Paga e Femrave.
Veglat si StatTools punojnë me cilindo format dhe mund të bëjnë konvertimin prej njërit në tjetrin.
Formatet Stacked dhe Unstacked
Marrëdhëniet ndërmjet variablave
numerike
Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj tjetër i grafikonit që quhet scatterplot, i cili përdor dy matje përmbledhëse të reja, korelacionin dhe kovariancën.
Këto matje mund të aplikohen në çfardo variable që paraqitet numerikisht.
Megjithatë, këto janë të përshtatshme vetëm për variabla të vërteta numerike, jo për variabla kategorike të cilat janë koduar numerikisht.
Scatterplot-i
Scatterplot-i është një shpërndarje e pikave,
ku secila pikë paraqet vlerat e një vëzhgimi
për dy variabla të përzgjedhura.
Kjo është një metodë grafike për detektimin e
marrëdhënieve ndërmjet dy variablave numerike.
Dy variablat zakonisht etiketohen si X dhe Y,
prandaj scatterploti ndonjëherë quhet edhe X-Y
chart (grafiku X-Y).
Qëllimi i scatterplotit është të bëjë të qartë
egzistimin apo mos-egzistimin e marrëdhënies.
Shembull: Statistikat mbi Golf PGA Tour
Objektivi: Përdorimi i scatterplotit për kërkimin
e marrëdhënieve në të dhënat mbi golfin.
Zgjidhja: Data seti përfshin një vëzhgim mbi
secilin prej top 200 përfituesëve në PGA Tour.
Shembull: Statistikat mbi Golf PGA Tour
Shembull: Statistikat mbi Golf PGA Tour
Shembull: Statistikat mbi Golf PGA Tour
Shembull: Statistikat mbi Golf PGA Tour
Trend Linjat në Scatterplote
Kur veçse kemi një scatterplot, Excel® na
mundëson të mbivendosim mbi skaterplot një
nga disa trend linja (linja të prirjes apo
tendencës).
Trend linja është një linjë apo lakore e cila “i
përshtatet” më së miri shpërndarjes (scatter).
Kjo mund të jetë një linjë e drejtë ose një nga disa
llojet e ndryshme të lakoreve.
Trend Linjat në Scatterplote
Për të shtuar trend linjën klikojmë mbi grafikon
me butonin e djathtë, zgjedhim Add Trendline,
dhe japim të dhënat.
Trend Linjat në Scatterplote
Korrelacioni dhe Kovarianca
Korrelacioni dhe kovarianca masin forcën dhe drejtimin e një marrëdhënie lineare ndërmjet dy variablave numerike. Marrëdhënia është “e fuqishme” nëse pikat
grumbullohen ngusht rreth një linje të drejtë. Nëse kjo linjë e drejtë ngritet prej të majtës nga e djathta,
marrëdhënia është pozitive dhe matjet do të jenë numra pozitiv.
Nëse bie prej të majtes nga e djathta, marrëdhënia është negative dhe matjet do të jenë numra negativ.
Dy variablat numerike duhet të jenë variabla “të çiftëzuara”. Ato duhet të kenë të njëjtin numër të vëzhgimeve dhe vlerat
për cilindo vëzhgim duhet të çiftëzohen.
Korrelacioni dhe Kovarianca
Kovarianca në thelb është mesatarja e
produktit të devijimeve prej mesatares (mean).
Excel® ka funksionin e integruar COVAR dhe
StatTools poashtu llogarit automatikisht
kovariancën.
Kovarianca ka limitime serioze si matje
përshkruese sepse është shumë e ndjeshme
ndaj njësive me të cilat matet X dhe Y.
Korrelacioni dhe Kovarianca
Korrelacioni është një sasi pa njësi e cila nuk ndikohet nga shkalla e matjes.
Korrelacioni është gjithmonë ndërmjet -1 dhe +1.
Sa më afër këtyre dy ekstremeve që është, aq më afër drejtëzës janë pikat në skaterplot.
Excel® ka funksionin e integruar CORREL, dhe StatTools poashty llogarit automatikisht korrelacionin.
Korrelacioni dhe Kovarianca
Tri çështje të rëndësishme mbi scatterplotet,
korrelacionet, dhe kovariancat:
Korrelacioni është një numër i vetëm
përmbledhës i një skaterploti. Asnjëherë nuk
përcjell informata aq sa vetë scatterploti.
Zakonisht kërkojmë korrelacione të mëdha, ato
afër -1 ose +1.
As nuk provojmë të interpretojmë kovariancat
numerikisht, vetëm shikojmë a janë positive apo
negative. Korrelacionet janë ato që përdoren për
qëllime interpretuese.
Shembull: Statistikat mbi Golf PGA Tour
Shembull: Statistikat mbi Golf PGA Tour
Pivot Tabelat
Pivot tabela është një vegël në Excel® e cila
na lejon të shpërbëjmë të dhënat nëpër
kategori.
Ndonjëherë pivot tabelat përdoren për të
paraqitur tabelat me numërime, që shpesh
quhen crosstabs.
Megjithatë, crosstabs zakonisht japin vetëm
numërimet, kurse pivot tabelat japin
numërimet, shumat, mesataret dhe matjet e
tjera përmbledhëse.
Shembull: Porositë e klientëve në Elecmart
Objektivi: Përdorimi i pivot tabelave për të shpërbërë të dhënat e porosive të klientëve sipas një numri të variablave kategorike.
Zhgjidhja: Data seti përmban të dhëna për 400 porosi të bëra gjatë disa muajve në kompaninë Elecmart.
Shembull: Porositë e klientëve në Elecmart
Shembull: Porositë e klientëve në Elecmart
Shembull: Porositë e klientëve në Elecmart
Shembull: Porositë e klientëve në Elecmart
Katër fusha me rëndësi:
Filterët
Kolonat
Rreshtat
Vlerat
Shembull: Porositë e klientëve në Elecmart
Detajet në laborator
Fshehja e kategorive (Filtrimi)
Detajet në laborator
Ndërrimi i lokacioneve të fushave (Pivoting)
Detajet në laborator
Ndërrimi i lokacioneve të fushave (Pivoting)
Detajet në laborator
Ndryshimi i cilësimeve të fushave
Detajet në laborator
Pivot grafikonet
Pivot tabelat lehtë shoqërohen me pivot grafikone.
Ky lloj i grafikonit automatikisht i adaptohet pivot tabelës për të cilën krijohet.
Detajet e krijimit të zhvillohen në laborator.
Disa variabla në fushen e vlerave
Në fushën e vlerave mund të vendosën më shumë se një variabël e vetme.
Poashtu, një variabël e dhënë mund të përmblidhet me më shumë se një funksion përmbledhës.
Disa variabla në fushen e vlerave
Përmbledhja me nummërim
Variabla në fushën e vlerave mund të
përbledhen me funksionin Count
Kjo është e dobishme kur duam të dime, psh sa
porosi janë bërë nga femrat në rajonin e Jugut.
Grupimi
Kategoritë në variablat e Rreshtave apo Kolonave mund të grupohen.
Të supozojmë që duam të përmbledhim Shumën e Kostos Totale sipas datës. Fillojmë me pivot tabelë të zbrazët, në Pivottable
Fileds selektojmë Date dhe Total Cost.
Pastaj shypim cilëndo datë me butonin e djathtë dhe selektojmë Group.
Tipare të tjera të Pivot Tabelës
Paraqitja/Fshehja e nëntotaleve dhe grand totaleve
Përpunimi me rreshtave të zbrazët, dmth kategoritë pa të dhëna
Paraqitja e të dhënave prapa një numri të dhënë në pivot tabelë
Formatimi i pilot tabelës me stile të ndryshme
Lëvizja apo riemërimi i pivot tabelave
Rifreskimi i pivot tabelave me ndryshimin e të dhënave themelore
Krijimi i formulave për fushat kalkuluese ose artikujt kalkulues
Krijimi i pivot tabelave duke u bazuar në të dhëna të jashtme (databaza)
Shembull: Darkat me Lasagna të ngrirë
Objektivi: Përdorimi i pivot tabelave për të hulumtuar cilat variabla demografike ndihmojnë për të bërë dallimin ndërmjet atyre që kanë provuar llazanja edhe jo.
Solution: Data seti përmban të dhëna mbi 800 klientë ppotencial të marra nga një kompani që shet llazanja të ngrirë.
Krijimi një një pivot tabele që tregon numërimet e atyre që kanë provuar dhe atyre qe nuk kanë provuar llazanjën me kategori të ndryshme të variablave.
Shembull: Darkat me Lasagna të ngrirë
Slicers dhe Timelines
Prej Excel® 2010, Microsofti ka shtuar dhe
slicers—lista të vlerave të veçanta të cilësdo
variabël, që mund të përdoret pastaj për filtrim.
Shtimi i slicer-it bëhet nga shiriti Analyze/Options
te PivotTable Tools.
Prej Excel® 2013, është shtuar edhe tipari
Timeline. Ky është sikur slicer por është krijuar
specifikisht për filtrimin e variablave të tipit
date.
Slicers dhe Timelines
Më shumë detaje në laborator.
Pyetje???