pjesa 3 gjetja e marrëdhënieve ndërmjet variablave prof. ass ... e të dhënave 3...numerike...

Analiza e të dhënave

Pjesa 3 – Gjetja e marrëdhënieve ndërmjet variablave

Prof. Ass. Dr. Ermir Rogova

Hyrje

Interesimi primar në analizën e të dhënave është zakonisht në marrëdhëniet ndërmjet variablave.

Matja përmbledhëse numerike më e dobishme është korelacioni.

Grafikoni më i dobishëm është scatterploti.

Në Excel®, pivot tabela bën shpërbërjen e variables ashtu që shumë shpejt gjenden marrëdhënie të ndryshme.

Diagrami në vijim na udhëzon se cila analiza janë të përshtatshme për cilat data-tipe dhe cilat vegla janë më të mirat për kryerjen e analizave të ndryshme.

Hyrje

Purpose of analysis

Describe individual variables

(Chapter 2)

Categorical variables (Section 2.3)

Counts of categories

Charts of counts

Numerical variables

(Section 2.4)

Cross-sectional data

Summary measures (mean, median,

standard deviation, quartiles, etc.)

Histograms, box plots

Time seriesTime series charts for

patternsTrend lines

Find relationships between variables

(Chapter 3)

Categorical vs categorical

(Sections 3.2, 3.5)

Tables of joint counts (cross-tabs or pivot

tables)

Charts of joint counts

Categorical vs numerical

(Sections 3.3, 3.5)

Summary measures by category

Side-by-side boxplots

Pivot tables

Numerical vs numerical

(Sections 3.4, 3.5)

ScatterplotsTrend lines (regression)

Correlations (and covariances)

Pivot tables

Marrëdhëniet ndërmjet variablave

kategorike

Mënyra më e kuptimplote për të hulumtuar

marrëdhëniet ndërmjet dy variablave kategorike

është me numërime dhe me grafikonet përkatëse

të këtyre numrimeve.

Mund të bëjmë numërimin e kategorive për secilën

variabël veçmas, si dhe numërimet e kategorive të

përbashkëta të të dy variablave.

Përqindjet përkatëse të totaleve dhe grafikonet

ndihmojnë për të paraqitur situatën.

Praktikohet paraqitja e të gjithë këtyre numrimeve

në një lloj tabele që quhet crosstabs

Shembull: Marrëdhënia ndërmjet pirjes së

duhanit dhe alkoholit

Objektivi: Përdorimi i

crosstabs për të shqyrtuar

marrëdhënien ndërmjet pirjes

së duhanit dhe alkoholit.

Zhgjidhja: Data seti paraqet

veset e pirjes se alkoholit dhe

duhanit të 8761 personave.

Kategoritë janë koduar si: “N,”

“O,” “H,” “S,” and “D” për

“Non,” “Occasional,” “Heavy,”

“Smoker,” and “Drinker.”



Krijimi i crosstabs në Excel® bëhet duke përdorur funksionin COUNTIFS për të populluar tabelën me numrime të kategorive të përbashkëta.

Pastaj, llogariten shumat e rreshtave dhe kolonave.

Pastaj numrimet paraqiten si përqindje të rreshtave dhe kolonave.



Numërime apo përqindje Nuk ka një mënyrë të vetme të duhur për paraqitjen e

të dhënave në crosstabs.

Paraqitja si përqindje e totalit të rreshtave apo kolonave zakonisht bën marrëdhëniet të duken më qartë.

Grafikonet korresponduese poashtu janë shumë të dobishme.


kategorike dhe numerike

Problemi i krahasimit është njëri nga problemet

më të rëndësishëm në analizën e të dhënave.

Paraqitet kurdo që duam të krahasojmë një matje

numerike përmes dy apo më shumë nënpopullata.

Shembuj

Nënpopullatat janë meshkujt dhe femrat dhe matja

numerike është paga.

Nënpopullatat janë regjione të ndryshme të vendit dhe

matja numerike është kostoja e jetesës.

Nënpopullata janë ditët e javës dhe matja numerike është

numri i klientëve që vizitojnë një zingjir të caktuar

restorantesh.

Formatet Stacked dhe Unstacked

Egzistojnë dy formate të mundshme të të dhënave. Stacked dhe unstacked.

Të dhënat janë stacked (pirg - tufë) nëse aty janë dy variabla “të gjata”, si psh Gjinia dhe Paga. Këtu thuhet që pagat e meshkujve janë bërë grumbull me pagat e femrave.

Ky është formati në shumicën dërrmuese të situatave.

Herë-pas-here shohim të dhëna në formatin unstacked, ku duken dy variabla “të shkurtëra” si psh Paga e Meshkujve dhe Paga e Femrave.

Veglat si StatTools punojnë me cilindo format dhe mund të bëjnë konvertimin prej njërit në tjetrin.

Formatet Stacked dhe Unstacked


numerike

Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj tjetër i grafikonit që quhet scatterplot, i cili përdor dy matje përmbledhëse të reja, korelacionin dhe kovariancën.

Këto matje mund të aplikohen në çfardo variable që paraqitet numerikisht.

Megjithatë, këto janë të përshtatshme vetëm për variabla të vërteta numerike, jo për variabla kategorike të cilat janë koduar numerikisht.

Scatterplot-i

Scatterplot-i është një shpërndarje e pikave,

ku secila pikë paraqet vlerat e një vëzhgimi

për dy variabla të përzgjedhura.

Kjo është një metodë grafike për detektimin e

marrëdhënieve ndërmjet dy variablave numerike.

Dy variablat zakonisht etiketohen si X dhe Y,

prandaj scatterploti ndonjëherë quhet edhe X-Y

chart (grafiku X-Y).

Qëllimi i scatterplotit është të bëjë të qartë

egzistimin apo mos-egzistimin e marrëdhënies.

Shembull: Statistikat mbi Golf PGA Tour

Objektivi: Përdorimi i scatterplotit për kërkimin

e marrëdhënieve në të dhënat mbi golfin.

Zgjidhja: Data seti përfshin një vëzhgim mbi

secilin prej top 200 përfituesëve në PGA Tour.

Trend Linjat në Scatterplote

Kur veçse kemi një scatterplot, Excel® na

mundëson të mbivendosim mbi skaterplot një

nga disa trend linja (linja të prirjes apo

tendencës).

Trend linja është një linjë apo lakore e cila “i

përshtatet” më së miri shpërndarjes (scatter).

Kjo mund të jetë një linjë e drejtë ose një nga disa

llojet e ndryshme të lakoreve.


Për të shtuar trend linjën klikojmë mbi grafikon

me butonin e djathtë, zgjedhim Add Trendline,

dhe japim të dhënat.

Korrelacioni dhe Kovarianca

Korrelacioni dhe kovarianca masin forcën dhe drejtimin e një marrëdhënie lineare ndërmjet dy variablave numerike. Marrëdhënia është “e fuqishme” nëse pikat

grumbullohen ngusht rreth një linje të drejtë. Nëse kjo linjë e drejtë ngritet prej të majtës nga e djathta,

marrëdhënia është pozitive dhe matjet do të jenë numra pozitiv.

Nëse bie prej të majtes nga e djathta, marrëdhënia është negative dhe matjet do të jenë numra negativ.

Dy variablat numerike duhet të jenë variabla “të çiftëzuara”. Ato duhet të kenë të njëjtin numër të vëzhgimeve dhe vlerat

për cilindo vëzhgim duhet të çiftëzohen.


Kovarianca në thelb është mesatarja e

produktit të devijimeve prej mesatares (mean).

Excel® ka funksionin e integruar COVAR dhe

StatTools poashtu llogarit automatikisht

kovariancën.

Kovarianca ka limitime serioze si matje

përshkruese sepse është shumë e ndjeshme

ndaj njësive me të cilat matet X dhe Y.


Korrelacioni është një sasi pa njësi e cila nuk ndikohet nga shkalla e matjes.

Korrelacioni është gjithmonë ndërmjet -1 dhe +1.

Sa më afër këtyre dy ekstremeve që është, aq më afër drejtëzës janë pikat në skaterplot.

Excel® ka funksionin e integruar CORREL, dhe StatTools poashty llogarit automatikisht korrelacionin.


Tri çështje të rëndësishme mbi scatterplotet,

korrelacionet, dhe kovariancat:

Korrelacioni është një numër i vetëm

përmbledhës i një skaterploti. Asnjëherë nuk

përcjell informata aq sa vetë scatterploti.

Zakonisht kërkojmë korrelacione të mëdha, ato

afër -1 ose +1.

As nuk provojmë të interpretojmë kovariancat

numerikisht, vetëm shikojmë a janë positive apo

negative. Korrelacionet janë ato që përdoren për

qëllime interpretuese.

Pivot Tabelat

Pivot tabela është një vegël në Excel® e cila

na lejon të shpërbëjmë të dhënat nëpër

kategori.

Ndonjëherë pivot tabelat përdoren për të

paraqitur tabelat me numërime, që shpesh

quhen crosstabs.

Megjithatë, crosstabs zakonisht japin vetëm

numërimet, kurse pivot tabelat japin

numërimet, shumat, mesataret dhe matjet e

tjera përmbledhëse.

Shembull: Porositë e klientëve në Elecmart

Objektivi: Përdorimi i pivot tabelave për të shpërbërë të dhënat e porosive të klientëve sipas një numri të variablave kategorike.

Zhgjidhja: Data seti përmban të dhëna për 400 porosi të bëra gjatë disa muajve në kompaninë Elecmart.


Katër fusha me rëndësi:

Filterët

Kolonat

Rreshtat

Vlerat


Detajet në laborator

Fshehja e kategorive (Filtrimi)


Ndërrimi i lokacioneve të fushave (Pivoting)


Ndryshimi i cilësimeve të fushave


Pivot grafikonet

Pivot tabelat lehtë shoqërohen me pivot grafikone.

Ky lloj i grafikonit automatikisht i adaptohet pivot tabelës për të cilën krijohet.

Detajet e krijimit të zhvillohen në laborator.

Disa variabla në fushen e vlerave

Në fushën e vlerave mund të vendosën më shumë se një variabël e vetme.

Poashtu, një variabël e dhënë mund të përmblidhet me më shumë se një funksion përmbledhës.

Disa variabla në fushen e vlerave

Përmbledhja me nummërim

Variabla në fushën e vlerave mund të

përbledhen me funksionin Count

Kjo është e dobishme kur duam të dime, psh sa

porosi janë bërë nga femrat në rajonin e Jugut.

Grupimi

Kategoritë në variablat e Rreshtave apo Kolonave mund të grupohen.

Të supozojmë që duam të përmbledhim Shumën e Kostos Totale sipas datës. Fillojmë me pivot tabelë të zbrazët, në Pivottable

Fileds selektojmë Date dhe Total Cost.

Pastaj shypim cilëndo datë me butonin e djathtë dhe selektojmë Group.

Tipare të tjera të Pivot Tabelës

Paraqitja/Fshehja e nëntotaleve dhe grand totaleve

Përpunimi me rreshtave të zbrazët, dmth kategoritë pa të dhëna

Paraqitja e të dhënave prapa një numri të dhënë në pivot tabelë

Formatimi i pilot tabelës me stile të ndryshme

Lëvizja apo riemërimi i pivot tabelave

Rifreskimi i pivot tabelave me ndryshimin e të dhënave themelore

Krijimi i formulave për fushat kalkuluese ose artikujt kalkulues

Krijimi i pivot tabelave duke u bazuar në të dhëna të jashtme (databaza)

Shembull: Darkat me Lasagna të ngrirë

Objektivi: Përdorimi i pivot tabelave për të hulumtuar cilat variabla demografike ndihmojnë për të bërë dallimin ndërmjet atyre që kanë provuar llazanja edhe jo.

Solution: Data seti përmban të dhëna mbi 800 klientë ppotencial të marra nga një kompani që shet llazanja të ngrirë.

Krijimi një një pivot tabele që tregon numërimet e atyre që kanë provuar dhe atyre qe nuk kanë provuar llazanjën me kategori të ndryshme të variablave.

Shembull: Darkat me Lasagna të ngrirë

Slicers dhe Timelines

Prej Excel® 2010, Microsofti ka shtuar dhe

slicers—lista të vlerave të veçanta të cilësdo

variabël, që mund të përdoret pastaj për filtrim.

Shtimi i slicer-it bëhet nga shiriti Analyze/Options

te PivotTable Tools.

Prej Excel® 2013, është shtuar edhe tipari

Timeline. Ky është sikur slicer por është krijuar

specifikisht për filtrimin e variablave të tipit

date.

Slicers dhe Timelines

Më shumë detaje në laborator.

Pyetje???

pjesa 3 gjetja e marrëdhënieve ndërmjet variablave prof. ass ... e të dhënave 3...numerike...

Documents