pjesa 3 gjetja e marrëdhënieve ndërmjet variablave prof. ass ... e të dhënave 3...numerike...

48
Analiza e të dhënave Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass. Dr. Ermir Rogova

Upload: others

Post on 24-Mar-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Analiza e të dhënave

Pjesa 3 – Gjetja e marrëdhënieve ndërmjet variablave

Prof. Ass. Dr. Ermir Rogova

Page 2: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Hyrje

Interesimi primar në analizën e të dhënave është zakonisht në marrëdhëniet ndërmjet variablave.

Matja përmbledhëse numerike më e dobishme është korelacioni.

Grafikoni më i dobishëm është scatterploti.

Në Excel®, pivot tabela bën shpërbërjen e variables ashtu që shumë shpejt gjenden marrëdhënie të ndryshme.

Diagrami në vijim na udhëzon se cila analiza janë të përshtatshme për cilat data-tipe dhe cilat vegla janë më të mirat për kryerjen e analizave të ndryshme.

Page 3: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Hyrje

Purpose of analysis

Describe individual variables

(Chapter 2)

Categorical variables (Section 2.3)

Counts of categories

Charts of counts

Numerical variables

(Section 2.4)

Cross-sectional data

Summary measures (mean, median,

standard deviation, quartiles, etc.)

Histograms, box plots

Time seriesTime series charts for

patternsTrend lines

Find relationships between variables

(Chapter 3)

Categorical vs categorical

(Sections 3.2, 3.5)

Tables of joint counts (cross-tabs or pivot

tables)

Charts of joint counts

Categorical vs numerical

(Sections 3.3, 3.5)

Summary measures by category

Side-by-side boxplots

Pivot tables

Numerical vs numerical

(Sections 3.4, 3.5)

ScatterplotsTrend lines (regression)

Correlations (and covariances)

Pivot tables

Page 4: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Marrëdhëniet ndërmjet variablave

kategorike

Mënyra më e kuptimplote për të hulumtuar

marrëdhëniet ndërmjet dy variablave kategorike

është me numërime dhe me grafikonet përkatëse

të këtyre numrimeve.

Mund të bëjmë numërimin e kategorive për secilën

variabël veçmas, si dhe numërimet e kategorive të

përbashkëta të të dy variablave.

Përqindjet përkatëse të totaleve dhe grafikonet

ndihmojnë për të paraqitur situatën.

Praktikohet paraqitja e të gjithë këtyre numrimeve

në një lloj tabele që quhet crosstabs

Page 5: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Marrëdhënia ndërmjet pirjes së

duhanit dhe alkoholit

Objektivi: Përdorimi i

crosstabs për të shqyrtuar

marrëdhënien ndërmjet pirjes

së duhanit dhe alkoholit.

Zhgjidhja: Data seti paraqet

veset e pirjes se alkoholit dhe

duhanit të 8761 personave.

Kategoritë janë koduar si: “N,”

“O,” “H,” “S,” and “D” për

“Non,” “Occasional,” “Heavy,”

“Smoker,” and “Drinker.”

Page 6: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Marrëdhënia ndërmjet pirjes së

duhanit dhe alkoholit

Krijimi i crosstabs në Excel® bëhet duke përdorur funksionin COUNTIFS për të populluar tabelën me numrime të kategorive të përbashkëta.

Pastaj, llogariten shumat e rreshtave dhe kolonave.

Pastaj numrimet paraqiten si përqindje të rreshtave dhe kolonave.

Page 7: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Marrëdhënia ndërmjet pirjes së

duhanit dhe alkoholit

Numërime apo përqindje Nuk ka një mënyrë të vetme të duhur për paraqitjen e

të dhënave në crosstabs.

Paraqitja si përqindje e totalit të rreshtave apo kolonave zakonisht bën marrëdhëniet të duken më qartë.

Grafikonet korresponduese poashtu janë shumë të dobishme.

Page 8: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Marrëdhëniet ndërmjet variablave

kategorike dhe numerike

Problemi i krahasimit është njëri nga problemet

më të rëndësishëm në analizën e të dhënave.

Paraqitet kurdo që duam të krahasojmë një matje

numerike përmes dy apo më shumë nënpopullata.

Shembuj

Nënpopullatat janë meshkujt dhe femrat dhe matja

numerike është paga.

Nënpopullatat janë regjione të ndryshme të vendit dhe

matja numerike është kostoja e jetesës.

Nënpopullata janë ditët e javës dhe matja numerike është

numri i klientëve që vizitojnë një zingjir të caktuar

restorantesh.

Page 9: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Formatet Stacked dhe Unstacked

Egzistojnë dy formate të mundshme të të dhënave. Stacked dhe unstacked.

Të dhënat janë stacked (pirg - tufë) nëse aty janë dy variabla “të gjata”, si psh Gjinia dhe Paga. Këtu thuhet që pagat e meshkujve janë bërë grumbull me pagat e femrave.

Ky është formati në shumicën dërrmuese të situatave.

Herë-pas-here shohim të dhëna në formatin unstacked, ku duken dy variabla “të shkurtëra” si psh Paga e Meshkujve dhe Paga e Femrave.

Veglat si StatTools punojnë me cilindo format dhe mund të bëjnë konvertimin prej njërit në tjetrin.

Page 10: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Formatet Stacked dhe Unstacked

Page 11: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Marrëdhëniet ndërmjet variablave

numerike

Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj tjetër i grafikonit që quhet scatterplot, i cili përdor dy matje përmbledhëse të reja, korelacionin dhe kovariancën.

Këto matje mund të aplikohen në çfardo variable që paraqitet numerikisht.

Megjithatë, këto janë të përshtatshme vetëm për variabla të vërteta numerike, jo për variabla kategorike të cilat janë koduar numerikisht.

Page 12: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Scatterplot-i

Scatterplot-i është një shpërndarje e pikave,

ku secila pikë paraqet vlerat e një vëzhgimi

për dy variabla të përzgjedhura.

Kjo është një metodë grafike për detektimin e

marrëdhënieve ndërmjet dy variablave numerike.

Dy variablat zakonisht etiketohen si X dhe Y,

prandaj scatterploti ndonjëherë quhet edhe X-Y

chart (grafiku X-Y).

Qëllimi i scatterplotit është të bëjë të qartë

egzistimin apo mos-egzistimin e marrëdhënies.

Page 13: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Statistikat mbi Golf PGA Tour

Objektivi: Përdorimi i scatterplotit për kërkimin

e marrëdhënieve në të dhënat mbi golfin.

Zgjidhja: Data seti përfshin një vëzhgim mbi

secilin prej top 200 përfituesëve në PGA Tour.

Page 14: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Statistikat mbi Golf PGA Tour

Page 15: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Statistikat mbi Golf PGA Tour

Page 16: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Statistikat mbi Golf PGA Tour

Page 17: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Statistikat mbi Golf PGA Tour

Page 18: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Trend Linjat në Scatterplote

Kur veçse kemi një scatterplot, Excel® na

mundëson të mbivendosim mbi skaterplot një

nga disa trend linja (linja të prirjes apo

tendencës).

Trend linja është një linjë apo lakore e cila “i

përshtatet” më së miri shpërndarjes (scatter).

Kjo mund të jetë një linjë e drejtë ose një nga disa

llojet e ndryshme të lakoreve.

Page 19: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Trend Linjat në Scatterplote

Për të shtuar trend linjën klikojmë mbi grafikon

me butonin e djathtë, zgjedhim Add Trendline,

dhe japim të dhënat.

Page 20: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Trend Linjat në Scatterplote

Page 21: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Korrelacioni dhe Kovarianca

Korrelacioni dhe kovarianca masin forcën dhe drejtimin e një marrëdhënie lineare ndërmjet dy variablave numerike. Marrëdhënia është “e fuqishme” nëse pikat

grumbullohen ngusht rreth një linje të drejtë. Nëse kjo linjë e drejtë ngritet prej të majtës nga e djathta,

marrëdhënia është pozitive dhe matjet do të jenë numra pozitiv.

Nëse bie prej të majtes nga e djathta, marrëdhënia është negative dhe matjet do të jenë numra negativ.

Dy variablat numerike duhet të jenë variabla “të çiftëzuara”. Ato duhet të kenë të njëjtin numër të vëzhgimeve dhe vlerat

për cilindo vëzhgim duhet të çiftëzohen.

Page 22: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Korrelacioni dhe Kovarianca

Kovarianca në thelb është mesatarja e

produktit të devijimeve prej mesatares (mean).

Excel® ka funksionin e integruar COVAR dhe

StatTools poashtu llogarit automatikisht

kovariancën.

Kovarianca ka limitime serioze si matje

përshkruese sepse është shumë e ndjeshme

ndaj njësive me të cilat matet X dhe Y.

Page 23: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Korrelacioni dhe Kovarianca

Korrelacioni është një sasi pa njësi e cila nuk ndikohet nga shkalla e matjes.

Korrelacioni është gjithmonë ndërmjet -1 dhe +1.

Sa më afër këtyre dy ekstremeve që është, aq më afër drejtëzës janë pikat në skaterplot.

Excel® ka funksionin e integruar CORREL, dhe StatTools poashty llogarit automatikisht korrelacionin.

Page 24: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Korrelacioni dhe Kovarianca

Tri çështje të rëndësishme mbi scatterplotet,

korrelacionet, dhe kovariancat:

Korrelacioni është një numër i vetëm

përmbledhës i një skaterploti. Asnjëherë nuk

përcjell informata aq sa vetë scatterploti.

Zakonisht kërkojmë korrelacione të mëdha, ato

afër -1 ose +1.

As nuk provojmë të interpretojmë kovariancat

numerikisht, vetëm shikojmë a janë positive apo

negative. Korrelacionet janë ato që përdoren për

qëllime interpretuese.

Page 25: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Statistikat mbi Golf PGA Tour

Page 26: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Statistikat mbi Golf PGA Tour

Page 27: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Pivot Tabelat

Pivot tabela është një vegël në Excel® e cila

na lejon të shpërbëjmë të dhënat nëpër

kategori.

Ndonjëherë pivot tabelat përdoren për të

paraqitur tabelat me numërime, që shpesh

quhen crosstabs.

Megjithatë, crosstabs zakonisht japin vetëm

numërimet, kurse pivot tabelat japin

numërimet, shumat, mesataret dhe matjet e

tjera përmbledhëse.

Page 28: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Porositë e klientëve në Elecmart

Objektivi: Përdorimi i pivot tabelave për të shpërbërë të dhënat e porosive të klientëve sipas një numri të variablave kategorike.

Zhgjidhja: Data seti përmban të dhëna për 400 porosi të bëra gjatë disa muajve në kompaninë Elecmart.

Page 29: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Porositë e klientëve në Elecmart

Page 30: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Porositë e klientëve në Elecmart

Page 31: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Porositë e klientëve në Elecmart

Page 32: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Porositë e klientëve në Elecmart

Katër fusha me rëndësi:

Filterët

Kolonat

Rreshtat

Vlerat

Page 33: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Porositë e klientëve në Elecmart

Detajet në laborator

Page 34: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Fshehja e kategorive (Filtrimi)

Detajet në laborator

Page 35: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Ndërrimi i lokacioneve të fushave (Pivoting)

Detajet në laborator

Page 36: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Ndërrimi i lokacioneve të fushave (Pivoting)

Detajet në laborator

Page 37: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Ndryshimi i cilësimeve të fushave

Detajet në laborator

Page 38: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Pivot grafikonet

Pivot tabelat lehtë shoqërohen me pivot grafikone.

Ky lloj i grafikonit automatikisht i adaptohet pivot tabelës për të cilën krijohet.

Detajet e krijimit të zhvillohen në laborator.

Page 39: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Disa variabla në fushen e vlerave

Në fushën e vlerave mund të vendosën më shumë se një variabël e vetme.

Poashtu, një variabël e dhënë mund të përmblidhet me më shumë se një funksion përmbledhës.

Page 40: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Disa variabla në fushen e vlerave

Page 41: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Përmbledhja me nummërim

Variabla në fushën e vlerave mund të

përbledhen me funksionin Count

Kjo është e dobishme kur duam të dime, psh sa

porosi janë bërë nga femrat në rajonin e Jugut.

Page 42: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Grupimi

Kategoritë në variablat e Rreshtave apo Kolonave mund të grupohen.

Të supozojmë që duam të përmbledhim Shumën e Kostos Totale sipas datës. Fillojmë me pivot tabelë të zbrazët, në Pivottable

Fileds selektojmë Date dhe Total Cost.

Pastaj shypim cilëndo datë me butonin e djathtë dhe selektojmë Group.

Page 43: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Tipare të tjera të Pivot Tabelës

Paraqitja/Fshehja e nëntotaleve dhe grand totaleve

Përpunimi me rreshtave të zbrazët, dmth kategoritë pa të dhëna

Paraqitja e të dhënave prapa një numri të dhënë në pivot tabelë

Formatimi i pilot tabelës me stile të ndryshme

Lëvizja apo riemërimi i pivot tabelave

Rifreskimi i pivot tabelave me ndryshimin e të dhënave themelore

Krijimi i formulave për fushat kalkuluese ose artikujt kalkulues

Krijimi i pivot tabelave duke u bazuar në të dhëna të jashtme (databaza)

Page 44: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Darkat me Lasagna të ngrirë

Objektivi: Përdorimi i pivot tabelave për të hulumtuar cilat variabla demografike ndihmojnë për të bërë dallimin ndërmjet atyre që kanë provuar llazanja edhe jo.

Solution: Data seti përmban të dhëna mbi 800 klientë ppotencial të marra nga një kompani që shet llazanja të ngrirë.

Krijimi një një pivot tabele që tregon numërimet e atyre që kanë provuar dhe atyre qe nuk kanë provuar llazanjën me kategori të ndryshme të variablave.

Page 45: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Shembull: Darkat me Lasagna të ngrirë

Page 46: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Slicers dhe Timelines

Prej Excel® 2010, Microsofti ka shtuar dhe

slicers—lista të vlerave të veçanta të cilësdo

variabël, që mund të përdoret pastaj për filtrim.

Shtimi i slicer-it bëhet nga shiriti Analyze/Options

te PivotTable Tools.

Prej Excel® 2013, është shtuar edhe tipari

Timeline. Ky është sikur slicer por është krijuar

specifikisht për filtrimin e variablave të tipit

date.

Page 47: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Slicers dhe Timelines

Page 48: Pjesa 3 Gjetja e marrëdhënieve ndërmjet variablave Prof. Ass ... e të dhënave 3...numerike Për studimin e marrëdhënieve ndërmjet variablave numerike përdoret një lloj

Më shumë detaje në laborator.

Pyetje???