reprezentări grafice - brudiuileana.brudiu.ro/mvr/curs/07. statistica descriptiva - diagrame si...
TRANSCRIPT
Reprezentări grafice
graficul de tip coloană
grafic de tip bară
histograma
poligonul de frecvenţe
graficul frecvenţei cumulate
graficul circular
graficul linie
graficul boxplot
graficul scater plot
″o imagine bună este mai utilă ca o mie de cifre ″
Graficul de tip coloană
Este graficul care reprezintă prin bare verticale, frecvenţele unui tabel de frecvenţe pentru variabile calitative (date nominale) sau variabile ordinale.
Se utilizează atunci când dorim să reprezentăm o variabilă „discretă”.
Grafice stacked (stivuite) și 100%
stacked
• Stacked: valorile seriilor de date una peste alta
• 100% stacked: procentajul din intreg pentru fiecare
serie de date, tot una peste alta
Stacked columns vs. 100% Stacked columns Coloane suprapuse
Pe axa orizontală (Ox abscisa) sunt reprezentate valorile distribuţiei.
Pe axa verticală (Oy ordonata) sunt reprezentate frecvenţele fiecărei valori, sub forma unei bare. rectangulare
Graficul de tip bară
0
1
2
3
4
5
6
7
8
2 3 4 5 6 7 8 9 10
Axa Ox
Axa Oy
Valoare caracter studiat Xi
Frecvenţa de
apariţie fa
2
1 3
0 4
4 5
1 6
7 7
3 8
5 9
2 10
2 Total
fa=25
Histograma vs. Graficul coloană
Grficul coloană este utilizat atunci când caracteristica
studiată este cantitativă discretă
Histograma (grafic coloană fără spații înte bare
(gaps)) este utilizat atunci când caracteristica
studiată este cantitativă continuă.
0
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5 6 7 8 9 10 11
Grafic coloană Nr purcei la fatare
0
1
2
3
4
5
6
7
8
9
10
850 875 900 925 950 975 1000 1025 1050 1075 1100 1125
Grafic coloană -HISTOGRAMĂ
GAP
Histograma
Histograma este de fapt echivalentul grafic al tabelului de frecvenţe.
Se folosește atunci când variabila pe care dorim să o reprezentăm este de tip „continuu” (adică poate lua orice valoare pe o scală numerică, de ex., procentul de grăsime în lapte)
Se aseamănă cu diagrama coloană (nu există distanța între coloane)
Histogramă
0
500
1000
1500
2000
2500
2,5
-2,6
9
2,7
- 2
,89
2,9
- 3
,09
3,1
0 -
3,2
9
3,3
0 -
3,4
9
3,5
- 3
,69
3,7
0 -
3,8
9
3,9
0 -
4,0
9
4,1
0 -
4,2
9
4,3
0 -
4,4
9
Clase
Limitele de clasă
Frecvenţa absolută
2,5 -2,69
4 2,7 - 2,89
32
2,9 - 3,09
225 3,10 - 3,29
856
3,30 - 3,49
1855 3,5 - 3,69
2143
3,70 - 3,89
1250 3,90 - 4,09
412
4,10 - 4,29
64 4,30 - 4,49
9
Histograma
Se oservă că pe orizontală sunt figurate clasele din tabel în ordine, fiecăreia fiindu-i alocat un segment de aceeaşi lungime, iar pe verticală, dreptunghiurile au înălţimi proporţionale cu frecvenţele absolute ale claselor.
Influenţa lungimii claselor asupra aspectului unei histograme
Histograme construite pe un lot de 738 de pacienţi, la care s-a măsurat hemoglobina.
Se observă că lungimi prea mari (din 5 în 5, din 4 în 4, din 3 în 3, din 2 în 2 şi din 1,5 în 1,5) dau histograme care ascund distribuţia.
Lungimi prea mici (din 0,5 în 0,5, din 0,25 în 0,25) dau prea multe detalii inutile.
Cele mai potrivite lungimi în acest caz sunt din 1 în 1 şi din 0,75 în 0,75.
Poligonul de frecvenţe
Este o reprezentare alternativă la histogramă.
Punctele centrale ale suprafeţelor rectangulare care reprezintă frecvenţa sunt unite cu o linie care delimitează suprafaţa poligonului.
Poligonul de frecvenţe
0
500
1000
1500
2000
2500
2,5
-2,6
9
2,7
- 2
,89
2,9
- 3
,09
3,1
0 -
3,2
9
3,3
0 -
3,4
9
3,5
- 3
,69
3,7
0 -
3,8
9
3,9
0 -
4,0
9
4,1
0 -
4,2
9
4,3
0 -
4,4
9
Clase
Limitele de clasă
Frecvenţa absolută
2,5 -2,69
4 2,7 - 2,89
32
2,9 - 3,09
225 3,10 - 3,29
856
3,30 - 3,49
1855 3,5 - 3,69
2143
3,70 - 3,89
1250 3,90 - 4,09
412
4,10 - 4,29
64 4,30 - 4,49
9
Poligonul
frecvenţelor
Este un grafic care reprezintă frecvenţele absolute dintr-un tabel de frecvenţă printr-o linie frântă.
Clasele se realizează ca şi la histogramă. Linia frântă, leagă puncte din plan care au ca ordonate frecvenţele de reprezentat, iar ca abscise, mijloacele claselor.
Graficul se poate realiza şi din histogramă, prin unirea mijloacelor laturilor superioare ale barelor
Modul cum se obţine poligonul frecvenţelor din histogramă.
ATENŢIE! Graficul histogramă şi graficul poligonul frecvenţelor, conţin exact aceeaşi cantitate de informaţie, dacă au la bază acelaşi tabel de frecvenţe.
Graficul frecvenţei cumulate
Este un grafic de tip liniar care reprezintă valorile frecvenţei absolute cumulate
Graficul frecvenţei cumulate
0
1000
2000
3000
4000
5000
6000
7000
8000
2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 4,4
Clase
Limitele de clasă
Frecvenţă cumulată
2,5 -2,69
4
2,7 - 2,89
36
2,9 - 3,09
261
3,10 - 3,29
1117
3,30 - 3,49
2972
3,5 - 3,69
5115
3,70 - 3,89
6365
3,90 - 4,09
6777
4,10 - 4,29
6841
4,30 - 4,49
6850
Grafic de tip bară
0 2 4 6 8
2
3
4
5
6
7
8
9
10
fa
Bare
Stacked bar
100% Stacked bar
Graficul Pie
Este un grafic care reprezintă prin sectoare circulare frecvenţele dintr-un tabel de frecvenţă. Sectoarele sunt proporţionale ca număr de grade cu frecvenţele absolute din tabel, sau cu frecvenţele relative.
Graficul Pie (circular)
Este utilizat în situaţiile în care valorile sunt „parte a unui întreg”.
Se folosește numai pentru o serie de date.
Limitele de
clasă
Frecvenţa relativă
probabilitatea 2,5 -2,69
0,01
2,7 - 2,89
0,5 2,9 - 3,09
3,3
3,10 - 3,29
12,5 3,30 - 3,49
27,1
3,5 - 3,69
31,3 3,70 - 3,89
18,2
3,90 - 4,09
6,00 4,10 - 4,29
0,9
4,30 - 4,49
0,1
Graficul circular
12,50%6,01%
27,08%
18,25%
31,28%
0,93%0,13%
0,47% 3,28%
0,06%
Graficul linie
Un grafic linie se folosește pentru a reprezenta grafic variabile cantitative continue.
36
36,2
36,4
36,6
36,8
37
37,2
37,4
37,6
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12
Pacient 1
Reprezentarea mai multor serii de valori
36
36,5
37
37,5
38
38,5
39
39,5
40
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12
Pacient 1 Pacient 2 Pacient 3 Pacient 4
Temperatura Colesterolemia t1 36,8 150 t2 36,5 180 t3 36,6 200 t4 36,8 221 t5 37 210 t6 37,2 200 t7 37,5 190 t8 37 195 t9 37,2 220 t10 37,5 230 t11 36,8 200 t12 36,5 190
36
36,2
36,4
36,6
36,8
37
37,2
37,4
37,6
100
120
140
160
180
200
220
240
1 2 3 4 5 6 7 8 9 10 11 12
Colesterolemia
Temperatura
Grafic cu două axe y
Buline
Diagrama box plot
O diagramă de tip boxplot reflectă grafic rezumarea prin cele 5 valori a unei distribuţii: valoarea minimă, prima quartilă, mediana, a treia quartilă şi valoarea maximă.
Graficul Scatter (Graficul punctual, Graficul de corelaţie)
Este un grafic care:
Reprezintă valorile a doi parametri măsuraţi la mai
mulţi pacienţi
Reprezintă fiecare pacient printr-un punct
Pe abscisă (orizontală) este reprezentat unul din
parametri
Pe ordonată (verticală) este reprezentat celălalt
parametru, la acelaşi pacient
Valorile bilirubinei totale şi ale bilirubinei directe la 521 de pacienţi cu ciroze hepatice şi cancer hepatic. Se observă o corelaţie extrem de puternică, din forma norului de puncte care este extrem de alungit şi subţire
Nor de puncte - scatter
Graficul Scatter ne dă informaţii despre:
1. Corelaţia celor doi parametri de pe orizontală şi verticală
2. Omogenitatea eşantionului
3. Simetria distribuţiilor fiecăruia din cei doi parametri
4. Corelaţia fiecărui parametru cu vârsta pacienţilor
Diagramă radială arată timpul petrecut în
fiecare zi de către Andrei. Care este unghiul
sectorului de cerc reprezentat în diagrama
PIE alăturată pentru SPORT.
Munca 40%
Masă
8%
Somn 25%
Sport 14%
Distractie 7%
Igienă
personală
6%
Timp petrecut in activități zilnice
Graficul alăturat arată modul de transport a unor studenti la școală. Câti studenti contine eșantionul studiat?
0
1
2
3
4
5
6
7
Autobuz Taxi Bicicletă Tren Masină Mers pe jos
Transport
Nr studenți
Graficul alăturat prezintă modul în care populatia de delfini din Marea Neagră a scăzut pe parcursul perioadei de zece ani 2001 - 2010. Măsurătorile au fost luate la începutul fiecărui an. Care a fost declinul total al populatiei de delfini în perioada studiată.
0
10
20
30
40
50
60
70
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Anul
Populația
Grafice - de reținut!
Orice graphic va fi însoțit de informații statistice și descrierile necesare pentru a fi ușor și sorect înțeles.
Graficul trebuie să aibe un titlu, iar axele vor fi explicit etichetate.
Titlul și detaliile cu privire la reprezentarea grafică aparțin legendei – nu le includeți în figură.
Un grafic trebuie să scoată în evidență datele și nu abilitățile tehnice ale celui care l-a creat.
Evitați reprezentările 3D!
Dacă figura a fost publicată anterior specificați sursa de unde a-ți luat-o și obțineși de la autori sau de la casa de editură acorduș scris de acceptare al utilizării.
Concluzii.
Utilizarea tabelelor de frecvenţă şi a reprezentărilor grafice aduce un important câştig în analiza datelor statistice.
Tabele cât şi reprezentările grafice nu sunt decât începutul analizei datelor nu şi sfârşitul acesteia.
Nu se pot trage direct concluzii pe baza tabelelor de frecvenţă şi a reprezentărilor grafice.
Tabelele de frecvenţă şi reprezentările grafice, sunt utilizate pentru a ilustra concluzii, care devin astfel mai uşor de înţeles şi de reţinut.