statistica-curs sem ii

14
Statistica Sociala Curs Blackboard sem. II, anul I Fac. de Sociologie-Psihologie LECłIA 1 . GRUPAREA DATELOR Să presupunem că s-au înregistrat notele obŃ inute de studenŃii anului II la examenul de statistică socială. Rezultatele sunt prezentate aceste date grupat astfel: Nota 1 2 3 4 5 6 7 8 9 10 Nr. stud. 0 1 2 5 10 25 31 25 15 6 Din aceste date putem trage unele concluzii privind nivelul de pregătire şi de prezentare la examen a studenŃilor.Analiza statistică a unui fenomen, în raport cu o singură caracteristică conduce la prezentarea unei serii de perechi de valori, pe care o vom numi serie statistică. În cazul caracteristicilor calitative, prima valoare a perechii din seria statistică nu mai este numerică. Exemplu: Să consider ăm drept exemplu distribuŃ ia după caracteristica sex a unei populaŃ ii statistice: Sex Masculin Feminin Total Nr. unit. statistice 86 94 180 De asemenea, distribuŃ ia după caracteristica grupei de vârstă a unei populaŃii active în câmpul muncii, ar genera o serie statistică a cărei primă valoare este cuprinsă între 18 şi 62 ani. Vârsta 18 19 20 ............................................. 62 Nr. unit. statistice ................................................................ Din motive practice se pot face grupări pe intervale mai mari ale vârstei subiecŃilor, de exemplu din 5 în 5 ani sau din 10 în 10 ani, astfel: Grupe de vârstă 18 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 62 Nr. unit. statistice Istoria Psihologiei curs sem II-Blackboard 1

Upload: dannaaaa676

Post on 02-Jul-2015

285 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistica-Curs Sem II

Statistica Sociala Curs Blackboard sem. II, anul I Fac. de Sociologie-Psihologie

LECłIA 1 . GRUPAREA DATELOR

Să presupunem că s-au înregistrat notele obŃinute de studenŃii anului II la examenul de statistică socială. Rezultatele sunt prezentate aceste date grupat astfel:

Nota 1 2 3 4 5 6 7 8 9 10 Nr.

stud. 0 1 2 5 10 25 31 25 15 6

Din aceste date putem trage unele concluzii privind nivelul de pregătire şi de prezentare la examen a studenŃilor.Analiza statistică a unui fenomen, în raport cu o singură caracteristică conduce la prezentarea unei serii de perechi de valori, pe care o vom numi serie statistică. În cazul caracteristicilor calitative, prima valoare a perechii din seria statistică nu mai este numerică.

Exemplu: Să considerăm drept exemplu distribuŃia după caracteristica sex a unei populaŃii statistice:

Sex Masculin Feminin Total Nr. unit. statistice

86 94 180

De asemenea, distribuŃia după caracteristica grupei de vârstă a unei populaŃii active în câmpul muncii, ar genera o serie statistică a cărei primă valoare este cuprinsă între 18 şi 62 ani.

Vârsta 18 19 20 .............................................62 Nr. unit. statistice

................................................................

Din motive practice se pot face grupări pe intervale mai mari ale vârstei subiecŃilor, de exemplu din 5 în 5 ani sau din 10 în 10 ani, astfel:

Grupe de vârstă

18 - 20

21 - 30

31 - 40

41 - 50

51 - 60

61 - 62

Nr. unit. statistice

Istoria Psihologiei curs sem II-Blackboard 1

Page 2: Statistica-Curs Sem II

II. FRECVENłĂ ABSOLUTĂ. FRECVENłĂ RELATIVĂ. FRECVENłE CUMULATE

Numim frecvenŃă absolută a unei valori a caracteristicii numărul de unităŃi ale populaŃiei statistice corespunzătoare acelei valori. De exemplu, în tabela distribuŃiei după caracteristica sex, valoarea 86 reprezintă numărul persoanelor masculine sau frecvenŃa absolută respectivă. Analog, 94 reprezintă frecvenŃa absolută sau numărul persoanelor de sex feminin.

Suma frecvenŃelor absolute ale tuturor valorilor caracteristicii este egală cu totalul populaŃiei statistice.

Numim frecvenŃă relativă a unei valori m a caracteristicii raportul dintre frecvenŃa absolută a valorii respective m a caracteristicii şi totalul populaŃiei statistice. Vom scrie:

f =

unde:

m

n

f -este frecvenŃa valorii respective a caracteristicii; m -este frecvenŃa absolută a acestei valori; n -este totalul populaŃiei statistice. Revenind la exemplul anterior, frecvenŃele relative vor fi:

f1 = 86

180 =0,48 sau 48%

f2 = 94

180 =0,52 sau 52%

Tabela respectivă devine:

Masculin Feminin 0 ,48 0,52

Seria statistică asociată unei caracteristici statistice se poate asocia cu distribuŃia unei variabile aleatoare, care, reamintim, este un tabel de forma:

x 1 x 2 x n

p 1 p 2 p n

în care x1, x2,... ....... .xn sunt valorile aleatoare corespunzătoare cu probabilităŃile p1, p2,... ... ...pn.

Evident, avem că p1 + p2 +... ......+ pn = 1

Istoria Psihologiei curs sem II-Blackboard 2

Page 3: Statistica-Curs Sem II

De multe ori, putem folosi termenul de variabilă statistică în loc de caracteristică.

Numim frecvenŃă absolută cumulată a unei valori x a variabilei statistice, suma frecvenŃelor absolute ale tuturor valorilor variabilei care apar până la valoarea x inclusiv.

Istoria Psihologiei curs sem II-Blackboard 3

Page 4: Statistica-Curs Sem II

III. REPREZENTAREA GRAFICĂ A SERIILOR STATISTICE

Să considerăm distribuţia investiţiilor în câteva sectoare ale economiei naţionale:

Sectorul Investiţii procentuale

A...........................................................................................…5,5% B.........................................................................................…..14,5% C...............................................................................................20% D...............................................................................................25% E................................................................................................35%__________________________________________________________Total investiţii 100%

25%

20%

14.50%

5.50%

35%

Reprezentarea grafică corespunzătoare poartă denumirea de diagramă.Seriile cu caracteristică cantitativă se reprezintă grafic în raport cu un sistem de axe. Astfel, distribuţia de

mai sus poate fi reprezentată grafic prin mai multe feluri:a) Reprezentarea prin batoane

0

10

20

30

40

A B C D E F

b) Reprezentarea prin histograme

0

10

20

30

40

1 2 3 4 5 6

Istoria Psihologiei curs sem II-Blackboard 4

Page 5: Statistica-Curs Sem II

În cazul reprezentărilor spaţiale se utilizează cartodiagramele. Diagramele în cerc sau dreptunghiulare se mai numesc diagrame de structură.

Histogramele se utilizează în cazul seriilor cu intervale egale. Ulterior se poate construi poligonul frecvenţelor.

Dacă unim punctele poligonului de frecvenţă printr-o curbă oarecare, obţinem curba frecvenţelor sau curba de distribuţie.

FORMA DISTRIBUŢIILOR CU O CARACTERISTICĂ

1. Distribuţii simetrice. Se prezintă sub forma unui clopot. Cele mai răspândite distribuţii simetrice sunt distribuţiile normale care urmează legea normală de probabilitate studiată de Laplace şi K. J. Gauss.

2. Distribuţii uşor asimetrice.3. Distribuţii pronunţat asimetrice.4. Distribuţii în formă de J.5. Distribuţii în formă de U.

Istoria Psihologiei curs sem II-Blackboard 5

Page 6: Statistica-Curs Sem II

IV. ELEMENTE CARACTERISTICE ALE UNEI

SERII STATISTICE

Vom numi valoare centrală a unei clase de variaŃie media

aritmetică a extremităŃilor acestei clase.

Modul sau dominanta unei serii statistice este valoarea

caracteristicii corespunzătoare celei mai mari frecvenŃe.

Mediana unei serii este un număr x cu proprietatea că există

atâtea unităŃi statistice corespunzătoare valorilor mai mici decât x, cât

şi cele corespunzătoare valorilor mai mari decât x.

Media aritmetică. Dacă x1, x2,... ..xn sunt n valori, atunci

media aritmetică a lor este:

x1 + x 2 + + x n

n În cazul distribuŃiei variabilei x:

Valori x1 x2...............................................xn

FrecvenŃe y1 y2................................................yn

Valoarea medie a variabilei respective este:

x 1y1 + x 2 y2 + + x n yn x =

dacă N = y1 + y2 +..

y 1 + y 2 + + y n

+.yn este totalul populaŃiei, atunci:

Istoria Psihologiei curs sem II-Blackboard 6

Page 7: Statistica-Curs Sem II

unde f i =

y i

N

x = x 1 f 1 + x 2 f 2 + + x n f n

, i = 1, 2, … , n.

DISPERSIA

Fiind date n valori x1, x2,...

dispersia acestor valori, mărimea:

2 1 n σ = ∑ (

n i = 1

..xn cu media x , numim

2 x i −x ) ,

iar mărimea σ = σ 2 se numeşte abaterea medie pătratică.

Abaterea medie pătratică indică gradul de împrăştiere a valorilor în

jurul mediei aritmetice. Din inegalitatea lui Cebişov rezultă că în

intervalul

[x − 2σ , x + 2σ ]

se află mai mult de 3/4 din numărul abaterilor.

Istoria Psihologiei curs sem II-Blackboard 7

Page 8: Statistica-Curs Sem II

V. VARIABILE ALEATOARE

O variabilă aleatoare este un tabel de forma:

x 1 x 2 xn X :

p 1 p 2 pn

unde xi sunt valorile pe care le poate lua variabila x cu probabilităŃile pi. În plus, este îndeplinită conotaŃia:

p1 + p2 + ... ...pn = 1

Pot exista variabile aleatoare diferite cu aceeaşi distribuŃie.

OperaŃii cu variabile aleatoare

Dacă

X :

x 1 x 2 x m , Y

p p p 1 2 m

y 1 y 2 y n : şi a o q q q 1 2 n

constantă reală, atunci se definesc v.a. Următoare:

aX :

ax 1 ax 2 ax n ;

p 1 p 2 p n

a + x 1 a + x 2 a + x n a + X : ;

p 1 p 2 p n

Istoria Psihologiei curs sem II-Blackboard 8

Page 9: Statistica-Curs Sem II

X + Y :

x 1 +

p

y 1 x 2 + y 2 x m + y n

11 p 12 p mn

unde pij este probabilitatea realizării simultane a evenimentelor X = xi, Y = yj

XY :

x 1 y 1 x 2 y 2 x m y n

p p p 11 12 mn

unde pij este definit ca mai sus.

Variabile aleatoare independente

V.a. X şi Y sunt independente dacă evenimentele X = xi şi Y = yj sunt independente pentru toate cuplurile i şi j.

Putem scrie: pij = P( X = xi , Y = yj ) = P ((X = xi) (Y = yj) ) = P(X = xi)P(Y = yj) = piqj

Valoarea medie a unei v.a.

Valoarea medie a v.a. X este: M(X) = m = x = p1x1 + p2x2 + … + pnxn

Numim moment de ordin k al v.a. X, valoarea medie a v.a. Xk: Mk(X) = M(Xk) = p1x1k + … + pnxnk

Variabila X-M(X) se numeşte abaterea de la medie a v.a. X Cel mai bun indicator al împrăştierii unei v.a. este dat de expresia: M[(X-m)2] Care este un moment centrat de ordinul al doilea numit dispersia v.a. X

Istoria Psihologiei curs sem II-Blackboard 9

Page 10: Statistica-Curs Sem II

σ 2 σ =

= D2(X)= M[(X-m)2] ,

2 2 σ = D(X) = M ( X )

m = M(X)

2 −M ( X )

se numeşte abatere medie pătratică.

Inegalitatea lui Cebîşev:

P(|X-m| < ε) ≥ 1 - σ

ε

2

2

Unde m = M(X) iar σ2 este dispersia v.a. X

CovarianŃa a 2 v.a. X şi Y este coeficientul

µ XY = M[(X − X)(Y − Y)] = M(XY) − M(X) ⋅ M(Y)

Coeficientul de corelaŃie a 2 v.a. X şi Y este

µ XY M(XY) − M(X) ⋅ M(Y) ρ XY = =

σ σ 2 2 2 2 X Y M(X ) − M (X) ⋅ M(Y ) − M (Y)

ProprietăŃi:

1) -1 ≤ ρXY ≤ 1 2) Dacă ρ = ± 1 între v.a. X şi Y există o dependenŃă liniară. Astfel:

σ y - M(Y) =

σ

σ y - M(Y) = -

σ

Y

( X - M(X)) , (cazul ρ = 1) X

Y

( X - M(X)) , (cazul ρ = -1) X

Istoria Psihologiei curs sem II-Blackboard 10

Page 11: Statistica-Curs Sem II

3) Dacă v.a. X şi Y sunt independente, atunci ρXY = 0

Coeficientul de variaŃie (sau de împrăştiere)

V =

σ X

M ( X )

Istoria Psihologiei curs sem II-Blackboard 11

Page 12: Statistica-Curs Sem II

VI. CORELAłIA RANGURILOR

Fie n unităŃi statistice A1, A2, … , An fiecare fiind definită prin 2 caracteristici:

(x1, y1) , (x2, y2) , … , (xn, yn)

Ne punem problema existenŃei unei corelaŃii între aceste caracteristici.

Coeficientul de corelaŃie a rangurilor al lui Spearman:

ρ = 1 −

ProprietăŃi: -1 ≤ ρ ≤ 1

6 ∑ d 2

n ( n −

2 i

, (n > 1) 1 )

Coeficientul de corelaŃie a rangurilor al lui Kendall

r = 2 ( P −Q )

n ( n −1 ) unde P este un indicator al concordanŃei pozitive, iar Q un indicator al concordanŃei negative.

CoeficienŃi de corelaŃie parŃială şi multiplă

Dacă X :

x i y i z i , Y : , Z :

p q r i i i

sunt 3 v.a. şi m11=M(x-m1)2 ;

m12 = M(x-m1)(y-m2) , m22=M(x-m2)2, atunci

ρ 12 =

m 12

m 11 m 22

este coeficientul de corelaŃie parŃială între variabilele X şi Y. În mod analog se defineşte ρ23 şi ρ31.

Istoria Psihologiei curs sem II-Blackboard 12

Page 13: Statistica-Curs Sem II

CorelaŃia dintre variabila X şi grupul Y şi Z se stabileşte de către coeficientul de corelaŃie multiplu:

ρ 1 . 23 = 1−

unde

M

m 11 M 11

M =

m 11

m 21

m 31

m 12 m 13

m 22 m 23

m 32 m 33

iar M este minorul elementului mij din |M|ij

În mod analog, ρ 2 . 31 = 1−

M

m 22 M 22

M şi ρ 3 . 12 = 1−

m 33 M 33

Coeficientul multiplu între variabilele Xi şi grupul (X1, … , Xi-1, Xi+1, … , Xn) este dat de formula:

M ρ i ; 1 , 2 ,..., i −1 , i + 1 ,..., n = 1−

m ii M ii

ANALIZA DE REGRESIE

Fie o distribuŃie teoretică discretă de 2 variabile bidimensionale, X şi Y de repartiŃii

X :

şi P(X=ai , Y=bj)

a i b j , Y :

p i q j

Istoria Psihologiei curs sem II-Blackboard 13

Page 14: Statistica-Curs Sem II

Se pune problema determinării parametrilor α şi β astfel încât:

M(Y-αX-β)2 = min

sau

n n

∑ ∑ p ij (b j − α ai − β )2 = minim i= 1 j = 1

analiza de regresie rezolvă această problemă a minimizării sau a găsirii dreptelor de cea mai bună aproximare, obŃinându-se dreptele de regresie:

σ X y - M(Y) = ρ ( X - M(X)) şi

σ Y

σ Y y - M(Y) = ρ ( X - M(X))

σ X

cu centrul de greutate: (M(X), M(Y))

“””Copied from Blackboard Academic Suite-Universitatea Spiru Haret///All rights reserved to Universitatea Spiru Haret///copied by [email protected]”””

Istoria Psihologiei curs sem II-Blackboard 14