regresie liniara˘ simpla.˘ regresie multipla˘eduard/capitolul 10. regresie.pdf · 2020. 8....

24
Regresie liniar˘ a simpl ˘ a. Regresie multipl˘ a Conf. dr. habil. Eduard Roten¸ stein 1 Motiva¸ tie Regresia este o metod˘ a statistic˘ a utilizat˘ a pentru descrierea naturii rela¸ tiei între variabile, stabilind modul prin care o variabil˘ a (aceasta va fi numit˘ a variabil˘ a dependent˘ a, sau variabila prezis˘ a) depinde de alt˘ a variabil˘ a, sau de alte variabile (acesta va fi variabil˘ a independent˘ a, ce poate fi manipulat˘ si care se mai reg˘ ase¸ ste în literatura de specialitate ¸ si sub numele de variabil˘ a predictor, stimul sau variabil˘ a comandat˘ a). Analiza regresional˘ a cuprinde tehnici de modelare ¸ si analiz˘ a a rela¸ tiei dintre aceste dou˘ a categorii de variabile. De asemenea, abordeaz˘ a chestiuni precum predic¸ tia valorilor viitoare ale variabilei r˘ aspuns pornind de la o variabil˘ a dat˘ a sau mai multe variabile stimul. Se poate preciza care dintre variabilele de plecare sunt importante în prezicerea variabilei aspuns. Exist˘ a multe variabile X ¸ si Y care ar p ˘ area s ˘ a fie legate unde de cealalt ˘ a, într-un mod care nu este determinist. Un exemplu poate fi dat de X =media din cei patru ani de liceu ¸ si Y =media ob¸ tinut˘ a la facultate. Valoarea lui Y nu poate fi determinat ˘ a doar din cunoa¸ sterea lui X , doi elevi putând ob¸ tine aceea¸ si valore pentru X dar valori diferite pentru Y: Cu toate acestea, exist ˘ a o tendin¸ a pentru acei studen¸ ti care au note liceale mici de a ob¸ tine note sc˘ azute la facultate. Cunoa¸ sterea rezultatelor liceale ar trebui s˘ a ne ajute s ˘ a putem prezice cum va face fa¸ a acea persoan˘ a la facultate. Alte exemple de variabile înrudite într-o manier˘ a nedeterminist˘ a includ X =vârsta unui copil ¸ si Y =con¸ tinutul vocabularului s˘ au, X =capacitatea unui motor ¸ si Y =eficien¸ ta combustibilului pentru un automobil echipat cu acest motor. Principiul dup ˘ a care se poate ob¸ tine variabila dependent ˘ a în func¸ tie de variabilele independente este asem ˘ an˘ a- tor celui întâlnit în Principiul program˘ arii dinamice al lui Bellman. Etapa decizional ˘ a const ˘ a înr-o stare de intrare (sau mai multe), o stare de ie¸ sire, o decizie ¸ si, eventual, o func¸ tie utilitate. Ïn cazul analizei regresionale, datele de intrare sunt informa¸ tiile x 1 ;x 2 ;:::;x m , care sunt prelucrate (în timpul prelucr˘ arii apar anumi¸ ti parametri de- cizionali, 1 ; 2 ;:::; k ), iar rezultatul final de ie¸ sire din sistem este înregistrat într-o singur˘ a variabila r ˘ aspuns, y. De asemenea,. pe parcursul prelucr˘ arii datelor, sau dup˘ a aceasta, pot ap ˘ area distorsiuni în sistem, de care putem ¸ tine cont dac˘ a introducem un nou parametru, care s˘ a cuantifice eroarea ce poate ap˘ area la observarea variabilei y. Se stabile¸ ste astfel o leg˘ atur˘ a între o variabil˘ a dependent˘ a, ysi una sau mai multe variabile independente, x 1 ;x 2 ;:::;x m , care, în cele mai multe cazuri, poate fi scris˘ a sub forma matematic ˘ a general ˘ a y = f (x 1 ;x 2 ;:::;x m ; 1 ; 2 ;:::; k )+ "; (1) unde 1 ; 2 ;:::; k sunt parametri reali necunoscu¸ ti a priori (denumi¸ ti parametri de regresiesi " este o perturba¸ tie aleatoare.De regul˘ a, " este o eroare de m˘ asur˘ a, considerat˘ a modelat˘ a printr-o variabil˘ a aleatoare normal˘ a de medie zero. Func¸ tia f se nume¸ ste func¸ tie de regresie. Dac˘ a aceasta nu este cunoscut˘ a a priori, atunci poate fi greu de determinat iar utilizatorul analizei regresionale va trebui s˘ a o intuiasc ˘ a sau s ˘ a o aproximeze utilizând metode de tip trial and error (prin încerc˘ ari). Dac˘ a avem doar o variabila independent˘ a (un singur x), atunci spunem a avem o regresie simpl˘ a. Regresia multipl˘ a face referire la situa¸ tia în care avem multe variabile independente, ecua¸ tia (1) putând fi scris ˘ a sub forma vectorial ˘ a y = f (x; )+ ": Pentru a o analiz ˘ a complet ˘ a a regresiei (1), va trebui sa intuim forma func¸ tiei f ¸ si apoi s ˘ a determin ˘ am (aprox- im˘ am) valorile parametrilor de regresie. În acest scop, un experimentalist va face un num˘ ar suficient de obser- va¸ tii (experimente statistice), în urma c˘ arora va aproxima aceste valori. Dac˘ a not˘ am cu n num˘ arul de experi- mente efectuate, atunci le putem contabiliza pe acestea în urm ˘ atorul sistem stochastic de ecua¸ tii: y i = f (x; )+ " i ; i =1; 2;:::;n: (2) În ipoteze uzuale, erorile sunt variabile aleatoare identic repartizate N 0; 2 , independente stochastic dou ˘ a câte dou ˘ a. Astfel, sistemul (2) are necunoscutele f j g j=1;2;:::;n ¸ si , deci, în total k +1 necunoscute. În cazul în care num˘ arul de experimente este mai mic decât num˘ arul parametrilor ce trebuie aproxima¸ ti (n k), atunci nu avem suficiente informa¸ tii pentru a determina aproxim˘ arile. Dac˘ a n = k +1, atunci problema se reduce la a rezolva n ecua¸ tii cu n necunoscute. În cel de-al treilea caz posibil, n>k +1, atunci avem un sistem compatibil, cu valori nedeterminate. În func¸ tie de forma func¸ tiei de regresie f , putem avea: regresie liniar˘ a simpl˘ a, în cazul în care avem doar o variabil˘ a independent ˘ si f (x; )= 0 + 1 x: regresie liniar˘ a multipl˘ a, dac ˘ a f (x; )= 0 + 1 x 1 + 2 x 2 + ::: + m x m : 1

Upload: others

Post on 02-Feb-2021

11 views

Category:

Documents


1 download

TRANSCRIPT

  • Regresie liniară simplă. Regresie multiplăConf. dr. habil. Eduard Rotenştein

    1 Motivaţie

    Regresia este o metodă statistică utilizată pentru descrierea naturii relaţiei între variabile, stabilind modul princare o variabilă (aceasta va fi numită variabilă dependentă, sau variabila prezisă) depinde de altă variabilă, sau dealte variabile (acesta va fi variabilă independentă, ce poate fi manipulată şi care se mai regăseşte în literatura despecialitate şi sub numele de variabilă predictor, stimul sau variabilă comandată). Analiza regresională cuprindetehnici de modelare şi analiză a relaţiei dintre aceste două categorii de variabile. De asemenea, abordeazăchestiuni precum predicţia valorilor viitoare ale variabilei răspuns pornind de la o variabilă dată sau mai multevariabile stimul. Se poate preciza care dintre variabilele de plecare sunt importante în prezicerea variabileirăspuns.

    Există multe variabileX şi Y care ar părea să fie legate unde de cealaltă, într-un mod care nu este determinist.Un exemplu poate fi dat de X =media din cei patru ani de liceu şi Y =media obţinută la facultate. Valoarea luiY nu poate fi determinată doar din cunoaşterea luiX , doi elevi putând obţine aceeaşi valore pentruX dar valoridiferite pentru Y: Cu toate acestea, există o tendinţă pentru acei studenţi care au note liceale mici de a obţine notescăzute la facultate. Cunoaşterea rezultatelor liceale ar trebui să ne ajute să putem prezice cum va face faţă aceapersoană la facultate. Alte exemple de variabile înrudite într-o manieră nedeterministă includ X =vârsta unuicopil şi Y =conţinutul vocabularului său,X =capacitatea unui motor şi Y =eficienţa combustibilului pentru unautomobil echipat cu acest motor.

    Principiul după care se poate obţine variabila dependentă în funcţie de variabilele independente este asemănă-tor celui întâlnit în Principiul programării dinamice al lui Bellman. Etapa decizională constă înr-o stare de intrare(sau mai multe), o stare de ieşire, o decizie şi, eventual, o funcţie utilitate. Ïn cazul analizei regresionale, datelede intrare sunt informaţiile x1; x2; : : : ; xm, care sunt prelucrate (în timpul prelucrării apar anumiţi parametri de-cizionali, �1; �2; : : : ; �k), iar rezultatul final de ieşire din sistem este înregistrat într-o singură variabila răspuns, y.De asemenea,. pe parcursul prelucrării datelor, sau după aceasta, pot apărea distorsiuni în sistem, de care putemţine cont dacă introducem un nou parametru, care să cuantifice eroarea ce poate apărea la observarea variabileiy. Se stabileşte astfel o legătură între o variabilă dependentă, y, şi una sau mai multe variabile independente,x1; x2; : : : ; xm, care, în cele mai multe cazuri, poate fi scrisă sub forma matematică generală

    y = f (x1; x2; : : : ; xm;�1; �2; : : : ; �k) + "; (1)

    unde �1; �2; : : : ; �k sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi " este o perturbaţiealeatoare.De regulă, " este o eroare de măsură, considerată modelată printr-o variabilă aleatoare normală demedie zero. Funcţia f se numeşte funcţie de regresie. Dacă aceasta nu este cunoscută a priori, atunci poate fi greude determinat iar utilizatorul analizei regresionale va trebui să o intuiască sau să o aproximeze utilizând metodede tip trial and error (prin încercări). Dacă avem doar o variabila independentă (un singur x), atunci spunemcă avem o regresie simplă. Regresia multiplă face referire la situaţia în care avem multe variabile independente,ecuaţia (1) putând fi scrisă sub forma vectorială y = f(x; �) + ":

    Pentru a o analiză completă a regresiei (1), va trebui sa intuim forma funcţiei f şi apoi să determinăm (aprox-imăm) valorile parametrilor de regresie. În acest scop, un experimentalist va face un număr suficient de obser-vaţii (experimente statistice), în urma cărora va aproxima aceste valori. Dacă notăm cu n numărul de experi-mente efectuate, atunci le putem contabiliza pe acestea în următorul sistem stochastic de ecuaţii:

    yi = f (x; �) + "i; i = 1; 2; : : : ; n: (2)

    În ipoteze uzuale, erorile sunt variabile aleatoare identic repartizateN�0; �2

    �, independente stochastic două

    câte două. Astfel, sistemul (2) are necunoscutele f�jgj=1;2;:::;n şi �, deci, în total k + 1 necunoscute.În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie aproximaţi

    (n � k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă n = k+ 1, atunci problemase reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz posibil, n > k+1, atunci avem un sistemcompatibil, cu valori nedeterminate.

    În funcţie de forma funcţiei de regresie f , putem avea:

    � regresie liniară simplă, în cazul în care avem doar o variabilă independentă şi f(x; �) = �0 + �1x:

    � regresie liniară multiplă, dacă f(x; �) = �0 + �1x1 + �2x2 + : : :+ �mxm:

    1

  • � regresie liniară multiplă, pentru două variabile, cu interacţiuni dacă f (x; �) = �0 + �1x1 + �2x2 + �11x21 +�12x1x2 + �22x

    22:

    � regresie polinomială, dacă f (x; �) = �0 + �1x+ �2x2 + �3x3 + : : :+ �kxk: Avem de a face cu regresie pătraticăpentru k = 2, regresie cubică pentru k = 3.

    � regresie exponenţială, când f (x; �) = �0e�1x:

    � regresie logaritmică, dacă f (x; �) = �0 � log�1 x:

    � regresie logistică, dacă f (x; �) = e�0+�1x=�1 + e�0+�1x

    �:

    În cadrul analizei regresionale, se cunosc datele de intrare, fxigi, şi căutăm să estimăm parametrii de regresief�jgj şi deviaţia standard a erorilor, �. Utilizăm pentru aceasta abordările:

    Dacă funcţia de regresie f este cunoscută (intuită): Dacă f nu este cunoscută (intuită):metoda verosimilităţii maxime metoda celor mai mici pătrate

    metoda celor mai mici pătrate metoda minimax

    metoda lui Bayes

    2 Regresia liniară simplă

    Este cel mai simplu tip de regresie, în care avem o singură variabilă independentă, x, şi variabila dependentăy. Să presupunem că se cunoaşte familia de date bidimensionale f(xi; yi)gi=1;2;:::;n. Reprezentăm grafic acestedate într-un sistem xOy şi observăm o dependenţă aproape liniară a lui y de x. Dacă valoarea coeficientului decorelaţie liniară, r, este aproape de 1 sau �1 (indicând o corelaţie liniară strânsă, pozitivă sau negativă), atuncise pune problema idnetificării unei relaţii numerice exacte între x şi y de forma

    y = �0 + �1x: (3)

    Această dreaptă se numeşte dreapta de regresie a lui y în raport cu x. De cele mai multe ori, datele reale nuurmează o relaţie perfectă de legătură, situaţie în care parametrii din dependenţa liniară trebuie a fi estimaţi.Aşadar, va trebui să ţinem cont şi de eventualele perturbaţii din sistem. Putem presupune astfel că dependenţalui y de x este de forma

    y = �0 + �1x+ "; (4)

    cu " � N�0; �2

    �.

    Plecând de la observaţiile f(xi; yi)gi=1;2;:::;n, trebuie să găsim o dreaptă ce se apropie cel mai mult de acestedate statistice. Cu alte cuvinte, va trebui să estimăm valorile parametrilor de regresie �0 şi �1. Înlocuind datelebidimensionale în (4), avem următorul sistem:

    yi = �0 + �1xi + "i; i = 1; 2; : : : ; n; (5)

    unde "i � N�0; �2

    �; pentru fiecare i şi sunt independente stochastic.

    Deoarece"i = yi � (�0 + �1xi) ; i = 1; 2; : : : ; n;

    putem interpreta "i ca fiind erorile de aproximare a valorilor observate yi cu cele prezise de dreapta de regresie(adică de valorile �0 + �1xi). Ţinând cont că "i � N (0; �) şi �0; �1 sunt valori deterministe, din (5) rezultă că(notăm cu Yi variabila de selecţie corespunzătoare valorii empirice yi):

    Yi � N��0 + �1xi; �

    2�; pentru fiecare i,

    Pentru estimarea parametrilor �0; �1 şi � vom aplica metoda verosimilităţii maxime. Considerăm. pentruaceasta, funcţia de verosimilate:

    L (�0; �1; �) =1

    �n (2�)n=2

    exp

    � 12�2

    nXi=1

    (yi � �0 � �1xi)2!:

    Problema de maximizare ce trebuie rezolvată este următoarea:

    max�0;�1;�

    L (�0; �1; �) :

    2

  • Cum L şi lnL au aceleşi puncte de maxim, condiţiile pentru obţinerea punctelor critice (impuse pentru lnL)sunt: 8>>>>>>>>>>>>>>>>>:

    @ lnL@�0

    =1

    2�2

    nXi=1

    (yi � �0 � �1xi) = 0;

    @ lnL@�1

    =1

    2�2

    nXi=1

    (yi � �0 � �1xi)xi = 0;

    @ lnL@�

    = �n�+1

    �2

    nXi=1

    (yi � �0 � �1xi)2 = 0:

    Rezolvând primele două ecuaţii în raport cu �0 şi �1, obţinem estimaţiile:

    b�1 = sxysxx

    şi b�0 = y � b�1x; (6)unde

    x =1

    n

    nXi=1

    xi; y =1

    n

    nXi=1

    yi; sxx =nXi=1

    (xi � x)2 ; sxy =nXi=1

    (xi � x) (yi � y) :

    Remarcăm că sxx = (n� 1) s2x şi sxy = (n� 1) sx;y unde sx este deviaţia standard empirică modificată a setuluide date fxigni=1, iar sx;y este covarianţa (corelaţia) empirică modificată a a setului de date perechi f(xi; yi)gni=1:Prin urmare, pentru evaluarea pantei �1; avem formula echivalentă:

    b�1 = cove (x; y)s2x

    = rxysysx; unde rxy =

    cove (x; y)

    sxsy:

    Matricea Hessiană calculată în acest punct critic (b�0; b�1) este negativ definită, deci tripletul critic este punct demaxim. Astfel, dreapta de regresie a lui y în raport cu x este aproximată de dreapta:

    y = y � b�1x+ sxysxx

    x; sau, echivalent, y = y +sxysxx

    (x� x) : (7)

    Din ultima condiţie de extrem, găsim că o estimaţie pentru dispersia erorilor, �2 este:

    b�2 = 1n

    nXi=1

    �yi � b�0 � b�1xi�2 : (8)

    Însă, estimaţia pentru �2 dată prin formula (8) este una deplasată. În practică, în locul acestei estimaţii se uti-lizează următoarea estimaţie deplasată:

    b�2 = 1n� 2

    nXi=1

    �yi � b�0 � b�1xi�2 : (9)

    Observaţia 2.1 În formulele anterioare (6), (7), (8), (9) am obţinut estimări ale estimatorilor. Pentru a trece de la estimărila estimatori, care sunt statistici (deci variabile aleatoare) valorile estimate se înlocuiesc cu variabilele de selecţie, respectivcaracteristicile din care provin. Mai precis, caracterul aleator al valorilor yi duce la înlocuirea lor în formula estimatoruluicu Yi; iar �y trebuie înlocuit cu media de selecţie �Y : Vom obţine astfel:

    b�1 =nXi=1

    (xi � x)2�Yi � �Y

    �nXi=1

    (xi � x)2; b�0 = 1

    n

    nXi=1

    Yi � b�1 nXi=1

    xi

    !; b�2 = 1

    n� 2

    nXi=1

    �Yi � b�0 � b�1xi�2 :

    Cu toate aceste, păstrând convenţia din literatura de specialitate, notăm statisticile ale căror realizări sunt b�0; b�1; yi tot cuaceleaşi simboluri, neomiţând caracterul aleator al unor cantităţi, atunci când este cazul.

    Sistematizând notaţiile şi cantităţile utilizate, obţinem:

    1. dreapta de regresie, y = �0+�1x, este dreapta ce determină dependenţa liniară a lui y de valorile lui x, pentruîntreaga populaţie de date (dacă aceasta există);

    3

  • 2. aproximarea dreptei de regresie (en., fitting line), y = b�0 + b�1x, este dreapta care se apropie cel mai mult(în sensul metodei celor mai mici pătrate) de datele experimentale (de selecţie) f(xi; yi)gi. Această dreaptăeste o aproximare a dreptei de regresie;

    3. valorile yi se numesc valori observate, iar valorile byi = b�0 + b�1xi; i = 1; 2; : : : ; n se numesc valori prezise;4. valorile b"i = yi�byi = yi� b�0� b�1xi se numesc reziduuri. Un reziduu măsoară deviaţia unui punct observat

    de la valoarea prezisă de estimarea dreptei de regresie;

    5. suma pătratelor erorilor,nXi=1

    b"2i = nXi=1

    �yi � b�0 � b�1xi�2, se notează de obicei prin SSE (sum of squared errors).

    6. eroarea medie pătratică sau reziduală este MSE =SSE

    n� 2 (mean squared error). După cum se poate observadin relatia (9),MSE = b�2 este un estimator nedeplasat pentru dispersia erorilor, �2.

    7. rădăcina pătrată aMSE este b� şi se numeşte eroarea standard a regresiei;Un rezultat fundamental pentru estimarea dispersiei erorilor este dat de următorul comportament al sumei

    pătratelor erorilor.

    Teorema 1 Repartiţia variabilei aleatoare SSE =�2 este următoarea:

    SSE

    �2= (n� 2) b�2

    �2� �2 (n� 2; 1) = �2 (n� 2) :

    Demonstraţie.Variabilele aleatoare de selecţie Yi � N��0 + �1xi; �

    2�; 8i 2 f1; :::; ng: Varianţa reziduală pe care o

    utilizăm este cea deplasată, mai precis,

    b�2 = 1n� 2

    nXi=1

    �yi � b�0 � b�1xi�2 :

    Prin urmare,

    (n� 2) b�2 = nXi=1

    �yi � b�0 � b�1xi� yi = nX

    i=1

    n(yi � �y)� b�1 (xi � �x)o yi = nX

    i=1

    (yi � �y) yi � b�1 nXi=1

    (xi � �x) yi (10)

    =nXi=1

    (yi � �y)2 � b�1 nXi=1

    (xi � �x) (yi � �y) = syy � b�1sxy = syy � b�21sxx:Considerăm acum ~�0 = �0 + �1�x, repartiţia vectorului aleator de selecţie Y = (Y1; ::; Yn) ; fY : Rn! [0; 1];

    fY (y1; :::; yn) =1�

    �p2��n exp

    � 12�2

    nXi=1

    �yi � ~�0 � �1 (xi � �x)

    �2!

    şi transformarea ortogonală (y1; :::; yn)! (z1; :::; zn) dată de

    [email protected]

    1CCCA = [email protected]

    1CCCA =0BBBBB@

    1pn

    1pn

    : : :1pn

    x1 � �xpsxx

    x2 � �xpsxx

    : : :xn � �xpsxx

    ...... : : :

    ...

    [email protected]

    1CCCAMatricea Q este o matrice ortogonală, cu primele două rânduri fixate. Obţinem că z1 = 1pn

    Pni=1 yi =

    pn�y şi

    z2 =

    nXi=1

    (xi � �x) yipsxx

    =

    nXi=1

    (xi � �x) (yi � �y)psxx

    +

    �ynXi=1

    (xi � �x)psxx

    =sxypsxx

    +

    �y

    nXi=1

    xi � n�x!

    psxx

    =sxypsxx

    = b�1psxx:

    4

  • Transformarea ortogonală justifică faptul căPn

    i=1y2i =

    Pni=1z

    2i ; ceea ce conduce la

    nXi=1

    �yi � ~�0 � �1 (xi � �x)

    �2=

    nXi=1

    y2i + n~�20 + �

    21

    nXi=1

    (xi � �x)2 � 2~�0�n� 2�1 (xi � �x) yi

    =nXi=1

    z2i + n~�20 + �

    21sxx � 2~�0

    pnz1 � 2�1z2

    psxx

    =�z1 � ~�0

    pn�2+�z2 � �1

    psxx�2+

    nXi=3

    z2i :

    Pentru (z1; :::; zn) 2 Rn; densitatea vectorului aleator Z = (Z1; :::; Zn) devine fZ : Rn! [0; 1];

    fZ (z1; :::; zn) =1�

    �p2��n exp

    "� 12�2

    �z1 � ~�0

    pn�2+ (z2 � �1

    psxx)

    2+

    nXi=3

    z2i

    !#;

    ceea ce afirmă că variabilele aleatoareZ1; Z2; :::; Zn sunt variabile independente, cu repartiţiile după cum urmează:

    Z1 � N ( ~�0pn; �2); Z2 � N (�1

    psxx; �

    2); Zi � N�0; �2

    �; pentru i 2 f3; 4; :::; ng:

    Pentru a încheia demonstraţia, folosim (10) şi deducem:

    (n� 2) b�2 = syy � b�21sxx = nXi=1

    y2i � n�y2 � b�21sxx = nXi=1

    z2i � z21 � z22 =nXi=3

    z2i :

    Independenţa variabilelor aleatoare Z3; Z4; :::; Zn � N�0; �2

    �conduce la

    nXi=3

    Z2i�2

    � �2 (n� 2; 1) = �2 (n� 2) ; ceea ce este echivalent cu (n� 2) b�2�2

    � �2 (n� 2) ;

    Singura chestiune care mai trebuie justificată este afirmaţia anterioară căPn

    i=3Z2i =�

    2 este repartizata �2 cu

    (n� 2) grade de libertate (ale variabilei SSE). Prezentăm raţionamentul care conduce la această concluzie.Demonstratiile riguroase pentru fiecare afirmaţie se regăsesc în cele patru rezultate care urmează. Avem căZi � N

    �0; �2

    �; 8i 2 f3; 4; :::; ng deci Z2i � �2 (1; �) ; de unde rezultă că Z2i =�2 � �2 (1; �=�) = �2 (1; 1) : În

    consecinţă,Pn

    i=3Z2i =�

    2 � �2 (n� 2; 1) = �2 (n� 2) ; iar demonstraţia este, în acest moment, încheiată.

    Lema 2.1 Pentru orice a > 0;

    X � �2 (n; �) dacă şi numai dacă aX � �2�n;pa��; (11)

    unde n 2 N� şi � > 0:

    Demonstraţie. Avem, pentru orice x � 0, FaX (x) = 0 şi pentru orice x > 0;

    FaX (x) = P (aX � x) = P (X � x=a) = FX (x=a) :

    Deci

    faX (x) = (FaX (x))0= (FX (x=a))

    0= fX

    �xa

    � 1a=

    1

    2n2 (pa�)

    n��n2

    � xn2�1 exp � x2 (pa�)

    2

    !;

    adică aX � �2 (n;pa �).

    Lema 2.2 Dacă X;Y sunt două variabile aleatoare independente, distribuite normal, de tipul N�0; �2

    �; unde � > 0;

    atunciX2 � �2 (1; �) şi

    �X2 + Y 2

    �� �2 (2; �) :

    Demonstraţie. Avem, pentru orice y � 0, FX2 (y) = 0 şi pentru orice y > 0;

    FX2 (y) = P�X2 � y

    �= P(�py � X � py) = FX(

    py)� FX(�

    py):

    5

  • Deci

    fX2 (y) = (FX2 (y))0= (FX(

    py)� FX(�

    py))

    0= fX(

    py)

    1

    2py+ fX(�

    py)

    1

    2py

    = fX(py)1py=

    1p2��2

    exp

    ��py�2

    2�2

    !1py=

    1p2��

    y12�1 exp

    �� y2�2

    �;

    adică X2 corespunde unei variabile aleatoare distribuite �2 (1; �). Dacă X;Y � N�0; �2

    �; atunci X2; Y 2 �

    �2 (1; �) şi, prin urmare,�X2 + Y 2

    �� �2 (1 + 1; �) :

    Rezultatul se poate generaliza la cazul a n variabile aleatoare independente.

    Lema 2.3 DacăXi ; i = 1; n ; sunt variabile aleatoare de selecţie corespunzătoare unei selecţii de volum n asupra caracter-isticii X � N

    �0; �2

    �; unde � > 0; atunci

    nXi=1

    X2i � �2 (n; �) :

    Demonstraţie. Conform rezultatului anterior, Yk = 1�2X2k � �2 (1) ; pentru orice k = 1; n;

    fYk (x) =1p2�x

    e�x=21(0;+1) (x)

    şi atunci funcţia sa caracteristică este 'Yk : R! C;

    'Yk (t) = E(eitYk) =

    Z +10

    eitx1p2�x

    e�x=2dx = (1� 2it)�1=2 :

    Independenţa variabilelor aleatoare Yk; k = 1; n; conduce la următoarea funcţie caracteristică pentruPn

    k=1Yk :

    'Pnk=1Yk

    (t) =nYk=1

    (1� 2it)�1=2 = (1� 2it)�n=2 ; t 2 R;

    adicăPn

    k=1Yk � �2 (n) = �2 (n; 1) : De aici rezultă cănXk=1

    Yk =nXk=1

    1

    �2X2k =

    1

    �2

    nXk=1

    X2k � �2 (n; 1) ; adicănXk=1

    X2k � �2 (n; �) ;

    demonstraţia fiind, astfel, încheiată.

    Lema 2.4 Considerăm Xi; i = 1; n ; variabile aleatoare de selecţie corespunzătoare unei selecţii de volum n asupra carac-teristicii X � N

    ��; �2

    �; unde � > 0:

    (a) Dacă media caracteristicii este cunoscută, atunci:

    H2 =1

    �2

    nXi=1

    (Xi � �)2 � �2 (n; 1) = �2 (n) :

    (b) Dacă media caracteristicii este necunoscută, considerăm media de selecţie �X = (Pn

    i=1Xi) =n şi vom avea:

    nXi=1

    �Xi � �X

    �2 � �2 (n� 1; �) sau, echivalent �2 = 1�2

    nXi=1

    �Xi � �X

    �2 � �2 (n� 1; 1) = �2 (n� 1) :Demonstraţie. Avem că suma

    Pni=1Xi � N

    �n�; n�2

    �şi apoi �X � N

    ��; �2=n

    �: Prin urmare, deducem că

    (Xi � �) � N�0; �2

    �şi

    ��X � �

    �� N

    �0; �2=n

    �:

    În consecinţă, (Xi � �)2 � �2 (1; �) ceea ce conduce lanXi=1

    (Xi � �)2 � �2 (n; �) :

    6

  • Obţinem că

    H2 =n

    �21

    n

    nXi=1

    (Xi � �)2 =1

    �2

    nXi=1

    (Xi � �)2 � �2 (n; 1) = �2 (n)

    De asemenea, ��X � �

    �2 � �2 �1; �=pn� şi n � �X � ��2 � �2 (1; �) :Pe de altă parte, avem că

    nXi=1

    �Xi � �X

    �2=

    nXi=1

    �(Xi � �)�

    ��X � �

    ��2=

    nXi=1

    h(Xi � �)2 � 2 (Xi � �)

    ��X � �

    �+��X � �

    �2i=

    nXi=1

    (Xi � �)2 � 2��X � �

    � nXi=1

    (Xi � �) +nXi=1

    ��X � �

    �2=

    nXi=1

    (Xi � �)2 � 2n��X � �

    �2+ n

    ��X � �

    �2:

    DecinXi=1

    �Xi � �X

    �2=

    nXi=1

    (Xi � �)2 � n��X � �

    �2 � �2 (n; �)� �2 (1; �) = �2 (n� 1; �) ;ceea ce conduce la

    �2 =1

    �2

    nXi=1

    �Xi � �X

    �2 � �2 (n� 1; 1) = �2 (n� 1) :Determinăm repartiţia dispersiei de selecţie modificată astfel:

    �2 =n

    �21

    n

    nXi=1

    �Xi � �X

    �2=n

    �2S2 =

    n

    �2n� 1n

    (S�)2=n� 1�2

    (S�)2:

    Rezultă că (n� 1) (S�)2 � �2 (n� 1; �) şi, în mod similar, n (S�)2 � �2 (n; �) :

    Estimaţia dispersiei este o măsură a gradului de împrăştiere a punctelor (x; y) în jurul dreptei de regresie.Valorile din formulele (6) şi (9) sunt doar estimaţii ale parametrilor necunoscuţi şi nu valorile lor exacte.

    Dacă deviaţia standard � ar fi cunoscută a priori, atunci putem estima parametrii �0 şi �1 prin Metoda celormai mici pătrate (primele formulări ale problemei îi aparţin lui Gauss). Mai precis, estimaţiile lor vor fi acelevalori care minimizează suma pătratelor erorilor SSE:

    min�0;�1

    nXi=1

    (yi � �0 � �1xi)2 :

    Suma pătratelor deviaţiilor observaţiilor de la dreapta de regresie este înmagazinată în funcţia � (�0; �1) =Xni=1

    (yi � �0 � �1xi)2, iar condiţiile ce determină punctele critice sunt:8>>>>>>>:@�

    @�0= �2

    nXi=1

    (yi � �0 � �1xi) = 0

    @�

    @�1= �2

    nXi=1

    xi (yi � �0 � �1xi) = 0

    Rezolvând acest sistem de ecuaţii algebrice în raport cu �0 şi �1, găsim soluţiile şi, respectiv, b�1 de mai sus.Pentru n � 3;matricea Hessiană

    H =

    0@ 2n 2n�x2n�x 2

    Xni=1x2i

    1Aeste pozitiv definită, adică punctele critice obţinute (b�0; b�1) sunt puncte de minimum pentru funcţia �: Sistemulde ecuaţii liniare

    n�0 + �1

    nXi=1

    xi =

    nXi=1

    yi împreună cu �0nXi=1

    xi + �1

    nXi=1

    x2i =nXi=1

    xiyi

    poartă denumirea de ecuaţiile normale ale celor mai mici pătrate.

    7

  • În concluzie, se observă că, dacă erorile sunt variabile aleatoare identic Gaussian repartizate şi independentestochastic în ansamblu, metoda verosimilităţii maxime este, în fapt, echivalentă cu metoda celor mai mici pătrate.

    Aşa cum am descris anterior, un reziduu măsoară deviaţia unui punct observat de la valoarea prezisă deestimarea dreptei de regresie. În spiritul acestei observaţii, putem să furnizăm un rezultat mai precis privitor lacomportamentul dispersiei (varianţei) acestei cantităţi.

    Propoziţia 2.1 Pentru fiecare i 2 f1; :::; ng;

    D2(b"i) = �2 1� 1n��xi � �x2

    �sxx

    !:

    Demonstraţie. Pentru regresia liniară yi = �0 + �1xi + "i; D2 ("i) = �2; iar dispersia estimatorului �̂ = (b�0,b�1)teste

    D2(�̂) = �2�XtX

    ��1;

    unde

    XtX =

    0B@ nXn

    i=1xiXn

    i=1xi

    Xni=1x2i

    1CA ; �XtX��1 = �nXni=1x2i �

    �Xni=1xi

    �2��10B@Xn

    i=1x2i �

    Xni=1xi

    �Xn

    i=1xi n

    1CAAvem

    nnXi=1

    x2i �

    nXi=1

    xi

    !2= n

    nXi=1

    x2i � n2�x2 = nnXi=1

    �x2i � �x2

    �= nsxx:

    Prin urmare, �XtX

    ��1=

    1

    sxx

    0@ 1nXni=1x2i ��x��x 1

    1A ;ceea ce implică:

    D2(�̂0) =�2

    sxx

    1

    n

    nXi=1

    x2i

    !=�2

    n

    sxx + n�x2

    sxx= �2

    �1

    n+�x2

    sxx

    �;

    D2(�̂1) =�2

    sxxşi cov(�̂0; �̂1) = �

    �2�x

    sxx:

    Valoarea reziduală cu indicele i este b"i = yi � byi = (�0 � �̂0) + (�1 � �̂1)xi + "i; iar dispersia sa se obţine astfel:D2(b"i) = D2 ("i) +D2(�̂0) + x2iD2(�̂1) + 2xicov(�̂0; �̂1) + 2cov((�0 � �̂0) + (�1 � �̂1)xi; "i)

    = �2 + �2�1

    n+�x2

    sxx

    �+ x2i

    �2

    sxx+ 2cov((�0 � �̂0) + (�1 � �̂1)xi; "i)

    = �2

    1 +

    1

    n+(xi � �x)2

    sxx

    !+ 2cov((�0 � �̂0) + (�1 � �̂1)xi; "i):

    (12)

    Pentru termenul ce conţine covarianţa procedăm astfel:

    2cov((�0 � �̂0) + (�1 � �̂1)xi; "i) = 2E�"i

    �(�0 � �̂0) + (�1 � �̂1)xi

    ��= �2E(�̂0"i)� 2xiE(�̂1"i) =� 2E("i(�y � �̂1�x))� 2xiE(�̂1"i)

    = �2E(�y"i)� 2 (xi � �x)E(�̂1"i) = �2�2

    n� 2 (xi � �x)E

    0@Xni=1 (xi � �x) (yi � �y)sxx

    "i

    1A= �2�

    2

    n� 2xi � �x

    sxx

    �Xni=1

    (xi � �x)E (yi"i � �y"i)�

    = �2�2

    n� 2xi � �x

    sxx

    ���

    2

    n

    Xj 6=i(xj � �x) + (xi � �x)�2

    �1� 1

    n

    ��= �2�

    2

    n� 2xi � �x

    sxx

    ���

    2

    n

    Xni=1

    (xi � �x) + (xi � �x)�2�

    = �2�2

    n� 2xi � �x

    sxx(xi � �x)�2 = �2

    �2

    n� 2�2 (xi � �x)

    2

    sxx= �2

    � 2n� 2 (xi � �x)

    2

    sxx

    !:

    (13)

    8

  • Inserăm formula (13) în formula (12), ce dă dispersia reziduului, şi obţinem

    D2(b"i) = �2 1� 1n� (xi � �x)

    2

    sxx

    !;

    demonstraţia fiind încheiată.

    2.1 Intervale de încredere pentru parametrii de regresie

    Reaminitim că, în ipoteza că erorile din modelul Y = �0 + �1X + " sunt variabile aleatoare de tip N�0; �2

    �;

    iar valorile xi sunt fixate (deterministe), Y va fi o variabilă aleatoare cu media �Y jx = �0 + �1X şi dispersiaV ar (Y ) = D2 (Y ) = D2 (") = �2: Prin urmare, valorile estimate �̂0 şi �̂1 ale parametrilor de regresie depind devalorile observate yi:

    Pentru a decide dacă valorile calculate pe baza datelor experimentale f(xi; yi)gni=1 pot fi considerate valorilepotrivite pentru întreaga populaţie, se vor utiliza teste statistice pentru testarea valorilor ambilor parametri, �0şi �1, însă cel mai uzual test este testul pentru verificarea valorii pantei dreptei de regresie, �1.

    Arătăm, pentru început că b�0 şi b�1 sunt estimatori nedeplasaţi pentru �0 şi, respectiv, �1 (cititorul interesatpoate consulta Montgomery, Runger [11]). Printr-un abuz de notaţie, vom utiliza, ca şi până în acest moment,aceleaşi notaţii (b�0 şi b�1; ca şi valorile estimate) pentru cele două statistici care reprezintă estimatorii. Obţinem,deoarece �y = �0 + �1�x+ 1n

    Pni=1"i; iar xi sunt deterministe şi yi valori ale unei variabile aleatoare,

    E(b�1) = E0@Xni=1 (xi � �x) (yi � �y)Xn

    i=1(xi � �x)2

    1A =Xn

    i=1(xi � �x)E (yi � �y)Xni=1

    (xi � �x)2=�1Xn

    i=1(xi � �x)2Xn

    i=1(xi � �x)2

    = �1;

    deoarece E (yi � �y) = �0 + �1xi � (�0 + �1�x) = �1 (xi � �x) : Cum E(b�0) = E (�y)� �xE(b�1) = �0 + �1�x� �1�x = �0putem concluziona că cei doi estimatori sunt nedeplasaţi:

    E(b�1) = �1 şi E(b�0) = �0:Ne concentrăm acum pe determinarea dispersiile acestor estimatori, abordând acum fiecare estimator în parte(demonstraţia fiind, oarecum, mai simplă), spre deosebire de abordarea vectorială a lor de la finalul secţiuniianterioare. Avem:

    D2(b�1) = D20@Xni=1 (xi � �x) yiXn

    i=1(xi � �x)2

    1A =Xn

    i=1(xi � �x)2D2 (yi)�Xni=1

    (xi � �x)2�2 = �2sxx

    Pentru D2(b�0) procedăm astfel:D2(b�0) = D2(�y � b�1�x) = D2 (�y)� 2�xcov(�y; b�1) + �x2D2(b�1)

    = D2�1

    n

    Xni=1"i

    �� 2�xcov

    0@ 1n

    Xni=1"i;

    Xni=1

    (xi��x)(�0+�1xi+"i)Xni=1

    (xi��x)2

    1A+ �2�x2sxx

    =�2

    n� 2�xcov

    0@ 1n

    Xni=1"i;

    Xni=1

    (xi��x)"iXni=1

    (xi��x)2

    1A+ �2�x2sxx

    =

    = �2�1

    n+�x2

    sxx

    �� 2�xnXn

    i=1(xi � �x)2

    cov�Xn

    i=1"i;Xn

    i=1(xi � �x) "i

    �= �2

    �1

    n+�x2

    sxx

    �Am obţinut deci că:

    D2(b�1) = �2sxx

    şi D2(b�0) = �2� 1n+x2

    sxx

    �: (14)

    Deoarece b�1 (şi, în consecinţă, şi b�0) sunt transformări liniare ale unor variabile aleatoare independete, repartizatenormal, atunci şi acesti estimatori vor avea repartiţii de tip Gaussian. Această observaţie, împreună cu formulelemediilor şi dispersiilor lor, deteminate anterior, conduc către:

    b�1 � N ��1; �2sxx

    �şi b�0 � N ��0; �2� 1

    n+x2

    sxx

    ��:

    9

  • Ţinând cont că estimatorii b�0 şi b�1 sunt nedeplasaţi, de relaţiile (14), şi de estimatorul b�2 pentru �2, demonstrămurmătoarele repartiţii pentru fracţiile de mai jos:

    T1 =b�1 � �1s b�2sxx

    � t (n� 2) şi T2 =b�0 � �0

    b�s 1n+x2

    sxx

    � t (n� 2) ; (15)

    unde, ţinând cont de formula lui b�2 dată de (9),b� = pb�2 =

    vuut 1n� 2

    nXi=1

    �yi � b�0 � b�1xi�2:

    Pentru obţinerea rezultatelor din (15) trebuie parcurşi doi paşi. Primul constă în determinarea repartiţiei numără-torului şi numitorului, după care determinăm repartiţia câtului celor două. Deoarece b�1 � N ��1; �2=sxx� şib�0 � N ��0; �2 �1=n+ x2=sxx�� ; obţinem că b�1 � �1 � N �0; �2=sxx� ; iar b�0 � �0 � N �0; �2 �1=n+ x2=sxx�� :

    În ceea ce priveşte numitorul, au loc echivalenţele:

    (n� 2) b�2�2

    � �2 (n� 2; 1) () (n� 2) b�2sxx

    sxx�2

    � �2 (n� 2; 1) () (n� 2) b�2sxx

    � �2�n� 2; �p

    sxx

    �Pentru cel de al doilea pas, repartiţia statisticii T1 se deduce folosind următorul rezultat. Într-o manieră absolutsimilară determinăm distribuţia lui T2:

    Lema 2.5 Dacă X � N�0; �2

    �şi Y � �2 (n; �) ; unde n 2 N� şi � > 0; sunt două variabile aleatoare independente,

    atunci distribuţia

    T =XrY

    n

    � t (n) :

    Demonstraţie. Vectorul aleator (X;Y ) are densitatea de repartiţie, pentru x 2 R; y � 0;

    f(X;Y ) (x; y) =1p2��2

    exp

    �� x

    2

    2�2

    �� 12n=2�n� (n=2)

    yn2�1 exp

    �� y2�2

    �=

    1p��n+12

    n+12 � (n=2)

    yn2�1 exp

    ��x

    2 + y

    2�2

    �:

    Să considerăm transformarea8

  • Deci U urmează distribuţia Student cu n grade de libertate.

    Formulele (15) sunt cruciale în construcţia intervalelor de încredere pentru parametrii �1 şi �0. Pentru unnivel de încredere � > 0, unul de semnificaţie � şi t � 0;avem

    � = 1� � = 1� P (jT1j < t) = P

    0BBBB@����������b�1 � �1s b�2sxx

    ����������� t

    1CCCCA = 2P0BBBB@b�1 � �1s b�2sxx

    � t

    1CCCCAPunctul critic reprezentat de cuantila t�=2;n�2 se va citi din tabelul repartiţiei student cu n� 2 grade de libertate.Inegalitatea b�1 � �1s b�2

    sxx

    � t�=2;n�2 implică �1 � b�1 � t�=2;n�2s b�2sxx

    :

    Obţinem intervalul de încredere la nivelul de semnificaţie � (pentru parametrul �1):0@b�1 � t�=2;n�2s b�2sxx

    ; b�1 + t�=2;n�2s b�2sxx

    1A : (16)Similar, un interval de încredere pentru parametrul �0; la nivelul de semnificaţie �; este:0@b�0 � t�=2;n�2b�

    s1

    n+x2

    sxx; b�0 + t�=2;n�2b�

    s1

    n+x2

    sxx

    1A (17)Observaţia 2.2 În general, dispersia �2 a erorilor de regresie "i nu este cunoscută a priori. În cazul în care aceasta estecunoscută, atunci în loc de (15) am avea:

    Z1 =b�1 � �1s�2

    sxx

    � N (0; 1) şi Z2 =b�0 � �0

    s1

    n+x2

    sxx

    � N (0; 1) : (18)

    În acest caz, intervalele de încredere pentru �0 şi �1 vor fi similare cu cele din relaţiile (17) şi (16), cu diferenţa că t�=2;n�2este înlocuit prin z1��=2. Într-adevăr, pentru z > 0; avem:

    � = P (jZ1j < z) = P (�z < Z1 < z) = � (z)� � (�z) = � (z)� (1� � (z)) = 2� (z)� 1;

    unde � se numeşte funcţia lui Laplace şi reprezintă funcţia de repartiţie pentru variable aleatoare repartizate Gaussianstandard:

    � : R! [0; 1] ; � (x) = 1p2�

    Z x�1

    e�y2

    2 dy:

    Prin urmare, obţinem � (z) = (1 + �) =2 = (1 + 1� �) =2 = 1� �=2: Cuantila corespunzătoare se identifică din tabelelede valori ale distribuţiei N (0; 1), iar valoarea critică pentru testul statistic va fi z1��=2:

    2.2 Verificarea ipotezelor statistice pentru �1 (slope) şi pentru �0 (intercept)

    Prezentăm testele statistice care verifică dacă �1 (respectiv �0) iau o valoare dată �10 (respectiv ��0 ) sau nu, la unnivel de semnificaţie �. Presupunem că dispersia erorilor de regresie este necunoscută. Formulăm ipoteza nulăversus ipoteza alternativă bilaterală:

    (H0) : �1 = �10 versus (H1) : �1 6= �10:

    Revenim la statistica T1; introdusă de formula (15):

    T1 =b�1 � �1s b�2sxx

    � t (n� 2) :

    Urmăm în continuare etapele clasice ale verficării ipotezelor unui test statistic.

    11

  • 1. Calculăm valoarea empirică observată t0 = (b�1 � �10)psxx=b�:2. Identficăm cuantila de ordin �=2 pentru repartiţia t (n� 2), t�=2;n�2.

    3. Decizia finală este:(Dacă jt0j < t�=2;n�2; atunci ipoteza nulă (H0) este acceptată.

    Dacă jt0j � t�=2;n�2; atunci ipoteza alternativă bilaterală (H1) este acceptată.

    Intervalul de acceptare este��t�=2;n�2; t�=2;n�2

    �; iar jtj � t�=2;n�2 este regiunea critică. Mai precis,

    V =nf(xk; yk)gk2f1;2;:::;ng :

    ���T1 jf(xk;yk)gk2f1;2;:::;ng ��� � t�=2;n�2o :Observaţia 2.3 (1) O ipoteză alternativă poate fi considerată şi una dintre următoarele:

    (H1)s : �1 < �10 (ipoteza alternativă stânga) sau (H1)d : �1 > �10 (ipoteza alternativă dreaptă).

    (2) Testul cel mai popular pentru �1 este pentru ipoteza nulă (H0) : �1 = 0 (adică �10 = 0). Ipoteza alternativă �1 6= 0reprezinta faptul că între x şi y există o dependenţă liniară. Acest test verifică semnificaţia pantei dreptei de regresie. Dacăipoteza nulă este respinsă, atunci panta dreptei este semnificativ diferită de zero.

    Testul statistic pentru �0 se abordează într-o manieră similară. De asemenea, presupunem că dispersia �2 aerorilor de regresie "i este necunoscută. Testăm

    (H0) : �0 = ��0 ; versus (H1) : �0 6= ��0 :

    Considerăm statistica T2; introdusă de formula (15):

    T2 =b�0 � �0

    b�s 1n+x2

    sxx

    � t (n� 2) :

    Urmăm în continuare etapele clasice ale verficării ipotezelor unui test statistic.

    1. Calculăm valoarea observată t0 = (b�0 � ��0)=�b�p1=n+ �x2=sxx�.2. Identficăm cuantila de ordin �=2 pentru repartiţia t (n� 2), t�=2;n�2.

    3. Decizia finală este:(Dacă jt0j < t�=2;n�2; atunci ipoteza nulă (H0) este acceptată.

    Dacă jt0j � t�=2;n�2; atunci ipoteza alternativă bilaterală (H1) este acceptată.

    Intervalul de acceptare este��t�=2;n�2; t�=2;n�2

    �; iar jtj � t�=2;n�2 este regiunea critică.

    Observaţia 2.4 De asemenea, există teste unilaterale şi pentru testarea valorii lui �0.Dacă dispersia erorilor, �2; estecunoscută a priori, atunci putem utiliza statisticile repartizate normal Z1 şi Z2; definite de (18), statistici care permitfolosirea testului z (ca şi la determinarea intervalelor de încredere) pentru testarea ipotezelor de mai sus, atât pentru para-metrul �0, cât şi pentru �1.

    2.3 Predicţie prin regresie

    În anumite cazuri, putem folosi regresia în predicţia unor valori ale variabilei dependente. De exemplu, putemprezice temperatura într-un anumit oraş plecând de la observaţiile temperaturilor din oraşele învecinate. Re-gresia poate fi utilizată pentru predicţie după cum urmează. Să presupunem că datele pe care le deţinem,f(xi; yi)gi2f1;2;:::;ng, pot fi modelate de o dreaptă de regresie de forma (3). Dat fiind o valoarea xp ce nu seaflă printre valorile xi, dar este o valoare cuprinsă între valorile extreme ale variabilei independente, xmin şixmax, dorim să prezicem valoarea răspuns,

    yp = �0 + �1xp + "p:

    12

  • Dacă b�0 şi b�1 sunt estimaţiile pentru parametrii de regresie �0, respectiv, �1, atunci valoarea prezisă pentru ypcorespunzătoare unui xp observat va fi o valoare byp de pe dreapta de regresie, dată de formula:

    byp = b�0 + b�1xp: (19)Folosind estimările din relaţia (12), putem afirma că statistica bYp asociată acestei valori empirice urmează orepartiţie normală,

    bYp � N b�0 + b�1xp; �2 1 + 1n+(xp � x)2

    sxx

    !!:

    Urmând paşii secţiunii anterioare, deducem că o predicţie pentru intervalul de încredere corespunzător lui ypentru un xp dat, la nivelul de semnificaţie � (xp 2 [xmin; xmax]) este:0@byp � t�=2;n�2b�

    s1 +

    1

    n+(xp � x)2

    sxx; byp + t�=2;n�2b�

    s1 +

    1

    n+(xp � x)2

    sxx

    1A : (20)Observaţia 2.5 1. Este important ca xp să fie o valoare cuprinsă între xmin şi xmax. Dacă se foloseşte formula (19) şi

    pentru valori ale lui x în afara intervalului valorilor predictor pentru x, atunci erorile de aproximarea a lui y cu byp potfi foarte mari. În practică, pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale variabilelorindependente ce ies din domeniu, se utilizează termenul de prognoză. Aceasta este folosită în analiza seriilor de timp.

    2. Valoarea prezisă byp nu este una stabilită cu exactitate, ci este doar o medie aşteptată a valorilor lui y pentru un xp dat.În cazul în care coeficientul de determinare R2 = 1, atunci valoarea pentru y va fi prezisă fără eroare, deoarece toatepunctele se află pe dreapta de regresie. În general, perechile (xi; yi)i se află împrăştiate în jurul dreptei de regresie.

    3. Valoarea byp este determinată doar pe baza selecţiei date, de aceea, pentru a verifica dacă această valoare poate fi ex-trapolată la întreaga populaţie este nevoie de inferenţă statistică, adică de un test statistic pentru verificarea acceptăriiipotezei nule. Un astfel de test, similar celor pentru testarea parametrilor �0 şi �1 este prezentat succint. Vom testa:

    Prezentăm, în continuare, un test ce compară valoarea byp cu o constantă dată. Testăm(H0) : byp = y0; versus (H1) : byp 6= y0:

    Etapele testului sunt cele deja discutate:

    1. Estimăm valoarea observată, pe baza datelor empirice, byp utilizând formula (19).2. Considerăm statistica

    T =byp � y

    b�s1 +

    1

    n+(xp � x)2

    sxx

    � t (n� 2)

    pe care o evaluăm în datele empirice t0 = (byp � y0)=�b�q1 + 1=n+ (xp � x)2 =sxx� :3. Decizia finală este:(

    Dacă jt0j < t�=2;n�2; atunci ipoteza nulă (H0) este acceptată.

    Dacă jt0j � t�=2;n�2; atunci ipoteza alternativă bilaterală (H1) este acceptată.

    Intervalul de acceptare este��t�=2;n�2; t�=2;n�2

    �; iar jtj � t�=2;n�2 este regiunea critică.

    2.4 Validitatea modelului de regresie liniară simplă

    Presupunem ca X şi Y sunt două variabile de interes, pentru care se doreşte a determina o relaţie liniară deforma

    Y = �0 + �1X + ":

    Pentru a determina oportunitatea unei astfel de legături, se culeg date relativ la aceste variabile. Considerăm căaceste observaţii sunt f(xi; yi)gi=1;2;:::;n. Pe baza acestor date se poate aproxima dreapta de regresie liniară (dacăexistă) astfel:

    Y = b�0 + b�1X; unde: b�1 = sxysxx

    şi b�0 = y � b�1x; unde13

  • x =1

    n

    nXi=1

    xi; y =1

    n

    nXi=1

    yi; sxx =nXi=1

    (xi � x)2 ; sxy =nXi=1

    (xi � x) (yi � y) :

    Pentru a verifica dacă modelul de regresie liniară este unul valid, se pot folosi mai multe metode, dintre careamintim cele mai uzuale:

    � coeficientul de determinare R2. Acest coeficient se calculează folosind următoarea formulă:

    R2 = 1� SSESST

    ;

    unde

    SSE =nXi=1

    (yi � by)2 = nXi=1

    �yi � b�0 � b�1xi�2 ; SST = nX

    i=1

    (yi � y)2 .

    Aici, SST reprezintă suma totală a pătratelor (the total sum of squares). În analiza regresională, coeficientulR2 este o statistica folosită în a determina cât de bine pot fi estimate valorile lui y pe baza modelului deregresie. Valorile luiR2 sunt între 0 şi 1 şi, pentru a avea un model destul de bun, ar fi necesar un coeficientde determinare aproape de 1. Totuşi, este posibil caR2 să aibă valori mai mari ca 1 în cazul în care modelulde regresie nu este unul liniar. În cazul regresiei liniare simple, R2 = r2, adică pătratul coeficientului decorelaţie Pearson.

    � grafice:

    - yi versus xi: Din această figură (scatter plot) ne putem da seama de oportunitatea modelarii datelorobservate folosind un model de regresie liniară simplă. Această figură ar trebui făcută înainte deaproximarea dreptei de regresie. Pentru a putea utiliza un model de regresie liniară simplă, valorilereprezentate ar trebui să fie apropiate de o anumită dreaptă.

    - grafic ce indică normalitatea reziduurilor b"i: Acest grafic reprezintă probabilităţile de normalitate aleerorilor versus cuantilele repartiţei N (0; 1). Dacă modelul este valid, atunci valorile reprezentate înfigură vor fi cât mai apropiate de prima bisectoare.

    - byi versus yi: Dacă modelul este valid, atunci valorile reprezentate în figură vor fi cât mai apropiate deprima bisectoare.

    - b"i versus xi: Dacă modelul este valid, atunci valorile reprezentate în figură nu ar avea nicio tendinţăclară.

    - b"i versus yi: Dacă modelul este valid, atunci valorile reprezentate în figură nu ar avea nicio tendinţăclară.

    � test de utilitate a modelului: Se testează ipoteza (H0) : �1 = 0 versus. ipoteza (H1) : �1 6= 0. După cum amvăzut mai sus, acceptarea ipotezei alternative indică faptul că modelul liniar simplu este valid.

    � test pentru semnificaţia parametrilor modelului: Putem testa o valoare anume a pantei dreptei de regresiefolosind ipoteza nulă (H0) : �1 = �10 vs. ipoteza alternativă (H1) : �1 6= �10. Panta dreptei de regresie esteimportantă în a determina magnitudinea variaţiei variabilei răspuns la o variaţie de o unitate a variabileistimul.

    Dacă modelul de regresie liniară simplă nu este unul valid, atunci:

    � Este posibil ca Y să nu depindă liniar de X . Acest fapt poate fi observat de la început, din diagramascatter plot ce reprezintă yi vs. xi. Pentru modele neliniare, se poate încerca o transformare a vari-abilelor X şi Y astfel încât modelul liniar pentru variabilele transformate să fie unul aplicabil (nu mergeîntotdeauna).

    � Se poate întâmpla ca reziduurile b"i să prezinte o dependenţă clară de xi (fapt ce poate fi observat dintr-oreprezentare b"i vs. xi), aşadar aplicabilitatea modelului de regresie liniară este inoportună.

    � Dacă reziduurile nu sunt normale, modelul liniar de regresie nu este oportun.

    � Există posibilitatea ca datele observate f(xi; yi)gi=1;2;:::;n să conţină valori aberante. Este important de aînţelege aceste valori şi, în caz că nu sunt semnificative, pot fi şterse din setul de date care este supusanalizei de regresie.

    � În multe cazuri, o singură variabilă predictor X nu poate explica o singură variabilă Y , cazuri în care seapelează la o regresie multiplă (se iau în considerare şi alte variabile predictor).

    14

  • 3 Regresie liniară multiplă

    Regresia multiplă ia în considerare cel puţin doi predictori pentru a determina valorile unei variabile de interesY . În continuare, vom considera cazul unui număr de k predictori independenţi, notaţi X1; X2; : : : ; Xk. Pentruo variabila de interes Y se doreşte a determina o relaţie liniară (un hiperplan) de forma

    Y = �0 + �1X1 + �2X2 + : : :+ �kXk + "; (21)

    unde �j (j = 1; 2; : : : ; n) sunt nişte constante reale, iar " � N�0; �2

    �este eroarea predicţiei. Pentru un j fixat,

    coeficientul �j reprezintă variaţia în variabila Y rezultată în urma variaţiei predictoruluiXj cu o unitate, în timpce ceilalţi predictori sunt menţinuţi la valori fixate. Coeficientul �0 se numeşte intercept pentru hiperplanul deregresie

    Pentru a determina oportunitatea unei astfel de legături, se culeg date relativ la aceste variabile. Fie acesteobservaţii f(x1i; x2i; : : : ; xki; yi)gi2f1;2;:::;ng, unde xji denotă observaţia de rang i pentru variabila Xj , pentrufiecare j = 1; 2; : : : ; k şi i = 1; 2; : : : ; n. Pentru un model bun de regresie este necesar un număr suficient demare de observaţii. Volumul de observaţii n ar trebui să fie mai mare (uneori mult mai mare) decât numărul deparametri ce urmează a fi estimaţi (k + 2 parametri, �i şi �). Pe baza acestor date se poate aproxima suprafaţade regresie liniară (dacă există, prin metoda celor mai mici pătrate sau prin metoda verosimilităţii maxime), înscopul de a determina un estimator de forma:

    Y = b�0 + b�1X1 + b�2X2 + : : :+ b�kXk; (22)unde b�j (j = 1; 2; : : : ; n) sunt estimatori pentru parametrii reali �j .3.1 Metoda celor mai mici pătrate pentru estimarea parametrilor

    Presupunem că avem la dispoziţie n > k observaţii dintr-o colectivitate statistică şi notăm cu xij observaţia cuindicele i (sau nivelul variabilei xj). De regulă, datele unei probleme de regresie multiplă se înregistrează într-untabel de forma: �������������

    y x1 x2 : : : xk

    y1 x11 x12 : : : x1k

    y2 x21 x22 : : : x2k...

    ......

    ...yn xn1 xn2 : : : xnk

    �������������Fiecare observaţie (xi1; xi2; :::; xik; yi) ; i = 1; 2; : : : ; n şi n > k verifică ecuaţia

    yi = �0 + �1xi1 + �2xi2 + : : :+ �kxik + "i = �0 +kXj=1

    �jxij + "i:

    Funcţia celor mai mici pătrate se defineşte ca find:

    L =nXi=1

    "2i =nXi=1

    0@yi � �0 � kXj=1

    �jxij

    1A2 ;scopul fiind acela de a rezolva problema min�0;:::;�k L: Punctele critice se obţin prin rezolvarea sistemului:8>>>>>>>>>>>:

    @L@�0

    ����̂0;:::;�̂k = �2 nXi=1

    0@yi � �̂0 � kXj=1

    �̂jxij

    1A@L@�j

    ����̂0;:::;�̂k = �2 nXi=1

    0@yi � �̂0 � kXj=1

    �̂jxij

    1Axij ; j = 1; 2; :::; k(23)

    15

  • Rezolvăm sistemul (23) şi obţinem ecuaţiile normale ale celor mai mici pătrate:8>>>>>>>>>>>>>>>>>>>>>>>:

    n�̂0 + �̂1

    nXi=1

    xi1 + �̂2

    nXi=1

    xi2 + :::+ �̂k

    nXi=1

    xik =nXi=1

    yi

    �̂0

    nXi=1

    xi1 + �̂1

    nXi=1

    x2i1 + �̂2

    nXi=1

    xi1xi2 + :::+ �̂k

    nXi=1

    xi1xik =nXi=1

    xi1yi

    ...

    �̂0

    nXi=1

    xik + �̂1

    nXi=1

    xikxi1 + �̂2

    nXi=1

    xikxi2 + :::+ �̂k

    nXi=1

    x2ik =nXi=1

    xikyi

    (24)

    Sistemul (24) are p = k + 1 ecuaţii normale, câte une pentru fiecare coeficient necunoscut de regresie. Soluţi-ile acestor ecuaţii vor reprezenta estimaţiile estimatorilor, pe care îi vom nota tot cu simbolurile �̂0; �̂1; :::; �̂k:Sistemul de ecuaţii liniare anterior se poate rezolva prin metode algebrice sau numeric.

    Regresia liniară multiplă suportă şi o abordare matriceală. Presupunem că există k variabile regresionale şin observaţii, f(x1i; x2i; : : : ; xki; yi)gi2f1;2;:::;ng ; iar relaţiile de regresie sunt:

    yi = �0 + �1xi1 + �2xi2 + : : :+ �kxik + "i; i = 1; 2; :::; n:

    Scrierea echivalentă matriceală este:y = X� + ";

    unde

    y =

    [email protected]

    1CCCA ; X =0BBB@1 x11 x12 : : : x1k1 x21 x22 : : : x2k...

    ......

    ...1 xn1 xn2 : : : xnk

    1CCCA ; � =0BBB@�0�1...�k

    1CCCA ; " =0BBB@"1"2..."n

    1CCCA :Scopul este acela de a determina vectorul estimaţiilor celor mai mici pătrate �̂ care miniminează

    L =nXi=1

    "2i = "t" =(y �X�)t (y �X�) ; adică rezolvăm ecuaţia matriceală @L

    @�= 0 (vectorul nul).

    Ecuaţia matriceală ce trebuie rezolvată este

    XtX�̂ = Xty; cu soluţia �̂ =

    �XtX

    ��1Xty:

    Există p = k + 1 ecuaţii normale, cu p necunoscute, reprezentate de estimaţiile parametrilor. Matricea XtX estepresupusă a fi nesingulară, iar rezolvarea sistemului se realizează în practică pe calculator.

    Similar cu cazul regresiei liniare simple, vom utiliza terminologia următoare:

    � Hipersuprafaţay = b�0 + b�1x1 + b�2x2 + : : :+ b�kxk

    este aproximarea suprafeţei de regresie. Ea este suprafaţa care se apropie cel mai mult (în sensul metodei celormai mici pătrate) de datele experimentale. Această suprafaţă este o aproximare a suprafeţei de regresie;

    � valorile yi se numesc valori observate, iar valorile byi = b�0 + b�1x1i + b�2x2i + : : :+ b�kxki, unde i = 1; 2; : : : ; n,se numesc valori prezise (i = 1; 2; : : : ; n). Forma echivalentă matriceală este dată de ŷ = X�̂:

    � valorile b"i = yi � byi se numesc reziduuri. Un reziduu măsoară deviaţia unui punct observat de la valoareaprezisă de estimarea hipersuprafeţei de regresie. Se presupune că aceste reziduuri sunt independente întreele şi sunt repartizate N

    �0; �2

    �; forma matriceală a reziduurilor este reprezentată prin formula e = y � ŷ:

    � la fel ca şi în cazul regresiei liniare simple, este importantă evaluarea dispersiei �2 a termenilor ce reprezintăerorile. Definim suma pătratelor erorilor,

    nXi=1

    b"2i = nXi=1

    (yi � by)2 = nXi=1

    �yi � b�0 � b�1x1i � b�2x2i0 : : :� b�kxki�2 ;

    se notează tot prin SSE;

    16

  • � dacă în cazul regresiei liniare simple se împărţea SSE la (n� 2) ; ce reprezenta numărul gradelor de liber-tate, iar 2 era de fapt numărul parametrilor din ecuaţia de regresie, acum definim eroarea medie pătratică sau

    reziduală prin MSE =SSE

    n� p =SSE

    n� k � 1 . Statistica MSE = b� este un estimator pentru dispersia erorilor,�2.

    � rădăcina pătrată aMSE este b� este şi se numeşte eroarea standard a regresiei;� se poate demonstra, prin exact aceeaşi metodă utilizată în cazul regresiei liniare simple pentru distribuţia

    SSE�2 = (n� 2)

    b�2�2 � �

    2 (n� 2; 1) = �2 (n� 2) ; că

    SSE

    �2= (n� k � 1) b�2

    �2� �2 (n� k � 1; 1) = �2 (n� k � 1) :

    Acest rezultat fundamental asigură, la fel ca şi la regresia liniară, o metodă de obţinere a unui interval deîncredere pentru valoarea reală a lui �2.

    În ceea ce priveşte analizarea unor proprietăţi ale estimaţiilor celor mai mici pătrate, presupunem, ca de obi-cei, că termenii ce dau erorile "1; :::; "n � N

    �0; �2

    �sunt variabile aleatoare independente stochastic. În aceste

    condiţii, b�0; b�1; b�2; :::; b�k sunt estimator nedeplasaţi ai coeficienţilor de regresie �0; �1; �2; :::; �k: Într-adevăr, folosindscrierea matriceală avem, deoarece E (") = 0:

    E(�̂) = E(�XtX

    ��1Xty) = E(

    �XtX

    ��1Xt (X� + ")) = E(

    �XtX

    ��1XtX� +

    �XtX

    ��1Xt") = �:

    Matricea cov(�̂) = �2 (XtX)�1, de dimensiune p�p, reprezintă matricea de covarianţă a coeficienţilor de regresie�̂: Elementele diagonale ale acestei matrice sunt dispersiile estimatorilor b�0; b�1; :::; b�k; iar restul elementelor suntcovarianţele efective ale perechilor de câte doi estimatori cu indici distincţi. Spre exemplificare, dacă k = 2;atunci

    C =�XtX

    ��1=

    0@ C00 C01 C02C10 C11 C12C20 C21 C22

    1A est simetrică deoarece �XtX��1 are această proprietate.Mai precis, D2(b�j) = �2Cjj ; j 2 f0; 1; 2g şi cov(b�i; b�j) = �2Cjj ; pentru i 6= j:3.2 Teste statistice regresia liniară multiplă

    Există diverse teste de testare a ipotezelor în cazul regresiei liniare multiple penstru stabilirea acurateţii modelu-lui. La fel ca şi în cazul regresiei liniare simple, trebuie impuse ipoteze de normalitate şi independenţă stochasticăpentru erorile de măsurare "i.

    3.2.1 Test statistic pentru semnificaţia regresiei

    Acest test statistic constă în determinarea existenţei unei relaţii liniare între variabila de răspuns y şi o mulţimede variabile independente x1; x2; :::; xk: Ipotezele formulate sunt:

    (H0) : �1 = �2 = ::: = �k = 0; versus (H1) : �j 6= 0; pentru cel puţin un indice j.

    Respingerea ipotezei nule implică faptul că cel puţin une dintre varabilele stimul x1; x2; :::; xk contribuie sem-nificativ la model. Acceptarea ipotezei alternative indică faptul că modelul de regresie liniară multiplă estesemnificativ. Statistica de test în acest caz este:

    F =R2=k

    (1�R2) = (n� k � 1) =SSR =(k � SST)

    SSE = ((n� k � 1) � SST) =SSR =k

    SSE = (n� k � 1) =MSR

    MSE; unde

    SST =nXi=1

    (yi � y)2 ; SSE =nXi=1

    b"2i = nXi=1

    �yi � b�0 � b�1x1i � b�2x2i � : : :� b�kxki�2 ,

    SSR = SST�SSE; MSR = SSRk:

    Dacă ipoteza (H0) este adevărată, atunci

    SSR

    �2� �2(k); iar SSE

    �2= (n� k � 1) b�2

    �2� �2 (n� k � 1) ;

    17

  • iar variabilele SSR şi SSE sunt independente stochastic. Din acest motiv, pentru statistica de test pentru verifi-carea ipotezei nule avem repartiţia Snedecor-Fisher:

    F =

    SSR

    �2� 1k

    SSE

    �2� 1n� k � 1

    =MSR

    MSE� F (k; n� k � 1) (25)

    Justifcarea pentru afirmaţia (25) este oferită de următorul rezultat.

    Lema 3.1 Dacă X � �2(m; 1) = �2(m) şi Y � �2 (n; 1) = �2(n); unde m;n 2 N�; sunt două variabile aleatoareindependente, atunci distribuţia

    F =X=m

    Y=n� F (m;n) :

    Demonstraţie. Să calculăm mai întâi funcţia de repartiţie a v.a. X=Y; FX=Y : R! [0; 1];

    FXY(u) =

    ZZDfX (x) fY (y) dxdy;

    unde D =�(x; y) 2 R2 : x � 0; y > 0; x=y � u

    . Notăm

    C1 =1

    2n2 �n� (n=2)

    ; C2 =1

    2m2 �m� (m=2)

    :

    Explicitând şi domeniul D obţinem D = f(x; y) : x � 0; y � x=ug, deci

    FXY(u) = C1C2

    Z +10

    Z +1x=u

    xn2�1 y

    m2 �1 exp

    ��x+ y2�2

    �dy

    !dx:

    Derivând funcţia de repartiţie de mai sus, obţinem:

    fX

    Y

    (u) = C1C2

    Z +10

    (�)�xu

    �0xn2�1

    �xu

    �m2 �1

    exp

    ��x+ xu2�2

    �dx =

    C1C2u1+m=2

    Z +10

    xn+m2 �1 exp

    �� x2�2

    �1 +

    1

    u

    ��dx:

    În această integrală facem substituţia x2�2�1 + 1u

    �= x0; cu dx = 2�

    2

    1+1=udx0; deci

    fX

    Y

    (u) =C1C2u1+m=2

    Z +10

    �2�2

    1 + 1=ux0�n+m

    2 �1

    e�x0 2�2

    1 + 1=udx0 =

    C1C2u1+m=2

    �2�2�n+m

    2

    (1 + u)n+m2 u�

    n+m2

    Z +10

    xn+m2 �1e�xdx

    = C1C2un=2�1

    (1 + u)n+m2

    �2�2�n+m

    2 �

    �n+m

    2

    �:

    Înlocuind cantităţile C1 şi C2 în formula de mai sus obţinem:

    fX

    Y

    (u) =��n+m2

    ���n2

    ���m2

    � un=2�1(1 + u)

    n+m2

    :

    Se notează acum V = mn U şi deteminăm denstatea variabilei aleatoare V :

    fV (v) = fU

    � nmv� nm:

    Folosind şi legătura dintre funcţiile Gamma şi Beta, concluzionăm că

    fV (v) =��n+m2

    ���n2

    ���m2

    � � nmv�n=2�1�1 + nmv

    �n+m2

    n

    m=

    ��n+m2

    ���n2

    ���m2

    � � nm

    �n=2vn2�1

    �1 +

    n

    mv��n+m2

    =

    �nm

    �n=2��n2 ;

    m2

    � v n2�1 �1 + nmv��n+m2

    ; v � 0:

    18

  • Relaţia din enunţ se poate obţine şi calculând direct densitatea de repartiţie fX=Y cu ajutorul formulei câtului adouă variabile aleatoare independente, repartizate �2(m); respectiv �2(n).

    Revenim acum la verificarea ipotezelor testului statistic F: Determinăm din tabelul cuantilelor repartiţieiSnedecor-Fisher valoarea critică f�;k;n�k�1: Pentru o valoare observată f0 � f�;k;n�k�1, respingem ipoteza nulă.În caz contrar, o acceptăm.

    O formulă de calcul pentru SSE este dată de:

    SSE =nXi=1

    (yi � ŷi)2 =nXi=1

    "2i = ete =

    �y �X�̂

    �t �y �X�̂

    �= yty � �̂tXty: (26)

    Pentru calcularea statisticii SSR, deoarece SST =Pn

    i=1 y2i � (

    Pni=1 yi)

    2=n; atunci (26) devine:

    SSE = yty� 1n

    nXi=1

    yi

    !2�

    0@�̂tXty� 1n

    nXi=1

    yi

    !21A = SST�SSR; adică SSR = �̂tXty� 1n

    nXi=1

    yi

    !2:

    O măsură a semnificaţiei regresiei multiple poate fi şi coeficientul de determinare multiplă R2, definit prin:

    R2 = 1� SSESST

    =SST�SSESST

    =SSR

    SST:

    Valorile luiR2 sunt între 0 şi 1 şi, pentru a avea un model destul de bun, ar fi un coeficient de determinare aproapede 1. Mulţi statisticieni preferă utilizarea unui alt instrument de măsură pentru verificarea validităţii regresieimultiple utilizate, şi anume coeficientul de determinare multiplu ajustat, adjR2: Acesta este definit de formula:

    adjR2 = 1� MSEMST

    =SSE = (n� k � 1)SST = (n� 1) ;

    unde n este volumul datelor şi k este numărul de variabile independente în modelul liniar (fără a consideraconstanta). Deoarece SSE = (n� k � 1) este eroarea medie pătratică (reziduală), iar SST = (n� 1) este o constantă,atunci adjR2 va creşte atunci când o variabilă este adăugată la model doar dacă noua variabilă reduce pătratulerorii.

    3.2.2 Test statistic pentru semnificaţia individuală a coeficientului �i din regresia multiplă

    De multe ori, o problemă care poate apărea este verificarea ipotezelor pentru coeficienţii individuali ai regresiei.Adăugarea unei variabile la modelul de regresie face ca suma pătratelor să crească şi ca eroarea sumei pătratelorsă descrească (acesta este motivul pentru care R2 creşte întotdeauna când o nouă variabilă este adaugată). Tre-buie decis dacă creşterea sumei este suficient de mare pentru a justifica utilizarea unei noi variabile în model.

    Mai jos prezentăm testul ce verifică dacă coeficientul de regresie �i (i este un indice fixat între 1 şi k) estesemnificativ, la un nivel de semnificaţie �.

    Testăm(H0) : �i = 0; versus (H1) : �i 6= 0:

    Dacă ipoteza nulă nu este respinsă, putem elimina variabila indepentă xi din model. Considerăm statistica testsimilară, atât ca formulă, cât şi ca repartiţie, celei din cazul regresiei liniare simple:

    T =b�ivuuuutb�2

    nXi=1

    (xki � xk)2

    � t (n� k � 1) :

    Etapele testului sunt deja cunoscute. Calculăm valoarea observată a statisticii T; valoare pe care o vom nota cut0: Identificăm cuantila de ordin �=2 pentru repartiţia t (n� k � 1), t�=2;n�k�1. Decizia finală este:(

    Dacă jt0j < t�=2;n�k�1; atunci ipoteza nulă (H0) este acceptată.

    Dacă jt0j � t�=2;n�k�1; atunci ipoteza alternativă bilaterală (H1) este acceptată.

    Intervalul de acceptare este��t�=2;n�k�1; t�=2;n�k�1

    �; iar jtj � t�=2;n�2 este regiunea critică.

    Validitatea modelului de regresie liniară multiplă. Ca şi în secţiunea precedentă, pentru a verifica dacămodelul de regresie liniară multiplă este unul valid, se pot folosi mai multe metode, printre care:

    19

  • � coeficientul de determinare R2 şi coeficientul ajustat de determinare, adjR2.

    � grafic ce indică normalitatea reziduurilor b"i : Acest grafic reprezintă probabilitatile de normalitate aleerorilor versus cuantilele repartiţieiN (0; 1). Dacă modelul este valid, atunci valorile reprezentate în figurăvor fi cât mai apropiate de prima bisectoare.

    � byi versus yi: Dacă modelul este valid, atunci valorile reprezentate în figură vor fi cât mai apropiate deprima bisectoare.

    � byi versus yi: Dacă modelul este valid, atunci valorile reprezentate în figură nu ar avea nicio tendinţă clară.Reducerea unor tipuri de regresie la regresie liniară multiplă.

    O regresie polinomială simplă de ordin k este de forma:

    Y = �0 + �1X + �2X2 + : : :+ �kX

    k + ": (27)

    Ea poate fi redusă la una simplă multiplă dacă notăm X1 = X; X2 = X2; : : : ; Xk = Xk: Interpretarile coefi-cientilor �j în cazul unei regresii polinomiale nu se mai potrivesc cu cele ale coeficienţilor din cazul regresieimultiple, fiind greu de determinat.

    O regresie multiplă cu interacţiuni de ordin 2 este de forma:

    Y = �0 + �1X1 + �2X2 + �3X1X2 + �4X21 + �5X

    22 + ":

    Ea poate fi redusă la una simplă multiplă dacă notăm X1X2 = X3; X21 = X4; X22 = X5.

    4 Regresie logistică

    De multe ori este nevoie de a obţine clasificări ale datelor în funcţie de valorile observate pentru o anumităvariabilă răspuns. Spre exemplu:

    - Preziceri ale şanselor unei anumite tumori să devină malignă, sau să rămână benignă;

    - Predicţii pentru următorul preşedinte, bazate pe diverse măsurători politice, sociale sau istorice;

    - Clasificarea unor plante în funcţie de anumite caracteristici.

    Astfel, variabila răspuns poate lua un număr discret de valori (categorii). O clasificare este gruparea datelorîntr-un număr discret de categorii, prin atribuirea unei valori răspuns corespunzătoare. O problemă statisticăde clasificare constă în prezicerea valorii variabilei răspuns nominale pe baza unor observaţii asupra unui setde variabile independente. Pentru început, să presupunem că variabila răspuns Y poate lua doar două posibilevalori 0 şi 1, adică Y � B (1; p). Spre exemplu, variabila Y reprezintă decizia ca o anumită maşină să aibă nevoiede revizie. Valoarea Y = 0 reprezintă NU şi Y = 1 reprezintă DA. Astfel, p reprezintă probabilitatea ca maşina sănecesite revizie. În general, această probabilitate depinde de mai mulţi factori, spre exemplu: X1 = numărul dekm parcurşi,X2 = vechimea maşinii,X3 = timpul scurs de la ultima revizie. Pentru simplitate, ne limităm doarla aceşti trei factori. Însă, este clar, probabilitatea p nu poate depinde liniar de aceşti factori, şi nici altă formă deregresie studiată până acum nu poate fi aplicată. Motivul este simplu: dacă am presupune că

    p = �0 + �1X1 + �2X2 + �3X3 + ";

    atunci există posibilitatea că membrul din dreapta să nu aparţină intervalului [0; 1]. În consecinţă, este nevoie deo nouă dependenţă a probabilităţii p de aceşti predictori. Un exemplu potrivit este cel dat de funcţia logit, i.e.,f (x) = ea+bx=

    �1 + ea+bx

    �. Vom considera următorul model de regresie:

    p =e�0+�1X1+�2X2+�3X3

    1 + e�0+�1X1+�2X2+�3X3; (28)

    numit regresie logistica multiplă. Aici, p = p(X) = P (Y = 1jX) este probabilitatea condiţionată ca variabilarăspuns Y să ia valoarea 1, ştiind că am observat dateleX = (X1; X2; : : : ; Xn) ; iar 1�p = 1�p (X) = P (Y = 0jX)este probabilitatea ca variabila răspuns Y să ia valoarea 1, ştiind că am observat datele X. În cazul unei singurevariabile independente, X , regresia se va numi regresie logistica. Din relatia (28), obţinem:

    p

    1� p = e�0+�1X1+�2X2+�3X3 :

    20

  • Expresia p= (1� p) se numeşte cota de realizare a evenimentului. Prin logaritmare, găsim că

    lnp

    1� p = �0 + �1X1 + �2X2 + �3X3: (29)

    Astfel, modelul poate fi privit ca un model de regresie liniară multiplă. Coeficienţii �i sunt uşor de interpretat.Spre exemplu, dacă în relaţia (29) variabilaX1 creşte cu o unitate, menţinând celelalte două variabile fixe, atuncilogaritmul cotei se va modifica cu cantitatea �1. Dacă facem acelaşi lucru în relaţia (28), atunci o creştere cu ounitate a variabileiX1, ţinând celelalte variabile fixe, va conduce la o modificare cu e�1 a cotei pentru care Y = 1.Pe baza observaţiilor se pot determina estimatori pentru parametri, iar pe baza acestor estimatori se estimeazăprobabilitatea p. O metodă de estimare a parametrilor �i este metoda verosimilităţii maxime. Generaliareapentru k variabile independente, poate fi realizată.

    4.1 Metoda verosimilităţii maxime

    Dat fiind un eşantion (x1i; x2i; x3i; yi), i = 1; 2; : : : ; n, notăm cu p(xi) = P (yi = 1jxi). Presupunem că

    ln

    �p(xi)

    1� p(xi)

    �= �0 + �1x1i + �2x2i + �3x3i; i = 1; 2; : : : ; n,

    echivalent cu

    p (xi) =e�0+�1x1i+�2x2i+�3x3i

    1 + e�0+�1x1i+�2x2i+�3x3i; i = 1; 2; : : : ; n:

    Deoarece Y � B (1; p (x)), funcţia de probabilitate este

    f (y; p (x)) = p (x)y � (1� p (x))1�y ; unde y 2 f0; 1g :

    Astfel, presupunând independenţa datelor observate, funcţia de verosimilitate corespunzătoare eşantionului vafi

    L (�) =nYi=1

    p (x)yi (1� p (x))1�yi :

    Estimatorii parametrilor �1; �2; �3 obţinuţi prin metoda verosimilităţii maxime sunt valorile pentru care seobţine maximumul acestei funcţii. Maximizarea aceste funcţii este echivalentă cu maximixarea logaritmului său.Astfel, estimatorii b� sunt aleşi astfel încât maximizează funcţia

    l (�) =nXi=1

    (yi ln p (xi) + (1� yi) ln (1� p (xi))) =nXi=1

    �yi ln

    �p (xi)

    1� p (xi)

    �+ ln (1� p (xi))

    =nXi=1

    �yi (�0 + �1x1i + �2x2i + �3x3i)� ln

    �1 + e�0+�1x1i+�2x2i+�3x3i

    ��:

    Dacă am căuta punctele critice ale acestei funcţii prin anularea derivatelor parţiale în raport cu �0; �1; �2 şi �3 nuvom găsi soluţii explicite. De aceea, pentru a maximiza această funcţie se folosesc metode iterative numerice.Astfel, determinarea estimatorilor pentru parametrii de regresie logistică este o muncă mult mai dificilă decât încazul regresiei liniare multiple, ce necesită implementarea de metode numerice potrivite pe un calculator. Putemdetermina chiar şi intervale de încredere pentru parametrii de regresie. După determinarea estimatorilor para-metrilor de regresie b�, următorul pas este prezicerea rezultatului pentru o nouă dată de intrare x =(x1; x2; x3).Vom avea:

    [p (x) =eb�0+b�1x1+b�2x2+b�3x3

    1 + eb�0+b�1x1+b�2x2+b�3x3 :Pe baza acestei estimări, putem prezice clasa asociată astfel:

    [y (x) =

    (1 , dacă [p (x) � 0:5;

    0 , dacă [p (x) < 0:5;

    sau, în mod echivalent,

    [y (x) =

    (1 ; dacă b�0 + b�1x1 + b�2x2 + b�3x3 � 0;0 ; dacă b�0 + b�1x1 + b�2x2 + b�3x3 < 0:

    Mulţimea nx = (x1; x2; x3) 2 R3 : b�0 + b�1x1 + b�2x2 + b�3x3 = 0o

    se numeşte frontiera de decizie între clasele 0 şi 1.

    21

  • 4.2 Regresie logistică multinomială

    Presupunem că variabila nominală Y poate lua un set de � � 3 valori distincte (sau valorile lui Y pot fi grupateîn � clase disjuncte), 1; 2; : : : ; �. În mod similar, presupunând că logaritmul cotelor urmează un model linear deregresie multiplă, putem scrie

    ln

    �P (Y = 1jX)P (Y = �jX)

    �= �10 + �11X1 + �12X2 + �13X3 = �

    T1 X;

    ln

    �P (Y = 2jX)P (Y = �jX)

    �= �20 + �11X1 + �22X2 + �23X3 = �

    T2 X;

    ...

    ln

    �P (Y = �� 1jX)P (Y = �jX)

    �= ���1;0 + ���1;1X1 + ���1;2X2 + ���1;3X3 = �

    T��1X:

    De aici, obţinem că

    P (Y = 1jX) = e�10+�11X1+�12X2+�13X3

    1 +��1Xj=1

    e�j0+�j1X1+�j2X2+�j3X3

    =e�

    T1 X

    1 +��1Xj=1

    e�Tj X

    ;

    P (Y = 2jX) = e�20+�21X1+�22X2+�23X3

    1 +��1Xj=1

    e�j0+�j1X1+�j2X2+�j3X3

    =e�

    T2 X

    1 +��1Xj=1

    e�Tj X

    ;

    ...

    P (Y = �� 1jX) = e���1;0+���1;1X1+���1;2X2+���1;3X3

    1 +��1Xj=1

    e�j0+�j1X1+�j2X2+�j3X3

    =e�

    T��1X

    1 +��1Xj=1

    e�Tj X

    ;

    P (Y = �jX) = 1

    1 +��1Xj=1

    e�j0+�j1X1+�j2X2+�j3X3

    =1

    1 +��1Xj=1

    e�Tj X

    :

    Funcţia pentru care f (z)j =ezj

    1 +P��1

    k�1 ezk; j = 1; 2; : : : ; ��1 se numeşte funcţia softmax. Este considerată a fi

    generalizarea funcţiei logit. Interpretarea coeficienţilor este similară cazului binomial. Estimările coeficienţilor sepot obţine prin metoda verosimilităţii maxime, folosind metode numerice pe un computer. După determinareaestimatorilor parametrilor de regresie b�, următorul pas este prezicerea rezultatului pentru o nouă dată de intrarex = (x1; x2; x3). Vom avea:

    \p1 (x) =eb�T1 X

    1 +��1Xj=1

    eb�Tj X

    ; \p2 (x) =eb�T2 X

    1 +��1Xj=1

    eb�Tj X

    ; : : : ; \p� (x) =1

    1 +��1Xj=1

    eb�Tj X

    :

    Pentru predicţia claselor, se alege clasa cu acel indice j pentru care j = argmaxj2f1;:::;kg\pj (x):Aceasta înseamnăcă dacă pentru datele observate găsim o predicţie maximă, atunci variabila răspuns va fi încadrată în clasarespectivă.

    5 Considerente asupra regresiei neliniare

    Regresia liniară oferă un cadru de lucru eficient în diverse domenii din viaţa cotidiană. Cu toate aceste, ea nueste potrivită oricărei stuaţii întâlnite deoarece, de multe ori, nu se poate stabili o relaţie de legătură liniară întrevariabilele predictor şi cele răspuns. Soluţia problemei este oferită de regresia neliniară. Atunci când aplicămmetoda celor mai mici pătrate acestor modele, ecuaţiile normale rezultate nu mai sunt de tip liniar şi, în general,

    22

  • dificil de rezolvat. Abordarea uzuală constă în minimizarea directă a erorii reziduale prin intermediul unorproceduri iterative. Prezentăm în cele ce urmează o descriere succintă a tehnicii folosite în regresia neliniară.

    Putem rescrie modelul de regresie liniară sub forma generală

    Y = xt� + " =f (x; �)+"

    Cum " � N�0; �2

    �; avem E (Y ) = f (x; �) : Funcţia f (x; �) va fi numită valoarea aşteptată a modelului. Orice

    model pentru care această funcţie este neliniară în parametrii necunoscuţi se va numi un model de regresie neliniară(de exemplu, Y = �1e�2x + " este neliniară în �1 şi �2).

    În general, un model de regresie neliniară se va scrie sub forma generală

    Yi = f (xi; �)+"i; � 2 Rp; i = 1; 2; :::; n:

    Erorile în acest caz sunt presupune a avea aceeaşi distribuţie ca şi în cazul liniar. Prin xi întelegem vectorulxi = (1; xi1; xi2; :::; xik)

    t; pentru fiecare i = 1; 2; :::; n: Funcţia celor mai mici pătrate asociate modelului este

    � : Rp ! R+; � (�) =nXi=1

    (yi � f (xi; �))2 :

    Pentru determinarea punctelor critice trebuie să rezolvăm sistemul de p ecuaţii normale asociate modelului deregresie neliniară:

    nXi=1

    (yi � f (xi; �))@f (xi; �)

    @�j= 0; pentru i = 1; 2; :::; n:

    Caracterul neliniar al funcţiilor implicate poate face ca rezolvarea sistemului şi determinarea vectorului punctelorcritice �̂ să fie foarte greu de realizat. Pentru a exemplifica aceasta, să considerăm un simplu exemplu, în careY = �1e

    �2x + ": Sistemul de rezolvat este:8>>>>>>>:

    nXi=1

    �yi � �̂1e�̂2xi

    �e�̂2xi = 0

    nXi=1

    �yi � �̂1e�̂2xi

    ��̂1xie

    �̂2xi = 0

    ()

    8>>>>>>>:

    nXi=1

    yie�̂2xi � �̂1

    nXi=1

    e2�̂2xi = 0

    nXi=1

    yixie�̂2xi � �̂1

    nXi=1

    xie2�̂2xi = 0

    Nu putem determina, prin metode clasice soluţiile, sistemului anterior. Din acest motiv, trebuie utilizate metodeiterative de aproximare a soluţiilor. De asemenea, pot exista soluţii multiple pentru sistemul obţinut.

    Instrumentele folosite. Metoda folosită în abordarea acestui tip de regresie o constituie liniarizarea funcţieineliniare, urmată de metode iterative de tip Gauss-Newton pentru estimarea parametrilor. Liniarizarea se real-izează prin dezvoltarea în serie Taylor a funcţiei f (xi; �) ; în vecinătatea punctului critic �00 = (�10; �20; :::; �p0)

    t;

    dezvoltare din care păstrăm doar termenul liniar. Obţinem:

    f (xi; �) = f (xi; �0) +

    pXj=1

    �@f (xi; �)

    @�j

    ��=�0

    � (�j � �j0) : (30)

    Notăm

    f0i = f (xi; �0) ; �0j = �j � �j0; Z0ij =

    �@f (xi; �)

    @�j

    ��=�0

    ;

    iar modelul de regresie neliniară se scrie sub forma (aproximantă) liniară, cu valoarea de start a parametrilor �0 :

    yi � f0i =pXj=1

    �0jZ0ij + "i; i = 1; 2; :::; n:

    Ecuaţia (30) se scrie sub formă matriceală y0= Z0�0+"; cu estimarea pentru �0 :

    �̂0=�Zt0Z0

    ��1Zt0y0 =

    �Zt0Z0

    ��1Zt0 (y � f0) :

    Cum �0 = � � �0; definim �̂1 = �̂0 + �0 ca fiind estimările ajustate ale lui �: Termenul �̂0 mai este numit vectorulincrementărilor. Putem acum utiliza aceste estimări ajustate în (30) în locul lui �0 şi obţinem o nouă versiune aacestor estimări ajustate, notată cu �̂2: Algoritmul continuă în acelaşi mod. Iteraţia cu indicele k este8

  • Algoritmul iterativ continuă până este atins un criteriu de convergenţă, precum����� �̂j;k+1 � �̂j;k�̂j;k����� < �; j = 1; 2; :::; p;

    unde � este un prag suficient de mic (de exemplu, de ordinul lui 10�4). Aceşti algoritmi sunt implementaţi înpachetele diverselor softuri matematice.

    Bibliografie

    [1] Anderson, M., A characterization of the multivariate normal distribution, The Annals of Mathematical Statistics,vol. 42, no. 2, 824-827, 1971.

    [2] Benhamou, E.; Melot, V., Seven proofs of the Pearson Chi-squared independence test and its graphical interpretation,arXiv:1808.09171v3, 2018.

    [3] Berk, R., Review 1922 of ‘Invariance of Maximum Likelihood Estimators’ by Peter W. Zehna, Mathematical Re-views, 33, 342-343, 1967.

    [4] Devore, J; Berk, K., Modern Mathematical Statistics with Applications, 2nd Edition, Springer New York Dor-drecht Heidelberg London, 2012.

    [5] Duret, R., Probability: Theory and Examples, 5th Edition, Cambridge Series in Statistical and ProbabilisticMathematics, 2014.

    [6] Gibbons Dickinson, J.; Chakraborti, S., Nonparametric Statistical Inference, Fourth Edition, Revised and Ex-panded, Marcel Dekker, INC., New York, Basel, 2003.

    [7] Kendall, M.G., The Advanced Theory of Statistics, Volume 1, Distribution Theory, London, Charles Griffin &Company, 1945 (Edition by Stuart, Alan, Ord, Keith, 2010).

    [8] Kendall, M.G.; Stuart, A., The Advanced Theory of Statistics, Volume 2, Inference and Relationships, HafnerPublishing Company, 1961 (Edition by Wiley, 2010).

    [9] Klenke, A., Probability Theory: A Comprehensive Course, 2nd Edition, Springer, 2014.[10] Kolmogorov, A. N., Sulla Determinazione Empirica di Una Legge di Distribuzione, Giornale dell’Istituto Italiano

    degli Attuari, 4. 83-91, 1933.[11] Montgomery, D; Runger, G, Applied Statistics and Probability for Engineers, 3rd Edition, John Wiley & Sons,

    Inc, 2003.[12] Owen, A, Lectures on statistics, Department of Statistics, Stanford University.[13] Stoleriu, I., Statistică aplicată, note de curs, 2019.[14] Wackerly, D.; Mendenhall, W.; Scheaffer, R., Mathematical Statistics with Applications, 7th Edition, Thomson

    Brooks/Cole, 2008.[15] Walck, C., Handbook on Statistical distributions for experimentalists, Particle Physics Group, University of

    Stockholm.[16] Watson, G.S., Some recent results in chi-square goodness-of-fit tests, Biometrics, 15, 440, 1959.

    24

    MotivatieRegresia liniara simplaIntervale de încredere pentru parametrii de regresieVerificarea ipotezelor statistice pentru 1 (slope) si pentru 0 (intercept)Predictie prin regresieValiditatea modelului de regresie liniara simpla

    Regresie liniara multiplaMetoda celor mai mici patrate pentru estimarea parametrilorTeste statistice regresia liniara multiplaTest statistic pentru semnificatia regresieiTest statistic pentru semnificatia individuala a coeficientului i din regresia multipla

    Regresie logisticaMetoda verosimilitatii maximeRegresie logistica multinomiala

    Considerente asupra regresiei neliniare