regresia a korelácia

58
Regresia a korelácia Regresia a korelácia Iveta Waczulíková Iveta Waczulíková Peter Slezák Peter Slezák Fakulta matematiky, Fakulta matematiky, fyziky a informatiky UK fyziky a informatiky UK Ústav Ústav simulačného a simulačného a virtuálneho virtuálneho medicínskeho medicínskeho vzdelávania LF UK vzdelávania LF UK

Upload: nanda

Post on 14-Jan-2016

85 views

Category:

Documents


8 download

DESCRIPTION

Regresia a korelácia. Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK. skúmanie sily a druhu závislostí medzi dvoma premennými štatistická závislosť ≠ kauzalita!!! bodový graf - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Regresia a korelácia

Regresia a koreláciaRegresia a korelácia

Iveta WaczulíkováIveta WaczulíkováPeter SlezákPeter Slezák

Fakulta matematiky, Fakulta matematiky, fyziky a informatiky UKfyziky a informatiky UK

Ústav Ústav simulačného a simulačného a virtuálneho virtuálneho

medicínskeho medicínskeho vzdelávania LF UKvzdelávania LF UK

Page 2: Regresia a korelácia
Page 3: Regresia a korelácia
Page 4: Regresia a korelácia

• skúmanie sily a druhu závislostí medzi dvoma premennými

• štatistická závislosť ≠ kauzalita!!!• bodový graf• korelácia – sila závislosti („symetrický“ vzťah

premenných)• regresia – závislosť spojitej veličiny (závislej

premennej) na jednej alebo viacerých veličinách (nezávislé premenné)

• závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ...

Page 5: Regresia a korelácia
Page 6: Regresia a korelácia

Variancia, kovariancia a korelačný koeficient

(Pearsonov)• Pearsonov korelačný koeficient rxy – určuje silu

vzťahu dvoch spojitých premenných (x,y)

n

ii

n

ii

i

n

ii

xy

yyxx

yyxxr

1

2

1

2

1

)()(

)()(

Výberová kovariancia – cov(x,y)

Variancia x – var(x)

Variancia y - var(y)

Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil

Page 7: Regresia a korelácia

)( yyi

)()(1

yyxx i

n

ii

Page 8: Regresia a korelácia

Lineárny vzťah medzi Y a X je pozitívny (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude pozitívna, pretože je tu viac pozitívnych ako negatívnych hodnôt.

Page 9: Regresia a korelácia

Correlation Seen on a Graph

Moderate Correlation

Same Direction,Weak Correlation

Same Direction,Strong Correlation

Korelačný koeficient <-1, 1>

0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah

Page 10: Regresia a korelácia
Page 11: Regresia a korelácia

• Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value)

• H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje žiadny lineárny vzťah

• Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná!

• uvádzať konfidenčné intervaly pre populačný koeficient

• Korelácia neznamená príčinnosť!!!

Poznámky ku korelačnému koeficientu

Page 12: Regresia a korelácia

Korelačný koeficient

Dokáže zachytiť:

• silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1)

• smer lineárnej závislosti (v zmysle priama vs. nepriama)

Nedokáže zachytiť:

• Veľkosť sklonu lineárnej závislosti

• Nelineárnu závislosť medzi premennými

Korelovanosť = lineárna závislosť

Page 13: Regresia a korelácia

Korelačný koeficient

http://en.wikipedia.org/wiki/File:Correlation_examples.png

Page 14: Regresia a korelácia

Auscombe’s regression data

Page 15: Regresia a korelácia

Jednoduchá regresia (simple regression)

• Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej).

• Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.

Page 16: Regresia a korelácia

Lineárna regresia

• Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými

lineárny

nelineárny

Page 17: Regresia a korelácia

• Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky

• model y = A + Bx + ε • y – závislá premenná• x – nezávislá premenná• A – absolútny člen-bod, kde priamka pretína y-

ovú os• B – smernica priamky („sklon“) • ε – náhodný člen (náhodná chyba, ktorú nejde

vysvetliť lineárnym vzťahom)a, b – odhady regresných parametrov A, B, vypočítaných z našich dát

Populácia – A, B ↔ a, b - výber

Page 18: Regresia a korelácia

Bodový diagram (scatter plot)

Page 19: Regresia a korelácia

Metóda najmenších štvorcov

Regresná priamka

ε

Page 20: Regresia a korelácia

• reziduálny súčet štvorcov

• počet stupňov voľnosti (n – 2)• reziduálny rozptyl

22

n

SS e

• celková suma štvorcov

2)( yySi

iT

• regresná suma štvorcov

22 ˆ yyS ie

2)ˆ( yySi

iR

• ST = SR + Se

Page 21: Regresia a korelácia

Celková suma štvorcov ST

y

Page 22: Regresia a korelácia

Koeficient determinácie R2

• Vysvetlená variabilita/celková variabilita

T

e

T

R

S

S

S

SR 12

• Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť.

• Druhá mocnina korelačného koeficientu

• 0 ≤ R2 ≥ 1

Page 23: Regresia a korelácia

Koeficient determinácie R2

SSrez

SSrez

Page 24: Regresia a korelácia

Interpretácia regresných koeficientov

• Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!!

• b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1• a – priesečník s osou y

Page 25: Regresia a korelácia

Interpretácia regresných koeficientov

b > 0b < 0

Page 26: Regresia a korelácia

Predpoklady modelu

• Lineárny vzťah medzi x a y. (t.j. správne definovaný model)

• Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. nulovú strednú hodnotu a konštantný rozptyl)

• (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (Homoskedasticita).)

• Chyby sú navzájom nezávislé.

Page 27: Regresia a korelácia

Lineárny vzťah

Page 28: Regresia a korelácia

Normálne rozdelenie s (konštantnou) smerodajnou ochýlkou σε

Page 29: Regresia a korelácia

Normálne rozdelenie chyby

Populačná regresná priamka

Page 30: Regresia a korelácia
Page 31: Regresia a korelácia

Príklad výstupu analýzy lineárnej regresie

Page 32: Regresia a korelácia

Regression and the F-test

The line of best fit(minimizes sum ofsquared residuals)

Predicted value

Actual value

Error variance (residual)

Model variance (predicted)

Avg. SSmodel variance F = Avg. SSerror variance

Page 33: Regresia a korelácia

Simple regression - analysis

Source of variation Sum Squares DF Mean Square

Regression 4476,965491 1 4476,965491

Residual 10923,034509 48 227,563219

Total 15400 49

F = 19,673502 P < 0,0001

R square = 0,290712

50 100 150 200100

120

140

160

180

200

TSH0

TS00-3h.

Page 34: Regresia a korelácia

Simple linear regression

Equation: TSH0 = 0,347095 TS00-3h. + 97,703185

Standard Error of slope = 0,078254

95% CI for population value of slope = 0,189754 to 0,504435

Correlation coefficient (r) = 0,539177 (r² = 0,290712)

95% CI for r (Fisher's z transformed) = 0,306887 to 0,710843

t with 48 DF = 4,435482

Two sided P < 0,0001

Power (for 5% significance) = 98,37%

Correlation coefficient is significantly different from zero

Page 35: Regresia a korelácia

Heteroskedasticita…

• Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite.

• Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y

Page 36: Regresia a korelácia

Overenie predpokladov modelu

Residuals vs. Fitted Y [linear regression]

120 130 140 150 160 170-30

-5

20

45

Fitted TSH0

Residuals (Y - y fit)

• Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test)• Overenie lineárnosti vzťahu• Overenie konštantnosti rozptylu

Page 37: Regresia a korelácia

• Overenie normálneho rozdelenia chyby N(0,σε)• Normálny graf (q-q alebo p-p plot), histogram, testy

(ne)normality

Normal Plot for Residuals [linear regression]

-30 -5 20 45-3

-1

1

3

Residual (Y - y fit)

van der Waerden normal score

Page 38: Regresia a korelácia
Page 39: Regresia a korelácia

Použitie regresného modelu k odhadnutiu priemernej hodnoty y

SE and 95% CI for regression estimate

50 100 150 200100

120

140

160

180

200

TSH0

TS00-3h.

Page 40: Regresia a korelácia

Prediction interval

95% Prediction Interval

50 100 150 20050

80

110

140

170

200

TSH0

TS00-3h.

Predpovedanie konkrétnej hodnoty budúceho merania

Page 41: Regresia a korelácia

Outliers

• Odľahlé hodnoty (multivariate outlier)

• Influential data points

• Výrazne ovplyvňujú výsledok OLS

Page 42: Regresia a korelácia

+

+

+

+

+ +

+ + ++

+

+

+

+

+

+

+

The outlier causes a shift in the regression line

… but, some outliers may be very influential

++++++++++

An outlier An influential observation

www.stanford.edu/class/msande247s/kchap17.ppt

• OLS metóda je citlivá na prítomnosť odľahlých pozorovaní(influential observations) !!! Neparametrická regresia

Page 43: Regresia a korelácia
Page 44: Regresia a korelácia

Confounder (zavádzajúca, mätúca, zahmlievajúca premenná)

• premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome)

Rizikový faktor

Outcome

Confounder

• V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora

Page 45: Regresia a korelácia

Confounding

Nosenie zápaliek

Rakovina pľúc

fajčenie

Page 46: Regresia a korelácia

Examples of Confounding

Oral contraceptive use

?Cervical cancer

Infection with human papillomavirus (HPV)

Oral contraceptive use

?Breast cancer

Late age at first birth/ low parity

HRP 261 1/26/04HRP 261 1/26/04

Page 47: Regresia a korelácia

Intervening variable (intervenujúca premenná)

• Nachádza sa na „príčinnej ceste“ od sledovaného rizikového faktora k outcomu

• Štatisticky neodlíšiteľná od „confoundera“• Pri zisťovaní vplyvu rizikového faktora nemôžeme

model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať

Page 48: Regresia a korelácia

Example (Intervening variable)

• The relationship between moderate alcohol consumption and risk of heart attack.

• Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack

• Did not adjusted for blood pressure, BMI, hypercholesterolemia

Alcohol consumption

Myocardial infarction

↑ Blood pressure↑ Body mass indexHypercholesterolemia

Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5

Page 49: Regresia a korelácia

Supressor

• Typ tzv. confoundera• V bivariačnej analýze nezistíme vzťah medzi rizikovým

faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví.

Rizikový faktor

Outcome

Suppressor

Zidovudine

Sérokonverzia

Vážnosť poranenia

Page 50: Regresia a korelácia

Viacnásobná lineárna regresia• Populácia:

yi = β0 + β1xi1 + β2xi2 + ... + βnxin + εi

• Výber

yi = b0 + b1xi1 + b2xi2 + ... + bnxin + εi

Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y.Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X.

Page 51: Regresia a korelácia
Page 52: Regresia a korelácia
Page 53: Regresia a korelácia

Logistická regresia 1• Účel:

Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine.

• Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X.

• Lineárny logistický model:kde P je pravdepodobnosť, y1 a y2 sú dve možné hodnoty premennej Y (najčastejšie y1 predstavuje nastatie javu a y2 nenastatie javu), βi sú logistické regresné koeficienty, ktorých odhady sa zapisujú b.

Výraz v zátvorke (podiel dvoch pravdepodobností) sa nazýva šanca (Odds). Napríklad ak je pravdepodobnosť výhry P=10 %, šanca na výhru = 0,1/(1−0,1)=0,1/0,9=1/9. Logaritmus šance sa nazýva logit.

Zdroj: http://rimarcik.com/navigator/

Page 54: Regresia a korelácia

Logistická regresia 2

Interpretácia koeficientov logistickej regresie je zložitejšia ako pri lineárnej regresii. Ak je bi>0, potom vyššie hodnoty premennej Xi, pri rovnakých hodnotách ostatných premenných X, zvyšujú šancu zaradenia objektu do 1. skupiny. Ak je bi<0, vyššie hodnoty Xi túto šancu znižujú. Častejšie ako samotné regresné koeficienty b sa interpretujú pomery šancí (eb).

Pomer šancí (Odds Ratio) vyjadruje pomer šance zaradenia objektu do 1. skupiny ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené, k pôvodnej šanci jeho zaradenia do 1. skupiny. Na rozdiel od viacnásobnej regresie, interpretácia b a teda aj pomeru šancí (eb) závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretácia. Pomer šancí predstavuje pomer šance zaradenia objektu do 1. skupiny ak Xi=1 ku šanci jeho zaradenia ak Xi =0 pri rovnakých hodnotách ostatných premenných X.

Page 55: Regresia a korelácia
Page 56: Regresia a korelácia

Referencie1. Zvárová et. al. Základy statistiky pro

biomedicínské obory. Praha, Karolinum, 2004.2. Dayya, D.: Advanced Statistical Methods and

Multivariate Analysis In Medicine. prezentácia 3. Motulsky H.J., Christopoulos A.: Fitting

models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003

4. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001.

5. http://rimarcik.com/navigator/6. Prezentácia: Základní kurz statistiky II, regresní

Analýza. Milan Bašta (28. únor & 1. březen, 2011)

Page 57: Regresia a korelácia
Page 58: Regresia a korelácia