regresia a korelácia

Regresia a koreláciaRegresia a korelácia

Iveta WaczulíkováIveta WaczulíkováPeter SlezákPeter Slezák

Fakulta matematiky, Fakulta matematiky, fyziky a informatiky UKfyziky a informatiky UK

Ústav Ústav simulačného a simulačného a virtuálneho virtuálneho

medicínskeho medicínskeho vzdelávania LF UKvzdelávania LF UK

• skúmanie sily a druhu závislostí medzi dvoma premennými

• štatistická závislosť ≠ kauzalita!!!• bodový graf• korelácia – sila závislosti („symetrický“ vzťah

premenných)• regresia – závislosť spojitej veličiny (závislej

premennej) na jednej alebo viacerých veličinách (nezávislé premenné)

• závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ...

Variancia, kovariancia a korelačný koeficient

(Pearsonov)• Pearsonov korelačný koeficient rxy – určuje silu

vzťahu dvoch spojitých premenných (x,y)

n

ii

n

ii

i

n

ii

xy

yyxx

yyxxr

1

2

1

2

1

)()(

)()(

Výberová kovariancia – cov(x,y)

Variancia x – var(x)

Variancia y - var(y)

Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil

)( yyi

)()(1

yyxx i

n

ii

Lineárny vzťah medzi Y a X je pozitívny (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude pozitívna, pretože je tu viac pozitívnych ako negatívnych hodnôt.

Correlation Seen on a Graph

Moderate Correlation

Same Direction,Weak Correlation

Same Direction,Strong Correlation

Korelačný koeficient <-1, 1>

0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah

• Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value)

• H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje žiadny lineárny vzťah

• Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná!

• uvádzať konfidenčné intervaly pre populačný koeficient

• Korelácia neznamená príčinnosť!!!

Poznámky ku korelačnému koeficientu

Korelačný koeficient

Dokáže zachytiť:

• silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1)

• smer lineárnej závislosti (v zmysle priama vs. nepriama)

Nedokáže zachytiť:

• Veľkosť sklonu lineárnej závislosti

• Nelineárnu závislosť medzi premennými

Korelovanosť = lineárna závislosť

Korelačný koeficient

http://en.wikipedia.org/wiki/File:Correlation_examples.png

Auscombe’s regression data

Jednoduchá regresia (simple regression)

• Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej).

• Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.

Lineárna regresia

• Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými

lineárny

nelineárny

• Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky

• model y = A + Bx + ε • y – závislá premenná• x – nezávislá premenná• A – absolútny člen-bod, kde priamka pretína y-

ovú os• B – smernica priamky („sklon“) • ε – náhodný člen (náhodná chyba, ktorú nejde

vysvetliť lineárnym vzťahom)a, b – odhady regresných parametrov A, B, vypočítaných z našich dát

Populácia – A, B ↔ a, b - výber

Bodový diagram (scatter plot)

Metóda najmenších štvorcov

Regresná priamka

ε

• reziduálny súčet štvorcov

• počet stupňov voľnosti (n – 2)• reziduálny rozptyl

22

n

SS e

• celková suma štvorcov

2)( yySi

iT

• regresná suma štvorcov

22 ˆ yyS ie

2)ˆ( yySi

iR

• ST = SR + Se

Celková suma štvorcov ST

y

Koeficient determinácie R2

• Vysvetlená variabilita/celková variabilita

T

e

T

R

S

S

S

SR 12

• Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť.

• Druhá mocnina korelačného koeficientu

• 0 ≤ R2 ≥ 1

Koeficient determinácie R2

SSrez

SSrez

Interpretácia regresných koeficientov

• Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!!

• b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1• a – priesečník s osou y

Interpretácia regresných koeficientov

b > 0b < 0

Predpoklady modelu

• Lineárny vzťah medzi x a y. (t.j. správne definovaný model)

• Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. nulovú strednú hodnotu a konštantný rozptyl)

• (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (Homoskedasticita).)

• Chyby sú navzájom nezávislé.

Lineárny vzťah

Normálne rozdelenie s (konštantnou) smerodajnou ochýlkou σε

Normálne rozdelenie chyby

Populačná regresná priamka

Príklad výstupu analýzy lineárnej regresie

Regression and the F-test

The line of best fit(minimizes sum ofsquared residuals)

Predicted value

Actual value

Error variance (residual)

Model variance (predicted)

Avg. SSmodel variance F = Avg. SSerror variance

Simple regression - analysis

Source of variation Sum Squares DF Mean Square

Regression 4476,965491 1 4476,965491

Residual 10923,034509 48 227,563219

Total 15400 49

F = 19,673502 P < 0,0001

R square = 0,290712

50 100 150 200100

120

140

160

180

200

TSH0

TS00-3h.

Simple linear regression

Equation: TSH0 = 0,347095 TS00-3h. + 97,703185

Standard Error of slope = 0,078254

95% CI for population value of slope = 0,189754 to 0,504435

Correlation coefficient (r) = 0,539177 (r² = 0,290712)

95% CI for r (Fisher's z transformed) = 0,306887 to 0,710843

t with 48 DF = 4,435482

Two sided P < 0,0001

Power (for 5% significance) = 98,37%

Correlation coefficient is significantly different from zero

Heteroskedasticita…

• Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite.

• Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y

Overenie predpokladov modelu

Residuals vs. Fitted Y [linear regression]

120 130 140 150 160 170-30

-5

20

45

Fitted TSH0

Residuals (Y - y fit)

• Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test)• Overenie lineárnosti vzťahu• Overenie konštantnosti rozptylu

• Overenie normálneho rozdelenia chyby N(0,σε)• Normálny graf (q-q alebo p-p plot), histogram, testy

(ne)normality

Normal Plot for Residuals [linear regression]

-30 -5 20 45-3

-1

1

3

Residual (Y - y fit)

van der Waerden normal score

Použitie regresného modelu k odhadnutiu priemernej hodnoty y

SE and 95% CI for regression estimate

50 100 150 200100

120

140

160

180

200

TSH0

TS00-3h.

Prediction interval

95% Prediction Interval

50 100 150 20050

80

110

140

170

200

TSH0

TS00-3h.

Predpovedanie konkrétnej hodnoty budúceho merania

Outliers

• Odľahlé hodnoty (multivariate outlier)

• Influential data points

• Výrazne ovplyvňujú výsledok OLS

+

+

+

+

+ +

+ + ++

+

+

+

+

+

+

+

The outlier causes a shift in the regression line

… but, some outliers may be very influential

++++++++++

An outlier An influential observation

www.stanford.edu/class/msande247s/kchap17.ppt

• OLS metóda je citlivá na prítomnosť odľahlých pozorovaní(influential observations) !!! Neparametrická regresia

Confounder (zavádzajúca, mätúca, zahmlievajúca premenná)

• premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome)

Rizikový faktor

Outcome

Confounder

• V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora

Confounding

Nosenie zápaliek

Rakovina pľúc

fajčenie

Examples of Confounding

Oral contraceptive use

?Cervical cancer

Infection with human papillomavirus (HPV)

Oral contraceptive use

?Breast cancer

Late age at first birth/ low parity

HRP 261 1/26/04HRP 261 1/26/04

Intervening variable (intervenujúca premenná)

• Nachádza sa na „príčinnej ceste“ od sledovaného rizikového faktora k outcomu

• Štatisticky neodlíšiteľná od „confoundera“• Pri zisťovaní vplyvu rizikového faktora nemôžeme

model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať

Example (Intervening variable)

• The relationship between moderate alcohol consumption and risk of heart attack.

• Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack

• Did not adjusted for blood pressure, BMI, hypercholesterolemia

Alcohol consumption

Myocardial infarction

↑ Blood pressure↑ Body mass indexHypercholesterolemia

Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5

Supressor

• Typ tzv. confoundera• V bivariačnej analýze nezistíme vzťah medzi rizikovým

faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví.

Rizikový faktor

Outcome

Suppressor

Zidovudine

Sérokonverzia

Vážnosť poranenia

Viacnásobná lineárna regresia• Populácia:

yi = β0 + β1xi1 + β2xi2 + ... + βnxin + εi

• Výber

yi = b0 + b1xi1 + b2xi2 + ... + bnxin + εi

Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y.Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X.

Logistická regresia 1• Účel:

Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine.

• Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X.

• Lineárny logistický model:kde P je pravdepodobnosť, y1 a y2 sú dve možné hodnoty premennej Y (najčastejšie y1 predstavuje nastatie javu a y2 nenastatie javu), βi sú logistické regresné koeficienty, ktorých odhady sa zapisujú b.

Výraz v zátvorke (podiel dvoch pravdepodobností) sa nazýva šanca (Odds). Napríklad ak je pravdepodobnosť výhry P=10 %, šanca na výhru = 0,1/(1−0,1)=0,1/0,9=1/9. Logaritmus šance sa nazýva logit.

Zdroj: http://rimarcik.com/navigator/

Logistická regresia 2

Interpretácia koeficientov logistickej regresie je zložitejšia ako pri lineárnej regresii. Ak je bi>0, potom vyššie hodnoty premennej Xi, pri rovnakých hodnotách ostatných premenných X, zvyšujú šancu zaradenia objektu do 1. skupiny. Ak je bi<0, vyššie hodnoty Xi túto šancu znižujú. Častejšie ako samotné regresné koeficienty b sa interpretujú pomery šancí (eb).

Pomer šancí (Odds Ratio) vyjadruje pomer šance zaradenia objektu do 1. skupiny ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené, k pôvodnej šanci jeho zaradenia do 1. skupiny. Na rozdiel od viacnásobnej regresie, interpretácia b a teda aj pomeru šancí (eb) závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretácia. Pomer šancí predstavuje pomer šance zaradenia objektu do 1. skupiny ak Xi=1 ku šanci jeho zaradenia ak Xi =0 pri rovnakých hodnotách ostatných premenných X.

Referencie1. Zvárová et. al. Základy statistiky pro

biomedicínské obory. Praha, Karolinum, 2004.2. Dayya, D.: Advanced Statistical Methods and

Multivariate Analysis In Medicine. prezentácia 3. Motulsky H.J., Christopoulos A.: Fitting

models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003

4. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001.

5. http://rimarcik.com/navigator/6. Prezentácia: Základní kurz statistiky II, regresní

Analýza. Milan Bašta (28. únor & 1. březen, 2011)

http://rimarcik.com/navigator/

regresia a korelácia

Documents