regresia a korelácia
DESCRIPTION
Regresia a korelácia. Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK. skúmanie sily a druhu závislostí medzi dvoma premennými štatistická závislosť ≠ kauzalita!!! bodový graf - PowerPoint PPT PresentationTRANSCRIPT
Regresia a koreláciaRegresia a korelácia
Iveta WaczulíkováIveta WaczulíkováPeter SlezákPeter Slezák
Fakulta matematiky, Fakulta matematiky, fyziky a informatiky UKfyziky a informatiky UK
Ústav Ústav simulačného a simulačného a virtuálneho virtuálneho
medicínskeho medicínskeho vzdelávania LF UKvzdelávania LF UK
• skúmanie sily a druhu závislostí medzi dvoma premennými
• štatistická závislosť ≠ kauzalita!!!• bodový graf• korelácia – sila závislosti („symetrický“ vzťah
premenných)• regresia – závislosť spojitej veličiny (závislej
premennej) na jednej alebo viacerých veličinách (nezávislé premenné)
• závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ...
Variancia, kovariancia a korelačný koeficient
(Pearsonov)• Pearsonov korelačný koeficient rxy – určuje silu
vzťahu dvoch spojitých premenných (x,y)
n
ii
n
ii
i
n
ii
xy
yyxx
yyxxr
1
2
1
2
1
)()(
)()(
Výberová kovariancia – cov(x,y)
Variancia x – var(x)
Variancia y - var(y)
Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil
)( yyi
)()(1
yyxx i
n
ii
Lineárny vzťah medzi Y a X je pozitívny (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude pozitívna, pretože je tu viac pozitívnych ako negatívnych hodnôt.
Correlation Seen on a Graph
Moderate Correlation
Same Direction,Weak Correlation
Same Direction,Strong Correlation
Korelačný koeficient <-1, 1>
0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah
• Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value)
• H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje žiadny lineárny vzťah
• Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná!
• uvádzať konfidenčné intervaly pre populačný koeficient
• Korelácia neznamená príčinnosť!!!
Poznámky ku korelačnému koeficientu
Korelačný koeficient
Dokáže zachytiť:
• silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1)
• smer lineárnej závislosti (v zmysle priama vs. nepriama)
Nedokáže zachytiť:
• Veľkosť sklonu lineárnej závislosti
• Nelineárnu závislosť medzi premennými
Korelovanosť = lineárna závislosť
Korelačný koeficient
http://en.wikipedia.org/wiki/File:Correlation_examples.png
Auscombe’s regression data
Jednoduchá regresia (simple regression)
• Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej).
• Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.
Lineárna regresia
• Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými
lineárny
nelineárny
• Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky
• model y = A + Bx + ε • y – závislá premenná• x – nezávislá premenná• A – absolútny člen-bod, kde priamka pretína y-
ovú os• B – smernica priamky („sklon“) • ε – náhodný člen (náhodná chyba, ktorú nejde
vysvetliť lineárnym vzťahom)a, b – odhady regresných parametrov A, B, vypočítaných z našich dát
Populácia – A, B ↔ a, b - výber
Bodový diagram (scatter plot)
Metóda najmenších štvorcov
Regresná priamka
ε
• reziduálny súčet štvorcov
• počet stupňov voľnosti (n – 2)• reziduálny rozptyl
22
n
SS e
• celková suma štvorcov
2)( yySi
iT
• regresná suma štvorcov
22 ˆ yyS ie
2)ˆ( yySi
iR
• ST = SR + Se
Celková suma štvorcov ST
y
Koeficient determinácie R2
• Vysvetlená variabilita/celková variabilita
T
e
T
R
S
S
S
SR 12
• Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť.
• Druhá mocnina korelačného koeficientu
• 0 ≤ R2 ≥ 1
Koeficient determinácie R2
SSrez
SSrez
Interpretácia regresných koeficientov
• Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!!
• b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1• a – priesečník s osou y
Interpretácia regresných koeficientov
b > 0b < 0
Predpoklady modelu
• Lineárny vzťah medzi x a y. (t.j. správne definovaný model)
• Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. nulovú strednú hodnotu a konštantný rozptyl)
• (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (Homoskedasticita).)
• Chyby sú navzájom nezávislé.
Lineárny vzťah
Normálne rozdelenie s (konštantnou) smerodajnou ochýlkou σε
Normálne rozdelenie chyby
Populačná regresná priamka
Príklad výstupu analýzy lineárnej regresie
Regression and the F-test
The line of best fit(minimizes sum ofsquared residuals)
Predicted value
Actual value
Error variance (residual)
Model variance (predicted)
Avg. SSmodel variance F = Avg. SSerror variance
Simple regression - analysis
Source of variation Sum Squares DF Mean Square
Regression 4476,965491 1 4476,965491
Residual 10923,034509 48 227,563219
Total 15400 49
F = 19,673502 P < 0,0001
R square = 0,290712
50 100 150 200100
120
140
160
180
200
TSH0
TS00-3h.
Simple linear regression
Equation: TSH0 = 0,347095 TS00-3h. + 97,703185
Standard Error of slope = 0,078254
95% CI for population value of slope = 0,189754 to 0,504435
Correlation coefficient (r) = 0,539177 (r² = 0,290712)
95% CI for r (Fisher's z transformed) = 0,306887 to 0,710843
t with 48 DF = 4,435482
Two sided P < 0,0001
Power (for 5% significance) = 98,37%
Correlation coefficient is significantly different from zero
Heteroskedasticita…
• Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite.
• Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y
Overenie predpokladov modelu
Residuals vs. Fitted Y [linear regression]
120 130 140 150 160 170-30
-5
20
45
Fitted TSH0
Residuals (Y - y fit)
• Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test)• Overenie lineárnosti vzťahu• Overenie konštantnosti rozptylu
• Overenie normálneho rozdelenia chyby N(0,σε)• Normálny graf (q-q alebo p-p plot), histogram, testy
(ne)normality
Normal Plot for Residuals [linear regression]
-30 -5 20 45-3
-1
1
3
Residual (Y - y fit)
van der Waerden normal score
Použitie regresného modelu k odhadnutiu priemernej hodnoty y
SE and 95% CI for regression estimate
50 100 150 200100
120
140
160
180
200
TSH0
TS00-3h.
Prediction interval
95% Prediction Interval
50 100 150 20050
80
110
140
170
200
TSH0
TS00-3h.
Predpovedanie konkrétnej hodnoty budúceho merania
Outliers
• Odľahlé hodnoty (multivariate outlier)
• Influential data points
• Výrazne ovplyvňujú výsledok OLS
+
+
+
+
+ +
+ + ++
+
+
+
+
+
+
+
The outlier causes a shift in the regression line
… but, some outliers may be very influential
++++++++++
An outlier An influential observation
www.stanford.edu/class/msande247s/kchap17.ppt
• OLS metóda je citlivá na prítomnosť odľahlých pozorovaní(influential observations) !!! Neparametrická regresia
Confounder (zavádzajúca, mätúca, zahmlievajúca premenná)
• premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome)
Rizikový faktor
Outcome
Confounder
• V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora
Confounding
Nosenie zápaliek
Rakovina pľúc
fajčenie
Examples of Confounding
Oral contraceptive use
?Cervical cancer
Infection with human papillomavirus (HPV)
Oral contraceptive use
?Breast cancer
Late age at first birth/ low parity
HRP 261 1/26/04HRP 261 1/26/04
Intervening variable (intervenujúca premenná)
• Nachádza sa na „príčinnej ceste“ od sledovaného rizikového faktora k outcomu
• Štatisticky neodlíšiteľná od „confoundera“• Pri zisťovaní vplyvu rizikového faktora nemôžeme
model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať
Example (Intervening variable)
• The relationship between moderate alcohol consumption and risk of heart attack.
• Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack
• Did not adjusted for blood pressure, BMI, hypercholesterolemia
Alcohol consumption
Myocardial infarction
↑ Blood pressure↑ Body mass indexHypercholesterolemia
Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5
Supressor
• Typ tzv. confoundera• V bivariačnej analýze nezistíme vzťah medzi rizikovým
faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví.
Rizikový faktor
Outcome
Suppressor
Zidovudine
Sérokonverzia
Vážnosť poranenia
Viacnásobná lineárna regresia• Populácia:
yi = β0 + β1xi1 + β2xi2 + ... + βnxin + εi
• Výber
yi = b0 + b1xi1 + b2xi2 + ... + bnxin + εi
Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y.Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X.
Logistická regresia 1• Účel:
Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine.
• Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X.
• Lineárny logistický model:kde P je pravdepodobnosť, y1 a y2 sú dve možné hodnoty premennej Y (najčastejšie y1 predstavuje nastatie javu a y2 nenastatie javu), βi sú logistické regresné koeficienty, ktorých odhady sa zapisujú b.
Výraz v zátvorke (podiel dvoch pravdepodobností) sa nazýva šanca (Odds). Napríklad ak je pravdepodobnosť výhry P=10 %, šanca na výhru = 0,1/(1−0,1)=0,1/0,9=1/9. Logaritmus šance sa nazýva logit.
Zdroj: http://rimarcik.com/navigator/
Logistická regresia 2
Interpretácia koeficientov logistickej regresie je zložitejšia ako pri lineárnej regresii. Ak je bi>0, potom vyššie hodnoty premennej Xi, pri rovnakých hodnotách ostatných premenných X, zvyšujú šancu zaradenia objektu do 1. skupiny. Ak je bi<0, vyššie hodnoty Xi túto šancu znižujú. Častejšie ako samotné regresné koeficienty b sa interpretujú pomery šancí (eb).
Pomer šancí (Odds Ratio) vyjadruje pomer šance zaradenia objektu do 1. skupiny ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené, k pôvodnej šanci jeho zaradenia do 1. skupiny. Na rozdiel od viacnásobnej regresie, interpretácia b a teda aj pomeru šancí (eb) závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretácia. Pomer šancí predstavuje pomer šance zaradenia objektu do 1. skupiny ak Xi=1 ku šanci jeho zaradenia ak Xi =0 pri rovnakých hodnotách ostatných premenných X.
Referencie1. Zvárová et. al. Základy statistiky pro
biomedicínské obory. Praha, Karolinum, 2004.2. Dayya, D.: Advanced Statistical Methods and
Multivariate Analysis In Medicine. prezentácia 3. Motulsky H.J., Christopoulos A.: Fitting
models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003
4. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001.
5. http://rimarcik.com/navigator/6. Prezentácia: Základní kurz statistiky II, regresní
Analýza. Milan Bašta (28. únor & 1. březen, 2011)