רגרסיה וניבוי לינארי
DESCRIPTION
אחת המטרות של מתאם ( r ) היא לדעת האם קיים קשר בין שני משתנים. מטרה נוספת היא ניבוי . - PowerPoint PPT PresentationTRANSCRIPT
רגרסיה וניבוי לינארי
( היא לדעת האם קיים קשר בין שני rאחת המטרות של מתאם ).ניבוימשתנים. מטרה נוספת היא
, אנו נוכל להשתמש במידע זה על y לבין xבמידה ומצאנו קשר בין במדגמים חדשים )בהם רק נמדוד x באמצעות yמנת לנבא את
(. אנחנו נחליט בהתאם לצרכים )הסטטיסטיים( שלנו, איזה xאת (.x(, ואיזה יהיה המנבא )yמשתנה יהיה המנובא )
: אם מצאנו במדגם מסוים שקיים קשר בין מספר לדוגמאהסיגריות ליום שהאם עישנה במהלך ההריון לבין משקל העובר,
את משקל התינוק ע"פ אחריםנוכל לנצל ידע זה ולנבא במדגמים .לפני הלידהכמו הסיגריות שהאם מעשנת,
.Pearsonרגרסיה מבוססת על מתאם מתאם פירסון בוחן האם קיים קשר לינארי בין התצפיות, דהיינו האם התצפיות מסתדרות סביב קו ישר, כעט נעסוק בקו עצמו,
נשאל מהי נוסחת הקו הזה.
העיקרון על פיו מבוסס קו זה הוא מינימום הריבועים, דהינו הקו אשר יגרום למינימום הסטיות הריבועיות.
min2' ii yy
נוסחת הניבוי
לא יעזור x, לכן המידע על y לבין x אין קשר בין r=0כאשר .yבניבוי
במצב כזה, למדנו בסמסטר הקודם שהערך אשר יגרום למינימום הסטיות הריבועיות הוא הממוצע .
y
min2 yyi
לכן נוסחת קו הניבוי תהיה:
בציוני תקןבציונים גולמייםyyi
'0' yi zz xציר ה-
המתאם מושלם, מכאן שעבור כל נקודה, מידת r=1כאשר לכן: x זהה למידת הקיצוניות ב-yהקיצוניות ב-
xy zz ')כרגע נעבוד רק בציוני תקן, בהמשך נעבור לציונים גולמיים(
)בערכו המוחלט(, מידת הקיצוניות של 1אם המתאם קטן מ- תהיה קטנה יותר ממידת הקיצוניות של , זאת באופן
פרופורציונלי למתאם.
'yz
xz
באופן כללי:ii xxyy zrz '
פחות קיצוני y, הציון המנובא של r=1/-1חוץ מאשר המקרים בהם , דהיינו יותר קרוב לממוצע שלו. זאת תופעת הרגרסיה xמאשר ציון
.נוסחת הרגרסיהלממוצע )שנדון בה בהמשך( ומכאן השם )סטטיסטיקאי חשוב אך חוקר נוראי -Sir Francis Galtonמקור השם מ
וגזעני( אשר הבחין שבנים של אנשים גבוהים מאד או נמוכים מאד פחות קיצונים מהוריהם )יותר דומים לממוצע(.
, קיימים y מתוך x, וקו ל-x מתוך yמאחר וניתן לבנות קו רגרסיה ל-שני קווים אפשריים.
yzyz
xzxz
'xz
'yz
45
45
xמינימום הריבועים בכוון yמינימום הריבועים בכוון
zyzy zy
zxzxzx
z’x
z’xz’x
z’y
z’y
z’y
r = 0r = 1 0 < r < 1
אם נמיר את נוסחת קו הניבוי לציונים גולמיים:
ii xxyy zrz '
yxxrs
sy
s
xxr
s
yyixy
n
ni
n
ixy
n
i
x
y
xy
' ’yמיקומו של '
מתוך ההתפלגות .yשל
b
yxbbxyxxby ii )('
aii bxay '
xyn
nr
s
sb
x
y
xbya
ii bxay '
נקודת החיתוך עם .yציר ה-
a
b=tan()שיפוע הקו xy
n
nr
s
sb
x
y
xbya
:xבמקביל, נוסחת הקו לניבוי
ii byax 'xy
n
nxy r
s
sb
y
x
ybxaxy
axy
. קווי הניבוי עוברים דרך מפגש הממוצעים
iiהוכחה: bxay '
xxiעבור yxbxbyy i '
ayx
נקודות בהן עובר הקו, אנו יכולים לצייר 2מאחר וידועות לנו אותו.
(a,0) לכן הוא עובר דרך הנקודה a ב-yציר ה- ( חותך אתyקו הניבוי )של
yx,
a
x
x
y a,0
yx,
עובר דרך הנקודות ו- .’xהקו עבור yx, 0,xya
y’
xyn
nr
s
sb
x
y
xbya
ניבוי
.y (yi’) נוכל לנבא את ערך ה-xiכעת, לאחר שבנינו קו, בהינתן
. אחרים מדגמים על אותו וליישם מסוים מדגם סמך על הקו את לבנות היא המטרה
במדגם שבו נבנה הקו, ניתן לחשב עבור כל פרט את הטעות שבניבוי:
חלקים: החלק המנובא והטעות 2 ל-yiכך ניתן לפרק את ערכו של שבניבוי.
iie yyyi
'error
iey
iy
iy'
ieii yyy '
הנחות המודל
הקשר בין המשתנים לינאריYמתפלג נורמלית עבור כלxi.הטעויות ) ( מתפלגות נורמלית באוכלוסייה ie
y
גם בפרט עבור כל 0ממוצע הטעויות שווה ,xi באוכלוסייה .
אין קשר ביןx-לבין הטעות ב y הומוסקדסטיות .(homoscedasticity ) .
0ey
0exy
r
'0זה כמו לומר eyy
r כיy’ הוא טרנספורמציה לינארית של x.
דוגמאלהלן ציוניהם הן בחלק הפתוח והן בחלק הסגור במבחן בסטטיסטיקה של
תלמידים אשר נדגמו מקרית.10
74.165.082.4
97.12 xy
n
n
yx rs
sb
x
y
9.203.3674.13.42 xbyayx
ii xy 74.19.20'
ii xy 74.19.20'
?x=30מהו הערך המנובא עבור הסטודנט אשר קיבל
33.313074.19.20' y
y=38הערך שלו בפועל הוא
67.6eyהטעות בניבוי היא:
ieii yyy ' 67.633.3138
ברור שמטרת הרגרסיה היא לשם יישום הקו עבור תלמידים אחרים. לדוגמא אם חלק מהמבחנים עבדו אך נשארו הטפסים של החלק הפתוח.
אם זאת, אנו יכולים ללמוד על גודל הטעויות על סמך המדגם עליו נבנה הקו.
סיכום ביניים
בציוני תקן
iiii xxyyxxyy zzzrz ''
iiii yyxxyxyx zzzrz '')שפוע הקו בציוני תקן )גם סטטיסטי וגם פרמטר=
xyyxxy r ברגרסיה פשוטה
( 0,0שני הקווים נפגשים בראשית הצירים.) .ככל שהשיפוע גדול יותר, כך קו הניבוי טוב יותר בגלל תופעת הרגרסיה לממוצע קו הניבוי שלy קרוב יותר לממוצע y ציר( zx ,)
.zy קרוב יותר לציר ה- xואילו קו הניבוי של
היא פונקציה של חלק אמיתי ושל xמשמעות תופעת הרגרסיה: מידת הקיצוניות ב-חלק מקרי )"טעותי"(.
אם פרט קיצוני, אנו מניחים שה"טעות" שיחקה לטובתו. מאחר וממוצע הטעות , אנו מצפים )הניבוי הטוב ביותר( שבתכונה השנייה הטעות תהיה קרובה 0שווה ל-.0יותר ל-
, כי אין טעות.r=1התופעה לא קיימת כאשר
בציונים גולמיים
iyxyxi xbay '
ixyxyi ybax '
xyyx aa xyyx bb
x-ו y.נמדדים בסקאלות שונות )לא בהכרח(, לכן השיפועים שונים בהינתן שני קווי רגרסיה )המבוססים על נתונים שונים(, לא ניתן לומר שהקו בעל
השיפוע הגדול הוא טוב יותר. השיפוע הוא פונקציה הן של המתאם והן של סטיות התקן.
פירוק שונויות
'yy
ieii yyy ' ראינו ש:
')'()()'()'()( yeey yEyEyEyyEyE לכן:
'yy =0
),'cov(2)()'()'( 2222eeey yyyyyy
=0
0ממוצע הטעויות שווה
(x הוא טר' לינארית של ’y ו-y לבין הטעות ב-xאין קשר בין
)()'( 222ey yy
yשונות טעויות+שונות ניבויים=שונות
וגם
222
' eyyy nnn SSS
הקועלהשונות שבין הנקודות ש
שונות הניבויים
N
SS
N
y yyiy
'
2
2'
'
לקומסביבהשונות שבין הנקודות
N
SS
N
yye
e
yiiy
2
2 '
שונות הטעויות
הממוצעסביבהשונות שבין הנקודות
N
SS
N
y yyiy
2
2
yסה"כ שונות של
2y 2
'y2ey
אני בודק עד כמה
הניבויים שונים אחד מהשני. ככל
גדל כך rש-אני גם גדל
אני בודק עד כמה הנקודות רחוקות מהקו.
גדל כך rככל ש-אני קטן
אני בודק עד yכמה ערכי ה-
שונים ביניהם
002'
22 ryyy e
)()'( 222ey yy
1022'
2 reyyy
eyyy SSSSSS '
ניתן להוכיח )בקלות( ש:2
2
2'
y
yאחוז השונות המוסברת
.r2במדגם: % השונות המוסברת הוא
N
x
N
y yyxix
yxy
yiy
2
22
'
'
22
2
2
22
yxyxi
x
yxy N
x
2
2
2'
y
y
yxxrs
sy
s
xxr
s
yyixy
n
ni
n
ixy
n
i
x
y
xy
''
22
2'
y
yאחוז השונות המוסברת
222' yy שונות מוסברת = שונות הניבויים
22'
2eyyy אבל מאחר ו:
)1( 222222'
22 yyyyyye
222 )1( yye שונות לא מוסברת = שונות הטעויות
נכונה באוכלוסיה או נוסחה זו
בתוך המדגם
N כי אז המכנה של השונויות זהה עבור כל האיברים: במדגם.nבאוכלוסייה או
לגבי האומדנים, דרגות החופש לא זהות עבור השונויות השונות לכן השוויון איננו מתקיים.
)()'( 222ey yy
222
' eyyy nnn SSS