Нелинейная регрессия

32
Нелинейная регрессия. эффициенты ( ) рассчитываются методом наименьших квадратов 2 1 , , b b a min 2 y y n n x b x b x b a y ... 2 2 1 Чаще всего полиномы низких степеней , σ / σ 1 η 2 2 δ y Степень нелинейной зависимости оценивается корреляционным отношением изменяется от 0 до 1 и характеризует долю дисперсии, «объяснённую» регрессионной функцией в общей дисперсии. ) ( x f y Для нелинейной регрессии используются различные функции: синусоида , показательная , гиперболическая c) sin(bx * a y bx e * a y ) 1 /( bx a y

Upload: prue

Post on 21-Jan-2016

109 views

Category:

Documents


0 download

DESCRIPTION

Для нелинейной регрессии используются различные функции: синусоида , показательная , гиперболическая. Чаще всего полиномы низких степеней. Коэффициенты ( ) рассчитываются методом наименьших квадратов. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Нелинейная регрессия

Нелинейная регрессия.

Коэффициенты ( ) рассчитываются методом наименьших квадратов21,, bba

min2y

y

nnxbxbxbay ...2

21Чаще всего полиномы низких степеней

,σ/σ1η 22δ y

Степень нелинейной зависимости оценивается корреляционным отношением

изменяется от 0 до 1 и характеризует долю дисперсии, «объяснённую» регрессионной функцией в общей дисперсии.

)(xfy

Для нелинейной регрессии используются различные функции: синусоида , показательная , гиперболическая

c)sin(bx*ay bxe*ay )1/( bxay

Page 2: Нелинейная регрессия

Выбор порядка полинома при аппроксимации нелинейной зависимости.

Критерием выбора наилучшего порядка полинома является дисперсия отклонений фактических значений от теоретических

ошибки

ошибки2

df

SSk kndf ошибки

nk

- количество наблюдений - количество коэффициентов в уравнении регрессии

Page 3: Нелинейная регрессия

Многомерная статистическая модель.

Page 4: Нелинейная регрессия

Многомерная статистическая модель.

Многомерная статистическая модель состоит из совокупности множества сопряженных случайных величин (называемых многомерными случайными векторами) и выражается матрицей свойств размером k  n:

nknn

k

k

xxx

xxx

ххх

21

22221

11211

(n – число наблюдений; k – число свойств).

В основе многомерной статистической модели лежит гипотеза о том, что измеренные значения являются независимыми случайными величинами (векторами), т.е. строки матрицы можно располагать в любом порядке.

Между столбцами матрицы связь может присутствовать.

Многомерная случайная величина изображается точкой в многомерном признаковом пространстве.

Page 5: Нелинейная регрессия

))((1

1, yyxx

nCov i

n

iiyx

Обобщением ковариации двух величин:

является матрица дисперсий и ковариаций:

221

22221

11221

kkk

k

k

CovCov

CovCov

CovCov

yxss

yxr

);cov(Обобщением корреляции двух величин:

является матрица корреляаций:

1

1

1

21

221

112

kk

k

k

rr

rr

rr

2

1, ))((

1

xxxxn

Cov i

n

iixx

Page 6: Нелинейная регрессия

В многомерной модели существуют частные и множественные коэффициенты корреляции

)1)(1( 22|

yzxz

yzxzxyzxy

rr

rrrr

Частные коэффициенты корреляции:

zxyr |где - частный коэффициент корреляции между случайными величинами x и y при контроле случайной величины z

yzxzxy rrr ,, - коэффициенты линейной корреляции Пирсона между случайными величинами x и у, x и z, y и z.

Частные коэффициент корреляции позволяют исключить влияние на корреляцию между двумя величинами третьей величины (или множества других величин) в многомерногной модели.

Частные коэффициенты корреляции могут оказаться полезными для выявления ложных связей (наведённых корреляций).

Значимость частного коэффициента корреляции проверяется с помощью t-критерия. В простейшем случае (число степеней свободы = n-3).

Page 7: Нелинейная регрессия

матрица парных коэффициентов линейной корреляции Пирсона

Корреляция между Ag и Zn возможно является наведённой корреляцией между Pb и Zn

частный коэффициент корреляции между Ag и Zn после исключения влияния Pb

Частные коэффициенты корреляции

Pb

Ag

Zn

0.45

Page 8: Нелинейная регрессия

Матрица парных коэффициентов линейной корреляции Пирсона

Частные корреляции

Корреляции Pb-Cd, Ag-Cd, Ag-Zn возможно являются ложными.

Частные коэффициенты корреляции

Page 9: Нелинейная регрессия

Множественная линейная регрессия. Коэффициент множественной корреляции.

i

n

iiii xbay

1

Модель множественной регрессии:

Назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами, предикторами, факторами) и зависимой переменной (откликом).

зависимая переменнаясвободный членкоэффициенты регрессиинезависимые переменныеошибкаколичество независимых переменных.

iya

ib

ixin

Page 10: Нелинейная регрессия

Множественная регрессия позволяет более точно прогнозировать зависимую переменную:

ZnPbAg 88,3229,788,4 PbAg 932967,706395,0

ошибки

ошибки2

df

SSk

22δ σ/σ1η y

общаяобщая

регрессиирегрессии

/ss

/

df

dfss

корреляционное отношение

дисперсия ошибки

простая линейная регрессиямножественная линейная регрессия

Page 11: Нелинейная регрессия

Кроме того, множественная регрессия даёт возможность оценить относительный вклад каждой независимой переменной (каждого предиктора) в предсказание зависимой переменной:

Page 12: Нелинейная регрессия

Коэффициенты регрессии bi называются частными коэффициентами регрессии.

i

n

iiii xbay

1

Они показывают, насколько изменяется зависимая переменная yi при увеличении соответствующего фактора xi на единицу шкалы его измерения при фиксированных (постоянных) значениях других факторов, входящих в уравнение регрессии:

65,9367 - 58,6503 = 7,2864

Page 13: Нелинейная регрессия

Коэффициенты регрессии bi непосредственно не сопоставимы между собой, так как зависят от единиц измерения факторов xi. Чтобы сделать эти коэффициенты сопоставимыми, вычисляют стандартные коэффициенты регрессии (Бета-коэффициенты):

y

xii s

sbi

– стандартный коэффициент регрессии переменной

– частный коэффициент регрессии переменной

- оценка стандартного отклонения переменной

- оценка стандартного отклонения зависимой

переменной

i

y

ix

ix

ixibixsys

Частные коэффициенты регрессии используются для расчёта величины зависимой переменной (для предсказания её значения при заданных значениях независимых переменных xi).

Стандартизированные коэффициенты регресси позволяют оценить относительный вклад (влияние) каждой независимой переменной на зависимую переменную.

Если исходные данные стандартизировать, то частные коэффициенты регрессии будут равны стандартным.

ZnPbAg 88,3229,788,4 Cd05,7985

Наибольшее вклад вносит Pb, затем Zn. Вклад Cd несущественный.

Page 14: Нелинейная регрессия

Источник изменчивости Суммаквадратов

Число степенейcвободы (df)

Средние квадраты(дисперсии)

F-критерий

Регрессия m MSr=SSr/dfr MSr/MSd

Отклонение (ошибка) n-m-2 MSd=SSd/dfd

Общая дисперсия n-1

Схема дисперсионного анализа для оценки значимости регрессии.

dsstss

rss

Проверка адекватности модели множественной регрессии.

2)( yySSRir 2)( yySS it 2)( iid yySS

r drt SSSSSS

- i-oe значение зависимой переменной, расчитанное по уравнению регрессии

- измеренное (наблюдаемое) значение i-oй переменной - среднее значение зависимой переменной - количество независимых переменных

- количество наблюдений (объём выборки)

riy

iy

mn

iy

Значимость (адекватность) полученного соотношения считается установленой, если расчитанное значение F-критерия превысит критическое при заданном уровне значимости и степенях свободы числителя m и знаменателя n-m-1.

Значимость регрессии проверяется с помощью дисперсионного анализа:

Page 15: Нелинейная регрессия

T

R

SS

SSR 2

Величина называется коэффициентом детерминации.

Коэффициент детерминации характеризует ту долю изменчивостивости зависимой переменной, которую «объясняет» регрессия.

может принимать значения от 0 (полное отсутствие связи) до 1 (функциональная зависимость).

Чем больше значение коэффициента детерминации, тем надёжнее оценки зависимой переменной.

2R

Величина называется множественным коэффициентом корреляции. 2RR

Проверка адекватности модели множественной регрессии.

Page 16: Нелинейная регрессия

Оценка значимости коэффициентов регрессии осуществляется с помощью t- критерия Стьюдента:

ib

2

||

ib

ii

s

bt

)1(

)1(22

222

Rns

Rss

i

i

x

yb

- оценка дисперсии коэффициента регрессии:

2

ibs

оценка дисперсии зависимой переменной

оценка дисперсии i-ой независимой переменной

количество наблюдений

коэффициент детерминации

2ys2

ixs

n

2R

Параметр модели регрессии признается статистически значимым, если рассчитанное значение t превысит критическое при заданном уровне значимости α и числе степеней свободы k = n-m-1 (n- объём выборки, m – количество независимых переменных), т.е при выполнении неравенства:

ib

),( kкрtt

Проверка адекватности модели множественной регрессии.

Page 17: Нелинейная регрессия

В рассматриваемом примере коэффициент при Cd незначим.

Page 18: Нелинейная регрессия

Предположения и ограничения множественной регрессии.

Предполагается, что связь между переменными является линейной. На практике это предположение никогда не может быть подтверждено;

Процедуры множественного регрессионного анализа в незначительной степени подвержены воздействию малых отклонений от этого предположения. Однако всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов.

Предположение линейности.

Cd Pb Zn

Ag

Page 19: Нелинейная регрессия

В множественной регрессии предполагается, что остатки (предсказанные значения минус наблюдаемые) распределены нормально. Хотя большинство тестов (в особенности F-тест) довольно устойчивы по отношению к отклонениям от этого предположения, прежде чем сделать окончательные выводы, стоит рассмотреть гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения.

Предположение нормальности.

Предположения и ограничения множественной регрессии.

Page 20: Нелинейная регрессия

Основное концептуальное ограничение всех методов регрессионного анализа состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются.

Ограничения множественной регрессии.

Page 21: Нелинейная регрессия

Множественная регрессия - предоставляет пользователю "соблазн" включить в качестве предикторов все переменные, какие только можно, в надежде, что некоторые из них окажутся значимыми. Большинство авторов советуют использовать, по крайней мере, от 10 до 20 наблюдений на одну переменную, в противном случае оценки регрессионной линии будут, вероятно, очень ненадежными и, скорее всего, невоспроизводимыми для желающих повторить это исследование.

Выбор числа переменных.

Проблема размерности модели связи (уравнения регрессии) - одна из основных проблем построения множественного уравнения регрессии. Она решается на основе эвристических или многомерных статистических методов анализа. К ним относятся: метод экспертных оценок, шаговая регрессия, анализ на мультиколлинеарность.

Page 22: Нелинейная регрессия

Шаговый регрессионный анализ. позволяет выбрать наиболее информативные предикторы.

Существуют 2 схемы шаговой множественной регрессии:

Пошаговая с включением:

первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д.

после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент доверия t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы пошаговой регрессии следует иметь в виду негативные последствия мулътиколлинеарности.

Пошаговая с исключением:

Page 23: Нелинейная регрессия

Под мультиколлинеарностью понимается высокая корреляция между независимыми переменными (факторами), включенными в модель.

Мультиколлинеарность.

Наличие мультиколлинеарности между признаками приводит к:

завышению параметров модели

снижению точности оценок регрессионных коэффициентов (стандартные ошибки коэффициентов получаются слишком большими);

невозможности оценить статистическую значимость коэффициентов регрессии с помощью t –критерия и, как следствие, некорректное введение в анализ тех или иных переменных;

резкому возрастанию чувствительности коэффициентов регрессии к особенностям исходных данных, так что добавление, например, небольшого числа наблюдений может привести к сильным сдвигам в значениях βi

Page 24: Нелинейная регрессия

В решении проблемы мультиколлинеарности можно выделить несколько этапов: - установление наличия мультиколлинеарности; - определение причин возникновения мультиколлинеарности; - устранение мультиколлинеарности.

Индикатором возникновения мультиколлинеарности между независимыми признаками (предикторами) является превышение парным коэффициентом корреляции величины 0.8.

В модуле множественной регрессии пакета STATISTICA имеется возможность оценить независимые переменные на мультиколлинеарность:

Толерантность = 1 – R2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 0 указывает на мультиколлинеарность.

R-квадр. = R2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 1 указывает на мультиколлинеарность.

Частная корр. – коэффициент частной корреляции между соответствующей переменной и зависимой переменной после учета влияния всех остальных независимых переменных в уравнении.

Получастная корр. – доля дисперсии, объясняемая соответствующей переменной в общей дисперсии зависимой переменной Y.

Page 25: Нелинейная регрессия

В качестве метода борьбы с мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции.

Существует несколько численных методов расчета параметра, но чаще используют простой эмпирический подход: выбирают такой параметр λ, при котором коэффициенты стабилизируются и при дальнейшем увеличении параметра изменяются мало. Значение принятого параметра λ является мерой смещения оценок от истинного значения, поэтому стараются не придавать λ слишком больших значений. Обычно λ выбирают меньше 0,5, а шаг при подборе выбирают небольшим, например, 0,02.

Page 26: Нелинейная регрессия

При проверке адекватности уравнения регрессии исследуемому процессу возможны следующие варианты:

1. Построенная модель на основе ее проверки по критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений к осуществлению прогнозов.

2. Модель по критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для прогнозов.

3. Модель по критерию Фишера адекватна, но все коэффициенты регрессии незначимы. Модель в этом случае отвергается. На ее основе никаких решений принимать нельзя.

Оценка существенности связи

%100*||

||1

1

n

i i

iri

y

yy

nA

iy

iry- наблюдаемое значение

- предсказанное значение

Если средняя ошибка аппроксимации A не превышает 12 - 15%, то уравнение построено верно.

Page 27: Нелинейная регрессия

Отрицательным свойством уравнений регрессии является то, чтохорошо аппроксимируются только те значения результативного признака, которые стоят в середине вариационного ряда индивидуальных значений. Ошибка аппросимации не превышает 1 - 2%;Ошибка аппроксимации на концах исходного ряда может достигать 50%;

Page 28: Нелинейная регрессия
Page 29: Нелинейная регрессия

Кнопка Анализ остатков запускает процедуру всестороннего анализа остатков регрессионного уравнения (рис. ). Остатки - это разности между опытными и предсказанными значениями зависимой переменной в построенной регрессионной модели.

Рис.39 . Диалоговое окно (Анализ остатков)Вкладка Выбросы (Redundancy) предназначена для поиска выбросов. Выбросы - это остатки,

которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками измерения или ввода данных. Для выделения имеющихся в регрессионных остатках выбросов предложен ряд показателей:

Расстояния Кука (Cook's Distance) - это мера влияния соответствующего наблюдения на уравнение регрессии. Эта величина показывает разницу между вычисленными β-коэффициентами и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.

Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности. Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра. Эта "средняя точка" в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.

Page 30: Нелинейная регрессия

Стандартизированные остатки - это стандартизованные значения остатков, вычисленные как разница между наблюдаемыми значениями и предсказанными, деленная на остаточную среднеквадратичную ошибку.Удаленные остатки - это значения остатков для соответствующих наблюдений, которые были исключены из процедуры регрессионного анализа. Если удаленный остаток значительно отличается от соответствующего стандартизированного значения остатка, то, возможно, это наблюдение является выбросом, поскольку его исключение существенно изменяет уравнение регрессии.

Средства борьбы с выбросами. Целью всех описанных статистик является обнаружение выбросов. Напомним, что, особенно при малых N (меньших 100), оценки множественной регрессии (B-коэффициенты) не являются устойчивыми. Другими словами, отдельные экстремальные наблюдения могут оказать значительное влияние на окончательные оценки. Следовательно, желательно всегда просматривать эти статистики (используя эти или описанные далее опции) и повторить полный регрессионный анализ вновь после удаления всех выбросов. Другой альтернативой является проведение анализа данных, используя регрессию, основанную на абсолютных отклонениях, а не на квадратах отклонений, тем самым ослабляется влияние выбросов. Модуль Нелинейного оценивания позволяет провести такого рода анализ.

Page 31: Нелинейная регрессия

Внимательный анализ остатков позволяет оценить адекватность модели. Остатки должны быть нормально распределены, со средним значением равным нулю и постоянной, независимо от величин зависимой и независимой переменных, дисперсией.О нормальности остатков можно судить по графику остатков на нормальной вероятностной бумаге. Чем ближе распределение к нормальному виду, тем лучше значения остатков ложатся на прямую линию.Важно просмотреть графики зависимости остаток от каждой из независимых переменных. Их легко просмотреть при помощи кнопки Остатки и независимые переменные (Resids & indep. var.). Остатки должны быть нормально распределены, т.е. на графике они должны представлять приблизительно горизонтальную полосу одинаковой ширины на всем ее протяжении. Коэффициент корреляции (r) между регрессионными остатками и переменными должен равняться нулю.

Page 32: Нелинейная регрессия

Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин ei,i=1,2,…n.. Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона