Логистическая регрессия в скоринге (часть i)

Метод бинарной логистической регрессии в банковском скоринге

Метод бинарной логистической регрессии остается одним из наи-более часто используемых при построении скоринговых моделей. В данной части статьи мы остановимся на подготовке данных, настройке и запуске процедуры анализа, построении регрессион-ной модели и диагностике ее качества. Особое внимание уделено трудностям, которые часто возникают при интерпретации стати-стик регрессионного анализа.

Описание методаЦель регрессионного анализа — описание зависимости между объ-ектом наблюдения (зависимой или результирующей переменной) и факторами, воздействующими на него (независимыми перемен-ными, предикторами, регрессорами), с тем чтобы построить модель, позволяющую по значениям регрессоров получить оценки значений зависимой переменной.

Применительно к скорингу чаще всего используется метод бинар-ной логистической регрессии, когда исследуется зависимость дихо-томической результирующей переменной (т.е. принимающей только два значения, в нашем примере — это кредитный статус, подразуме-вающий два класса: надежные и ненадежные заемщики) от преди-кторов с любым типом шкалы (пол, доход, возраст заемщика).

Теоретическая вероятность значения зависимой переменной (веро-ятность отнесения заемщика к тому или иному классу) вычисляется по формуле:

1,

1 yP

e−=

+

где e = 2,718… — основание натуральных логарифмов;

1 1 2 2 ... n ny a b x b x b x= + + + + — регрессионное уравнение,

где y — зависимая переменная;

a — константа;

А.В. ГруздеВ,

исследовательская

компания «Гевисста»,

директор

71

www.reglament.net

регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков

Управление и контроль

bi — коэффициенты регрессионной функции;

xi — предикторы (характеристики заемщика).

В основе метода несколько базовых предположений:— зависимая переменная должна быть дихотомической, прини-

мает значения 0 и 1 (фактически подчиняется распределению Бер-нулли с двумя возможными исходами — «неудача» и «успех»);

— независимые переменные могут быть измерены в интервальной или категориальной шкале (если в категориальной, то они кодиру-ются как дамми-переменные, или индикаторы);

— все предикторы независимы друг от друга (отсутствует муль-тиколлинеарность).

Метод логистической регрессии не требует:— для независимых переменных — строгих предположений о нор-

мальности распределения их значений;— гипотезы, что ошибки в регрессионной модели нормально рас-

пределены и имеют одинаковую дисперсию для всех наблюдений (гомоскедастичны).

Подготовка данных для моделиПостроим скоринговую модель для наших 850 клиентов из прошлого исследования1, используя уже логистическую регрессию. На первом этапе по данным о 700 клиентах, у которых кредиты закрыты с извест-ным результатом, выделяем ключевые характеристики для опреде-ления кредитоспособности заемщика. На втором этапе запускаем генерацию случайной выборки из этих 700 клиентов для создания модели. Выбран метод out-of-sample validation, большая часть имею-щихся данных (примерно 70%) используется для построения модели, а оставшаяся часть (не задействованная в моделировании) применя-ется для проверки модели. Затем полученная модель классифицирует 150 потенциальных клиентов на «плохих» и «хороших» заемщиков.

Поскольку процедуры генерации случайной выборки, выбора распре-деления, создания переменной отбора наблюдений для построения и про-верки модели точно такие же, как и в примере с дискриминантным ана-лизом, с целью экономии места и времени используем SPSS Syntax.

Запустите программу SPSS. Загрузите и откройте учебный файл данных2. Затем создайте файл синтаксиса:

1 См.: Груздев А.В. Дискриминантный анализ в банковском скоринге // Риск-менеджмент в кредитной организации. 2011. № 4. С. 64–84.

2 http://narod.ru/disk/38839730001/Логистическая регрессия.sav.html

72

Риск-менеджмент в кредитной организации № 1 (05) \ 2012


Настройка и запуск процедуры анализаЧтобы построить модель логистической регрессии:

Английская версия SPSSВыберите в меню File New… Syntax Введите: SET SEED 9191972. IF ($casenum < 701) validate = rv.bernoulli(.7). EXECUTE. Нажмите Select All Запустите команду, щелкнув по кнопке Run

русская версия SPSSВыберите в меню Файл Новый… Файл синтаксиса Введите: SET SEED 9191972. IF ($casenum < 701) validate = rv.bernoulli(.7). EXECUTE. Нажмите Выделить все Запустите команду, щелкнув по кнопке Выполнить

Английская версия SPSSВыберите в меню Analyze Regression Binary Logistic Поместите переменную [Факт долга] в поле для зависимых переменных Dependent Variable Поместите анализируемые независимые переменные, начиная с [Возраст] по [другие долги] включительно — в область Covariates В качестве метода выберите Forward: LR (likelihood ratio) Поместите переменную [validate] в область Selection Variable Выделите переменную [validate] и щелкните по выключателю Rule, введите значение 1 для данной переменной Нажмите Continue

русская версия SPSSВыберите в меню Анализ регрессия Бинарная логистическая Поместите переменную [Факт долга] в поле для зависимых переменных зависимая переменная Поместите анализируемые независимые переменные, начиная с [Возраст] по [другие долги] включительно — в область Ковариаты В качестве метода выберите Включение: ОП (отношение правдоподобия) Поместите переменную [validate] в область Переменная отбора наблюдений Выделите переменную [validate] и щелкните по выключателю Правило, введите значение 1 для данной переменной Нажмите Продолжить

Как правило, количество независимых переменных, включаемых в модель, должно быть таким, чтобы на одну объясняющую пере-менную приходилось не менее 10 наблюдений, иначе оценки регрес-

73

www.reglament.net



сии будут ненадежными1. В скоринге чаще всего руководствуются правилом 20 EPV (Event Per Variable). Обычно берут общее число наблюдений в категории зависимой переменной, меньшей по объему (как правило, сделки по «плохим» заемщикам), делят на максималь-ное количество переменных, которое используется для построения модели, и на один предиктор должно приходиться не менее 20 наблю-дений2. В нашем примере 183 таких наблюдения, поэтому макси-мальное количество переменных, которое мы можем включить в модель, — не более 9. Мы используем 8 предикторов.

1 Hosmer D.W., Lemeshow S. Applied Logistic Regression. New York: Wiley, 2000.

2 Harrell F.E., Jr. Regression modeling strategies. New York: Springer, 2001.

Английская версия SPSSНажмите Categorical в диалоговом окне Logistic Regression Перенесите [уровень образования] в поле Categorical Covariates Нажмите Continue

русская версия SPSSНажмите Категориальные в диалоговом окне Логистическая регрессия Перенесите [уровень образования] в поле Категориальные Ковариаты Нажмите Продолжить

Английская версия SPSSНажмите Save в диалоговом окне Logistic Regression Выберите Probabilities и Group membership в поле Predicted Values Выберите Cook's и Leverage values в поле Influence Выберите Studentized в поле Residuals Нажмите Continue

русская версия SPSSНажмите Сохранить в диалоговом окне Логистическая регрессия Выберите Вероятности и Принад - лежность к группе в поле Предсказанные значения Выберите Кука и значения разбалан-сировок в поле Влияние Выберите Стьюдентизированные в поле Остатки Нажмите Продолжить

74



Английская версия SPSSНажмите Options в диалоговом окне Logistic Regression Выберите Classification plots и Hosmer–Lemeshow goodness-of-fit Нажмите Continue Нажмите OK в диалоговом окне Logistic Regression

русская версия SPSSНажмите Опции в диалоговом окне Логистическая регрессия Выберите Графики классификации и Критерий согласия Хосмера–Лемешова Нажмите Продолжить Нажмите OK в диалоговом окне Логистическая регрессия

Построение регрессионной моделиИз табл. 1 видно, что для построения модели использовались 499 на -б людений, а для ее проверки — 201 наблюдение (351 невыбранное наблюдение минус 150 наблюдений по потенциальным клиентам). Таким образом, 70% наблюдений из исторической выборки исполь-зовались для обучения, 30% — для валидации.

Метод пошагового включения (Forward) вводит переменные в модель по одной, шаг за шагом. На первом шаге вводится переменная, обыч-

Таблица 1

Сводка обработки наблюдений (Case Processing Summary)

Невзвешенные наблюдения N Процент

Выбранные наблюдения

Включенные в анализ 499 58,7

Пропущенные 0 ,0

Всего 499 58,7

Невыбранные наблюдения 351 41,3

Всего 850 100,0

75

www.reglament.net



ная корреляция которой с зависимой переменной максимальна (знак корреляции не важен). На каждом следующем шаге вводится пере-менная с самой сильной частной корреляцией. Для каждого шага вычисляется F-критерий для проверки гипотезы о равенстве нулю коэффициента при вновь введенной переменной. Для определения того, следует ли вводить переменную в уравнение (как и каждую после-дующую), значение F-критерия сравнивается с заданным уровнем. В SPSS для этой цели используется вероятность, связанная с F-статистикой, называемая вероятность P, достаточная для пошагового включения в уравнение (Probability For Stepwise, вкладка Options в диалоговом окне Logistic Regression). В этом случае переменная входит в уравнение только в случае, если вероятность, связанная с F-критерием, меньше или равна вероятности по умолчанию или той вероятности, которую мы зададим (по умолчанию это значение 0,05).

Процедура останавливается, когда установленный критерий для F-статистики больше не выполняется, то есть независимая пере-менная, которая должна быть введена в модель следующей, не явля-ется значимой (уровень значимости более 0,05).

Таблица 2 иллюстрирует процедуру добавления переменных в модель. Переменные, добавляемые в модель, выделены жирным (наибольшее значение коэффициента и уровень значимости меньше 0,05).

В скоринге чаще всего

руководствуются прави-

лом 20 EPV (Event Per

Variable). Обычно берут

общее число наблюдений

в категории зависимой

переменной, меньшей

по объему (как правило,

сделки по «плохим»

заемщикам), делят

на максимальное количе-

ство переменных, кото-

рое используется

для построения модели,

и на один предиктор

должно приходиться

не менее 20 наблюдений.

значение Ст.св. знч.

Шаг 0 Переменные возраст 9,486 1 ,002

образование 6,822 4 ,146

образование(1) 6,312 1 ,012



образование(4) ,721 1 ,396

стаж 39,958 1 ,000

проживание 12,634 1 ,000

доход 6,683 1 ,010

процдолгов 64,314 1 ,000

картдолг 25,348 1 ,000

другиедолги 5,559 1 ,018

Обобщенные статистики 135,024 11 ,000

Таблица 2

Переменные, не включенные в уравнение (Variables not in the Equation)

76



Все переменные, исключенные из анализа на последнем шаге, имеют уровень значимости больше, чем 0,05, таким образом, больше нет переменных для добавления в модель.








стаж 43,610 1 ,000


доход 7,912 1 ,005

картдолг ,566 1 ,452



Шаг 2 Переменные возраст ,064 1 ,801







доход 4,174 1 ,041

картдолг 40,151 1 ,000










доход 2,784 1 ,095

другиедолги ,676 1 ,411


Продолжение табл. 2

77

www.reglament.net



Качество приближения регрессионной модели оценивается в табл. 3 при помощи функции подобия. Критерием правдоподобия служит отрицательное удвоенное значение логарифма этой функции, или удво-енное логарифмическое правдоподобие (–2 Log-likelihood). Удвоенное логарифмическое правдоподобие показывает, насколько хорошо модель соответствует исходным данным. Снижение его величины означает улучшение качества модели. Все переменные, выбранные данным методом, должны иметь статистически значимые измене-ния удвоенного логарифмического правдоподобия.








доход ,856 1 ,355

другиедолги ,156 1 ,693


Окончание табл. 2

Таблица 3

Модель при исключении члена (Model if Term Removed)

Координаты переменных

Log-правдо по-добие модели

Изменение в –2 Log-правдо-подобии

Ст.св. знч. изменений

Шаг 1 процдолгов –279,778 61,544 1 ,000

Шаг 2 стаж –249,006 50,712 1 ,000

процдолгов –256,281 65,262 1 ,000

Шаг 3 стаж –248,719 85,885 1 ,000

процдолгов –210,684 9,814 1 ,002

картдолг –223,650 35,747 1 ,000

Шаг 4 стаж –236,533 78,345 1 ,000

проживание –205,777 16,832 1 ,000

процдолгов –202,395 10,068 1 ,002

картдолг –219,820 44,919 1 ,000

78



Следующая таблица (табл. 4) содержит статистики, применяемые для оценки важности предикторов.

Таблица 4

Переменные, включенные в уравнение (Variables in the Equation)

a Переменные, включенные на шаге 1: [процдолгов].b Переменные, включенные на шаге 2: [стаж].c Переменные, включенные на шаге 3: [картдолг].d Переменные, включенные на шаге 4: [проживание].

B Стандартная ошибка

Вальд Ст.св. знч. exp(B)

Шаг 1a процдолгов ,121 ,017 52,676 1 ,000 1,129

constant –2,476 ,230 116,315 1 ,000 ,084

Шаг 2b стаж – ,140 ,023 38,158 1 ,000 ,869

процдолгов ,134 ,018 54,659 1 ,000 1,143

constant –1,621 ,259 39,038 1 ,000 ,198

Шаг 3c стаж – ,244 ,033 54,676 1 ,000 ,783

процдолгов ,069 ,022 9,809 1 ,002 1,072

картдолг ,506 ,101 25,127 1 ,000 1,658

constant –1,058 ,280 14,249 1 ,000 ,347

Шаг 4d стаж – ,247 ,034 51,826 1 ,000 ,781

проживание – ,089 ,023 15,109 1 ,000 ,915

процдолгов ,072 ,023 10,040 1 ,002 1,074

картдолг ,602 ,111 29,606 1 ,000 1,826

constant – ,605 ,301 4,034 1 ,045 ,546

Величина бета-коэффициентов (B) позволяет сравнивать относи-тельный вклад каждой независимой переменной в зависимую пере-менную.

Статистика Вальда (�ald) является критерием значимости коэф-�ald) является критерием значимости коэф-) является критерием значимости коэф-фициента регрессии (бета-коэффициента) для соответствующего пре-диктора. Чем выше его значение (вместе с числом степеней свободы), тем выше значимость. Если уровень значимости статистики Вальда меньше 0,05, то данный параметр полезен для анализа модели.

Недостаток статистики Вальда в том, что при малом числе наблю-дений она может давать заниженные оценки наблюдаемой значи-мости коэффициентов. Поэтому удвоенное логарифмическое подо-бие — более достоверный критерий, чем статистика Вальда. Если значения этих двух статистик различаются в том, пригодна ли неза-

79

www.reglament.net



висимая переменная для применения в модели, рекомендуем исполь-зовать удвоенное логарифмическое правдоподобие.

ехр(В) — величина (еВ), которая может использоваться для интер-претации результатов анализа наравне с коэффициентом В. exp(B) — это изменение соотношения шансов наступления события при изме-нении значения независимой переменной на единицу (притом что остальные переменные неизменны). Шансы — это не вероят-ность, а отношение вероятности того, что событие произойдет, к веро-ятности того, что оно не произойдет. С ростом вероятности растут шансы, и наоборот.

Выявлены значительные взаимосвязи для случаев дефолта по четы-рем независимым переменным.

Наиболее сильное влияние на зависимую переменную оказывает переменная [стаж] (exp(B) = 0,781, p = 0,000, �ald = 51,826). �то обо- = 51,826). �то обо-значает, что каждый дополнительный месяц стажа у клиентов (при прочих равных условиях) снижает вероятность шансов возникнове-ния дефолта у них на 22% (100% – 100% × 0,781).

Второе по значимости влияние оказала переменная [картдолг] (exp(B) = 1,826, p = 0,000, �ald = 29,606). �то означает, что c каждой тысячи долларов долга по кредитной карте вероятность шансов дефолта у клиентов (при прочих равных условиях) увеличивается в 1,826 раза, или на 83%.

Третьей значимой переменной стала переменная [проживание] (exp(B) = 0,915, p = 0,000, �ald = 15,109): с каждым дополнительным месяцем проживания (при прочих равных условиях) вероятность шансов дефолта уменьшается на 8%.

Четвертой по важности переменной стала переменная [процдол-гов] (exp(B) = 1,074, p = 0,002, �ald = 10,040).

Для проверки модели можно построить ее с помощью метода «Пошаговое исключение» (Backward). Метод Backward начинается с построения модели, куда включены все переменные. Затем на каж-дом шаге из модели удаляется наименее полезный из предикторов, то есть предиктор с минимальным значением F-статистики, причем это значение должно быть меньше заранее выбранного порога, чтобы не удалять из модели наименее значимые, но все же значи-мые переменные. Процедура останавливается, когда из модели больше нечего удалять (значения F-статистики для всех оставшихся независимых переменных выше установленного порога). Если оба метода выбирают одни и те же переменные, вы можете быть уве-рены в том, что перед вами хорошая модель. Коэффициент детер-минации R2 (Coefficient of determination) показывает, насколько

80



изменения зависимой переменной (в процентах) объясняются изме-нениями совокупности независимых переменных. То есть это доля дисперсии зависимой переменной (признака), объясняемая влия-нием независимых переменных (предикторов). Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость зависимой переменной изменчивостью предикторов. И наоборот, значение R-квадрата, близкое к нулю, означает, что колебания зависимой переменной не обусловлены колебаниями предикторов.

В регрессионных моделях с категориальной зависимой перемен-ной невозможно вычислить статистику R2 в ее классическом виде. Поэтому вместо этого вычисляются ее аппроксимации (табл. 5).

Таблица 5

Сводка для модели (Model Summary)

a Оценивание закончено на итерации 4, потому что оценки параметра изменились менее

чем на ,001.b Оценивание закончено на итерации 5, потому что оценки параметра изменились менее

чем на ,001.c Оценивание закончено на итерации 6, потому что оценки параметра изменились менее

чем на ,001.

Шаг –2 Log-правдоподобие R-квадрат Кокса и Снелла

R-квадрат Найджелкерка

1 498,012a ,116 ,172

2 447,301b ,201 ,299

3 411,553b ,257 ,381

4 394,721c ,281 ,417

Речь идет о двух других выведенных показателях — R2 Кокса и Снелла и R2 Найджелкерка. �то приближенные значения R2, пока-зывающие долю влияния всех предикторов модели на дисперсию зависимой переменной.

Коэффициент детерминации по Коксу и Снеллу имеет недоста-ток — значение, равное 1, является теоретически недостижимым; этот недостаток устранен благодаря модификации данной меры по методу Найджелкерка.

�ти меры могут быть полезны для проверки конкурирующих моделей с одними и теми же данными. Модель с наибольшим зна-чением статистики R2 можно признать «лучшей».

81

www.reglament.net



В нашем исследовании R2 Найджелкерка равен 0,417; это обозна-чает, что поведение зависимой переменной на 42% объясняется включенными в модель предикторами.

Диагностика качества регрессионной модели

Калибровочный тест моделиИтак, модель построена. Теперь нас интересует калибровочный тест. Калибровочный тест модели определяет степень соответствия между оцененными вероятностями дефолтов, спрогнозированными моде-лью, и реальными вероятностями дефолтов. Тем самым калибровоч-ный тест модели позволяет установить, насколько хорошо наша модель согласуется с исходными данными и может быть измерена с помощью критерия согласия модели (goodness-of-fit statistics).

Критерий согласия модели Хосмера–Лемешова (Hosmer–Lemeshow goodness-of-fit statistics), приведенный в табл. 6, исследует расстоя-oodness-of-fit statistics), приведенный в табл. 6, исследует расстоя-ние между наблюдаемыми и ожидаемыми распределениями частот «плохих» и «хороших» заемщиков. Если уровень значимости явля-ется большим, то модель хорошо откалибрована и достаточно точно описывает реальные данные. Значение статистики Хосмера–Лемешова не должно быть меньше уровня значимости 0,05. Оптимальными считаются значения не меньше 0,5–0,6. В нашем случае значение составляет 0,855, можно говорить о высоком качестве модели.

Таблица 6

Критерий согласия Хосмера–Лемешова (Hosmer–Lemeshow goodness-of-fit statistics)

Шаг Хи-квадрат Ст.св. знч.

1 3,292 8 ,915

2 11,866 8 ,157

3 9,447 8 ,306

4 4,027 8 ,855

В табл. 7 каждая категория заемщиков разбита на 10 групп — «децилей риска» (в каждой группе примерно по 10% от общего числа заемщиков). В каждом дециле мы сравниваем наблюдаемые и ожидаемые распределения частот «плохих» и «хороших» заем-щиков.

Статистика Хосмера–Лемешова более робастна, чем традиционный критерий согласия, используемый в логистической регрессии, осо-

82



Таблица 7

Таблица сопряженности для критерия Хосмера–Лемешова (Contingency Table for Hosmer and Lemeshow Test)

Факт долга по кредиту = Не было долгов по кредиту

Факт долга по кредиту = Были долги по кредиту

Всего

Наблюдаемые Ожидаемые Наблюдаемые Ожидаемые

Шаг 1 1 46 46,977 6 5,023 52

2 50 47,658 4 6,342 54

3 44 43,998 7 7,002 51

4 43 43,806 9 8,194 52

5 39 39,197 9 8,803 48

6 40 39,103 10 10,897 50

7 34 36,635 16 13,365 50

8 37 34,147 14 16,853 51

9 27 29,263 24 21,737 51

10 15 14,216 25 25,784 40

…

Шаг 4 1 50 49,778 0 ,222 50

2 49 48,995 1 1,005 50

3 47 47,549 3 2,451 50

4 45 45,495 5 4,505 50

5 46 42,992 4 7,008 50

6 39 39,783 11 10,217 50

7 32 35,801 18 14,199 50

8 33 30,474 17 19,526 50

9 24 23,443 26 26,557 50

10 10 10,689 39 38,311 49

бенно для моделей с непрерывными переменными, моделей, постро-енных на выборках небольшого объема.

Анализ остатковВозможно ли повысить качество модели? В поиске ответов на этот вопрос нам помогут переменные [SRE�1], [COO�1] и [LEV�1], появив-SRE�1], [COO�1] и [LEV�1], появив-�1], [COO�1] и [LEV�1], появив-COO�1] и [LEV�1], появив-�1] и [LEV�1], появив-LEV�1], появив-�1], появив-шиеся по итогам анализа в Редакторе данных/Редакторе переменных SPSS. Рассмотрим каждую из этих переменных.

1. [SRE�1] — Standard residual, или Стандартный остаток. Остаток (residual) — фактическое значение зависимой переменной

минус предсказанное регрессионным уравнением (моделью).Значительное отклонение фактического значения зависимой пере-

менной от прогноза по тому или иному наблюдению называется

83

www.reglament.net



выбросом (outlier). На графике остатков достаточно легко обнару-outlier). На графике остатков достаточно легко обнару-). На графике остатков достаточно легко обнару-жить выбросы; обычно им соответствуют очень большие положи-тельные или отрицательные остатки. Они могут существенно вли-ять на качество модели, поэтому необходимо изучать их и рассма-тривать вопрос об исключении их из набора при построении модели или об использовании весов для наблюдений с целью уменьшить влияние выбросов на модель.

Неодинаковость дисперсий для разных наблюдений точнее и нагляд-нее отражают, как правило, стьюдентизированные остатки (studen-studen-tuden-tized residuals). Значительные изменения дисперсии будут указывать на выбросы. Лучше всего использовать стьюдентизированные остатки, преобразованные путем возведения их в квадрат, и строить графики остатков.

Чтобы возвести в квадрат стьюдентизированные остатки, выпол-ните следующее:

Английская версия SPSSВыберите в меню Transform Compute Variable… Введите chgdev в поле Target Variable Введите sre_1**2 в поле Numeric Expression Нажмите OK

русская версия SPSSВыберите в меню Преобразовать Вычислить переменную… Введите chgdev в поле Вычисляемая переменная Введите sre_1**2 в поле Числовое выражение Нажмите OK

Английская версия SPSSВыберите в меню File New… Syntax Введите: COMPUTE id=$CASENUM. EXECUTE. Нажмите Select All Запустите команду, щелкнув по кнопке Run

русская версия SPSSВыберите в меню Файл Новый… Файл синтаксиса Введите: COMPUTE id=$CASENUM. EXECUTE. Нажмите Выделить все Запустите команду, щелкнув по кнопке Выполнить

Возведенные в квадрат стьюдентизированные остатки сохранены в переменной [chgdev].

Теперь создадим идентифицирующую переменную, которая пере-нумерует все наблюдения от 1 до 850 (числа наблюдений в файле).

В Редакторе данных/Редакторе переменных SPSS появилась новая переменная [id].

Чтобы построить график остатков, выполните следующие дей-ствия:

84



Английская версия SPSSВыберите в меню Graphs Chart Builder… Выделите Scatter/Dot gallery и выберите Simple Scatter Выберите переменную [chgdev] и отложите ее по оси Y Выберите переменную [Predicted probability] и отложите ее по оси X

русская версия SPSSВыберите в меню Графики Конструктор диаграмм… Выделите рассеяния/Точечные диаграммы и выберите Простая диаграмма рассеяния Выберите переменную [chgdev] и отложите ее по оси Y Выберите переменную [Предсказанная вероятность] и отложите ее по оси X

Английская версия SPSSВыберите вкладку Groups/Point ID Установите флажок Point ID Label Выберите переменную [id] и перенесите в поле Point Label Variable Нажмите OK

русская версия SPSSВыберите вкладку Группирующие переменные/Идентификация точек Установите флажок Метка идентификатора точки Выберите переменную [id] и перенесите в поле Идентификатор точки Нажмите OK

Значительные изменения дисперсии, которые можно увидеть на рис. 1, помогают выявить наблюдения, непригодные для постро-ения модели.

85

www.reglament.net



Рисунок 1

Диаграмма рассеяния для стьюдентизированных остатков

Примечание: овалами отмечены наблюдения, которые не годятся для модели.

На графике две кривые. Кривая, которая простирается от нижнего левого угла к верхнему

правому, соответствует наблюдениям, для которых зависимая пере-менная принимает значение 0. «Хорошие» заемщики, которые имеют большие спрогнозированные значения вероятности дефолта, непри-годны для модели (отмечены овалом).

Кривая, которая простирается от верхнего левого угла к нижнему правому, соответствует наблюдениям, для которых зависимая пере-менная принимает значение 1. «Плохие» заемщики, у которых спрог-нозированы низкие значения вероятности дефолта, также не годятся для модели (отмечены овалом).

2. [COO�1] — Analog of Cook’s influence statistics, или �налог ста-или �налог ста- �налог ста-�налог ста- ста-ста-тистики влияния Кука.

�налог расстояния Кука (Cook’s distance) показывает разницу между вычисленными коэффициентами регрессии (бета-коэффициентами) и значениями, которые получились бы при исключении соответ-ствующего наблюдения. Она свидетельствует о смещении оценок коэффициентов регрессионной модели при удалении данного наблю-дения. В адекватной модели все расстояния Кука должны быть оди-наковыми. Большая величина статистики Кука указывает на влияю-щее наблюдение (influential observation).

Расстояние Кука (Cook’s

distance) показывает

разницу между вычис-

ленными коэффициен-

тами регрессии (бета-

коэффициентами)

и значениями, которые

получились бы при

исключении соответ-

ствующего наблюдения.

Предсказанная вероятность

chgd

ev

10,00

8,00

6,00

4,00

2,00

,00,00000 ,20000 ,40000 ,60000 ,80000 1,00000

86



Итак, для выявления наблюдений, сильно влияющих на модель, используем переменную [COO�1]. �то также может помочь улучшить качество модели.

Английская версия SPSSВыберите в меню Graphs Chart Builder… Выделите Scatter/Dot gallery и выберите Simple Scatter Выберите переменную [Analog of Cook's influence statistics] и отложите ее по оси Y Выберите переменную [Predicted probability] и отложите ее по оси X Выберите вкладку Groups/Point ID Установите флажок Point ID Label Выберите переменную [id] и перенесите в поле Point Label Variable Нажмите OK

русская версия SPSSВыберите в меню Графики Конструктор диаграмм… Выделите рассеяния/Точечные диаграммы и выберите Простая диаграмма рассеяния Выберите переменную [Аналог статистики влияния Кука] и отложите ее по оси Y Выберите переменную [Предсказанная вероятность] и отложите ее по оси X Выберите вкладку Группирующие переменные/Идентификация точек Установите флажок Метка идентификатора точки Выберите переменную [id] и перенесите в поле Идентификатор точки Нажмите OK

На рис. 2 можно увидеть облако точек (наблюдений) и несколько точек, находящихся на большом расстоянии от центра облака. У этих точек высокие значения статистики Кука (отмечены овалом). В нашем примере это наблюдения 152, 36, 187, 53, 492 и др.

3. [LEV�1] — Leverage value, или Значение разбалансировки (Зна-LEV�1] — Leverage value, или Значение разбалансировки (Зна-�1] — Leverage value, или Значение разбалансировки (Зна-Leverage value, или Значение разбалансировки (Зна- value, или Значение разбалансировки (Зна-value, или Значение разбалансировки (Зна-, или Значение разбалансировки (Зна-чение плеча).

Разбалансировка (Leverage) — мера влияния того или иного наблю-дения на качество приближения модели. На рис. 2 видно, что раз-балансировка — это расстояние от центра облака до наблюдения. Наблюдения 152, 36, 187, 53, 492 можно назвать точками высокой разбалансировки (high-leverage points). Практическая ценность вели-чины заключается в том, что наблюдение с высоким значением разбалансировки оказывает наибольшее влияние на модель. Оно дословно обладает большим «плечом» (англ. leverage) в воздействии на данные, является «влияющим».

При этом следует отличать выброс от влияющего наблюдения. Выбросы снижают общее качество приближения модели, могут увеличивать значение стандартной ошибки параметра, снизить коэффициент детерминации, но они не могут изменить оценку параметра. Влияющие наблюдения могут в значительной мере изменить оценки.

87

www.reglament.net



Выброс определяется значением остатка, а влияющее наблюде-ние — расстоянием от центра облака наблюдений и значением остатка (эти два показателя и учитывает формула Кука). Для выявления выбросов удобнее использовать стьюдентизированные остатки (смо-трим дисперсию), для выявления влияющих наблюдений — аналог меры Кука (смотрим значение остатка вместе со значением разба-лансировки).

Для улучшения качества модели следует обращать внимание на те случаи, которые имеют высокие значения остатков и меры Кука (лучше всего это делать, строя диаграммы рассеяния), и затем решать, какие наблюдения нужно исключить из нашей модели или использовать веса для них.

Окончание следует

Рисунок 2

Диаграмма рассеяния для расстояний Кука

Предсказанная вероятность

Ан

алог

ста

тист

ик

вли

яни

я К

ука ,25000

,20000

,15000

,10000

,05000

,00000,00000 ,20000 ,40000 ,60000 ,80000 1,00000

88



Логистическая регрессия в скоринге (часть i)

Documents