Логистическая регрессия в скоринге (часть i)
DESCRIPTION
ÂTRANSCRIPT
Метод бинарной логистической регрессии в банковском скоринге
Метод бинарной логистической регрессии остается одним из наи-более часто используемых при построении скоринговых моделей. В данной части статьи мы остановимся на подготовке данных, настройке и запуске процедуры анализа, построении регрессион-ной модели и диагностике ее качества. Особое внимание уделено трудностям, которые часто возникают при интерпретации стати-стик регрессионного анализа.
Описание методаЦель регрессионного анализа — описание зависимости между объ-ектом наблюдения (зависимой или результирующей переменной) и факторами, воздействующими на него (независимыми перемен-ными, предикторами, регрессорами), с тем чтобы построить модель, позволяющую по значениям регрессоров получить оценки значений зависимой переменной.
Применительно к скорингу чаще всего используется метод бинар-ной логистической регрессии, когда исследуется зависимость дихо-томической результирующей переменной (т.е. принимающей только два значения, в нашем примере — это кредитный статус, подразуме-вающий два класса: надежные и ненадежные заемщики) от преди-кторов с любым типом шкалы (пол, доход, возраст заемщика).
Теоретическая вероятность значения зависимой переменной (веро-ятность отнесения заемщика к тому или иному классу) вычисляется по формуле:
1,
1 yP
e−=
+
где e = 2,718… — основание натуральных логарифмов;
1 1 2 2 ... n ny a b x b x b x= + + + + — регрессионное уравнение,
где y — зависимая переменная;
a — константа;
А.В. ГруздеВ,
исследовательская
компания «Гевисста»,
директор
71
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Управление и контроль
bi — коэффициенты регрессионной функции;
xi — предикторы (характеристики заемщика).
В основе метода несколько базовых предположений:— зависимая переменная должна быть дихотомической, прини-
мает значения 0 и 1 (фактически подчиняется распределению Бер-нулли с двумя возможными исходами — «неудача» и «успех»);
— независимые переменные могут быть измерены в интервальной или категориальной шкале (если в категориальной, то они кодиру-ются как дамми-переменные, или индикаторы);
— все предикторы независимы друг от друга (отсутствует муль-тиколлинеарность).
Метод логистической регрессии не требует:— для независимых переменных — строгих предположений о нор-
мальности распределения их значений;— гипотезы, что ошибки в регрессионной модели нормально рас-
пределены и имеют одинаковую дисперсию для всех наблюдений (гомоскедастичны).
Подготовка данных для моделиПостроим скоринговую модель для наших 850 клиентов из прошлого исследования1, используя уже логистическую регрессию. На первом этапе по данным о 700 клиентах, у которых кредиты закрыты с извест-ным результатом, выделяем ключевые характеристики для опреде-ления кредитоспособности заемщика. На втором этапе запускаем генерацию случайной выборки из этих 700 клиентов для создания модели. Выбран метод out-of-sample validation, большая часть имею-щихся данных (примерно 70%) используется для построения модели, а оставшаяся часть (не задействованная в моделировании) применя-ется для проверки модели. Затем полученная модель классифицирует 150 потенциальных клиентов на «плохих» и «хороших» заемщиков.
Поскольку процедуры генерации случайной выборки, выбора распре-деления, создания переменной отбора наблюдений для построения и про-верки модели точно такие же, как и в примере с дискриминантным ана-лизом, с целью экономии места и времени используем SPSS Syntax.
Запустите программу SPSS. Загрузите и откройте учебный файл данных2. Затем создайте файл синтаксиса:
1 См.: Груздев А.В. Дискриминантный анализ в банковском скоринге // Риск-менеджмент в кредитной организации. 2011. № 4. С. 64–84.
2 http://narod.ru/disk/38839730001/Логистическая регрессия.sav.html
72
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
Настройка и запуск процедуры анализаЧтобы построить модель логистической регрессии:
Английская версия SPSSВыберите в меню File New… Syntax Введите: SET SEED 9191972. IF ($casenum < 701) validate = rv.bernoulli(.7). EXECUTE. Нажмите Select All Запустите команду, щелкнув по кнопке Run
русская версия SPSSВыберите в меню Файл Новый… Файл синтаксиса Введите: SET SEED 9191972. IF ($casenum < 701) validate = rv.bernoulli(.7). EXECUTE. Нажмите Выделить все Запустите команду, щелкнув по кнопке Выполнить
Английская версия SPSSВыберите в меню Analyze Regression Binary Logistic Поместите переменную [Факт долга] в поле для зависимых переменных Dependent Variable Поместите анализируемые независимые переменные, начиная с [Возраст] по [другие долги] включительно — в область Covariates В качестве метода выберите Forward: LR (likelihood ratio) Поместите переменную [validate] в область Selection Variable Выделите переменную [validate] и щелкните по выключателю Rule, введите значение 1 для данной переменной Нажмите Continue
русская версия SPSSВыберите в меню Анализ регрессия Бинарная логистическая Поместите переменную [Факт долга] в поле для зависимых переменных зависимая переменная Поместите анализируемые независимые переменные, начиная с [Возраст] по [другие долги] включительно — в область Ковариаты В качестве метода выберите Включение: ОП (отношение правдоподобия) Поместите переменную [validate] в область Переменная отбора наблюдений Выделите переменную [validate] и щелкните по выключателю Правило, введите значение 1 для данной переменной Нажмите Продолжить
Как правило, количество независимых переменных, включаемых в модель, должно быть таким, чтобы на одну объясняющую пере-менную приходилось не менее 10 наблюдений, иначе оценки регрес-
73
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
сии будут ненадежными1. В скоринге чаще всего руководствуются правилом 20 EPV (Event Per Variable). Обычно берут общее число наблюдений в категории зависимой переменной, меньшей по объему (как правило, сделки по «плохим» заемщикам), делят на максималь-ное количество переменных, которое используется для построения модели, и на один предиктор должно приходиться не менее 20 наблю-дений2. В нашем примере 183 таких наблюдения, поэтому макси-мальное количество переменных, которое мы можем включить в модель, — не более 9. Мы используем 8 предикторов.
1 Hosmer D.W., Lemeshow S. Applied Logistic Regression. New York: Wiley, 2000.
2 Harrell F.E., Jr. Regression modeling strategies. New York: Springer, 2001.
Английская версия SPSSНажмите Categorical в диалоговом окне Logistic Regression Перенесите [уровень образования] в поле Categorical Covariates Нажмите Continue
русская версия SPSSНажмите Категориальные в диалоговом окне Логистическая регрессия Перенесите [уровень образования] в поле Категориальные Ковариаты Нажмите Продолжить
Английская версия SPSSНажмите Save в диалоговом окне Logistic Regression Выберите Probabilities и Group membership в поле Predicted Values Выберите Cook's и Leverage values в поле Influence Выберите Studentized в поле Residuals Нажмите Continue
русская версия SPSSНажмите Сохранить в диалоговом окне Логистическая регрессия Выберите Вероятности и Принад - лежность к группе в поле Предсказанные значения Выберите Кука и значения разбалан-сировок в поле Влияние Выберите Стьюдентизированные в поле Остатки Нажмите Продолжить
74
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
Английская версия SPSSНажмите Options в диалоговом окне Logistic Regression Выберите Classification plots и Hosmer–Lemeshow goodness-of-fit Нажмите Continue Нажмите OK в диалоговом окне Logistic Regression
русская версия SPSSНажмите Опции в диалоговом окне Логистическая регрессия Выберите Графики классификации и Критерий согласия Хосмера–Лемешова Нажмите Продолжить Нажмите OK в диалоговом окне Логистическая регрессия
Построение регрессионной моделиИз табл. 1 видно, что для построения модели использовались 499 на -б людений, а для ее проверки — 201 наблюдение (351 невыбранное наблюдение минус 150 наблюдений по потенциальным клиентам). Таким образом, 70% наблюдений из исторической выборки исполь-зовались для обучения, 30% — для валидации.
Метод пошагового включения (Forward) вводит переменные в модель по одной, шаг за шагом. На первом шаге вводится переменная, обыч-
Таблица 1
Сводка обработки наблюдений (Case Processing Summary)
Невзвешенные наблюдения N Процент
Выбранные наблюдения
Включенные в анализ 499 58,7
Пропущенные 0 ,0
Всего 499 58,7
Невыбранные наблюдения 351 41,3
Всего 850 100,0
75
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
ная корреляция которой с зависимой переменной максимальна (знак корреляции не важен). На каждом следующем шаге вводится пере-менная с самой сильной частной корреляцией. Для каждого шага вычисляется F-критерий для проверки гипотезы о равенстве нулю коэффициента при вновь введенной переменной. Для определения того, следует ли вводить переменную в уравнение (как и каждую после-дующую), значение F-критерия сравнивается с заданным уровнем. В SPSS для этой цели используется вероятность, связанная с F-статистикой, называемая вероятность P, достаточная для пошагового включения в уравнение (Probability For Stepwise, вкладка Options в диалоговом окне Logistic Regression). В этом случае переменная входит в уравнение только в случае, если вероятность, связанная с F-критерием, меньше или равна вероятности по умолчанию или той вероятности, которую мы зададим (по умолчанию это значение 0,05).
Процедура останавливается, когда установленный критерий для F-статистики больше не выполняется, то есть независимая пере-менная, которая должна быть введена в модель следующей, не явля-ется значимой (уровень значимости более 0,05).
Таблица 2 иллюстрирует процедуру добавления переменных в модель. Переменные, добавляемые в модель, выделены жирным (наибольшее значение коэффициента и уровень значимости меньше 0,05).
В скоринге чаще всего
руководствуются прави-
лом 20 EPV (Event Per
Variable). Обычно берут
общее число наблюдений
в категории зависимой
переменной, меньшей
по объему (как правило,
сделки по «плохим»
заемщикам), делят
на максимальное количе-
ство переменных, кото-
рое используется
для построения модели,
и на один предиктор
должно приходиться
не менее 20 наблюдений.
значение Ст.св. знч.
Шаг 0 Переменные возраст 9,486 1 ,002
образование 6,822 4 ,146
образование(1) 6,312 1 ,012
образование(2) 1,776 1 ,183
образование(3) 2,122 1 ,145
образование(4) ,721 1 ,396
стаж 39,958 1 ,000
проживание 12,634 1 ,000
доход 6,683 1 ,010
процдолгов 64,314 1 ,000
картдолг 25,348 1 ,000
другиедолги 5,559 1 ,018
Обобщенные статистики 135,024 11 ,000
Таблица 2
Переменные, не включенные в уравнение (Variables not in the Equation)
76
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
Все переменные, исключенные из анализа на последнем шаге, имеют уровень значимости больше, чем 0,05, таким образом, больше нет переменных для добавления в модель.
значение Ст.св. знч.
Шаг 1 Переменные возраст 14,082 1 ,000
образование 7,324 4 ,120
образование(1) 7,291 1 ,007
образование(2) 3,456 1 ,063
образование(3) 1,040 1 ,308
образование(4) ,460 1 ,498
стаж 43,610 1 ,000
проживание 18,873 1 ,000
доход 7,912 1 ,005
картдолг ,566 1 ,452
другиедолги 6,828 1 ,009
Обобщенные статистики 79,885 10 ,000
Шаг 2 Переменные возраст ,064 1 ,801
образование 3,185 4 ,527
образование(1) 2,653 1 ,103
образование(2) 1,276 1 ,259
образование(3) ,890 1 ,346
образование(4) ,082 1 ,774
проживание 7,366 1 ,007
доход 4,174 1 ,041
картдолг 40,151 1 ,000
другиедолги 1,864 1 ,172
Обобщенные статистики 60,354 9 ,000
Шаг 3 Переменные возраст 1,851 1 ,174
образование 1,656 4 ,799
образование(1) ,280 1 ,597
образование(2) ,896 1 ,344
образование(3) ,016 1 ,900
образование(4) ,913 1 ,339
проживание 15,866 1 ,000
доход 2,784 1 ,095
другиедолги ,676 1 ,411
Обобщенные статистики 21,807 8 ,005
Продолжение табл. 2
77
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
Качество приближения регрессионной модели оценивается в табл. 3 при помощи функции подобия. Критерием правдоподобия служит отрицательное удвоенное значение логарифма этой функции, или удво-енное логарифмическое правдоподобие (–2 Log-likelihood). Удвоенное логарифмическое правдоподобие показывает, насколько хорошо модель соответствует исходным данным. Снижение его величины означает улучшение качества модели. Все переменные, выбранные данным методом, должны иметь статистически значимые измене-ния удвоенного логарифмического правдоподобия.
значение Ст.св. знч.
Шаг 4 Переменные возраст 1,671 1 ,196
образование 2,095 4 ,718
образование(1) ,713 1 ,398
образование(2) ,939 1 ,333
образование(3) ,099 1 ,753
образование(4) ,643 1 ,423
доход ,856 1 ,355
другиедолги ,156 1 ,693
Обобщенные статистики 6,178 7 ,519
Окончание табл. 2
Таблица 3
Модель при исключении члена (Model if Term Removed)
Координаты переменных
Log-правдо по-добие модели
Изменение в –2 Log-правдо-подобии
Ст.св. знч. изменений
Шаг 1 процдолгов –279,778 61,544 1 ,000
Шаг 2 стаж –249,006 50,712 1 ,000
процдолгов –256,281 65,262 1 ,000
Шаг 3 стаж –248,719 85,885 1 ,000
процдолгов –210,684 9,814 1 ,002
картдолг –223,650 35,747 1 ,000
Шаг 4 стаж –236,533 78,345 1 ,000
проживание –205,777 16,832 1 ,000
процдолгов –202,395 10,068 1 ,002
картдолг –219,820 44,919 1 ,000
78
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
Следующая таблица (табл. 4) содержит статистики, применяемые для оценки важности предикторов.
Таблица 4
Переменные, включенные в уравнение (Variables in the Equation)
a Переменные, включенные на шаге 1: [процдолгов].b Переменные, включенные на шаге 2: [стаж].c Переменные, включенные на шаге 3: [картдолг].d Переменные, включенные на шаге 4: [проживание].
B Стандартная ошибка
Вальд Ст.св. знч. exp(B)
Шаг 1a процдолгов ,121 ,017 52,676 1 ,000 1,129
constant –2,476 ,230 116,315 1 ,000 ,084
Шаг 2b стаж – ,140 ,023 38,158 1 ,000 ,869
процдолгов ,134 ,018 54,659 1 ,000 1,143
constant –1,621 ,259 39,038 1 ,000 ,198
Шаг 3c стаж – ,244 ,033 54,676 1 ,000 ,783
процдолгов ,069 ,022 9,809 1 ,002 1,072
картдолг ,506 ,101 25,127 1 ,000 1,658
constant –1,058 ,280 14,249 1 ,000 ,347
Шаг 4d стаж – ,247 ,034 51,826 1 ,000 ,781
проживание – ,089 ,023 15,109 1 ,000 ,915
процдолгов ,072 ,023 10,040 1 ,002 1,074
картдолг ,602 ,111 29,606 1 ,000 1,826
constant – ,605 ,301 4,034 1 ,045 ,546
Величина бета-коэффициентов (B) позволяет сравнивать относи-тельный вклад каждой независимой переменной в зависимую пере-менную.
Статистика Вальда (�ald) является критерием значимости коэф-�ald) является критерием значимости коэф-) является критерием значимости коэф-фициента регрессии (бета-коэффициента) для соответствующего пре-диктора. Чем выше его значение (вместе с числом степеней свободы), тем выше значимость. Если уровень значимости статистики Вальда меньше 0,05, то данный параметр полезен для анализа модели.
Недостаток статистики Вальда в том, что при малом числе наблю-дений она может давать заниженные оценки наблюдаемой значи-мости коэффициентов. Поэтому удвоенное логарифмическое подо-бие — более достоверный критерий, чем статистика Вальда. Если значения этих двух статистик различаются в том, пригодна ли неза-
79
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
висимая переменная для применения в модели, рекомендуем исполь-зовать удвоенное логарифмическое правдоподобие.
ехр(В) — величина (еВ), которая может использоваться для интер-претации результатов анализа наравне с коэффициентом В. exp(B) — это изменение соотношения шансов наступления события при изме-нении значения независимой переменной на единицу (притом что остальные переменные неизменны). Шансы — это не вероят-ность, а отношение вероятности того, что событие произойдет, к веро-ятности того, что оно не произойдет. С ростом вероятности растут шансы, и наоборот.
Выявлены значительные взаимосвязи для случаев дефолта по четы-рем независимым переменным.
Наиболее сильное влияние на зависимую переменную оказывает переменная [стаж] (exp(B) = 0,781, p = 0,000, �ald = 51,826). �то обо- = 51,826). �то обо-значает, что каждый дополнительный месяц стажа у клиентов (при прочих равных условиях) снижает вероятность шансов возникнове-ния дефолта у них на 22% (100% – 100% × 0,781).
Второе по значимости влияние оказала переменная [картдолг] (exp(B) = 1,826, p = 0,000, �ald = 29,606). �то означает, что c каждой тысячи долларов долга по кредитной карте вероятность шансов дефолта у клиентов (при прочих равных условиях) увеличивается в 1,826 раза, или на 83%.
Третьей значимой переменной стала переменная [проживание] (exp(B) = 0,915, p = 0,000, �ald = 15,109): с каждым дополнительным месяцем проживания (при прочих равных условиях) вероятность шансов дефолта уменьшается на 8%.
Четвертой по важности переменной стала переменная [процдол-гов] (exp(B) = 1,074, p = 0,002, �ald = 10,040).
Для проверки модели можно построить ее с помощью метода «Пошаговое исключение» (Backward). Метод Backward начинается с построения модели, куда включены все переменные. Затем на каж-дом шаге из модели удаляется наименее полезный из предикторов, то есть предиктор с минимальным значением F-статистики, причем это значение должно быть меньше заранее выбранного порога, чтобы не удалять из модели наименее значимые, но все же значи-мые переменные. Процедура останавливается, когда из модели больше нечего удалять (значения F-статистики для всех оставшихся независимых переменных выше установленного порога). Если оба метода выбирают одни и те же переменные, вы можете быть уве-рены в том, что перед вами хорошая модель. Коэффициент детер-минации R2 (Coefficient of determination) показывает, насколько
80
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
изменения зависимой переменной (в процентах) объясняются изме-нениями совокупности независимых переменных. То есть это доля дисперсии зависимой переменной (признака), объясняемая влия-нием независимых переменных (предикторов). Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость зависимой переменной изменчивостью предикторов. И наоборот, значение R-квадрата, близкое к нулю, означает, что колебания зависимой переменной не обусловлены колебаниями предикторов.
В регрессионных моделях с категориальной зависимой перемен-ной невозможно вычислить статистику R2 в ее классическом виде. Поэтому вместо этого вычисляются ее аппроксимации (табл. 5).
Таблица 5
Сводка для модели (Model Summary)
a Оценивание закончено на итерации 4, потому что оценки параметра изменились менее
чем на ,001.b Оценивание закончено на итерации 5, потому что оценки параметра изменились менее
чем на ,001.c Оценивание закончено на итерации 6, потому что оценки параметра изменились менее
чем на ,001.
Шаг –2 Log-правдоподобие R-квадрат Кокса и Снелла
R-квадрат Найджелкерка
1 498,012a ,116 ,172
2 447,301b ,201 ,299
3 411,553b ,257 ,381
4 394,721c ,281 ,417
Речь идет о двух других выведенных показателях — R2 Кокса и Снелла и R2 Найджелкерка. �то приближенные значения R2, пока-зывающие долю влияния всех предикторов модели на дисперсию зависимой переменной.
Коэффициент детерминации по Коксу и Снеллу имеет недоста-ток — значение, равное 1, является теоретически недостижимым; этот недостаток устранен благодаря модификации данной меры по методу Найджелкерка.
�ти меры могут быть полезны для проверки конкурирующих моделей с одними и теми же данными. Модель с наибольшим зна-чением статистики R2 можно признать «лучшей».
81
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
В нашем исследовании R2 Найджелкерка равен 0,417; это обозна-чает, что поведение зависимой переменной на 42% объясняется включенными в модель предикторами.
Диагностика качества регрессионной модели
Калибровочный тест моделиИтак, модель построена. Теперь нас интересует калибровочный тест. Калибровочный тест модели определяет степень соответствия между оцененными вероятностями дефолтов, спрогнозированными моде-лью, и реальными вероятностями дефолтов. Тем самым калибровоч-ный тест модели позволяет установить, насколько хорошо наша модель согласуется с исходными данными и может быть измерена с помощью критерия согласия модели (goodness-of-fit statistics).
Критерий согласия модели Хосмера–Лемешова (Hosmer–Lemeshow goodness-of-fit statistics), приведенный в табл. 6, исследует расстоя-oodness-of-fit statistics), приведенный в табл. 6, исследует расстоя-ние между наблюдаемыми и ожидаемыми распределениями частот «плохих» и «хороших» заемщиков. Если уровень значимости явля-ется большим, то модель хорошо откалибрована и достаточно точно описывает реальные данные. Значение статистики Хосмера–Лемешова не должно быть меньше уровня значимости 0,05. Оптимальными считаются значения не меньше 0,5–0,6. В нашем случае значение составляет 0,855, можно говорить о высоком качестве модели.
Таблица 6
Критерий согласия Хосмера–Лемешова (Hosmer–Lemeshow goodness-of-fit statistics)
Шаг Хи-квадрат Ст.св. знч.
1 3,292 8 ,915
2 11,866 8 ,157
3 9,447 8 ,306
4 4,027 8 ,855
В табл. 7 каждая категория заемщиков разбита на 10 групп — «децилей риска» (в каждой группе примерно по 10% от общего числа заемщиков). В каждом дециле мы сравниваем наблюдаемые и ожидаемые распределения частот «плохих» и «хороших» заем-щиков.
Статистика Хосмера–Лемешова более робастна, чем традиционный критерий согласия, используемый в логистической регрессии, осо-
82
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
Таблица 7
Таблица сопряженности для критерия Хосмера–Лемешова (Contingency Table for Hosmer and Lemeshow Test)
Факт долга по кредиту = Не было долгов по кредиту
Факт долга по кредиту = Были долги по кредиту
Всего
Наблюдаемые Ожидаемые Наблюдаемые Ожидаемые
Шаг 1 1 46 46,977 6 5,023 52
2 50 47,658 4 6,342 54
3 44 43,998 7 7,002 51
4 43 43,806 9 8,194 52
5 39 39,197 9 8,803 48
6 40 39,103 10 10,897 50
7 34 36,635 16 13,365 50
8 37 34,147 14 16,853 51
9 27 29,263 24 21,737 51
10 15 14,216 25 25,784 40
…
Шаг 4 1 50 49,778 0 ,222 50
2 49 48,995 1 1,005 50
3 47 47,549 3 2,451 50
4 45 45,495 5 4,505 50
5 46 42,992 4 7,008 50
6 39 39,783 11 10,217 50
7 32 35,801 18 14,199 50
8 33 30,474 17 19,526 50
9 24 23,443 26 26,557 50
10 10 10,689 39 38,311 49
бенно для моделей с непрерывными переменными, моделей, постро-енных на выборках небольшого объема.
Анализ остатковВозможно ли повысить качество модели? В поиске ответов на этот вопрос нам помогут переменные [SRE�1], [COO�1] и [LEV�1], появив-SRE�1], [COO�1] и [LEV�1], появив-�1], [COO�1] и [LEV�1], появив-COO�1] и [LEV�1], появив-�1] и [LEV�1], появив-LEV�1], появив-�1], появив-шиеся по итогам анализа в Редакторе данных/Редакторе переменных SPSS. Рассмотрим каждую из этих переменных.
1. [SRE�1] — Standard residual, или Стандартный остаток. Остаток (residual) — фактическое значение зависимой переменной
минус предсказанное регрессионным уравнением (моделью).Значительное отклонение фактического значения зависимой пере-
менной от прогноза по тому или иному наблюдению называется
83
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
выбросом (outlier). На графике остатков достаточно легко обнару-outlier). На графике остатков достаточно легко обнару-). На графике остатков достаточно легко обнару-жить выбросы; обычно им соответствуют очень большие положи-тельные или отрицательные остатки. Они могут существенно вли-ять на качество модели, поэтому необходимо изучать их и рассма-тривать вопрос об исключении их из набора при построении модели или об использовании весов для наблюдений с целью уменьшить влияние выбросов на модель.
Неодинаковость дисперсий для разных наблюдений точнее и нагляд-нее отражают, как правило, стьюдентизированные остатки (studen-studen-tuden-tized residuals). Значительные изменения дисперсии будут указывать на выбросы. Лучше всего использовать стьюдентизированные остатки, преобразованные путем возведения их в квадрат, и строить графики остатков.
Чтобы возвести в квадрат стьюдентизированные остатки, выпол-ните следующее:
Английская версия SPSSВыберите в меню Transform Compute Variable… Введите chgdev в поле Target Variable Введите sre_1**2 в поле Numeric Expression Нажмите OK
русская версия SPSSВыберите в меню Преобразовать Вычислить переменную… Введите chgdev в поле Вычисляемая переменная Введите sre_1**2 в поле Числовое выражение Нажмите OK
Английская версия SPSSВыберите в меню File New… Syntax Введите: COMPUTE id=$CASENUM. EXECUTE. Нажмите Select All Запустите команду, щелкнув по кнопке Run
русская версия SPSSВыберите в меню Файл Новый… Файл синтаксиса Введите: COMPUTE id=$CASENUM. EXECUTE. Нажмите Выделить все Запустите команду, щелкнув по кнопке Выполнить
Возведенные в квадрат стьюдентизированные остатки сохранены в переменной [chgdev].
Теперь создадим идентифицирующую переменную, которая пере-нумерует все наблюдения от 1 до 850 (числа наблюдений в файле).
В Редакторе данных/Редакторе переменных SPSS появилась новая переменная [id].
Чтобы построить график остатков, выполните следующие дей-ствия:
84
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
Английская версия SPSSВыберите в меню Graphs Chart Builder… Выделите Scatter/Dot gallery и выберите Simple Scatter Выберите переменную [chgdev] и отложите ее по оси Y Выберите переменную [Predicted probability] и отложите ее по оси X
русская версия SPSSВыберите в меню Графики Конструктор диаграмм… Выделите рассеяния/Точечные диаграммы и выберите Простая диаграмма рассеяния Выберите переменную [chgdev] и отложите ее по оси Y Выберите переменную [Предсказанная вероятность] и отложите ее по оси X
Английская версия SPSSВыберите вкладку Groups/Point ID Установите флажок Point ID Label Выберите переменную [id] и перенесите в поле Point Label Variable Нажмите OK
русская версия SPSSВыберите вкладку Группирующие переменные/Идентификация точек Установите флажок Метка идентификатора точки Выберите переменную [id] и перенесите в поле Идентификатор точки Нажмите OK
Значительные изменения дисперсии, которые можно увидеть на рис. 1, помогают выявить наблюдения, непригодные для постро-ения модели.
85
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
Рисунок 1
Диаграмма рассеяния для стьюдентизированных остатков
Примечание: овалами отмечены наблюдения, которые не годятся для модели.
На графике две кривые. Кривая, которая простирается от нижнего левого угла к верхнему
правому, соответствует наблюдениям, для которых зависимая пере-менная принимает значение 0. «Хорошие» заемщики, которые имеют большие спрогнозированные значения вероятности дефолта, непри-годны для модели (отмечены овалом).
Кривая, которая простирается от верхнего левого угла к нижнему правому, соответствует наблюдениям, для которых зависимая пере-менная принимает значение 1. «Плохие» заемщики, у которых спрог-нозированы низкие значения вероятности дефолта, также не годятся для модели (отмечены овалом).
2. [COO�1] — Analog of Cook’s influence statistics, или �налог ста-или �налог ста- �налог ста-�налог ста- ста-ста-тистики влияния Кука.
�налог расстояния Кука (Cook’s distance) показывает разницу между вычисленными коэффициентами регрессии (бета-коэффициентами) и значениями, которые получились бы при исключении соответ-ствующего наблюдения. Она свидетельствует о смещении оценок коэффициентов регрессионной модели при удалении данного наблю-дения. В адекватной модели все расстояния Кука должны быть оди-наковыми. Большая величина статистики Кука указывает на влияю-щее наблюдение (influential observation).
Расстояние Кука (Cook’s
distance) показывает
разницу между вычис-
ленными коэффициен-
тами регрессии (бета-
коэффициентами)
и значениями, которые
получились бы при
исключении соответ-
ствующего наблюдения.
Предсказанная вероятность
chgd
ev
10,00
8,00
6,00
4,00
2,00
,00,00000 ,20000 ,40000 ,60000 ,80000 1,00000
86
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль
Итак, для выявления наблюдений, сильно влияющих на модель, используем переменную [COO�1]. �то также может помочь улучшить качество модели.
Английская версия SPSSВыберите в меню Graphs Chart Builder… Выделите Scatter/Dot gallery и выберите Simple Scatter Выберите переменную [Analog of Cook's influence statistics] и отложите ее по оси Y Выберите переменную [Predicted probability] и отложите ее по оси X Выберите вкладку Groups/Point ID Установите флажок Point ID Label Выберите переменную [id] и перенесите в поле Point Label Variable Нажмите OK
русская версия SPSSВыберите в меню Графики Конструктор диаграмм… Выделите рассеяния/Точечные диаграммы и выберите Простая диаграмма рассеяния Выберите переменную [Аналог статистики влияния Кука] и отложите ее по оси Y Выберите переменную [Предсказанная вероятность] и отложите ее по оси X Выберите вкладку Группирующие переменные/Идентификация точек Установите флажок Метка идентификатора точки Выберите переменную [id] и перенесите в поле Идентификатор точки Нажмите OK
На рис. 2 можно увидеть облако точек (наблюдений) и несколько точек, находящихся на большом расстоянии от центра облака. У этих точек высокие значения статистики Кука (отмечены овалом). В нашем примере это наблюдения 152, 36, 187, 53, 492 и др.
3. [LEV�1] — Leverage value, или Значение разбалансировки (Зна-LEV�1] — Leverage value, или Значение разбалансировки (Зна-�1] — Leverage value, или Значение разбалансировки (Зна-Leverage value, или Значение разбалансировки (Зна- value, или Значение разбалансировки (Зна-value, или Значение разбалансировки (Зна-, или Значение разбалансировки (Зна-чение плеча).
Разбалансировка (Leverage) — мера влияния того или иного наблю-дения на качество приближения модели. На рис. 2 видно, что раз-балансировка — это расстояние от центра облака до наблюдения. Наблюдения 152, 36, 187, 53, 492 можно назвать точками высокой разбалансировки (high-leverage points). Практическая ценность вели-чины заключается в том, что наблюдение с высоким значением разбалансировки оказывает наибольшее влияние на модель. Оно дословно обладает большим «плечом» (англ. leverage) в воздействии на данные, является «влияющим».
При этом следует отличать выброс от влияющего наблюдения. Выбросы снижают общее качество приближения модели, могут увеличивать значение стандартной ошибки параметра, снизить коэффициент детерминации, но они не могут изменить оценку параметра. Влияющие наблюдения могут в значительной мере изменить оценки.
87
www.reglament.net
регрессионное уравнение \ вероятность дефолта заемщика \ классификация заемщиков
Метод бинарной логистической регрессии в банковском скоринге
Выброс определяется значением остатка, а влияющее наблюде-ние — расстоянием от центра облака наблюдений и значением остатка (эти два показателя и учитывает формула Кука). Для выявления выбросов удобнее использовать стьюдентизированные остатки (смо-трим дисперсию), для выявления влияющих наблюдений — аналог меры Кука (смотрим значение остатка вместе со значением разба-лансировки).
Для улучшения качества модели следует обращать внимание на те случаи, которые имеют высокие значения остатков и меры Кука (лучше всего это делать, строя диаграммы рассеяния), и затем решать, какие наблюдения нужно исключить из нашей модели или использовать веса для них.
Окончание следует
Рисунок 2
Диаграмма рассеяния для расстояний Кука
Предсказанная вероятность
Ан
алог
ста
тист
ик
вли
яни
я К
ука ,25000
,20000
,15000
,10000
,05000
,00000,00000 ,20000 ,40000 ,60000 ,80000 1,00000
88
Риск-менеджмент в кредитной организации № 1 (05) \ 2012
Управление и контроль