Метод порядковой регрессии в банковском скоринге

13
46 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 Посвящается Олесе Дмитриевне Фоменок Метод порядковой регрессии позволяет нам строить модели, делать прогнозы и оценивать важность различных предикторов (независимых переменных) в тех ситуациях, когда зависимая (целевая, результирующая) переменная является порядковой. Независимые переменные должны быть категориальными, т.е. иметь номинальную или порядковую шкалу, при этом в качестве кова- риат допускается применение переменных с ин- тервальной шкалой. КАТЕГОРИИ ПОРЯДКОВЫХ ЗАВИСИМЫХ ПЕРЕМЕННЫХ И ЛИНЕЙНАЯ РЕГРЕССИЯ Когда мы пытаемся спрогнозировать катего- рии порядковой зависимой переменной, модели обычной линейной регрессии не могут быть реа- лизованы в полной мере. Эти методы могут рабо- тать лишь на основе предположения о том, что за- висимая переменная измеряется на интервальной шкале. Упрощенные предположения, на которых Груздев Артем Владимирович — директор исследо- вательской компании «Гевисста» (г. Москва) РИСКИ И ТЕХНОЛОГИИ КЛЮЧЕВЫЕ СЛОВА: порядковая регрессия, накопленная вероятность, компонент положения, компонент масштаба, связывающая функция, дефолт, прогноз В данной статье рассматривается модель порядковой регрессии для оценки кре- дитоспособности. Данная модель напоминает модель логистической регрессии. Отличие порядковой регрессии от логистической в том, что зависимая пере- менная в рассматриваемой модели является порядковой. Это позволяет сделать прогноз дефолта сразу по нескольким выделенным категориям зависимой пере- менной, упорядочить аппликантов по степени нарастания или убывания кредит- ного риска. МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Upload: gewissta

Post on 06-Apr-2016

269 views

Category:

Documents


16 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Метод порядковой регрессии в банковском скоринге

46 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

Посвящается Олесе Дмитриевне Фоменок

Метод порядковой регрессии позволяет нам строить модели, делать прогнозы и оценивать важность различных предикторов (независимых переменных) в тех ситуациях, когда зависимая (целевая, результирующая) переменная является порядковой. Независимые переменные должны быть категориальными, т.е. иметь номинальную или порядковую шкалу, при этом в качестве кова-риат допускается применение переменных с ин-тервальной шкалой.

КАТЕГОРИИ ПОРЯДКОВЫХ ЗАВИСИМЫХ

ПЕРЕМЕННЫХ И ЛИНЕЙНАЯ РЕГРЕССИЯ

Когда мы пытаемся спрогнозировать катего-рии порядковой зависимой переменной, модели обычной линейной регрессии не могут быть реа-лизованы в полной мере. Эти методы могут рабо-тать лишь на основе предположения о том, что за-висимая переменная измеряется на интервальной шкале. Упрощенные предположения, на которых

Груздев Артем Владимирович — директор исследо-

вательской компании «Гевисста» (г. Москва)

РИСКИ И ТЕХНОЛОГИИ

КЛЮЧЕВЫЕ СЛОВА: порядковая регрессия, накопленная вероятность, компонент положения, компонент масштаба, связывающая функция, дефолт, прогноз

В данной статье рассматривается модель порядковой регрессии для оценки кре-

дитоспособности. Данная модель напоминает модель логистической регрессии.

Отличие порядковой регрессии от логистической в том, что зависимая пере-

менная в рассматриваемой модели является порядковой. Это позволяет сделать

прогноз дефолта сразу по нескольким выделенным категориям зависимой пере-

менной, упорядочить аппликантов по степени нарастания или убывания кредит-

ного риска.

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ

В КРЕДИТНОМ СКОРИНГЕ

Page 2: Метод порядковой регрессии в банковском скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 47

строится линейная регрессия, не выполняются, поскольку связи между переменными в наших данных могут искажаться. Особенно линейная регрессия чувствительна к способу, которым мы определяем категории целевой переменной.

В случае с порядковой переменной самое важ-ное — это порядок категорий. Так, если мы объе-диним две соседние категории в одну более круп-ную, то внесем лишь небольшое изменение, и мо-дели, построенные на основе старой и новой ка-тегоризации, наверное, будут очень схожи. К со-жалению, из-за того что линейная регрессия чув-ствительна к категоризации, модель, построен-ная до объединения категорий, может полностью отличаться от той, которая будет построена после объединения.

ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ МОДЕЛИ

Альтернативный подход использует обобще-ние линейной регрессии (обобщенную линейную модель), чтобы спрогнозировать накопленные ве-роятности для категорий. С помощью этого ме-тода мы строим отдельное уравнение для каждой категории порядковой зависимой переменной. Каждое уравнение дает спрогнозированную ве-роятность для соответствующей категории или любой категории более низкого порядка (табл. 1).

Проанализируем распределение, приведен-ное в табл. 1. Прогнозы строятся только на сово-купных вероятностях для каждой категории.

Спрогнозированная накопленная вероятность для первой категории равна 0,80. Прогноз для второй категории: 0,80 + 0,07 = 0,87; прогноз для третьей категории: 0,80 + 0,07 + 0,07 = 0,94 и т.д. Прогноз для последней категории всегда равен 1,0, поэтому уравнение для последней категории не требуется.

Обобщенные линейные модели — это доста-точно большой класс моделей, который может использоваться для ответов на широкий круг во-просов в статистике. Обобщенная линейная мо-дель описывается уравнением:

где link() — связывающая функция;ij — накопленная вероятность j-той категории за-висимой переменной для i-го наблюдения;j — пороговая оценка (оценка параметров ре-грессии) для j-той категории зависимой перемен-ной;p — число регрессионных коэффициентов;xi1, …, xij — значения предикторов (независимых переменных) для i-го наблюдения;1, …, p — регрессионные коэффициенты.

Здесь необходимо отметить несколько важных моментов. В основе модели лежит идея о том, что есть некая скрытая непрерывная зависимая пере-менная, а порядковая зависимая переменная яв-ляется результатом дискретизации рассматривае-мого континуума на упорядоченные группы (кате-гории). Конечные значения, по которым задаются категории, оцениваются с помощью пороговых

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Категория Вероятность принадлежности к категории Накопленная вероятность

Оплата без просрочек 0,80 0,80

Просрочка от 1 до 29 дней 0,07 0,87

Просрочка от 30 до 59 дней 0,07 0,94

Просрочка от 60 до 89 дней 0,05 0,99

Безнадежный кредит 0,01 1,00

Таблица 1. Гипотетическое распределение категорий порядковой переменной

Page 3: Метод порядковой регрессии в банковском скоринге

48 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

оценок (оценок параметров регрессии). В ряде случаев эта идея — хорошее обоснование для того, чтобы принять данное распределение кате-горий. Однако даже в тех случаях, когда речь не идет о скрытой переменной, модель может все так же хорошо работать и выдавать достоверные результаты.

Теперь более детально рассмотрим наше уравнение. Пороговые оценки или константы в модели, соответствующие свободному члену в моделях линейной регрессии, зависят только от того, вероятность какой категории предсказы-вается. Значения предикторов (независимых пе-ременных) не влияют на эту (левую) часть модели:

Прогнозная (правая) часть уравнения зависит лишь от предикторов и не зависит от категории зависимой переменной. Эти два свойства пред-полагают, что результаты должны представлять собой набор параллельных линий или находить-ся в одной плоскости для каждой категории зави-симой переменной:

Модель прогнозирует накопленные вероятно-сти и функцию для этих значений. Данная функ-ция называется связывающей. Она связывает слу-чайный компонент в левой части уравнения с си-стематическим компонентом в правой части.

При построении модели мы должны выбрать тот или иной вид связывающей функции. С помощью подбора этих функций можно улучшить результа-ты прогнозирования.

Резюмируя, отметим, что модель порядковой регрессии содержит три важных компонента.

1. Положение (Location component). Та часть уравнения, которая включает коэффициенты и пре-дикторы, называется положением модели. Это пер-вооснова модели, она использует значения пре-дикторов, чтобы вычислить спрогнозированные вероятности категорий для каждого наблюдения.

2. Масштаб (Scale component). Масштаб мо-дели — это необязательная модификация базо-вой модели, принимающая во внимание различия в вариабельности значений предикторов. Напри-мер, если мужчины демонстрируют более выра-женную вариабельность значений кредитного статуса, чем женщины, то использование масшта-ба для учета этого эффекта может улучшить нашу модель. Модель, включающая компонент масшта-ба, имеет уравнение:

где zi1, …, zim — предикторы компонента масштаба;1, …, m — коэффициенты компонента масштаба.

3. Связывающая функция. Связывающая функция — это преобразование накопленных ве-роятностей, которое позволяет провести оценку модели. В процедуре порядковой регрессии до-ступно пять связывающих функций (табл. 2).

Груздев А.В.

Функция Форма Применение

Логит ln( / (1 − )) Равномерно распределенные категории

Сопряженный двойной логарифм ln(−ln(1 − )) Более вероятны высшие категории

Отрицательный двойной логарифм –ln(–ln()) Более вероятны низшие категории

Пробит – 1() Нормально распределенные частоты

Коши tan(( – 0,5)) Результирующая переменная со множеством пиковых значений

Таблица 2. Связывающие функции

Page 4: Метод порядковой регрессии в банковском скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 49

Управление рисков банка хочет определить, является ли аппликант надежным заемщиком, ис-ходя из его социально-демографических и фи-нансовых характеристик. В качестве зависимой переменной рассматривается «Статус состояния счета». Она включает пять категорий: «Нет кре-дитной истории», «Оплата без просрочек», «Про-срочка от 1 до 29 дней», «Просрочка от 30 до 119 дней» и «Безнадежный кредит». Предикторы — финансовые и социально-демографические ха-рактеристики аппликантов, такие как возраст за-емщика, число кредитов, взятых в банке, и т.п. Применим порядковую регрессию, чтобы постро-ить модель скоринга аппликантов.

При построении первоначальной модели по-рядковой регрессии нужно принять несколько важных решений. Во-первых, мы, конечно, долж-ны определить порядковую результирующую пе-ременную, а затем решить, какие предикторы за-дать для компонента положения. Потом необхо-димо определиться, использовать или нет в мо-дели компонент масштаба и если да, то какие предикторы применять. Наконец, нужно решить, какая связывающая функция лучше всего соот-ветствует структуре наших данных.

В большинстве случаев еще до начала постро-ения модели у нас уже есть заранее определен-ная целевая переменная. Причина, по которой мы используем модель порядковой регрессии, в том, что мы хотим спрогнозировать результат, измеренный в порядковой шкале. В нашем слу-чае это переменная «Статус состояния счета» с ее пятью категориями. Заметим, что предлагаемый здесь порядок расположения категорий вовсе не обязательно должен быть наилучшим из возмож-ных. Можно легко доказать, что клиент, уже взяв-ший кредит и не имеющий просрочек, имеет луч-ший рейтинг, чем тот, у которого кредитная исто-рия неизвестна.

Процесс отбора предикторов в компонент по-ложения схож с отбором предикторов в модель линейной регрессии. При определении количе-ства отбираемых переменных необходимо руко-водствоваться теоретическими и практическими

соображениями. В идеале модель должна вклю-чать все важные предикторы, и только, но на практике мы часто не знаем точно, какие преди-кторы являются существенными, до того момента, пока не построим модель. В этом случае лучшим решением обычно бывает включение всех преди-кторов, наиболее важных на наш взгляд. Если об-наружится, что некоторые из них, по-видимому, бесполезны для построения модели, то мы ис-ключим их из анализа и построим модель заново.

В нашем примере исходя из предварительно-го анализа были определены пять возможных предикторов: возраст заемщика, продолжитель-ность кредита, количество взятых в банке креди-тов, долги по другим платежам и тип жилья. Мы включим эти независимые переменные в перво-начальный анализ и затем оценим важность каж-дой переменной. Число взятых в банке кредитов, долги по другим платежам и тип жилья являются категориальными переменными, включенными в модель в качестве факторов. Возраст заемщика и продолжительность кредита — непрерывные переменные, включенные в модель в качестве ко-вариат.

Теперь нужно решить, вводить ли вообще в модель компонент масштаба. В большинстве случаев он не нужен, и модель с заданным компо-нентом положения обеспечивает хорошее обоб-щение данных. Обычно лучше начинать анализ с построения модели с заданным компонентом положения и включать компонент масштаба, если есть доказательства того, что модель с компонен-том положения неадекватна нашим данным. При-держиваясь данного подхода, вы можете начать анализ с построения модели по заранее опреде-ленному компоненту положения и после оценки модели решить, будет ли обоснованным включе-ние в модель компонента шкалы.

Наконец, выберем связывающую функцию. Для этого нужно рассмотреть распределение зна-чений результирующей переменной. На рис. 1 мы видим распределение категорий переменной «Статус состояния счета». Большая часть наблю-дений относится к категориям 3 («Просрочка от 1

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Page 5: Метод порядковой регрессии в банковском скоринге

50 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

до 29 дней»), 5 («Безнадежный кредит») и 4 («Про-срочка от 30 до 119 дней»). По этой причине мы используем функцию сопряженного двойного ло-гарифма. Она применяется, когда высшие катего-рии результирующей переменной представлены сильнее. Вместе с тем большое число наблюде-ний в крайней категории 5 («Безнадежный кре-дит») указывает на то, что в качестве альтернатив-ной связывающей функции вполне обоснованно может быть применена функция Коши.

Прежде чем мы рассмотрим предикторы, включенные в модель, выясним, может ли модель

выдавать адекватные прогнозы. Чтобы ответить на этот вопрос, нужно изучить табл. 3.

В качестве оценки значимости влияния от-дельных предикторов для улучшения прогнозов, получаемых с помощью модели, служит отрица-тельное значение 2LL («Удвоенное значение лога-рифма функции правдоподобия»).

Разность между начальной моделью («Только константа») и итоговой моделью («Полная») ука-зывается в виде значения теста хи-квадрат, с ко-торым соотнесен соответствующий уровень зна-чимости. В приведенном примере наблюдается

Груздев А.В.

Рис. 1. Распределение категорий переменной «Статус состояния счета»

Page 6: Метод порядковой регрессии в банковском скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 51

статистически значимое улучшение (р < 0,001). Это хороший признак.

Табл. 4 содержит тест хи-квадрат Пирсона. Эта статистика предназначена для того, чтобы прове-рить, противоречит ли наша модель наблюдае-мым данным (будут ли наблюдаемые частоты по ячейкам значимо отличаться от ожидаемых ча-стот, рассчитанных на основе модели).

Большие значения уровня статистической зна-чимости позволяют нам сделать вывод, что на-блюдаемые и спрогнозированные моделью зна-чения совпадают и мы построили хорошую мо-дель. В нашем примере результат теста — стати-стическая значимая разность значений (p = 0,000), что говорит о низкой степени приближения.

Статистика хи-квадрат может использоваться для анализа моделей с небольшим числом катего-риальных предикторов. Однако, к сожалению, она чувствительна к пустым ячейкам. Когда оценива-ется модель с непрерывными ковариатами, часто появляется большое количество пустых ячеек, как в нашем примере, поэтому мы не можем доверять этой статистике, когда речь идет о такой модели. Из-за пустых ячеек мы не уверены, что данный по-казатель реально отражает распределение хи-квадрат, а уровни значимости вычислены точно.

В модели линейной регрессии коэффициент детерминации R2 (или R-квадрат) показывает долю дисперсии зависимой переменной (призна-ка), объясняемую влиянием независимых пере-менных (предикторов). Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость зависимой переменной от изменчивости предикторов. На-оборот, значение R-квадрата, близкое к нулю, оз-начает, что колебания зависимой переменной не обусловлены колебаниями предикторов.

В регрессионных моделях с категориальной зависимой переменной невозможно вычислить статистику R2 в ее классическом виде, поэтому вместо этого вычисляются ее аппроксимации (табл. 5).

Речь идет о трех выведенных показателях: R-квадрат Кокса и Снелла, Найджелкерка и Мак-Фаддена. Это приближения значения R-квадрата, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной. С их помощью полезно сравнивать модели, по-строенные на одних и тех же данных. Модель с са-мым высоким значением R-квадрата признается лучшей. В нашем случае значения коэффициентов являются приемлемыми, хоть и не в достаточной

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Модель –2 лог-правдоподобие Хи-квадрат Степени свободы Значимость

Только константа 2249,888 — — —

Полная 1896,552 353,336 9 0,000

Таблица 3. Информация о приближении модели

Примечание: связывающая функция — сопряженный двойной логарифм.

Статистика качества модели Хи-квадрат Степени свободы Значимость

Пирсон 4688,724 3131 0,000

Отклонение 1796,915 3131 1,000

Таблица 4. Критерий согласия

Примечание: связывающая функция — сопряженный двойной логарифм.

Page 7: Метод порядковой регрессии в банковском скоринге

52 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

мере. Вероятно, нужно пересмотреть модель, что-бы попытаться улучшить ее прогностическую спо-собность.

Следующим шагом в оценке нашей модели станет проверка прогнозов. Вспомним, что мо-дель базируется на спрогнозированных кумуля-тивных (накопленных) вероятностях. Главный во-прос: насколько часто модель выдает правильно спрогнозированную категорию, основываясь на значениях переменных-предикторов? Чтобы уви-деть, насколько хорошо работает модель, мы мо-жем построить классификационную таблицу,

называемую также слиянием матриц, путем кросс-табулирования спрогнозированных и наблюдае-мых категорий. Можно построить классификаци-онную таблицу, используя сохраненные спрогно-зированные категории (табл. 6).

Модель заслуживает внимания с точки зрения прогнозирования результирующих категорий, по крайней мере наиболее часто встречаемых — 3 («Просрочка от 1 до 29 дней») и 5 («Безнадежный кредит»). Модель корректно классифицировала 90,6% наблюдений, относящихся к категории 3, и 75,1% наблюдений, относящихся к категории 5.

Груздев А.В.

Статус состояния счетаПредсказанная категория

ВсегоПросрочка от 1 до 29 дней Безнадежный кредит

Нет кредитной истории

Частота 14 26 40

Процент в статусе состояния счета 35,0 65,0 100,0

Оплата без просрочек

Частота 41 8 49

Процент в статусе состояния счета 83,7 16,3 100,0

Просрочка от 1 до 29 дней

Частота 480 50 530

Процент в статусе состояния счета 90,6 9,4 100,0

Просрочка от 30 до 119 дней

Частота 31 57 88

Процент в статусе состояния счета 35,2 64,8 100,0

Безнадежный кредит

Частота 73 220 293

Процент в статусе состояния счета 24,9 75,1 100,0

ВсегоЧастота 639 361 1000

Процент в статусе состояния счета 63,9 36,1 100,0

Таблица 6. Статус состояния счета и предсказанная категория

Показатель Значение

Кокса и Снелла 0,298

Найджелкерка 0,328

Мак-Фаддена 0,149

Таблица 5. Псевдо-R-квадрат

Примечание: связывающая функция — сопряженный двойной логарифм.

Page 8: Метод порядковой регрессии в банковском скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 53

Кроме того, наблюдения в категории 2 с большей вероятностью будут отнесены к категории 3, чем к категории 5.

В то же время наблюдения, относящиеся к ка-тегории 1 («Нет кредитной истории»), предсказа-ны плохо. Большинство наблюдений были отнесе-ны к категории 5 («Безнадежный кредит»), кото-рая теоретически наименее всего должна быть похожа на категорию 1. Это может указывать на проблему в порядковой шкале результирующей переменной. Мы не будем здесь рассматривать ее, но в обычной ситуации нужно попытаться от-ветить на вопрос, можно ли улучшить порядко-вую шкалу путем упорядочения, слияния или ис-ключения конкретных категорий.

Тест параллельных линий (табл. 7) позволяет нам судить об адекватности модели. Нулевая ги-потеза гласит, что соответствующие регрессион-ные коэффициенты одинаковы для всех катего-рий результирующей переменной. Альтернатив-ная гипотеза утверждает, что соответствующие регрессионные коэффициенты различны для всех категорий результирующей переменной. Тест сравнивает оцениваемую модель, которая вклю-чает единый набор коэффициентов для всех кате-горий, с моделью, содержащей отдельный набор коэффициентов для каждой категории.

Значение хи-квадрат (2 = 307,938, p = 0,000) указывает на то, что общая модель с разными ре-грессионными коэффициентами для каждой кате-гории отклика дает статистически значимое улуч-шение приближения. Нулевая гипотеза может быть отвергнута. Данный результат обусловлен

несколькими факторами, включая применение некорректной связывающей функции или ис-пользование ошибочной модели. Также возмож-но, что плохое качество подгонки вызвано вы-бранным порядком категорий зависимой пере-менной. Упорядочивание, в ходе которого катего-рия «Нет кредитной истории» будет соответство-вать большему кредитному риску, может дать лучшее приближение.

Нередко бывает затруднительно выбрать свя-зывающую функцию, наиболее подходящую для данных. В тех случаях, когда исходная модель ра-ботает плохо, обычно стоит попробовать приме-нить альтернативные связывающие функции, что-бы посмотреть, возможно ли построить более адекватную модель, использовав другую функ-цию. Хотя некоторые функции в большинстве слу-чаев работают так же (особенно логит, сопряжен-ный двойной логарифм, отрицательный двойной логарифм), есть ситуации, когда выбор функции может улучшить модель или, наоборот, ухудшить ее качество.

В нашем примере есть по крайней мере две связывающие функции (сопряженный двойной логарифм и Коши), которые могут быть примене-ны. Несмотря на то что модель достаточно хоро-шо работает с функцией сопряженного двойного логарифма, возможно, мы улучшим модель, ис-пользуя функцию Коши. Мы можем оценить но-вую модель, используя функцию Коши, чтобы по-смотреть, привела ли смена связывающей функ-ции к улучшению предсказательной способности модели (табл. 8). Рекомендуется сохранять один

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Модель –2 лог-правдоподобие Хи-квадрат Степени свободы Значимость

Нулевая гипотеза 1896,552 — — —

Общая 1588,614* 307,938** 27 0,000

Таблица 7. Тест параллельных линий

* Значение логарифма правдоподобия не может быть далее увеличено после максимального числа делений шага пополам.

** Статистика хи-квадрат вычислена на основании значения логарифма правдоподобия последней итерации общей модели. Валидность проверки сомнительна.

Примечание: нулевая гипотеза состоит в том, что параметры положения (коэффициенты наклона) одинаковы по всем категориям. Связывающая функция — сопряженный двойной

логарифм.

Page 9: Метод порядковой регрессии в банковском скоринге

54 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

и тот же набор переменных-предикторов, вклю-ченных в модель, до завершения оценивания функций. Если мы одновременно сменим связы-вающую функцию и набор предикторов, то не уз-наем, чем именно вызвано изменение в качестве модели.

Сравните полученный результат с табл. 3. Уро-вень значимости для статистики хи-квадрат мень-ше 0,05 указывает на то, что модель, построенная с помощью функции Коши, лучше, чем простое угадывание. Значение хи-квадрат в случае ис-пользования функции Коши (459,860) выше, чем значение хи-квадрат при использовании сопря-женного двойного логарифма (353,336). Это озна-чает, что в нашем примере функция Коши работа-ет лучше. Значения статистик псевдо-R-квад рат (табл. 9) также выше в случае применения функ-ции Коши, чем при использовании функции со-пряженного двойного логарифма (сравните с табл. 5). Это также говорит о том, что с нашими данными функция Коши работает лучше.

Рассмотрим статус состояния счета (табл. 10). Похоже, что модель, построенная с использова-нием функции Коши, лишь немного лучше, чем предыдущая, предсказывает нижние категории

(1, 2 и 3) и немного хуже — более высокие катего-рии. Поскольку самой важной задачей кредитно-го скоринга является корректная идентификация тех заемщиков, которые, вероятно, попадут в ка-тегорию «Безнадежный кредит» (категорию 5), то мы должны придерживаться модели, построен-ной с использованием функции сопряженного двойного логарифма, несмотря на то что качество приближения говорит в пользу модели Коши.

В таблице оценки параметров (табл. 11) приво-дятся данные о влиянии каждого предиктора на модель. Поскольку интерпретация коэффициен-тов в этой модели затруднительна из-за свойств связывающей функции, то знаки коэффициентов для ковариат и относительные значения коэффи-циентов для уровней факторов могут дать нам важную информацию об эффектах влияния пре-дикторов в модели.

Для ковариат положительные (отрицатель-ные) коэффициенты показывают положительные (обратные) связи между предикторами и резуль-тирующей категорией. Увеличивающееся значе-ние ковариаты с положительным коэффициентом соответствует увеличивающейся вероятности ее отнесения к одной из более высоких категорий

Груздев А.В.

Модель –2 лог-правдоподобие Хи-квадрат Степени свободы Значимость

Только константа 2249,888 — — —

Полная 1790,028 459,860 9 0,000

Таблица 8. Информация о приближении модели

Примечание: связывающая функция — Коши.

Показатель Значение

Кокса и Снелла 0,369

Найджелкерка 0,407

Мак-Фаддена 0,194

Таблица 9. Псевдо-R-квадрат

Примечание: связывающая функция — сопряженный двойной логарифм.

Page 10: Метод порядковой регрессии в банковском скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 55

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Статус состояния счета Предсказанная категория

ВсегоПросрочка от 1 до 29 дней Безнадежный кредит

Нет кредитной истории

Частота 15 25 40

Процент в статусе состояния счета 37,5 62,5 100,0

Оплата без про-срочек

Частота 43 6 49

Процент в статусе состояния счета 87,8 12,2 100,0

Просрочка от 1 до 29 дней

Частота 482 48 530

Процент в статусе состояния счета 90,9 9,1 100,0

Просрочка от 30 до 119 дней

Частота 36 52 88

Процент в статусе состояния счета 40,9 59,1 100,0

Безнадежный кредит

Частота 80 213 293

Процент в статусе состояния счета 27,3 72,7 100,0

ВсегоЧастота 656 344 1000

Процент в статусе состояния счета 65,6 34,4 100,0

Таблица 10. Статус состояния счета и предсказанная категория

Параметры ОценкаСтандарт-

ная ошибкаСтатисти-ка Вальда

Степени свободы

Значи-мость

95%-ный доверительный интервал

Нижняя граница Верхняя граница

Пор

ог

[статус = 1] –3,549 0,667 28,323 1 0,000 –4,856 –2,242

[статус = 2] –2,720 0,656 17,167 1 0,000 –4,006 –1,433

[статус = 3] –0,137 0,649 0,044 1 0,833 –1,408 1,135

[статус = 4] 0,199 0,649 0,094 1 0,759 –1,072 1,471

Пол

ожен

ие

Возраст 0,015 0,004 15,128 1 0,000 0,007 0,023

Продолжительность –0,002 0,003 0,379 1 0,538 –0,009 0,005

[количество = 1] –1,134 0,594 3,645 1 0,056 –2,298 0,030

[количество = 2] 0,367 0,598 0,376 1 0,540 –0,805 1,538

[количество = 3] 0,981 0,711 1,902 1 0,168 –0,413 2,374

[количество = 4] 0* — — 0 — — —

[другие долги = 1] –0,397 0,118 11,389 1 0,001 –0,627 –0,166

[другие долги = 2] –0,469 0,193 5,913 1 0,015 –0,848 –0,091

[другие долги = 3 ] 0* — — 0 — — —

[тип жилья = 1] –0,082 0,165 0,249 1 0,617 –0,406 0,241

[тип жилья = 2] 0,132 0,139 0,897 1 0,344 –0,141 0,404

[тип жилья = 3] 0* — — 0 — — —

Таблица 11. Оценки параметров регрессии

* Этот параметр приравнен к нулю, т.к. является дублирующим.

Примечание: связывающая функция — сопряженный двойной логарифм.

Page 11: Метод порядковой регрессии в банковском скоринге

56 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

результирующей переменной. Уровень фактора с большим коэффициентом указывает на большую вероятность его отнесения к одной из высших ка-тегорий результирующей переменной. Знак коэф-фициента для уровня фактора зависит от характе-ра его влияния на референтную категорию.

Теперь сделаем выводы относительно некото-рых параметров. Значимость теста для перемен-ной «Возраст» (в годах) меньше 0,05, и наблюдае-мый эффект не является случайностью. Коэффи-циент переменной является положительным, это значит, что с возрастом растет и вероятность по-падания в одну из более высоких категорий пере-менной «Статус состояния счета». Напротив, пе-ременная «Продолжительность кредита» мало что добавляет в нашу модель.

У переменной «Количество взятых в банке кре-дитов» есть две категории, которые несуществен-но значимы. Такую переменную целесообразно оставить в модели, поскольку незначительные эф-фекты каждой из категорий складываются и могут дать полезную информацию для анализа модели. Интересно отметить, что у тех клиентов, которые взяли один кредит в банке, вероятность попасть в нижние категории результирующей перемен-ной выше, чем у клиентов с большим числом кре-дитов. Однако у клиентов, которые взяли два или три кредита в банке, вероятность попасть в ниж-ние категории результирующей переменной меньше, чем у клиентов с четырьмя кредитами. В то же время переменная «Тип жилья», по-ви ди-мо му, не вносит сколько-нибудь значимого вклада

в модель и может быть исключена без всякого ущерба для нашего анализа.

Каждой категории результирующей перемен-ной и каждой категории предиктора соответству-ет оценка параметра регрессии. При этом оценки для самых высоких категорий являются дублиру-ющими и приравнены к нулю. Оценки параметров регрессии для зависимой переменной являются пороговыми оценками, а для факторов — оценка-ми положения. На основе оценок параметров можно вычислить кумулятивные вероятности для категорий зависимой переменной.

Предположим, у нас есть заемщик, который хо-чет взять кредит на 48 месяцев («Продолжитель-ность»), ему 22 года («Возраст»), есть один взятый в банке кредит («Количество»), у него нет долгов по другим выплатам («Другие долги»), есть прива-тизированная квартира («Тип жилья»). Рассчитаем совокупные вероятности того, что он попадет в одну из пяти категорий зависимой переменной.

На первом шаге расчета мы должны умножить оценки положения (оценки предикторов), соот-ветствующие отдельным характеристикам заем-щика, на вышеуказанные значения конкретного наблюдения (табл. 12).

Теперь складываем и получаем:

0,015 22 – 0,002 48 – 1,134 + 0 + 0,132 = 0,33 – – 0,096 – 1,134 + 0 + 0,132 = –0,768.

Эту сумму нам теперь нужно отнять от порого-вой величины каждой из категорий зависимой переменной:

Груздев А.В.

Категория заемщика Оценка Конкретное значение

Возраст 0,015 22

Продолжительность –0,002 48

[количество = 1] –1,134 = –1,134

[другие долги = 3] 0 = 0

[тип жилья = 2] 0,132 = 0,132

Таблица 12. Параметры расчета

Page 12: Метод порядковой регрессии в банковском скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013 57

статус = 1: –3,549 – (–0,768) = –3,549 + 0,768 = –2,781;статус = 2: –2,720 – (–0,768) = –2,720 + 0,768 = –1,952;статус = 3: –0,137 – (–0,768) = –0,137 + 0,768 = 0,631;статус = 4: 0,199 – (–0,768) = 0,199 + 0,768 = 0,967.

Таким образом, этот заемщик получает спрог-нозированные значения –2,78, –1,95, 0,63 и 0,97. По значениям, часть из которых больше 1, мы видим, что это еще не накопленные вероятно-сти. Искомое нами значение накопленной веро-ятности соответствует связывающей функции сопряженного двойного логарифма, использо-ванной в нашем исследовании. Таким образом, для вычисляемой вероятности справедлива формула ln(–ln(1 – )). Используя ее, получаем значения накопленных вероятностей 0,06,

0,13, 0,85, 0,93 и, конечно, 1,0 для последней ка-тегории.

Категория 1 получает вероятность 0,06, кате-гория 2 — 0,07 (0,13 – 0,06), категория 3 — 0,72 (0,85 – 0,13), категория 4 — 0,08 (0,93 – 0,85) и кате-гория 5 — 0,07 (1,0 – 0,93). Очевидно, что наш кли-ент, вероятнее всего (0,72), попадет в категорию 3 («Просрочка от 1 до 29 дней»), однако вряд ли его кредит будет признан безнадежным (рис. 2).

ВЫВОДЫ

Метод порядковой регрессии позволяет нам строить модели, когда есть зависимая номинальная

МЕТОД ПОРЯДКОВОЙ РЕГРЕССИИ В КРЕДИТНОМ СКОРИНГЕ

Рис. 2. Прогноз

Page 13: Метод порядковой регрессии в банковском скоринге

58 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 01(33)2013

или порядковая переменная с несколькими (больше двух) категориями. В нашем примере мы спрогнози-ровали вероятность дефолта для заемщиков с раз-личными сроками просрочки. Можно использовать ее как дополнение к логистической регрессии, ког-да, работая с вероятностями дефолта, мы выделяем

«серую зону». Отметим, что ключевыми момента-ми в построении модели порядковой регрессии являются определение порядка категорий, анализ распределения значений зависимой переменной и выбор связывающей функции, наиболее подхо-дящей для данного типа распределения.

Груздев А.В.