grec- grup de recerca en enginyeria del coneixement núria agell esade-url mónica sánchez ma2-upc...
TRANSCRIPT
GREC- Grup de Recerca en Enginyeria del Coneixement
Núria AgellESADE-URL
Mónica SánchezMA2-UPC
Funciones kernel en espacios discretos. Aplicación a la evaluación
del riesgo de crédito*
* Proyecto MERITO: TIC2002-04371-C02/01
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 2
INDICE
1. Introducción
2. Trabajos relacionados
3. Kernels discretos
4. Aplicación a un problema financiero
5. Conclusiones y problemas abiertos
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 3
1. Introducción
•Diseño de máquinas con aprendizaje, máquinas de soporte vectorial SVM, útiles para trabajar en problemas en los que aparecen datos no numéricos.
•Construcción de Kernels sobre estructuras discretas.
Planteamiento:
•Problemas en los que las variables están descritas cualitativamente por sus órdenes de magnitud.
•Evaluación del riesgo financiero de crédito (Proyecto MERITO).
Aplicación:
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 4
2. Trabajos relacionados
• Watkins, C et al.(1999): Clasificación de textos
• Smola, A. J. et al. (1997): Predicción de series temporales
• Brown, M et al. (1999): Bioinformática (genética)
• Müller, K. R. et al. (2001): Reconocimiento de cadenas de ADN
• Haussler, D. et al. (1999): Detección de homologías entre proteinas
• Angulo, C (2001): SVM en problemas de multi-clasificación
• Cristianini, N et al. (2000): Construcción de Kernels
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 5
No linealmente separables
1. Datos numéricos: los datos se proyectan en el espacio de características donde serán linealmente separables (Vapnik 1995)
Las funciones kernel y el espacio de características
)(),(),(K YXYX
X1 X4
X2
X11
X5X8
X14
X18
X7
X9
X17
X10
X3
X13
X6
X16
X19
X12
y5
y2
y14
y15
y6
y8
y10
y11
y4 y3y7
y9
y13
X15
y16
y12
,),( FF
K
3. Kernels discretos
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 6
2. Datos no numéricos: variables descritas en un espacio discreto ( sin estructura euclídea)
Las funciones kernel y el espacio de características
( )
( )
A Rn
( )
( )( )
( )
( ) ( )
( )
( )( )
( ) ( )
( )( )
( )
( )
( )
( )
K
•K producto escalar usual en Rn
•K kernel existente
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 8
4. Aplicación a un problema financiero: predicción del riesgo de crédito
El RATING es una valoración cualificada sobre el riesgo de una emisión de una empresa que refleja la probabilidad de impago del emisor
En la determinación del RATING los valores numéricos de los ratiosfinancieros de la empresa son menos relevantes que su orden de magnitud.
Ca Caa B Ba Baa A Aa Aaa
Variables cuantitativas Ratios financieros
Variables cualitativas Sector País
Variables iniciales
Variable Final: Riesgo de crédito
Experiencia de los analistasAgencias de RATING Moody’s, Standard & Poor’s
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 9
XB:SBB P1X
Base de un elemento:
Modelo de órdenes de magnitud absolutos: OM(n)
a1-a1-a2 a2 ... an-2 a n-1
PnPn-1P1N1N2 P2 ...
...-an-2-an-1
Nn Nn-1 ... 0
0N1N2N3N4N5N6N7Nn-1Nn P1 P2 P3 P4 P5 P6 P7 Pn-1Pn
?
- +
64 , PP
YX BBYXIgualdad cualitativa:
43 ,PN
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 10
X1
X2
(X1)
(X2)
Sk
K((X1), (X2))
kernel???
)k1n2(kS
k = número de variables de entrada descritas por sus órdenes de magnitud
Construcción de kernels en OM(n)
k)1n2(
K
K’
Problemas en los que el orden de magnitud de algunas de las variables aportan más información que sus propios valores numéricos
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 11
Alejamiento con signo respecto U:
fijada una etiqueta básica US1 se define: ZS:asU
UXsi,0
BBBUsi,BCardBCard
BBBUsi,BCardBCard
)X(as XXX
XXX
U U
U
Ampliación a un básico U:
fijada una etiqueta básica US1 se define:
YUyYX:SYMinX PPU
Construcción de la función en el espacio de órdenes de magnitud
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 12
Ejemplo:
0 a1 a2 a3 an-1-a1-a2-a3-an-1
P1 P2 P3 PnPn-1N1N2N3Nn Nn-1
...
... ...
...
X=[N3, P1]
U=P3
Ampliación y alejamiento con signo respecto P3:
asU(X)= -2
XU=[N3, P3]
Función posicionamiento (X) recoge los alejamientos con signo de X respecto de todos los elementos básicos
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 13
Construcción de la función en el espacio de órdenes de magnitud
Posicionamiento de un elemento:
))X(as),...,X(as),X(as),X(as),...X(as(X
RS:
n11n PP0NN
1n2
)X(),...X()X,...,X(
RS:
k1k1
k)1n2(k
Posicionamiento global:
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 14
0 a1 a2-a1-a3
P1 P2 P3N1N2N3
X1=[N2, P1] X2=[N1, P2]
asN3(X1)= +1
asN2(X1)=0
asN1(X1)= 0
as0(X1)=0
asP1(X1)= 0
asP2(X1)= -1
asP3(X1)= - 2
(X2)=(2,1,0,0,0,0,-1)R7
Ejemplo:
Posicionamiento con 2 variables de entrada pertenecientes a un OM(3)
(X1,X2)=(1,0,0,0,0,-1,-2, 2,1,0,0,0,0,-1)R7
(X1)=(1,0,0,0,0,-1,-2)R7
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 15
Construcción del kernel K’
refleja el posicionamiento global de las
variables de entrada: )k1n2(kS ¡¡puede que las imágenes no sean linealmente separables!!
Componemos la función con un kernel conocido de R(2n+1)k para obtener K’, kernel sobre Sk: K’(X,Y)=K((X), (Y))
Proposición:Si K:Rm Rm R es un kernel sobre Rm, y :A Rm es una aplicación, entonces la aplicación: K’:A A R definida como K’(X,Y)=K((X), (Y)) es un kernel sobre A
kernels usuales: Gaussiano: G(x,y)=exp (-||x-y||2/c)
Polinómico: P(x,y)=(<x, y> +)d
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 16
X=(PP, [NG, NP], [NP, PG]) (X)=(3,2,1,0,-1,0,0,-2,-2,-3,1,0,0,0,0),
Y=([PP, PG], NP, 0) (Y)=(3,2,2,0,0,1,0,-1,-2,-3,2,1,0,-1,-2),
Z=(NG,PP, [NG, NP]) (Z)=(0,-1,-2,-3,-4,3,2,1,0,-1,0,0,-2,-2,-3)
4. Ejemplos
X, Y, Z empresas con tres descriptores cualitativos cada una en un espacio OM(2) (p.e. endeudamiento, rentabilidad y valor de mercado).
Etiquetas básicas: S1={NG,NP,0,PP,PG}
Considerando el kernel Gaussiano: K’(X,Y)=G((X), (Y))= exp (-||(x)-(y)||2/c)
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 17
En el caso particular de las tres empresas consideradas:
K’(X,Y)=exp[-||(X)-(Y)||2/c]=exp[-11/c]
K’(X,Z)=exp[-||(X)-(Z)||2/c]=exp[-93/c]
K’(Y,Z)=exp[-||(Y)-(Z)||2/c]=exp[-90/c].
c
A mayor proximidad entre los valores cualitativos de los descriptores de las empresas, se tienen mayores valores en el Kernel. Resultados mayores se corresponden a patrones más similares.
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 18
En el caso particular de las tres empresas consideradas:
K’’(X,Y)=[<(X),(Y)>+]d=(32+)d
K’’(X,Z)=[<(X),(Z)>+]d=(1+)d
K’(Y,Z)=[<(Y),(Z)>+]d=(7+)d
Considerando el kernel Polinómico: K’’(X,Y)= P((X), (Y))= (< (x), (y)> +)d
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 19
Esta función captura la información sobre el alejamiento entre etiquetas cualitativas.
Construcción de un kernel para problemas en los que las variables están descritas sobre una escala ordinal.
El kernel se ha construido a partir de la composición de una función posicionamiento con kernels predefinidos.
5. Conclusiones y problemas abiertos
RED MINERÍA DE DATOS Y APRENDIZAJE Madrid, Mayo 2004 20
Problemas abiertos
Aplicación del método dado en problemas de predicción del riesgo financiero de crédito (RATING)
Analizar otras funciones para medir el grado de alejamiento entre etiquetas cualitativas.
Definir nuevos KERNELS que permitan combinar información cualitativa e información cuantitativa
Definir una estructura de espacio métrico en Sk