análisis y detección de fraude fiscal mediante técnicas de...

UNIVERSIDAD POLITÉCNICA DE MADRID

TESIS DE FIN DE MÁSTER

Análisis y Detección de Fraude FiscalMediante Técnicas de Aprendizaje

Automático

Author:Eduardo RODRÍGUEZ PÉREZ

Supervisor:Dr. Alfonso MATEOS

CABALLERO

Tesis presentada bajo el cumplimiento de requisitospara el Máster

en el

-Departamento de Inteligencia Artificial

July 16, 2018

iii

Declaration of AuthorshipYo, Eduardo RODRÍGUEZ PÉREZ, declaro que la tesis titulada, “Análisis y Detecciónde Fraude Fiscal Mediante Técnicas de Aprendizaje Automático” y el trabajo aquípresentado es de mi pertenencia. Alego que:

• Este trabajo se realizó total o principalmente mientras estaba en la candidaturapara un título de máster en esta Universidad.

• Si alguna parte de esta tesis ha sido sometida previamente a un título o cualquierotra calificación en esta Universidad o cualquier otra institución, esto ha sidopreviamente establecido.

• Cuando he consultado el trabajo publicado de otros, esto siempre se referenciade forma clara y directa.

• Cuando se citasen trabajos de otros, la fuente de este siempre se da. Con laexcepción de dichas citas, esta tesis es completamente propia.

• Reconozco todas las fuentes principales de ayuda.

• Cuando la tesis se basa en el trabajo hecho por mí mismo junto con el de otros,he dejado en claro exactamente lo que otros hicieron y lo que yo mismo aporto.

Firmado:

A fecha de:

v

“Corruption, embezzlement, fraud, these are all characteristics which exist everywhere. Itis regrettably the way human nature functions, whether we like it or not. What successfuleconomies do is keep it to a minimum. No one has ever eliminated any of that stuff.”

Alan Greenspan

Análisis y Detección de Fraude Fiscal MedianteTécnicas de Aprendizaje Automático

Eduardo RODRÍGUEZ PÉREZ

July 16, 2018

ii

0.1 Resumen

El fraude es una de las amenazas mas elaboradas de nuestros tiempos. Este con-stituye un problema universal y de suma complejidad. Varios de los conflictoseconómicos más grandes de la historia involucraron firmas que incurrieron en grandesfraudes. En consecuencia, se ha puesto un énfasis considerable en el desarrollo deenfoques automatizados para detectar el fraude financiero.

Múltiples tecnologías en base al aprendizaje automático se han convertido enun área de investigación académica en el ámbito de detección de fraude. La may-oría de la investigación en base al aprendizaje automático se concentra en la fase decreación de modelos de proceso eficientes para su detección. En esta tesis, se realizaun compendio de técnicas pertenecientes al estado del arte con animo de optimizarla detección de fraude. Se abordan algunos de los métodos mas efectivos e inno-vadores para el desarrollo de modelos predictivos de gran rendimiento haciendouna división entre aquellos supervisados y no supervisados. Se tratará también ladetección de anomalías basadas en grafos. Ahí, se hará hincapié en metodologías degrafos estáticos basadas en estructura, comunidades y multi-atributo.

Por otro lado, y sabiendo que existe una enorme falta de datos disponibles so-bre servicios financieros y especialmente en el emergente dominio de transaccionesmonetarias, la aplicación se llevará a cabo con el análisis de conjuntos sintéticos. Lala naturaleza intrínsecamente privada de las transacciones financieras, nos lleva aconjuntos de datos no disponibles públicamente. Es por ello que en esta tesis nosaprovechamos de un conjunto de datos elaborados de forma artificial y fehaciente.Partiendo de esta base, se comienza con un análisis visual del conjunto, donde se de-finen los patrones mas salientes y así mismo modelables por algoritmo. Subsecuentea este paso, se procede a la predicción y estudio de fraude que se obtiene medianteel resultado obtenido por la aplicación aquí implementada. Esta se realiza medianteel entrenamiento de múltiples algoritmos combinados en serie, tanto supervisadoscomo no supervisados, donde se definirá el cual con mejor rendimiento en base a unpromedio de las métricas mas significativas para el conjunto y donde dependiendode la importancia de cada métrica definida previamente por el usuario, se obtieneel mejor modelo para el mismo. Realizado enteramente en un entorno de Python ydonde las variables de los resultados y los modelos quedan guardados para un usofuturo.

Por ultimo se lleva a cabo el análisis del grafo. Este se realiza mediante un pro-ceso de conversión del grafo a vectores teniendo en cuenta las características masinfluyentes y significativas del conjunto para su transformación y donde se apli-carán de nuevo un entrenamiento y testeo de los algoritmos de detección previos yasí concluir con una comparación y métrica del conjunto final.

iii

UNIVERSIDAD POLITÉCNICA DE MADRID

AbstractEscuela Técnica Superior de Ingenieros Informáticos

Departamento de Inteligencia Artificial

Máster

by Eduardo RODRÍGUEZ PÉREZ

En esta Tesis de Fin de Máster se resume brevemente el estado del arte de ladetección de fraude financiero mediante técnicas de aprendizaje automático. En else exponen algunas de las metodologías mas recientes e importantes en la literatura.Posteriormente se realiza un proceso de predicción general aplicado a un datasetsintético, y mediante técnicas de aprendizaje supervisado y de análisis de grafos. . .

v

AcknowledgementsGracias a Dr. Alfonso Mateos y a la Universidad Politécnica de Madrid por hacerposible la realización de este proyecto . . .

vii

Contents

Declaración de Autor iii0.1 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

HOLA iii

Acknowledgements v

1 Introducción 11.1 Fraude: Donde nos Encontramos . . . . . . . . . . . . . . . . . . . . . . 11.2 Definición de Fraude Oxford . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Estadísticas Globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Detección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.5 Dificultades y Desafíos Estadísticos . . . . . . . . . . . . . . . . . . . . . 3

1.5.1 Gran volumen de datos . . . . . . . . . . . . . . . . . . . . . . . 41.5.2 Conceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5.3 Superposición de Clases . . . . . . . . . . . . . . . . . . . . . . . 41.5.4 Clases Engañosas . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Métodos Supervisados 72.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Perfiles Supervisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 Maquina del Vector Soporte (SVM) . . . . . . . . . . . . . . . . . 82.3.2 Arboles de Clasificación y Aprendizaje Combinado . . . . . . . 112.3.3 Reglas de clasificación y Reglas Combinadas . . . . . . . . . . . 132.3.4 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3.5 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.6 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . 16

3 Métodos No Supervisados 193.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.3 Representación y Reducción de Dimensión . . . . . . . . . . . . . . . . 213.4 Detección de Anomalías . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.4.1 Detección de Anomalías Basadas en Densidad y Distancia . . . 22

4 Detección de Anomalías Basada en Grafos 234.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Detección de Anomalías en Grafos Estáticos . . . . . . . . . . . . . . . . 24

4.2.1 Basados en Estructura . . . . . . . . . . . . . . . . . . . . . . . . 24Basados en Características del Grafo . . . . . . . . . . . . . . . . 24Basados en la Proximidad de los Nodos . . . . . . . . . . . . . . 26

4.2.2 Basados en Comunidades de Grafos . . . . . . . . . . . . . . . . 26

viii

4.2.3 Grafos con Múltiples Atributos . . . . . . . . . . . . . . . . . . . 27Basados en Estructura del Grafo . . . . . . . . . . . . . . . . . . 28Basados en Comunidades . . . . . . . . . . . . . . . . . . . . . . 29Métodos Basados en Aprendizaje Relacional . . . . . . . . . . . 30

5 Aplicación 335.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1.1 BankSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2 Exploración de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.2.1 Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.2.2 Profile BankSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . 35Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2.3 Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . 37Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.3 Limpieza da Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.4 visualización de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.4.1 Banksim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Scatter Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40Nueva correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.4.2 Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43Grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43Node2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.5 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.5.1 BankSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46Local Outlier Factor (LOF) . . . . . . . . . . . . . . . . . . . . . . 48One Class SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49Isolation Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50Restricted Boltzmann Machine (RBM) . . . . . . . . . . . . . . . 52Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54Comparación general de todos los modelos anteriores . . . . . 56

5.5.2 BankSim Balanceado . . . . . . . . . . . . . . . . . . . . . . . . . 58Comparación general con BankSim equilibrado . . . . . . . . . 59Comparación RBM . . . . . . . . . . . . . . . . . . . . . . . . . . 59Comparación Autoencoder . . . . . . . . . . . . . . . . . . . . . 60

5.5.3 Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.5.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61Km . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62LOF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62OCSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62RBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Comparación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

ix

6 Conclusión 67

Bibliography 69

xi

List of Figures

2.1 Ejemplo de kernel en un SVM . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Ejemplo de kernel en un SVM . . . . . . . . . . . . . . . . . . . . . . . . 102.3 Diagrama de dispersión de datos . . . . . . . . . . . . . . . . . . . . . . 122.4 Arboles de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.5 Arboles de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.6 Arboles de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.1 Objetos inter-conectados . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.1 Fragmento del dataset BankSim . . . . . . . . . . . . . . . . . . . . . . . 345.2 Fragmento del dataset Net . . . . . . . . . . . . . . . . . . . . . . . . . . 345.3 visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.4 Correlación Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.5 Correlación Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.6 visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.7 ICorrelación Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.8 Correlación Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.9 Fragmento del dataset BankSim, codificado y tratado . . . . . . . . . . 395.10 Plot 3D, amount, step, Category . . . . . . . . . . . . . . . . . . . . . . . 405.11 Plot 3D, amount, step, age . . . . . . . . . . . . . . . . . . . . . . . . . . 415.12 Plot 3D, amount, step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.13 Plot 2D, amount, category . . . . . . . . . . . . . . . . . . . . . . . . . . 415.14 Reducción de Dimensión . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.15 Nueva Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.16 Grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.17 Reducción de dimensión 2D . . . . . . . . . . . . . . . . . . . . . . . . . 455.18 Reducción de dimensión 3D . . . . . . . . . . . . . . . . . . . . . . . . . 455.19 Resultados de KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.20 Tiempos de KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.21 Resultados KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.22 Tiempos de KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.23 IMatriz de confución K-means . . . . . . . . . . . . . . . . . . . . . . . . 485.24 Curva de ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.25 Resultados del LOF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485.26 Tiempos del LOF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.27 Resultados del OCSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.28 Tiempos del OCSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.29 Histogramas de caminos en el árbol de decisión . . . . . . . . . . . . . 515.30 Matriz de confusión de resultados del Isolation Forest . . . . . . . . . . 515.31 Curva de ROC del Isolation Forest . . . . . . . . . . . . . . . . . . . . . 515.32 Resultados del RBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.33 Coste con Learning Rate 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 525.34 Coste con Learning Rate 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 52

xii

5.35 Coste con Learning Rate 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 535.36 Coste con Learning Rate 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 535.37 Curva de ROC de RBM para el mejor resultado de LR . . . . . . . . . . 535.38 Curva de Precision-recall para el mejor lr del RBM . . . . . . . . . . . . 545.39 Resultados del Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . 545.40 Coste por cada iteracion en el mejor resultado de LR en el Autoencoder 555.41 Area bajo la curba de ROC por cada iteración en el mejor resultado de

lr en Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.42 Curva de ROC del Autoencoder su mejor resultado . . . . . . . . . . . 565.43 Curva de Precision-Recall en el mejor resultado del Autoencoder . . . 565.44 Histograma de puntuaciones para instancias no fraudulentas . . . . . 565.45 Histograma de puntuaciones para instancias fraudulentas . . . . . . . 565.46 Comparación de áreas bajo las curvas ROC y PR en todos los algoritmos 575.47 Comparación de tiempos de entrenamiento y predicción para todos

los algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.48 Comparación de áreas bajo la curva de ROC y PR para los datos equi-

librados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.49 ROC sin datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 595.50 ROC con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 595.51 PR con datos sin equilibrar . . . . . . . . . . . . . . . . . . . . . . . . . . 605.52 PR con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . . 605.53 ROC sin datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 605.54 ROC con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 605.55 PR con datos sin equilibrar . . . . . . . . . . . . . . . . . . . . . . . . . . 605.56 PR con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . . 605.57 Fragmento del obtenido mediante Node2vec . . . . . . . . . . . . . . . 615.58 Resultados del KNN para Net . . . . . . . . . . . . . . . . . . . . . . . . 615.59 Tiempos KNN para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . 615.60 Resultados del KM para Net . . . . . . . . . . . . . . . . . . . . . . . . . 625.61 Tiempos KM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.62 Resultados LOF para Net . . . . . . . . . . . . . . . . . . . . . . . . . . 625.63 Tiempos LOF para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.64 Resultados OCSVM para Net . . . . . . . . . . . . . . . . . . . . . . . . 625.65 Tiempos OCSVM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . 625.66 ROC RBM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.67 PR RBM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.68 Resultados RBM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . 635.69 Autoencoder Roc curve for best result in Net . . . . . . . . . . . . . . . 635.70 IPrecision Recall curve for best result of Autoencoder in Net . . . . . . 635.71 Results for Autoencoder in Net with different lr . . . . . . . . . . . . . 645.72 Final Results for Algorithms in Net . . . . . . . . . . . . . . . . . . . . . 645.73 Times for algorithms in Net . . . . . . . . . . . . . . . . . . . . . . . . . 65

xiii

List of Tables

1

Chapter 1

Introducción

1.1 Fraude: Donde nos Encontramos

En los tiempos que corren, el fraude ha pasado de ser un tema de suma importanciaa uno vital. Atrás quedaron los días en que fue visto como un incidente aislado demal comportamiento, una molestia costosa o un mero problema de cumplimientolegal. Esto se debe a que la escala y el impacto del fraude han crecido de manera tansignificativa en el mundo digital que ya nadie trata este tema de forma superflua.De hecho, casi se puede ver como un gran negocio en sí mismo, uno que cuenta contecnología habilitada, innovadora, oportunista y omnipresente. Se puede decir queeste es el mayor competidor social de nuestra era.

No es difícil inferir cómo hemos llegado a este punto y como este gigante se haconvertido en un ser tan potente. Por un lado, la tecnología ha avanzado a pasosagigantados, ayudando a los estafadores a ser más estratégicos en sus objetivos ymás sofisticados en sus métodos. Por otro lado, los regímenes regulatorios en granparte del mundo se han vuelto mucho más robustos y rígidos ante la respuesta aestas amenazas.

Cada vez más compañías, organizaciones y naciones reconocen que la corrup-ción y el fraude les impiden competir en el escenario global y que simplemente sevuelven demasiado costosos para ser ignorados.

1.2 Definición de Fraude Oxford

Según el diccionario de Oxford, el fraude se define como “Engaño: uso de falsasdeclaraciones para obtener un injusto beneficio o ventaja ante los demás.” El fraudees muy antiguo, y puede tomar distintas formas, sin embargo, en los últimos años,gracias a las nuevas tecnologías, han suplido a estos criminales de las herramientasnecesarias e innovadoras para este objetivo.

1.3 Estadísticas Globales

En esta era de escrutinio público sin precedentes, las organizaciones de hoy se en-frentan a una tormenta de riesgos relacionados con el fraude: internos, externos,regulatorios y de reputación. Por tanto, es el momento adecuado para adoptar unanueva visión más integral del fraude. Uno que reconoce la verdadera forma de laamenaza, no simplemente un coste de hacer negocios, sino una industria paralelaque puede impactar en cada territorio, cada sector y cada función; oculta en las som-bras, y donde la falta de conciencia de fraude dentro de una organización puedellegar a ser muy peligrosa.

2 Chapter 1. Introducción

Así como la tasa de delitos económicos reportadas anteriormente ha aumentadodesde 2016, también lo ha hecho la inversión que las compañías están gastando paracombatirla, según PwC goval fraud research [1].

El uso de tecnologías innovadoras para combatir el fraude es ahora un fenómenomundial. Muchas empresas están insuficientemente preparadas para enfrentar elfraude, tanto por razones internas como externas.

1.4 Detección

Los métodos estadísticos para la detección de fraude son muchos y de variedadmúltiple, esto se debe principalmente a que los datos a tratar pueden diferir entamaño y tipo, pero hay algunos marcos de referencia útiles para la mayoría de estoscasos. La mayoría de las técnicas estadísticas se basan en hacer una comparaciónde los datos observados con los esperados, el problema es que los datos espera-dos no tienen siempre una estructura definida, y estos cambian según el contexto.Puede darse el caso en el que solamente se requiera de una definición numérica dealgunas funciones y comportamientos que deberían seguir dichos datos observados,los cuales son normalmente soluciones gráficas en donde una anomalía es evidente,pero normalmente estas definiciones son un tanto mas complejas, conllevando es-tas mas de una variable descriptiva. La mayoría de estas descripciones numéricasestarán basadas en comportamientos anteriores que ocurren en el sistema. Sin em-bargo, no es todo tan sencillo como parece, en algunos campos los lo individuosfraudulentos pueden no comportarse de la misma forma ni seguir los mismos pa-trones.

Las técnicas estadísticas de detección de fraude pueden ser de tipo supervisadoo no supervisado. En las metodologías supervisadas, muestras de instancias fraud-ulentas y no fraudulentas se usan para construir los modelos que son capaces dediferenciar los comportamientos fraudulentos de los que no. En este caso, se re-quiere que los datos iniciales utilizados para la creación del modelo sean de totalfiabilidad en la clasificación de individuos. También es necesario tener instancias deambas clasificaciones. Por tanto, esta metodología se utilizará y será capaz de detec-tar exclusivamente tipos de fraude que ya han sido localizados con anterioridad.

Por otro lado, la metodología no supervisada no tiene control sobre estas clasifi-caciones, y por tanto será capaz de detectar patrones en conjuntos de componentesfraudulentos para no solo detectar instancias de fraude pasadas, si no nuevas instan-cias con distintas formas y metodologías. Esto se realiza normalmente detectandocuales son los individuos que se salen de la norma, o outliers. Algunas técnicasde medida de calidad de datos pueden ser utilizadas, pero la detección de erroresaccidentales en un dataset es un tema que difiere bastante del de encontrar específi-camente fraude deliberado, o un patrón fraudulento en sí.

Esto en definitiva nos deja con una nota importante, es muy complicado estartotalmente certero a cerca de un acto fraudulento con un mero análisis estadístico.Pero este podría indicarnos una alerta para un individuo anómalo, o en definitiva,con mayor probabilidad de ser fraudulento que el resto para una posterior investi-gación. Uno puede definir el objetivo del análisis estadístico como una medida desospecha. Cuanto mas alta sea esta medida de un individuo dado, mas inusual seráel comportamiento de este o mas probable de pertenecer a una acción fraudulentaya vista con anterioridad. El echo de que existan numerosas maneras en las que elfraude se puede llevar a cabo y numerosos escenarios en los que este se puede dar,significa que existen también múltiples maneras de manejarlo.

1.5. Dificultades y Desafíos Estadísticos 3

Esta medida de sospecha puede obtenerse de cada uno de los registros de losdatos, y estos pueden y deben de ser actualizados. Estas puntuaciones pueden serordenadas y analizadas según la relevancia. Dado que la investigación de un indi-viduo implica un conste adicional, por tanto, es importante concentrarse en los casosmas probables de ser fraudulentos.

La detección de fraude implica su identificación tan rápido como sea posible.La detección de fraude viene dada cuando un sistema de prevención del mismoha fallado. La detección de fraude es una disciplina que viene evolucionando alo largo del tiempo. Cada vez que se sabe que una estrategia de fraude ha sidocazada y apaliada, los criminales se adaptarán y tratarán de reformar y modificar susestrategias. Sin dejar a un lado los nuevos entrantes en el juego, con probablemente,nuevas metodologías y estratagemas. Algunos de estos nuevos jugadores puedenno ser conscientes de las metodologías que han sido capturadas hasta la fecha, yadoptaran estas mismas dando a una “fácil detección” y a tramas identificables. Espor tanto de suma importancia aplicar sistemas de detección anteriores, así como losmas nuevos para una eficiencia optima.

1.5 Dificultades y Desafíos Estadísticos

Uno de los problemas mas frustrantes en este ámbito es la dificultad de adoptar yaplicar métodos efectivos de detección de fraude. Esto se debe principalmente a lasdificultades para medir e identificar las instancias de un delito, y luego comparar laefectividad de los diferentes métodos de detección entre sí. La mayoría de las veces,los datos financieros no son accesibles para quienes desean realizar investigacionessobre el comportamiento delictivo de los individuos. Esto sucede principalmentepor las políticas legales que protegen la privacidad de los registros financieros delos clientes. Incluso teniendo acceso as las mismas, procesar grandes cantidadesde datos para detectar fraudes no siempre es una opción. Debido a este problema,muchos de los mecanismos de detección de fraude existentes son provocados por lasquejas de los clientes. El 10% de los delitos financieros se encuentran por casualidad[1].

También problemas de detección de fraude incluyen enormes cantidades de datoscon capacidad de evolucionar con el tiempo. Procesar esta enorme cantidad de datospara encontrar indicios fraudulentos puede ser una tarea difícil y requerirá algorit-mos de alta eficiencia, donde la minería de datos sea de gran relevancia.

Una de las dificultades de la detección de fraude es que normalmente existe unadesproporción entre comportamientos legítimos y los que no lo son. Una detecciónefectiva sería aquella capaz de detectar el 99% de los casos legítimos y el 99% de losfraudulentos. Sin embargo, si solo 1 entre 1000 registros son fraudulentos, entonces,de media, de cada 100 que el sistema detecte como fraudulentos, solo 9 lo serán enefecto. En resumen, esto significa que para detectar 9 casos fraudulentos se requiereel análisis detallado de todos esos 100 registros. Esto nos lleva a la siguiente reflex-ión, el fraude se puede llevar a un nivel tan bajo como uno quiera, pero solo conun esfuerzo y compromiso proporcional. En la practica, un compromiso mínimodebe de darse, normalmente un compromiso monetario, entre el coste de detectarun fraude y el ahorro por haberlo detectado.

En este contexto, la detección es simplemente la capacidad de descubrir que ocur-rió un delito financiero. Un sistema de detección intentará identificar patrones ytendencias de comportamiento sospechoso. Por lo general, el sistema generará unapuntuación de sospecha que indica la probabilidad de que un caso sea criminal. Se

4 Chapter 1. Introducción

investigarán los casos que excedan un determinado umbral de sospecha. La efec-tividad del sistema de detección dependerá en última instancia de la velocidad a laque se detecte el delito, el rango de crímenes que se pueden detectar y el número defalsas alarmas generadas.

1.5.1 Gran volumen de datos

Una gran institución financiera tiene millones de clientes y experimenta miles detransacciones de clientes por segundo. Esto da como resultado bases de datos ex-tremadamente grandes, a menudo distribuidas en múltiples sistemas. Las deci-siones se deben tomar en tiempo real: un sistema de detección de fraude transac-cional por ejemplo, solo es útil si puede identificar y detener un fraude transacciónde forma inmediata. Esto impone severas restricciones a la complejidad computa-cional de los algoritmos.

Incluso cuando no es necesaria una decisión en tiempo real, los datos puedenvarían con el tiempo, por lo que es necesario extraer características que resuman elhistorial de los datos.

1.5.2 Conceptuales

Uno de los principales objetivos de los sistemas de detección es identificar patronesgenerales de comportamiento sospechoso. Pero incluso la formulación de este prob-lema presenta un desafío ya que estos patrones son muy dinámicos y evolucionancontinuamente a lo largo del tiempo para eludir los métodos de detección existentes.Los modelos deben ser continuamente validados y adaptados para acomodar estascambiantes distribuciones y patrones.

El método más básico es este que utiliza una ventana temporal fija y entrenalos algoritmos en puntos específicos en el tiempo. Widmer and Kubat (1996) pro-pusieron la aproximación flotante aproximada (FLORA, por sus siglas en inglés), unmarco para el aprendizaje y olvido de observaciones basado en la teoría de conjuntosaproximados que incluye una heurística de ajuste de ventana temporal. Alternati-vamente, el algoritmo puede volverse a entrenar de manera continua al re-ponderarlos datos de modo que se otorgue más importancia a las observaciones recientes o sepueden entrenar clasificadores separados en diferentes fragmentos de datos y luegocombinados como un conjunto (Street and Kim (2001), Wang and Han (2003)).

1.5.3 Superposición de Clases

Otro desafío proviene del hecho de que los delincuentes a menudo tratan de ocul-tar sus actividades haciendo que las transacciones ilegales parezcan tan "normales"como sea posible, lo que resulta en una superposición sustancial entre las clases ile-gitimas y legitimas. Es muy común tener varias transacciones con característicassimilares, una de las cuales puede ser legal mientras que otra puede ser en reali-dad ilegitima. Este problema se da particularmente en el caso del lavado de dinero,donde las actividades de depósito y retiro de alta frecuencia y la cantidad de depósi-tos y retiros para un día determinado pueden ser casi iguales.

1.5.4 Clases Engañosas

No siempre es posible verificar todos los casos que se detectaron como sospechosos.El caso más complicado es el de lavado de dinero, donde la verificación se lleva a

1.5. Dificultades y Desafíos Estadísticos 5

cabo externamente y la institución financiera rara vez se entera del resultado finalde la investigación. Esto plantea un problema verdaderamente desafiante para elaprendizaje automático, ya que los algoritmos de detección serán entrenados condatos potencialmente mal etiquetados en varios casos y esto motiva la necesidad demétodos robustos que puedan manejar el etiquetado incorrecto de manera efectiva.

A continuación se procederá con el estado del arte. En los capítulos 2 y 3 se haráun repaso en profundidad de cuales son las técnicas mas utilizadas en el mundo dela literatura para la detección del fraude fiscal y financiero, empezando por técnicasestadísticas supervisadas (capitulo 2) y terminando por las no supervisadas (capit-ulo 3). No se verá en detalle todas y cada una de estas metodologías, dado con sonnumerosas y algunas también bastante extensas. En cambio si se tratarán algunas delas mas famosas en el ámbito, descritas por expertos en la materia, y en algunos casosutilizando ejemplos reales con datasets obtenidos de forma fiable y contrastada.

7

Chapter 2

Métodos Supervisados

2.1 Definición

Como ya se introdujo en el capitulo anterior, los métodos de aprendizaje supervisa-dos utilizan información previa sobre la pertenencia a una clase e intentan definiruna relación entre el conjunto de entradas y salidas. En el caso de detección defraude, esto equivale a patrones de aprendizaje de comportamiento criminal y legalpara determinar si la actividad nueva es fraudulenta. En la literatura, describimostres amplios tipos de técnicas de aprendizaje supervisado: perfiles supervisados,clasificación supervisada y análisis de links con metodología de grafos.

2.2 Perfiles Supervisados

Esta metodología se da si hay disponible una base de datos de transacciones o ca-sos etiquetados, entonces se pueden construir perfiles o distribuciones de variablesrelevantes para el comportamiento legítimo de dicho cliente y el comportamientodelictivo. Las transacciones entrantes pueden marcarse automáticamente para suinspección en función de su similitud con el comportamiento delictivo, la falta desimilitud con el comportamiento legítimo esperado o una combinación de ambos.

En general, se mantiene un perfil de comportamiento legítimo esperado porcliente y se mantiene un perfil de comportamiento fraudulento por tipo de fraude.Las nuevas transacciones se comparan con el perfil de comportamiento legítimo delcliente y con los diferentes perfiles de fraude. Las desviaciones del comportamientoesperado o la similitud con patrones conocidos de fraude pueden ser un signo deactividad criminal. En la práctica, estos dos criterios generalmente se combinan enuna sola métrica de sospecha a través de una métrica que se relaciona mediante elteorema de Bayes por ejemplo, como el peso de la evidencia (PE). Dada la obser-vación de un vector de características X de un cliente con un perfil ζi , el peso de laevidencia contra un perfil de fraude φj es definido como

PE = 10log( P(X|ζi)P(X|φj) )

Utilizado de esta manera, el PE proporciona una medida de cuánto el perfil decomportamiento legítimo del cliente explica la evidencia observada en comparacióncon un perfil de comportamiento fraudulento. Como regla general, los valores in-feriores a un determinado umbral indican que el perfil de fraude proporciona unaexplicación mas precisa del comportamiento observado que el de un perfil legitimo.

8 Chapter 2. Métodos Supervisados

2.3 Clasificación

Clasificadores genéricos como, por ejemplo, modelos de Markov, redes bayesianas,y clasificadores discriminativos como por ejemplo, máquinas de vectores de soporte(SVM) han sido exploradas en la literatura. El objetivo común de cada técnica esutilizar datos etiquetados para entrenar un modelo que determine la probabilidadde que cada observación sea de tipo fraudulento o no.

Las técnicas tradicionales de discriminación estadística, como la regresión logís-tica y el análisis discriminante lineal, hacen uso de límites de decisión lineales parala clasificación. Estos métodos se aplicaron para la detección de fraudes, Foster andStine (2004), estos algoritmos de clasificación se basan en esa misma premisa aun nosiendo estos de tipo lineal, y donde los bordes de decisión son dependientes no solode los atributos sino también del contorno con el que se define el algoritmo.

A continuación, se verán algunas de la técnicas mas recientes no lineales, paraalgoritmos de clasificación.

2.3.1 Maquina del Vector Soporte (SVM)

La máquina de vector soporte es de gran utilidad por principalmente dos aspectos.Primero, es bastante satisfactorio desde el punto de vista teórico dado que el apren-dizaje de SVMs se basa en algunas ideas maravillosamente simples y proporcionauna intuición muy clara de lo que significa aprender desde un ejemplo, en segundolugar, puede conducir a altos rendimientos en aplicaciones prácticas.

Para ciertos tipos de algoritmos simples, una mera aplicación de la estadísticapuede identificar con bastante precisión los factores que deben tenerse en cuentapara un aprendizaje adecuado. Las aplicaciones del mundo real, sin embargo, amenudo requieren el uso de modelos y algoritmos más complejos, como las redesneuronales, que son mucho más difíciles de interpretar y analizar teóricamente. ElSVM consigue ambos objetivos. SVM construye modelos que son lo suficientementecomplejos: conteniendo metodologías especificas de redes neuronales, como radialbasis functión net(RBF) y sin embargo, lo suficientemente simples como para seranalizado matemáticamente, ya que puede ser utilizado para corresponder a unmétodo lineal en un espacio de características de alta dimensión no lineal-menterelacionado con el espacio de entrada. Además, aunque podemos considerarlo comoun algoritmo lineal en un espacio de alta dimensión, en la práctica, no implicaningún cálculo en ese espacio de alta dimensión. Mediante el uso de kernels, to-dos los cálculos necesarios se realizan directamente en el espacio de entrada. Este esel giro característico de los SVM: estamos tratando con algoritmos complejos para elreconocimiento de patrones no lineales, la regresión o la extracción de característi-cas, pero por el bien del análisis y la algorítmica, podemos pretender que estamostrabajando con un algoritmo lineal simple.

Para la detección de patrones se trata de estimar una función f : �N → {±1}utilizando datos de entrenamiento, esto es, patrones xi en N-dimensional y clasesdel tipo yi,

(xi, yi, ), ..., (xl , yl , ) ∈ �N ×±1

de modo que clasifique correctamente nuevos ejemplos (x, y), es decir, f (x) = ypara ejemplos (x, y), que se generaron a partir de la misma distribución de probabil-idad subyacente P(x, y) como entrenamiento datos.

2.3. Clasificación 9

Para diseñar algoritmos de aprendizaje con SVM, se debe de crear una clase defunciones cuya capacidad se pueda computar. Los clasificadores SVM se basan en laclase de hiperplanos que lo determinan

(w*x) + b = 0w ∈ �N , b ∈ �,

correspondiente a las funciones de decisión

f (x) = sign((w*x) + b).

FIGURE 2.1: Ejemplo de kernel en un SVM

Podemos mostrar que el hiperplano mas óptimo se define se define como el quetiene el margen de separación máximo entre dos clases (ver Figura 2.1). Puede con-struirse de forma única resolviendo un problema de optimización cuadrático limi-tado cuya solución w tiene una expansión w = ∑i; vixi en términos de un subcon-junto de patrones de entrenamiento que se encuentran en este (consulte la Figura2.1). Estos patrones de entrenamiento, llamados vectores de soporte, contienen todala información relevante sobre el problema de clasificación.

Al omitir los detalles de los cálculos, solo hay una propiedad crucial del algo-ritmo en la que debemos enfatizar: tanto el problema de programación cuadráticacomo la función de decisión final f (x) = sign(∑i vi(x.xi) depende solo del productoescalar entre patrones en el conjunto. Esto es precisamente lo que permite gener-alizar al SVM al caso no lineal.

La Figura 2.2 muestra la idea básica de la maquina dentro de un SVM, que es ma-pear los datos en algun otro espacio a través del producto escalar (llamado espaciode características) F a través de un mapeado no lineal

Φ : �N → F

y que realice el algoritmo lineal anterior en F. Como puede verse, esto solo re-quiere la evaluación de los productos escalares.

k(x, y) := (Φ(x).Φ(y))

Estas son todas las herramientas necesarias para construir clasificadores no lin-eales como el de la Figura 2.2. Para este fin, se sustituye Φ(xi) por cada ejemplo deentrenamiento x, y se realiza el algoritmo de hiperplano óptimo en F. Debido a que


FIGURE 2.2: Ejemplo de kernel en un SVM

estamos usando kernels, de este modo terminaremos con la función de decisión nolineal de la forma

f (x) = sign(i=1

∑l

vi.k(x,xi) + b)

Los parámetros vi se calculan como la solución de un problema de programacióncuadrática. En el espacio de entrada, el hiperplano se corresponde a una función dedecisión no lineal cuya forma está determinada por el kernel.

El algoritmo SVM por tanto hasta ahora tiene una cantidad de propiedades sor-prendentes:

• Se basa en la teoría del aprendizaje estadístico

• Es práctico (ya que se reduce a un problema de programación cuadrática conuna solución única)

• Contiene un número de algoritmos más o menos heurísticos como casos es-peciales: mediante la elección de diferentes funciones del kernel, obtenemosdiferentes arquitecturas, como clasificadores polinomicos, clasificadores RBF,y redes neuronales de tres capas.

Por tanto la maquina de vector soporte (SVM) funciona con una versión trans-formada más grande del espacio de características y encuentran un hiperplano demáximo margen que separa dos clases de datos. A las SVM les va bien clasificandogrupos separables no lineales, no requieren grandes conjuntos de datos y el entre-namiento converge a una solución global única. Estas características hacen que SVMsea atractivo en problemas como el fraude. Sin embargo, son computacionalmentemuy intensos, los resultados no son fáciles de interpretar, y los parámetros del al-goritmo son muy customizables, como por ejemplo, el tipo de kernel utilizado paratransformar el espacio dimensional y todos sus parámetros. Si es cierto que en lapráctica existen heurísticos para seleccionar algunos de los parámetros Hsu and Lin(2009), Caputo and Smola (2002). También se pueden usar métodos de búsquedagenerales en el espacio de parámetros como el método wrapper de Kohavi (1997).La búsqueda se puede extender a este espacio de características a expensas del uncoste alto de computación. Por ejemplo, Ahn and Kim (2006) utilizaron algoritmosgenéticos para optimizar la selección de atributos, la selección de instancias y losparámetros del kernel simultáneamente en un problema de detección.


2.3.2 Arboles de Clasificación y Aprendizaje Combinado

Los árboles de clasificación separan los datos de entrenamiento utilizando difer-entes divisiones en cada atributo y recursivamente eligen la división de los datosen dos partes que minimizan alguna medida de impureza de clase en los subcon-juntos resultantes de clasificación. Las métricas típicas de las impurezas incluyenla entropía, el índice de Gini o el error de clasificación. Algunos métodos tambiénpueden manejar divisiones no binarias. Tres de los métodos mas ampliamente uti-lizados son CHAID Kass (1980), CART Breiman (2001) y C4.5 Quinlan (1987), asícomo su sucesor, C5.0.

Los árboles de decisión pueden manejar características mixtas numéricas y categóri-cas y, naturalmente, acomodar límites de decisión no lineales y no continuos e in-teracciones entre variables de entrada. También realizan una selección automáticade atributos utilizando solo los atributos con el poder de clasificación más fuerte,aunque existen algunas limitaciones en la práctica Witten and Frank, 2005. Son fá-ciles de interpretar y su estructura simple permite tomar decisiones sobre grandescantidades de datos de transmisión de manera muy rápida.

Sin embargo, hay desventajas de los métodos basados en árboles. Se sabe que soninestables debido a su estructura jerárquica, esto quiere decir que pequeños cambiosen el conjunto de datos de capacitación pueden generar árboles muy diferentes y laselección de atributos puede encontrarse sesgada. Se necesitan estructuras comple-jas para aprender reglas simples de decisión. Por ejemplo, los límites de decisión lin-eales se aproximan como una función de escalera, lo que obliga a una representaciónjerárquica de las reglas. Los algoritmos de árbol también son criticados por no gen-eralizar bien y por lo general se necesitan algoritmos de poda para evitar el sobre-ajuste. Los árboles de inferencia condicionales Hothorn and Zeileis, 2006 son unaalternativa reciente que aborda el problema del sesgo de selección de atributos y elsobre-ajuste a través de pruebas de permutación de asociación entre las covariablesy el objetivo.

El método de arboles de clasificación combinados, intenta superar las limita-ciones de los métodos de clasificación de arboles simples combinando el resultadode múltiples modelos en una única decisión de clasificación. Desde el punto de vistade la detección de fraude, se utilizan comúnmente dos métodos de aprendizaje deconjunto principales: random forest (Breiman 2001) y boosting Freund and Schapire,1997.

Los árboles de decisión se usaron ampliamente en la detección de fraude, espe-cialmente en el campo de la calificación del riesgo crediticio. Chan and Prodromidis,1999 propusieron AdaCost, una variante del algoritmo de boosting AdaBoost, espe-cialmente adecuado para la detección de fraudes financiero. Carter y Carter andCatlett, 1987 y Li and Huang, 2004 presentaron aplicaciones de ID3, un precursorde C4.5, para la puntuación de fraude crediticio. Lee and Chen, 2003 compararonCART y splines de regresión adaptativa multivariable (MARS) para el análisis dis-criminante, la regresión logística y las redes neuronales para la calificación del riesgocrediticio.

Para ilustrar una aplicación de árboles de decisión, considere un caso de detec-ción de lavado de dinero donde se usan tres características:

• x1: Puntuación de comparación entre individuos en términos de volumen detransacción

• x2: Puntuación de velocidad de transacción


• x3: Nivel individual de puntuación de actividad esperada.

FIGURE 2.3: Diagrama de dispersión de datos

La Figura 2.3 se muestran los diagramas de dispersión de los datos. El ejemplointenta simplemente ilustrar la aplicación de las técnicas de los arboles de clasifi-cación.

FIGURE 2.4: Arboles de clasificación


La Figura 2.4 muestra los árboles producidos por CART y C4.5. La interpretaciónes sencilla para ambos arboles: por ejemplo, el árbol de la izquierda (CART) mar-cará las transacciones que exhiban un volumen bajo en comparación con los paresy la alta velocidad, la transacción con alto volumen y alta velocidad, así como lastransacciones con alto volumen, baja velocidad y un nivel de actividad que es de-masiado alto para lo que se esperaría para ese tipo particular de negocio.

El algoritmo boosting puede sufrir sobreajuste en presencia de clases mal eti-quetadas Opitz and Maclin, 1999, mientras que el Random Forest se considera másrobusto para la clasificación que los algoritmos basados en árboles de clasificación.Teóricamente, el Random Forest puede experimentar un rendimiento de clasificacióndegradado si una fracción muy grande del espacio de características es irrelevante.En este caso, el algoritmo forzará al mero azar estas características irrelevantes enlos nodos de decisión.

2.3.3 Reglas de clasificación y Reglas Combinadas

Un conjunto de reglas es un conjunto de pruebas lógicas que verifican si una obser-vación pertenece a una clase. En general, estos conjuntos son disyuntivos (por ejem-plo, un OR lógico) y cada regla en el conjunto de reglas se expresa como una serie deconjunciones lógicas (o pruebas AND), todas las cuales deben pasarse para que laregla se ejecute. En este sentido, las reglas se pueden considerar una generalizaciónde los árboles de decisión y, de hecho, un árbol de decisión se puede trivialmenteresumir como un conjunto de reglas (que tiende a ser una representación más com-pacta e inteligible del árbol) . Sin embargo, lo contrario no se cumple: describir unaregla como un árbol no es inmediato, ya que el árbol impone una estructura lógicamás rígida que la regla.

El precio pagado por la compacidad de las reglas es que varias reglas se puedendesencadenar al mismo tiempo y proporcionar clasificaciones conflictivas; y puededarse el caso en que ninguna regla se ejecute en absoluto. Una serie de técnicasabordan estos problemas. Las reglas se pueden ordenar y ejecutar secuencialmenteo mediante una votación por mayoría se puede usar para resolver clasificacionesconflictivas. En el caso donde no se dispara ninguna regla, las instancias se puedenasignar a la clase más común o a una clase especial "desconocida".

El rendimiento de las reglas es bastante similar a los árboles de decisión e inclusolos supera en una variedad de problemas. La ventaja es que proporcionan una salidamás compacta e interpretable que se puede implementar fácilmente en los sistemasde supervisión de transacciones.

Existe una variedad amplia de algoritmos basados en reglas en la literatura. Unaposible estrategia es generar conjuntos de reglas a partir de árboles de decisión. Estees el enfoque seguido en C4.5Rules Quinlan, 1987 y PART Frank and Witten, 1998.El primer método genera conjuntos de reglas de un gran árbol de decisión C4.5. Esteúltimo construye un árbol C4.5 en cada iteración, haciendo una regla de la mejor hojadel arbol y luego eliminando las observaciones coincidentes y repitiendo el proceso.La metodología secuencial es una estrategia alternativa. Se aprende una regla a lavez, todas las observaciones coincidentes se eliminan del conjunto de datos del en-trenamiento y el proceso se repite. RIPPER Galstyan and Cohen, 2005 genera un con-junto de reglas disyuntivas para la clase minoritaria y luego las optimiza generandoalternativas para cada regla. Las reglas de ondulación Gaines and Compton, 1995,generan una regla sobre la clase mayoritaria y luego continúan agregando excep-ciones.


Más recientemente, el concepto de aprendizaje combinado se aplicó también a losalgoritmos de reglas. RuleFit Friedman and Popescu, 2008 por ejemplo, utilizaronlas reglas generadas a partir de los árboles de decisión como "débiles" como base,que luego se combinan de forma aditiva ponderada en lugar de la forma disyuntivamás común.

2.3.4 Redes Neuronales

Las redes neuronales se usaron ampliamente en la detección de fraudes. Son losclasificadores subyacentes a los sistemas comerciales, como HNC’s, Falcon System,adquirido en 2002 por Fair Isaac’s Corporation Gopinathan and, 1998 o Xtract’sDetect, así como sistemas desarrollados internamente en instituciones financieras,como el sistema CRIS de Visa (Fryer 1996), el fraude de tarjetas de crédito FDS deMellon Bank - sistema detección (Ghosh y Reilly 1994), o sistema Minerva de la So-ciedad Española de Medios de Pago (SEMP) (Dorronsoro and Santa Cruz, 1997).

Por lo general, las redes de feed-forward con solo tres capas (capas de entrada,ocultas y de salida) se usan en la detección de fraudes. La entrada a la red neu-ronal es el vector de características. La señal emitida por la unidad de salida es laprobabilidad de que la actividad sea criminal, que se usa como medida de sospecha.Dadas suficientes unidades ocultas y no linealidades y pesos adecuados, las redesneuronales de tres capas pueden implementar un aproximador de función univer-sal Haykin, 1998. La retro-propagación se usa comúnmente para el entrenamiento.Los pesos se inicializan con valores aleatorios, que luego se cambian en la direcciónque minimiza el error de entrenamiento. Configuraciones más complejas con doscapas ocultas, o distintas estrategias de retro-propagación son posibles, pero pococomunes.

Las redes neuronales son atractivas en la detección de delitos financieros porvarias razones. En primer lugar, se demostró que las redes de tres capas son capacesde lidiar con las distribuciones de clase altamente asimétricas que surgen en estaaplicación. Dorronsoro and Santa Cruz, 1997 aportaron resultados positivos del sis-tema Minerva con proporciones de transacciones de fraude:legítimo de 1: 150. Ensegundo lugar, una vez entrenados, se pueden analizar nuevos datos muy rápida-mente, un atributo que es necesario y de gran importancia cuando se trata de atrapartransacciones fraudulentas en tiempo real.

Sin embargo, las redes neuronales también tienen sus desventajas. Un problemaimportante es la necesidad de seleccionar y ajustar la estructura de la red. La eleccióndel número de estados ocultos debe realizarse para optimizar el aprendizaje y lageneralización. Además, el rendimiento del clasificador es muy sensible al vectorde características elegidas, por lo que son necesarias una selección de atributos y unpre procesamiento (por ejemplo, una normalización). Maes and Vanschoenswinkel,2002 informaron una mejora del 28% en la tasa positiva real con una tasa de 10% defalsos positivos en un experimento de detección de fraude después de eliminar soloun atributo correlacionada de un conjunto de 10, y la normalización de los atributosrestantes . En el ejemplo de lavado de dinero presentado en la Sección 4.2.2, una redde tres capas con cuatro nodos en la capa oculta clasificó correctamente el 94.59% delas muestras en el conjunto de datos. La tasa de falsos negativos fue del 2,8% y la tasade falsos positivos del 10% cuando el conjunto de datos se normalizó log antes delentrenamiento. Si, se eliminase este paso de pre-procesamiento, la red convergeríaal clasificador mas trivial, que decide que todas las instancias están libres de fraude.El post-procesamiento puede ser una opción factible también en algunos casos. Kimand Kim, 2002 abordaron el problema de la superposición de datos en el fraude con


tarjetas de crédito al ponderar el puntaje de una red neuronal por una métrica dedensidad de fraude en la vecindad del vector de características de entrada.

El entrenamiento de redes neuronales consume mucho tiempo para grandes con-juntos de datos de entrenamiento, especialmente si el modelo está destinado a serreentrenado con mucha frecuencia. Además, los perceptrones multicapa entrenadospara la propagación son propensos a sobreajuste; existen varios algoritmos que abor-dan este problema, a expensas de agregar complejidad al proceso de entrenamiento.Finalmente, las redes neuronales a menudo se tratan como "cajas negras" y sus re-sultados pueden llegar a ser imposibles de interpretar.

2.3.5 Redes Bayesianas

Las redes de creencias Bayesianas (BBN) forman otra clase popular de métodos dedetección de fraudes. Un BBN representa la distribución de probabilidad conjuntasobre un conjunto de variables aleatorias como un gráfico acíclico dirigido; cadanodo es una variable y las flechas representan una correlación entre variables. Unatabla de probabilidad condicional cuantifica el efecto de los nodos principales en unnodo secundario. Si un nodo no tiene padres, la tabla contiene la probabilidad pre-via de la variable. La probabilidad de cualquier configuración de los componentesdel sistema se puede calcular utilizando la regla de la cadena

P(sn, sn−1, sn−2, ..., s1) = πni=1P(si|si−1, ..., s1)

Una transacción caracterizada por un vector de atributos X se clasifica comofraudulenta (F) cuando P(F|X) > P(F|X), que, usando la regla de Bayes, se puedereducir a comparar

P(xn|xn−1, .., x1, F)...P(x1|F)P(F) > P(xn|xn−1, .., X1, F)...P(x1| � (F))P( � (F)).

Entrenar una RB implica primero aprender la estructura de la red y luego calcu-lar las probabilidades condicionales para esa estructura a partir de los datos. Estesegundo paso es trivial una vez que se conoce la estructura de la red. La estruc-tura se aprende usando un experto humano o explorando el espacio de redes poten-ciales. Existe una variedad de estrategias de búsqueda, que incluyen algoritmos debúsqueda de propósito general (por ejemplo, recocido simulado, algoritmos genéti-cos) y algoritmos de búsqueda específicos de RB como K2 (Cooper and Herskovits,1992) o Naive Bayes (TAN) aumentado de árbol (Friedman and Goldszmidt, 1997).Para cada red, se estiman las probabilidades condicionadas y se califica la "bondadde ajuste" de la red a los datos de entrenamiento. La complejidad de la red puede ten-erse en cuenta en la puntuación utilizando el criterio de información Akaike (AIC)o las métricas basadas en el criterio de longitud de descripción mínima (MDL) paraevitar el sobre-ajuste.

La Figura 2.5 muestra un RB TAN entrenada con un conjunto de datos de lavadode dinero introducido en la Sección 1.2.2.2, y que clasifica correctamente el 82.88%de las instancias en el conjunto de datos de prueba, con un 24% de tasa de falsospositivos y un 14% de tasa de falsos negativos . TAN funciona asumiendo primerola independencia condicional entre todos los predictores, es decir, comenzando conun modelo de Naive Bayes y luego considera agregar una sola dependencia a cadauno de ellos.



La red resultante relaciona el score de velocidad de transacción (x2) con el nivelde actividad individual esperado (x3) y luego x3 con el score de comparación entreiguales en términos de volumen de transacción (x1). Se debe tener precaución altratar de extraer conclusiones de causalidad a partir de estos resultados. En primerlugar, generalmente hay múltiples estructuras de red con un rendimiento de clasifi-cación equivalente y, por lo tanto, múltiples explicaciones para los datos observados.Diferentes algoritmos de búsqueda con diferentes parámetros pueden converger adiferentes redes. En segundo lugar, cada estructura se aprende basada solo en lascorrelaciones observadas en los datos de entrenamiento; ninguna causalidad puededarse por sentada. En tercer lugar, incluso si existe una relación causal entre dos no-dos de la red, todavía existe el problema de determinar la dirección real de la causal-idad. En el ejemplo presentado, de acuerdo con la opinión de los expertos, es másplausible que una alta velocidad de transacción resulte tanto en un nivel inesperadode actividad como en un gran volumen, incluso si la cantidad de cada transacciónes pequeña.

Maes and Vanschoenswinkel, 2002 proporcionaron un estudio comparativo entreredes neuronales y redes bayesianas para la detección de fraudes. Las transaccionesfueron descritas por cuatro características y una etiqueta. Las RB produjeron menoserrores de clasificación que las redes neuronales, mostrando que las RB fueron másrápidas de entrenar, pero mucho más lentos en su ejecución.

2.3.6 Hidden Markov Models

En un modelo normal de Markov, los estados siguen un proceso de Markov y sonvisibles para el observador. En los HMM, los estados están ocultos. En cambio,el observador ve las variables de salida que están influenciadas por el estado y lasecuencia de variables de salida proporciona alguna información de la secuencia deestados.


A modo ilustrativo, presentamos un ejemplo para detectar el fraude de deuda enlas cuentas de cheques. El préstamo ocurre cuando un usuario de la cuenta realizaun retiro sin fondos suficientes en la cuenta. Los bancos a menudo brindan un ser-vicio de préstamo a corto plazo a sus clientes al permitir el retiro de fondos inclusocuando la cuenta no cuenta con fondos suficientes. Para la institución financiera, ladesventaja de este servicio es el abuso potencial que puede ocurrir en forma de faltade pago del préstamo. Por lo tanto, para administrar el riesgo de actividad fraudu-lenta potencial mientras se proporciona un servicio de prestación, se debe emplearun enfoque de supervision de cuenta adecuado. Las actividades de transacción delcliente se pueden modelar utilizando un HMM. Los siguientes estados pueden ocur-rir durante el uso de la cuenta (que se muestra en la Figura 2.6):

• Estado 1: En deuda; cuenta tiene un saldo no negativo.

• Estado 2: Endeudado; cuenta tiene un saldo negativo, pero el cliente tiene laintención de pagar la deuda en un momento posterior.

• Estado 3: Deuda; cuenta tiene un saldo negativo y el cliente no tiene intenciónde pagar (es decir, estado fraudulento).


Una transición entre los estados es causada por una transacción realizada en lacuenta. Una transición del Estado 1 a sí mismo sucede cuando un cliente, previ-amente con un saldo no negativo, realiza una transacción y se mantiene en buenestado. Un cliente puede pasar del Estado 1 a cualquiera de los Estados 2 o 3 cadavez que se realiza un retiro. Si un cliente se encuentra en el estado 2 y, por algúnmotivo, la intención de devolver la deuda cambia, se produce una transición al es-tado 3. Pensamos en el Estado 3 como un estado "absorbente". Es decir, una vez queun cliente entra en el Estado 3, el cliente permanece a este para siempre. Estas tran-siciones de estado a estado forman una cadena de Markov y la probabilidad de lastransiciones se puede estimar a partir de la serie histórica de datos de transacción.

1.2.3 LinnksOtra amenaza importante para las instituciones financieras son los grupos de

crimen organizado, o grupos de personas que trabajan en conjunto con animo de eje-cutar o planificar una acción fraudulenta. Los clientes y sus transacciones, cuando se


ven individualmente, pueden pasar bajo el radar de los esquemas de detección nor-males. Esto puede suceder ya sea porque parecen ser legales o porque las transac-ciones individuales implican pequeñas cantidades de dinero. Sin embargo, cuandolas transacciones se consideran en el contexto de un patrón de actividad, que amenudo involucra a varias personas relacionadas, el comportamiento delictivo puedeser más evidente.

Una opción para encontrar estos grupos es usar algoritmos de agrupamientopara identificar clientes con patrones de comportamiento similares. Sin embargo, es-tos anillos de actividad delictiva involucran comportamientos repartidos en muchastransacciones diferentes, sobre múltiples clientes y cuentas, y a menudo durantelargos períodos de tiempo. El análisis de clúster ordinario puede ser incapaz de de-tectar redes tan complejas. Los métodos de análisis de enlaces y minería de grafospueden ser de ayuda para detectar estos grupos de personas que trabajan en con-junto. Estas técnicas son comunes en áreas como las ciencias sociales y recientementese aplicaron en la detección de delitos financieros, especialmente para la detecciónde lavado de dinero (Goldberg and Senator, 1995,Goldberg and Senator, 1997, Zhangand Yu, 2003).

La idea principal detrás del análisis de enlaces en esta aplicación es comenzarcon una entidad conocida de interés y encontrar relaciones significativas con otrasentidades. Con frecuencia los investigadores definen los atributos que se utilizanpara identificar a las personas relacionadas en función de sus experiencias. Zhangand Yu, 2003 propusieron un método para el descubrimiento de enlaces basado enel análisis de correlación (LDCA), que aplican para investigar crímenes de lavadode dinero. Aquí, se usa una cierta correlación para construir los atributos para losmétodos de descubrimiento de enlaces.

El análisis de enlaces también se puede utilizar como una score de sospechao "culpa por asociación" (Macskassy and Provost, 1997), donde una entidad ob-tiene una puntuación que es una función de las puntuaciones de las entidades alas que está asociada. Sin embargo, este enfoque puede ser muy sensible a difer-entes parámetros de configuración (Galstyan and Cohen, 2005). Ver Macskassy andProvost, 1997 para una encuesta exhaustiva del campo y un estudio de caso de laimplementación de un sistema para la clasificación de datos en red.

19

Chapter 3

Métodos No Supervisados

3.1 Definición

Un problema con el aprendizaje supervisado para la detección del delito financieroes que el etiquetado como instancia fraudulenta a menudo no es confiable o no estádisponible. Los humanos han investigado casos previamente trabajados y se puedeetiquetarse erróneamente con facilidad. En general, la asignación de etiquetado a lastransacciones y casos anteriores requiere mucho tiempo y está muy sujeta a errores.Además, en el caso del lavado de dinero, es imposible obtener etiquetas de clase. Nohay forma de decir con certeza que un cliente no haya cometido un lavado de dinero.Cuando no hay una base de datos de casos etiquetados previamente disponibles, sedeben usar técnicas de aprendizaje no supervisadas.

3.2 Clustering

El clustering, como técnica de minería de datos, trata el problema de dividir un con-junto determinado de entidades en subconjuntos significativos. Los clusters resul-tantes de esta segmentación de datos deben ser homogéneos o estar bien separadossiendo, las entidades dentro del mismo grupo similares, mientras que las entidadesdentro de diferentes grupos serán diferentes. Un esquema de Clustering normal-mente contiene una serie de elementos, estos son:

• a) Un conjunto de datos donde existen N entidades y donde se mida las mis-mas propiedades p para cada entidad. Esto da como resultado una matriz Xde N x p.

• b) Una medida de disimilitud que calcule a partir de la matriz X, una ma-triz NxN D = (dkl) de diferencias entre entidades. Para evaluar cuán es-trechamente relacionados están dos entidades, la mayoría de los métodos declustering utilizan diversos tipos de medidas de diferenciadoras, ya sea basadasen distancia o en densidad. Todas ellas satisfacen las propiedades dkl >= 0,dkk = 0, dkl = dlk, pero estás no son necesarias para satisfacer la desigualdaddel triángulo, sean distancias reales.

• c) Restricciones que en un tipo de clustering sea cual sea, especifique los parámet-ros de inicialización necesarios adicionales: como por ejemplo un número ktotal de clusters, o un umbral de densidad, o de conectividad de grafos, etc.

• d) Un índice de validez, para expresar homogeneidad o separación de los clus-ters en el clustering.

• (e) Un algoritmo. El algoritmo puede ser ya existente o uno nuevo para elproblema definido en (c) y (d).

20 Chapter 3. Métodos No Supervisados

• (f) Computación que aplique el algoritmo seleccionado a la matriz D = (dkl)para dividir las N entidades iniciales en clusters significativos.

• (g) Interpretación del resultado, basadas en indices de validez para (d) en todala segmentación de datos obtenida de (f).

Independientemente de la técnica de clustering utilizada y su posición en la tax-onomía general del dataset, los problemas transversales siempre aparecen y debende tenerse en cuenta para describir completamente un algoritmo de clustering dado.Siguiendo este camino, los algoritmos pueden ser aglomerativos o divisivos, al comienzodel algoritmo cada punto representa un cluster o todos los puntos representan unsolo cluster, dependiendo de la técnica utilizada. Un uso secuencial o simultáneode los atributos de datos, un punto de datos puede pertenecer o no, a uno o múlti-ples clusters, un enfoque determinístico o estocástico, optimización de clusteringsmediante una función objetivo determinista o una técnica de búsqueda aleatoria,incremental o no incremental,si se puede o no aumentar el conjunto de datos dedestino original, todas estas preguntas deben de ser respondidas antes de comenzarcon la ejecución, y dependiendo de estas la funcionalidad variará significativamente.

Con todas estas diferentes taxonomías superpuestas de algoritmos de clustering,los criterios genéricos más comunes se representan por la forma en que se formanlos clusters que dividen las técnicas de clustering en clústeres jerárquicos y parti-cionales.

Grupos de clustering jerárquico o entidades comienzan con una secuencia departiciones, ya sea comenzando con un solo cluster inicial que puede ser una aglom-eración de cGrupos de clustering jerárquico o entidades comienzan con una secuen-cia de particiones, ya sea comenzando con un solo cluster inicial que puede ser unaaglomeración de clústeres jerárquicos o partiendo de un único clúster que contienetodas las entidades. Los métodos de clustering partional se pueden dividir en méto-dos basados en prototipos, métodos basados en densidades, métodos de resoluciónde mezclas, o basados en metaheurísticas. Los métodos basados en prototipos tienenun prototipo que representa cada clúster, generado dinámicamente como una fun-ción promedio de todas las entidades dentro del clúster, dada por una entidad rep-resentativa dentro del clúster. El objetivo de los métodos basados en prototipos esminimizar una función de coste definida por las distancias entre todas las entidadesdentro de un clúster y un prototipo de clúster definido con anterioridad.

Una de las funciones de coste más utilizadas es la función de error cuadráticopresente en los algoritmos k-means, k-medoid, k-modes y sus variaciones. Los méto-dos basados en la densidades parten del supuesto de que todo el conjunto de datosse divide en clusterings estrechos de alta densidad separadas por regiones de bajadensidad. Un algoritmo popular de este tipo es DBscan. Los algoritmos basadosen redes y los basados en grafos también se incluyen en la categoría de densidades.Para los métodos basados en metaheurísticas, la búsqueda combinatoria para op-timizar una solución de clustering dada se está llevando a cabo a través de unabúsqueda tabú, búsqueda por dispersión, recocido simulado, algoritmos genéticosy inspirados en la naturaleza como las colonias de hormigas. Con cambios relati-vamente bajos a los algoritmos de clusterings anteriores, todos los métodos vistospueden producir clústeres muy bien fuerte y definidos o suaves y difusos. La agru-pación en clusters fuertes, asigna una entidad a un solo clúster, sin embargo la agru-pación en clúster difusa trata con las probabilidades de una entidad que pertenece a

3.3. Representación y Reducción de Dimensión 21

cada clúster. En este sentido, la agrupación fuerte puede verse como un caso espe-cial de clustering difuso.

Existen numerosas instancias en los que se ha ulitilizado la metodología del clus-tering para la detección de fraude, muchos de ellos utilizando datos reales. Comopor ejemplo Issa and Vasarhelyi (2011) para fraude financiero, en los que se utiliza latecnica de clustering de k-means, o Rui Liu and Zhu (2011) para el fraude de lavadode capital, tambien con datos reales y con la utilización de la tecnica de k-means parael clustering, así como muchos otros que tambíen indagan en el tema mediante estatécnica.

En la mayoría de los casos en los que se utilizan específicamente técnicas declustering, estas son mediante la metodología k-means para la determinación y de-tección de outliers. En la mayoría de los casos, la distancia euclidiana se usa comola métrica de desemejanza. Por ejemplo, Issa and Vasarhelyi (2011) implementa k-means con la intención de identificar reembolsos fraudulentos dentro de una com-pañía de telecomunicaciones con transacciones fraudulentas que se consideran comovalores atípicos o outliers. Por otro lado, encontramos técnicas híbridas de mineríade datos donde el clustering es solo una herramienta que se utiliza en una o másetapas, dentro de implementaciones de minería de datos complejas, como el trabajopresentado por Jyotindra and Ashok (2011).

3.3 Representación y Reducción de Dimensión

Como se mencionó anteriormente, uno de los desafíos en la detección y preven-ción de delitos financieros es la alta dimensionalidad de los datos. Con frecuencia,a una institución financiera le gustará saber cuales son los grupos entre las obser-vaciones y ser capaz de identificar las observaciones que son más diferentes de lasdemás. Sin embargo, la visualización de datos en el espacio de dimensiones com-pletas es inviable y el análisis debe hacerse en el espacio que es útil para examinarese comportamiento de interés. La reducción de dimensionalidad puede ayudar aidentificar la serie de atributos que son más útiles para explicar los patrones en losdatos. Además, el Scoring de la función de criterio utilizada para la transformacióntambién se puede utilizar para proporcionar una puntuación de sospecha para cadaobservación.

Cuando el objetivo es una medida de sospecha, es común usar análisis de com-ponentes principales (PCA) o análisis de componentes independientes (ICA). Labúsqueda de proyección exploratoria es otra técnica que es especialmente útil cuandoel objetivo es encontrar agrupamientos en los datos originales. El escalado multidi-mensional (MDS) también se usa para determinar las dimensiones subyacentes queson útiles para explicar similitudes o diferencias entre las observaciones.

3.4 Detección de Anomalías

En un control tradicional de un proceso estadístico, las observaciones anómalaspueden indicar que el proceso está fuera de control. En delitos financieros, a menudohay anomalías en un conjunto de datos que no pertenece a ningún clúster. En apli-caciones financieras, las observaciones anómalas a menudo corresponden a transac-ciones criminales, y las razones de sus diferencias con el resto de los datos pueden

22 Chapter 3. Métodos No Supervisados

ser útiles para identificar las diferencias entre el comportamiento criminal y no crim-inal. En la siguiente discusión, exploramos varios métodos de detección de anoma-lías.

La detección de anomalías puede considerarse como una aplicación de detecciónde valores atípicos, que es un problema bien estudiado en la comunidad estadística(Hawkins (1980), Barnett and Lewis (1994) ). Esta es una idea bastante sencilla paralos datos de una sola variable y existen métodos estadísticos estándar para encontrarvalores atípicos en un conjunto de datos de ese estilo. En configuraciones multivari-ables, no existe un orden natural o una sola métrica de distancia. La medida dedistancia más común que se utiliza es la distancia Mahalanobis, que se desarrolló enel contexto de datos normales con varias variables. Si uno no quiere hacer suposi-ciones paramétricas fuertes, el problema se vuelve incluso más difícil.

3.4.1 Detección de Anomalías Basadas en Densidad y Distancia

Se introdujeron varios algoritmos de detección de valores anómalos en respuesta aestas necesidades y se clasifican en dos clases principales: basado en la densidades ybasado en la distancia. Los métodos basados en la densidad identifican valores atípi-cos como observaciones ubicadas en áreas de baja densidad. Estos métodos encuen-tran valores atípicos como un subproducto de la agrupación. Una segunda clase dealgoritmos usa métodos basados en la distancia. Aquí, las observaciones distantes seidentifican como aquellas que están "lejos" de alguna fracción de las observacionesrestantes, de acuerdo con alguna función de distancia. Encontrar distancias entrepuntos de grandes dimensiones para grandes conjuntos de datos es computacional-mente intensivo, pero ha habido trabajos recientes sobre métodos para hacerlo demanera eficiente. Tanto en los métodos basados en la distancia como en la densidad,es necesario definir una métrica de distancia.

La detección de valores atípicos basados en la distancia también se utilizó am-pliamente en la detección de fraudes en telecomunicaciones y estos métodos tam-bién se generalizan a delitos financieros. El score Z y una puntuación basada enPoisson se usan como métricas de distancia para atributos con uno o dos parámet-ros, respectivamente. Murad and Pinkas (1999) propusieron la distancia-CD, unamétrica de distancia basada en distribuciones de probabilidad acumulativas paraabordar las limitaciones de las medidas de distancia comúnmente utilizadas en elreconocimiento de patrones, como por ejemplo, Euclidiana, Hellinger, Mahalanobisy divergencia.

También se trabajó para desarrollar una noción de profundidad en los datos parael análisis de datos multivariados no paramétricos (Liu and Singh (1999)). A lasobservaciones se les asigna una profundidad relativa al "centro" del conjunto dedatos utilizando una función de profundidad definida. Proporcionando un ordende datos, también conduce a una clase de métodos de detección de valores atípicosmultivariantes: el centro de los datos es la observación con profundidad máxima ylas observaciones periféricas son aquellas con profundidad mínima.

23

Chapter 4

Detección de Anomalías Basada enGrafos

4.1 Definición

Al analizar conjuntos de datos grandes y complejos, saber qué destaca en los datos,suele ser igual o incluso más importante e interesante que conocer su estructurageneral. La rama de minería de datos relacionada con el descubrimiento de ocurren-cias extrañas en conjuntos de datos se llama detección de anomalías. Este dominiode problema tiene numerosas aplicaciones de alto impacto en seguridad, finanzas,cuidado de la salud, cumplimiento de la ley y muchos otros, en nuestro caso lo en-focaremos a la detección de fraude.

Para abordar el problema de detección de anomalías, se han desarrollado nu-merosas técnicas en las últimas décadas, especialmente para detectar outliers y anoma-lías en colecciones no estructuradas de puntos de datos multidimensionales. Porotro lado, los objetos de los datos no siempre se pueden tratar como puntos que seencuentran en un espacio multidimensional independientemente, por el contrario,pueden presentar interdependencias que deben tenerse en cuenta durante el procesode detección de anomalías como los de la Figura 4.1.

FIGURE 4.1: Objetos inter-conectados

Los grafos proporcionan una maquinaria poderosa para capturar de maneraefectiva estas correlaciones de largo alcance entre objetos de datos inter-dependientesy por lo tanto estos serán utilizados y explorados para el objetivo de detección de

24 Chapter 4. Detección de Anomalías Basada en Grafos

fraude inter-conectado.

4.2 Detección de Anomalías en Grafos Estáticos

En esta sección, abordaremos la detección de anomalías en grafos estáticos. Es decir,la tarea principal aquí es detectar entidades en la red anómalas (por ejemplo, nodos,bordes, subgrafos) dada la estructura del gráfo completo. Primero se verá una brevedescripción general de las técnicas de detección de valores atípicos en nubes estáti-cas de puntos de datos y los indicadores para poder inferir comportamientos en eldataset.

La detección de outliers se ocupa del problema de detectar puntos periféricos enel espacio de características (de gran dimensión) de los puntos de datos. Aunque noestán directamente relacionadas, las técnicas de detección de outliers vistas anteri-ormente se emplean en la detección de anomalías basadas en grafos. Por lo tanto,es beneficioso conocer los métodos generales de detección de valores atípicos paradetectar anomalías en los grafos.

Se distingue la detección de anomalías en datos de grafos en dos configuraciones:(1) grafos simples y (2) grafos atribuidos. Un grafo atribuido es un grafo donde losnodos y bordes tienen atributos asociados. Por ejemplo, en una red social, los usuar-ios pueden tener diversos intereses, trabajar o vivir en diferentes lugares, ser de di-versos niveles de educación, etc., mientras que los enlaces relacionales pueden tenervarias fortalezas, tipos, frecuencia, etc. Un grafo simple, por otro lado, no tiene talesrelaciones y consiste en solo nodos y bordes entre si, es decir, la estructura del grafoen si.

Para un grafo simple cualquiera, la única información al respecto es su estruc-tura. En esta categoría de métodos de detección de anomalías, se explota la es-tructura del grafo para encontrar patrones y anomalías de puntos. Estos patronesestructurales se pueden agrupar en dos categorías: patrones basados en estructurasy patrones basados en la comunidad.

4.2.1 Basados en Estructura

Organizamos los enfoques basados en la estructura en dos: basado en las caracterís-ticas del grafo y basado en la proximidad de los nodos. El primer grupo explota laestructura del grafo para extraer características que se centran en el conjunto, comoel grado del nodo y la centralidad del subgrafo, mientras que el segundo grupo usala estructura del grafo para cuantificar la cercanía de los nodos en el gráfico paraidentificar asociaciones.

Basados en Características del Grafo

La idea principal de este enfoques es que usa la representación gráfica para extraercaracterísticas estructurales centradas en grafos que a veces se usan junto con otrascaracterísticas extraídas de fuentes de información adicionales para la detección devalores atípicos en el espacio de características construido. Básicamente, estos méto-dos transforman el problema de detección de anomalías del grafo en un problemade mera detección de outliers.

4.2. Detección de Anomalías en Grafos Estáticos 25

Se han aplicado varios enfoques para esta metodología, Una de ellas, es la dedetección de anomalías basada en características llamada OddBall es propuesta porAkoglu L ((2010)), que extrae las características basadas en egonets, un egonet es unaserie de características tales como su número de triángulos, peso total, valor propioprincipal, etc., así como sus patrones de correlación por pares, y encuentra patronesque siguen la mayoría de los egonets del grafo con respecto a esas características.Como tal, este método puede detectar egonets anómalos (y por lo tanto nodos anó-malos), como aquellos que no siguen los patrones observados.

Una egonet se puede interpretar como la vecindad de 1 paso alrededor de unnodo; incluyendo el nodo, sus vecinos directos, y todas las conexiones entre estosnodos. Más formalmente, una egonet es el sub-gráfico inducido de 1er paso paracada nodo. Dados los egonets, la pregunta y el desafío principal son las caracterís-ticas que hay que mirar, ya que hay una larga lista de posibles medidas basadas engrafos que se pueden extraer como características de un egonet. El documento pro-pone un subconjunto cuidadosamente seleccionado de características (por ejemplo,número de triángulos, peso total de los bordes, etc.) que (1) se observan para pro-ducir patrones en una amplia gama de grafos del mundo real, y (2) rápidos paracalcular y fácil de interpretar

Las características de egonet se estudian luego en pares y se observan variospatrones en forma de leyes de potencia entre las características fuertemente rela-cionadas (por ejemplo, número de vecinos y número de triángulos). Para una egonetdada, su desviación de un patrón particular se calcula en función de su "distancia" ala distribución de la ley de potencia relevante. Luego, cada egonet recibe una pun-tuación de desviación o atípicas por separado con respecto a cada patrón.

Las puntuaciones múltiples que recibe un nodo de varios patrones observadosplantea la siguiente cuestión de cómo combinarlos para obtener los puntuacionesfinales o el ranking final. Varias obras en la literatura se han propuesto para cómounir múltiples resultados atípicos. Este problema se aborda en trabajos sobre con-juntos anómalos.

Hay varias ventajas de analizar las características de egonet en forma de pares,en lugar de en unión. Primero, esto facilita la visualización de los patrones y valoresatípicos en 2-d para el pos-análisis. En segundo lugar, la baja dimensionalidad delespacio de características ayuda a interpretar los resultados, es decir, uno puededecir a qué tipo de anomalías pertenece un nodo basándose en su desviación de unpatrón particular.

En un trabajo posterior realizado por Henderson K (2011) amplía la base decaracterísticas mediante la combinación recursiva de funciones basadas en nodo("local") y basadas en egonet (vecindario). Una característica recursiva se definecomo algún valor agregado (por ejemplo, media, minimo, maximo) calculado sobrecualquier valor de entidad existente entre los vecinos de un nodo. Intuitivamente,las características locales y egonet capturan la información del vecindario, mientrasque las características recursivas permiten ir más allá del vecindario directo paracapturar más información "regional" o de comportamiento. En el documento se de-talla un procedimiento iterativo con complejidad de tiempo de ejecución lineal enel tamaño del gráfico para calcular las funciones recursivas y podar las funcionesaltamente correlacionadas sobre la marcha.


Basados en la Proximidad de los Nodos

La idea principal este grupo de técnicas se basa en la estructura del grafo para medirla proximidad de los objetos en el grafo. Estos métodos capturan la autocorrelaciónsimple entre estos objetos, donde se considera que los objetos cercanos pertenecen ala misma clase.

Existen numerosas metodologías, como por ejemplo medir la importancia de losnodos en un grafo es uno de los problemas más estudiados en este ámbito. Brin S(1998) es uno de los algoritmos más populares que se basa en caminatas en el grafoaleatorias. Una camino aleatorio en el grafo (no ponderado) salta aleatoriamente deun nodo a otro. Si actualmente está presente en un nodo u, un camino aleatorio en elsiguiente paso salta a uno de sus vecinos con la misma probabilidad para cada uno.La distribución de probabilidad estacionaria del camino aleatorio en el grafo se leconsidera que clasifica los nodos por su "importancia".

Se sabe que esta camino converge si la matriz de transición, cuyas entradas deno-tan las probabilidades de salto entre nodos vecinos, es estocástica y aperiódica. Enlos grafos dirigidos, es probable que no se cumpla la condición de irreductibilidad,que establece que existe una probabilidad distinta de cero de pasar de un nodo a otro(por ejemplo, en la existencia de nodos sumideros y múltiples componentes fuerte-mente conectados). Para resolver estos problemas, se realiza un reinicio aleatorio dela caminata con una cierta probabilidad α ∈ (0, 1) (a.k.a. el factor de amortiguación),donde el nodo de reinicio se elige al azar.

4.2.2 Basados en Comunidades de Grafos

El clúster o los métodos basados en comunidades para la detección de anomalíasgráficas se basan en encontrar grupos densamente conectados de nodos "cercanos"en el grafo y detectar nodos y / o bordes que tienen conexiones entre las comu-nidades. De hecho, se puede pensar que la definición de anomalía bajo este contextoes encontrar nodos / aristas "puente" que no pertenecen directamente a una comu-nidad en particular.

Varios datos del mundo real se pueden representar como grafos conectados dondelos nodos del puente revelan fenómenos interesantes. Los ejemplos incluyen redesde publicación: autores versus trabajos (inusuales) escritos por autores de diferentescomunidades de investigación, en nuestro caso una red de trama fraudulenta puedeformar parte de una estructura de grafo compleja, en la que la búsqueda de anoma-lías en su interior conllevará la posible implementación de esta metodología.

Los dos problemas principales abordados en la literatura son, cómo encontrarla comunidad de un nodo dado, que también se conoce como el "vecindario" de unnodo. Y segundo, cómo cuantificar el nivel de probabilidad de un nodo dado paraque este se trate de un nodo puente.

Una solución para el primer problema podría ser el uso de una medida de basa-dos en aleatoriedad de camino con reinicio de todos los nodos en el grafo con re-specto al nodo dado, donde los nodos con puntuaciones altas constituyan la vecin-dad de un nodo.

En líneas similares, una solución factible para el problema segundo sería unamedida por pares de nodos entre todos los vecinos del nodo dado, que se agreganhaciendo un promedio para calcular una puntuación llamada "normalidad" de unnodo. Intuitivamente, los nodos con bajas medidas de normalidad tienen vecinos


con baja proximidad por pares el uno al otro. Esto sugiere que los vecinos se en-cuentran en diferentes comunidades separadas, lo que hace que el nodo dado seasemeje a un nodo puente entre las comunidades.

AUTOPART creado por D (2007) se basa en la noción de que los nodos con los ve-cinos se encuentran agrupados, y los bordes que no están relacionados con ningunaestructura son anomalías (por ejemplo, bordes de puentes de grupos cruzados). Demanera similar, se considera que los nodos tienen muchas conexiones cruzadas conmúltiples comunidades diferentes a ningún grupo en particular y, por lo tanto, tam-bién constituyen anomalías. Para encontrar comunidades en un grafo, el algoritmoreorganiza las filas y las columnas de la matriz de adyacencia en unos pocos blo-ques homogéneos (de baja o alta densidad). Estos bloques tienen la propiedad decontener nodos que están más conectados entre sí que con el resto de los nodos enel grafo, que es la idea subyacente en la agrupación. D (2007) desarrolla algoritmositerativos libres de parámetros en el principio de longitud mínima para reorganizarlas filas y columnas, así como para encontrar el mejor número de bloques o gruposde nodos.

Otro método que apunta a anomalías basadas en las comunidades de grafos sebasa en la factorización de la matriz. La factorización de la matriz se ha utilizadopara abordar varios problemas que van desde la reducción de la dimensionalidad,hasta la agrupación gráfica. La factorización de una matriz de datos A a menudose fórmula como A = X × Y + R, donde X e Y son los factores de rango bajo yR denota la matriz residual. En la factorización tradicional matricial no negativa,existen limitaciones adicionales sobre la no negatividad de X e Y, que por ejemploayuda a determinar las comunidades. Una diferencia de este enfoque tradicional, laidea principal para encontrar anomalías es renunciar a estas limitaciones originales,pero en su lugar impone restricciones de no negatividad en la matriz residual parala interpretabilidad. El enfoque demuestra ser efectivo para detectar conexiones"extrañas", como la actividad fraudulenta.

Los nodos y bordes "puente" pueden verse como conectores intrusivos o conex-iones que cruzan los límites de la comunidad en el ámbito de lo legal. Por ejemplo,se puede considerar que la intrusión entra en una comunidad a la que no pertenece,y busca una comunicación que no respete los límites de la comunidad. Es por tantoque las aplicaciones en el mundo real que los métodos de detección de anomalíasbasados en la comunidad demuestran, pueden ser muy efectivos.

4.2.3 Grafos con Múltiples Atributos

Para ciertos tipos de datos, es posible tener una representación gráfica más rica, enla que los nodos y los bordes exhiben atributos (no únicos). Los ejemplos de talesgrafos incluyen redes sociales con intereses del usuario como atributos, redes detransacciones con tiempo, ubicación e importe como atributos, envíos de carga conpuertos visitados, información financiera, tipo de bienes transportados como atrib-utos, etc.

Esta categoría de métodos de detección de anomalías en los grafos con distintosatributos trata la estructura y la coherencia de los atributos del grafo para encon-trar patrones y detectar anomalías. Estos métodos también se pueden agrupar endos métodos: métodos basados en la estructura y basados en la comunidad. Enpocas palabras, los métodos basados en la estructura explotan frecuentes subestruc-turas y patrones de sub-grafo para detectar deformaciones en estos patrones, mien-tras que los métodos basados en la comunidad apuntan a detectar lo que se llama


comunidad-atípicos que no exhiben las mismas características que los demás en lamisma comunidad .

Basados en Estructura del Grafo

La idea principal de los enfoques basados en estructura apuntan principalmente aidentificar las subestructuras en el grafo que son raras, es decir, estructuras extrañasen cuanto a la conectividad o a los atributos que la componen. Como tal, se buscael inverso de los subgrafos frecuentes. Las diferencias con respecto a estas sube-structuras definidas como "normales" se cuantifican de diversas maneras, como sedescribe a continuación.

Una de las metodologías sobre la detección de anomalías de grafos con múlti-ples atributos aborda dos problemas: Problema 1, el problema de encontrar sube-structuras inusuales en un grafo dado, y problema 2, el problema de encontrar lossubgrafos inusuales entre conjunto dado de subgrafos, en el cual los nodos y bor-des contienen atributos no únicos. La idea principal para resolver estos problemases buscar estructuras que ocurren con poca frecuencia, que son más o menos op-uestas a lo que se llama las " subestructuras mejores". Intuitivamente, las mejoressubestructuras son las que ocurren con frecuencia en el grafo y, por lo tanto, puedencomprimir bien el grafo. Una formulación teórica de la información basada en elprincipio de Longitud Mínima de Descripción (LMD) que intercambia entre la cali-dad de compresión y el tamaño de tales subestructuras (ya que el grafo completo esel mejor compresor) se concibe como un objetivo.

La idea principal para detectar subestructuras inusuales es definir una medidaque está inversamente relacionada con la medida basada en LMD definida paralas mejores subestructuras y subestructuras de rango por esta nueva medida. Delmismo modo, la idea principal para encontrar el subgrafo inusual se define medi-ante una medida que penaliza aquellos subgrafos que contienen pocas subestruc-turas comunes (es decir, las mejores), haciéndolas más anómalas.

Existen métodos que se basan esencialmente en la buscqueda de subgrafos fre-cuentes con atributos categóricos. Por otro lado, la mayoría de los conjuntos dedatos vienen con una combinación de atributos numéricos y categóricos, por ejem-plo, cantidades en dolares en datos de transacciones y numero de solicitudes en losdatos del registro de la red. El tratamiento de cada valor numérico como un atributodistinto pierde información de orden y cercanía. Para abordar este problema existenformas de discretizar los atributos numéricos, donde a la mayoría de valores "nor-males" se les asigna el mismo atributo categórico individual, y a todos los demásvalores se les asigna una puntuación "atípica". Se han estudiado varios mecanis-mos de discretización, por ejemplo, basados en la adaptación de las funciones dedensidad de probabilidad, K-nn, detección de valores atípicos (en particular LOFBreunig). También se incluyen otras técnicas de discretización que podrían aplicarseen este contexto, como SAX, LMD-binning y la discretización de entropía mínima.

Las metodologías mas recientes, siguen una idea diferente para buscar anomalíascon respecto al trabajo anterior. En lugar de centrarse en las subestructuras pocofrecuentes, persiguen aquellas subestructuras que son muy similares, aunque noiguales, a una subestructura normal. Una declaración de la Oficina de las NacionesUnidas contra la Droga y el Delito corrobora esta idea: "Cuanto más exitoso es elaparato de lavado de dinero para imitar los patrones y el comportamiento de lastransacciones legítimas, menor es la probabilidad de que se exponga".


Utilizando la idea de que un intruso haría como mucho un cierto número decambios para mezclarse con las instancias de datos normales y reducir sus posibil-idades de ser detectado de manera evidente,se puede formular tres tipos de casosanómalos basados en modificaciones , inserción y eliminación. Distintas medidasde anomalía se usan tanto en la frecuencia como en el costo de modificación (cuantomás bajo, más anómalo). Observamos que se supone que las anomalías consistenen un solo tipo de anomalía, que es propenso a faltar, por ejemplo, una eliminaciónseguida de una modificación.

Basados en Comunidades

La idea principal aquí apunta a identificar nodos en un gráfico, a menudo llamadosvalores atípicos de la comunidad, cuyos valores de atributo se desvían significativa-mente de los otros miembros de las comunidades específicas a las que pertenecen.Por ejemplo, un fumador en una comunidad de jugadores de baseball, no fumadoreses un ejemplo de atípico en la comunidad. Como tal, las comunidades se analizan enfunción de las similitudes de enlace y atributo de los nodos en los que se encuentran.Mientras que algunos métodos apuntan a detectar valores atípicos simultáneamentecon la detección de las comunidades en el grafo, algunos realizan la detección devalores atípicos como un segundo paso después de realizar la agrupación de grafos.

Existen numerosos enfoques para ello, Gao J (2010) diferencia la detección devalores atípicos de la comunidad basada en grafos de tres problemas estrechamenterelacionados; detección de valores atípicos globales que solo considera atributos denodos, detección de valores atípicos estructurales que solo considera enlaces y de-tección de valores atípicos locales que solo considera valores de atributos de vecinosdirectos. Si bien son interesantes por sí mismos, estos tres tipos de métodos sonpropensos a perder valores atípicos al unísono de estos valores atípicos con respectoa los atributos de otros miembros de la comunidad. Se busca por tanto un modeloprobabilístico unificado que simultáneamente encuentra comunidades y detecta losvalores atípicos de la comunidad. El algoritmo de aprendizaje no supervisado lla-mado CODA alterna entre los dos pasos de estimación de parámetros (asignaciónde clúster fijo) e inferencia para asignaciones de clúster (parámetros fijos). Al igualque con la naturaleza de tales algoritmos de aprendizaje, la buena inicializaciónde los clusters al comienzo es un paso crucial para que el algoritmo alcance unabuena solución. Además, la convergencia del algoritmo no está garantizada. Unaforma que se usa para encontrar una buena inicialización es emplear un algoritmode agrupamiento de grafos para encontrar un clúster de buena calidad de primercorte basado solo en la estructura del enlace, que también ayuda a una convergenciamás rápida.

Muller E (2013) propone una técnica de clasificación de valores atípicos de nodoen grafos atribuidos denominados gOutRank. De forma distinta que el de Gao J(2010), su principal percepción de la detección de valores atípicos en la comunidades el hecho de que las anomalías complejas podrían revelarse solo en un subcon-junto de atributos relevantes (es decir, subespacios). Esto se vuelve más aparente,especialmente en los espacios característicos de alte dimensión debido al encubrim-iento de la dimensionalidad, o hablando en términos generales, todos los objetosparecen ser homogéneos y disimiles en altas dimensiones, o en otras palabras, todaslas distancias entre pares de objetos se ven similares haciendo que todos los objetossean igualmente similares o disimilares según se mire. En este trabajo, también seconsideran cuantificar el grado de desviación para cada nodo atípico qu está masallá de la detección binaria. Como tales, abordan dos desafíos principales asociados


con la detección de valores atípicos en al comunidad en grafos de múltiples atrib-utos, de selección de subgrafos y subespacios, y la puntuación o medida de estosnodos en los múltiples subespacios en los que se encuentran.

Recientemente, Perozzi B (2014) propuso una nueva formulación, llamada Fo-cusCO, para encontrar clústers impulsados por el usuario o valores atípicos de lacomunidad en grafos con atributos de nodo. Dado un conjunto inicial de nodos pro-porcionado por un usuario, el enfoque identifica primero un subconjunto de atrib-utos, es decir, un subespacio de atributos, que los nodos dados acuerdan (llama-dos "atributos de foco") y luego encuentra los conglomerados de nodos densamenteconectados en el grafo que además concuerdan con este espacio de atributo (llamado"clústeres enfocados"). Los atributos de foco se interpretan como propiedades quehacen que los nodos del clúster se activen. En función de estos clústeres centrados,un valor atípico se define como un nodo que pertenece estructuralmente a un clústerpero se desvía de él en atributos de foco. En otras palabras, los nodos que están es-trechamente conectados a muchos otros nodos en un clúster pero que no exhibenatributos de foco similares constituyen los valores atípicos. Los autores desarrol-lan un algoritmo que extrae clusters enfocados y sus respectivos valores atípicossimultáneamente. La detección de valores atípicos en este entorno está principal-mente orientada por la preferencia del usuario y la descripción de valores atípicosse logra a través de los atributos de foco específicos que se violan.

Métodos Basados en Aprendizaje Relacional

La idea principal de esta metodología consiste en algoritmos de clasificación colec-tiva basados en redes y cuya idea principal es explotar las relaciones entre los objetospara asignarlos a clases, donde el número de clases suele ser dos: anómalo y normal.A diferencia de los enfoques basados en la proximidad que pretenden cuantificar lasauto-correlaciones entre los objetos del grafo, estos algoritmos suelen ser más com-plejos y, por tanto, pueden modelar y explotar las correlaciones más complejas entrelos objetos en los grafos.

Existen distintos enfoques para esta metodología, y aquí se hará una distinciónentre los mas importantes. La clasificación es asignar etiquetas de clase o en otraspalabras, etiquetar instancias de datos basadas en sus atributos observados. La de-tección de anomalías se puede formular como un problema de clasificación, cuandose tiene disponible un representante de anomalía en los datos etiquetados. Porejemplo, determinar si una página web es spam o no-spam según las palabras queaparecen en ella y la identificación de páginas web benignas / maliciosas, fraude/ transacciones legítimas, etc. puede considerarse como un problema de clasifi-cación bidireccional. Cuando el tamaño de los datos etiquetados es razonablementegrande, se puede emplear una clasificación totalmente supervisada, donde los datosetiquetados se utilizan para el aprendizaje del modelo. Cuando los datos etique-tados son escasos, pero aún están disponibles, se puede emplear una clasificaciónsemi-supervisada, donde el aprendizaje se realiza al usar simultáneamente datosetiquetados y no etiquetados.

En metodologías estadísticas tradicionales de aprendizaje automático, a menudose presupone que las instancias son i.i.d y, a menudo, los algoritmos de aprendizajeignoran las dependencias entre las instancias de datos. La clasificación relacional,por otro lado, es la tarea de inferir las etiquetas de clase de una red de forma si-multánea o colectiva. La suposición subyacente en la clasificación relacional es quelas relaciones entre los objetos llevan información importante para clasificar estos,como transacciones vinculadas. En muchos casos, existe una correlación automática


simple entre los objetos, donde es probable que los objetos vinculados tengan lasmismas etiquetas (por ejemplo, las transacciones sospechosas enlazan a otras de lamisma clase, y las personas involucradas están vinculadas a otras personas simi-lares). En otros casos, es más complejo, debido a que las correlaciones se puedenexhibir de forma distinta, por ejemplo, los estafadores comercian con personas hon-estas y no con otros estafadores.

Existe una gran cantidad de investigación sobre métodos de clasificación rela-cional. En general, está metodología explota una o más de las siguientes caracterís-ticas:

1. Las etiquetas de clase de sus vecinos

2. Los atributos de nodo (características),

3. Los atributos de los vecinos de un nodo.

Aunque es posible que algunos métodos descritos en esta sección sean utilizablessolo para el primer tipo de información, es decir, etiquetas de clase de nodos, yno necesitan explotar atributos de nodo, la mayoría de los métodos son fácilmentegeneralizables para incorporar información de atributos de nodo, si se quisiera. Porlo tanto, cubrimos estos métodos en esta sección que se atribuyen a la detección deanomalías en los grafos con múltiples atributos, y destacamos que algunos métodostambién se aplican a los grafos simples.

Los métodos de clasificación relacional se pueden categorizar en métodos localesy globales. Los algoritmos locales crean modelos predictivos locales para la clase deun nodo en la red y utilizan procedimientos de inferencia a menudo iterativos paraclasificar colectivamente los objetos no etiquetados. El segundo grupo de algorit-mos define una formulación global de dependencias de clase y utiliza algoritmos deinferencia para resolver las asignaciones que maximizarían la distribución de prob-abilidad conjunta.

Las técnicas para los métodos locales pueden diferir tanto en los modelos localescomo en los métodos de inferencia que utilizan. D (2007) usa modelos Naive Bayespara los atributos locales del objeto y las etiquetas de clase de los objetos vecinos.Luego usa el etiquetado de relajación de campo medio para la inferencia. Tambiénse puede usar un modelo de Naive Bayes para los atributos, y un algoritmo de clasi-ficación iterativo para la inferencia. En trabajos posteriores, investigan el uso deredes de dependencia relacional (RDN) y el algoritmo de inferencia se basa en elmuestreo de Gibbs.También se puede usar la regresión logística como modelo localy un algoritmo de clasificación iterativo para la inferencia, varias formas de agre-gación pueden usarse para las etiquetas de clase de los objetos relacionados. Pararedes escasamente etiquetadas, Gallagher B (2008) proponen formas de inferir lasaristas "fantasmas" en función de la cercanía del grafo para mejorar el rendimientode la clasificación.

33

Chapter 5

Aplicación

5.1 Datasets

Como ya se mencionó anteriormente, existe una enorme escasez de datos públicosdisponibles sobre servicios financieros y especialmente en el emergente y confiden-cial dominio de transacciones de dinero móvil. Los conjuntos de datos financierosson importantes para muchos investigadores y, en particular, para aquellos dis-puestos a realizar operaciones de machine learning y mas en concreto en nuestrocaso, para investigaciones en el ámbito de la detección de fraudes. Parte del prob-lema es la naturaleza intrínsecamente privada de las transacciones financieras, quehace que estos conjuntos de datos sean lo mas confidencial posible, y por tanto noaptos a públicos no autorizados y con animo quizás de una exposición posterior.

Es por ello que este capitulo se utiliza un conjunto de naturaleza sintética, ybasado en transacciones del mundo real y el cual está creado para este mismo obje-tivo. A continuación se describe en mas detalle este dataset.

5.1.1 BankSim

Contexto

BankSim es un simulador de pagos bancarios basado en agentes, es decir simula alas propias transacciones de las distintas entidades que la utilizan mediante algorit-mos que son capaces de asemejarse a este comportamiento. Este usa una muestra dedatos transaccionales agregados, proporcionados por un banco en España. El obje-tivo principal de BankSim es la generación de datos sintéticos que se puedan utilizarpara la investigación de detección de fraude, por lo tanto este es ideal para nuestrocaso. El análisis estadístico y de redes sociales (SNA) de las relaciones entre com-erciantes y clientes se utilizó para desarrollar y calibrar este modelo. Banksim portanto estará dividido en dos datasets, el primero, el propio banksim que es dondese encuentran las características de todas las transacciones realizadas y sus atribu-tos, el segundo, la red de conexiones y pesos entre conexiones de transacciones quellamamos Net. En esta se encuentra grafo representativo embebido en un datasetel cual contiene las lista de nodos donde se realizan las transacciones de origen consu correspondientes destinos y los pesos para cada enlace en la red. Los conjuntosde datos generados por BankSim no contienen información personal ni revelaciónde transacciones de clientes legales y privadas ya que es un dataset sintético, porlo tanto, puede ser compartida por el mundo académico, y otros, para desarrollar yrazonar acerca de los métodos de detección de fraude. Los datos sintéticos tienenel beneficio adicional de ser más fáciles de adquirir, más rápidos y menos costosos,para la experimentación incluso para aquellos que tienen acceso a sus propios datos.

34 Chapter 5. Aplicación

BankSim genera datos que aproximan de forma útil los aspectos relevantes de losdatos reales.

Descripción

Los datos aquí generados, han sido ejecutados con la aplicación BankSim medianteuna serie de reglas durante aproximadamente seis meses y calibrados los parámet-ros para obtener una distribución lo suficientemente cercana como para ser confi-able para las pruebas que se pretendan realizar con este. Se han recolectado variosarchivos de registro y seleccionamos los más precisos. Se inyectan posteriormenteladrones que intentan robar un promedio de tres tarjetas por paso y realizan aproxi-madamente dos transacciones fraudulentas por día. Se producen 594643 registros entotal. Donde 587443 son pagos normales y 7200 transacciones fraudulentas. Comose trata de una simulación alegorizada, los valores, por supuesto, no son idénticos alos datos originales.

FIGURE 5.1: Fragmento del dataset BankSim

Por otro lado se encuentra la red Net. Esta contiene exactamente la misma can-tidad de pagos que el dataset anterior y en esta solo existe el peso de cada pagorealizado y el tipo de pago que se realiza. Esta red representa la estructura suby-acente al dataset, y aporta información adicional relevante que puede ser de sumaimportancia en la predicción final de fraude.

FIGURE 5.2: Fragmento del dataset Net

5.2 Exploración de los Datos

5.2.1 Descripción

Lo primero antes de comenzar con la ejecución de código pertinente para la de-tección y predicción de anomalías será un profiling de los datos adquiridos. Esteresumen de los datos a tratar se realizará mediante una librería llamada Pandas Pro-filing la cual genera un HTML resumiendo detalladamente el contenido del datasety mostrando una extensa documentación del mismo, en este apartado se mostraráuna sección de la misma.

Para cada columna, las siguientes estadísticas serán adquiridas, si estas son rele-vantes para el tipo de columna, se presentan en un informe HTML interactivo comoes nuestro caso:

5.2. Exploración de los Datos 35

• Elementos esenciales: tipo, valores únicos, valores perdidos

• Estadísticas cuantiles como valor mínimo, Q1, mediana, Q3, máximo, rango,rango intercuartil

• Estadísticas descriptivas como media, modo, desviación estándar, suma, desviaciónmedia absoluta, coeficiente de variación, curtosis, asimetría

• Valores más frecuentes

• Histograma

• Correlaciones resaltadas de variables altamente correlacionadas, matrices deSpearman y Pearson

5.2.2 Profile BankSim

visión de conjunto

En esta primera estadística se muestra la información resumida de los datos, en ellase incluyen datos como la cantidad de variables, el tipo de variables, el número deobservaciones, etc.

FIGURE 5.3: visión de conjunto

Variables


Correlación

FIGURE 5.4: Cor-relación Pearson

FIGURE 5.5: Cor-relación Spearman

5.2. Exploración de los Datos 37

5.2.3 Net

visión de conjunto

FIGURE 5.6: visión de conjunto

Variables


Correlación

FIGURE 5.7: ICor-relación Pearson

FIGURE 5.8: Cor-relación Spearman

5.3 Limpieza da Datos

La limpieza de datos es el proceso de detectar y corregir (o eliminar) registros cor-ruptos o imprecisos de un conjunto de registros, tablas o bases de datos. Este se tratade identificar partes incompletas, incorrectas, inexactas o irrelevantes de los datos yluego reemplazar, modificar, o borrar los datos sucios o bastos. Aún así, los conjun-tos obtenidos al ser de naturaleza sintética se muestran bastante limpios casi en sutotalidad, no obstante siguen existiendo mejoras que se puede llevar a cabo.

Para ello lo primero que se debe de comprobar es la existencia de valores nulos,los cuales no podemos inyectar en algunos de los modelos creados en esta seccióny en los que por tanto, será necesario una modificación. Esta modificación se puederealizar de varias maneras, una de ellas, la cual utilizaremos en esta aplicación, es lade detectar mediante métodos de regresión logística cual es el valor que mas mini-miza el coste para los valores de las columnas adyacentes en el propio dataset y asíinyectar el valor mas semejante posible. También se puede optar por la sustituciónmediante alguna medida estadística o la directa eliminación en casos mas conser-vadores.

5.4. visualización de los Datos 39

FIGURE 5.9: Fragmento del dataset BankSim, codificado y tratado

Después de haber realizado el tratamiento de nulos, será necesario una reduc-ción de concatenalidad. Algunos de los modelos utilizados posteriormente en laaplicación son capaces de tratar con clases dentro del mismo conjunto, capaces deutilizar estas como información adicional para la realización de la predicción. Sinembargo estos algoritmos no son capaces de distinguir cuantas son las clases quequeremos tratar, por tanto esto deberá de estar predefinido con anterioridad. Enclases como por ejemplo, ID del origen de la transacción o destino, a pesar de serútiles para el estudio del grafo del mismo, imponen un inconveniente para los algo-ritmos a tratar debido a su alta concatenalidad y por tanto deberán de ser eliminadospara estos casos.

Por último, una normalización y codificación también serán de gran utilidadpara ponerle la guinda al pastel del dataset y poder estar completamente a puntopara una directa inyección al modelo. La codificación dependerá del dataset y desus características a tratar. Lo habitualmente recomendable es utilizar una codifi-cación One-Hot o Dummies para columnas donde la concatenalidad no superase las5 clases. La codificación One Hot es soportada por prácticamente cualquier modelo,y produce un rendimiento normalmente superior a todas las demás, y por tanto estaes la que en principio se llevará a cabo en nuestro modelo.

5.4 visualización de los Datos

En esta sección se realizará una visualización escueta de los datos obtenidos. La vi-sualización de los datos forma una parte muy importante en el estudio de un dataset,ya que si uno mismo es capaz de inferir patrones en el conjunto mediante una merainspección, es altamente probable que un buen modelo también sea capaz de lo-grarlo. La mejor manera de confirmar que los datos contienen suficiente informa-ción para que un algoritmo de ML pueda hacer predicciones sólidas, es tratar devisualizar directamente las diferencias entre transacciones genuinas y fraudulentas.Es por ello que en los siguientes apartados veremos una visualización plena de losdatos.

5.4.1 Banksim

Comenzaremos por un estudio visual del dataset banksim. Un conjunto normal-mente se componen de múltiples atributos, esto por tanto amplia la dimensional-idad del dataset y hace que una visión global del conjunto no sea posible. Es portanto que una de las maneras de resolver esto es centrándonos en las un conjunto de


variables que en principio puedan ser mas relevantes en la inferencia visual de losdatos. Para ello se han utilizado las variables que a mi parecer son mas relevantes enel conjunto y que por tanto pueden llevar a una mejor interpretación del resultado.

Las susodichas variables del conjunto mas importantes serán por tanto:

• step: el tiempo en el que se realiza la transferencia

• amount: cantidad de esta transferencia realizada

• category: categoría a la que pertenece esta transferencia realizada

Estas tres variables formarán parte de todo el estudio visual del conjunto.

Scatter Plots

Comenzaremos con un scatter plot del conjunto incluyendo por tanto estas tres vari-ables para servir de guía inicial.

FIGURE 5.10: Plot 3D, amount, step, Category

En esta representación mediante un scatter 3D de los datos (Figura 5.10), puedenotarse una sutil diferencia o separación entre las instancias fraudulentas y las queno los son. Aunque no del todo definido, podría decirse que esta separación puedeservir como límite inicial del algoritmo de donde partir, como barrera inciál y la cualserviría para como reducción de tiempo de entrenamiento.

Veamos también que ocurre cuando se le añade la variable de edad al conjuntoo incluimos también la categoría, aun siempre manteniendo la variable cantidad oamount en el conjunto.


FIGURE 5.11: Plot3D, amount, step,

ageFIGURE 5.12: Plot

3D, amount, step

Vemos en las Figuras 5.10 y 5.11, que en comparación al caso anterior existe unaclara diferenciación en cuanto a la variable cantidad a la hora de determinar la clasifi-cación fraudulenta del conjunto. Esto da a indicar, como es de esterar, que la variableamount será la mas relevante a la hora de realizar el modelo. El tiempo en el quese realiza la operación determina una mayor claridad en la diferenciación de la case,por lo que esta también constituirá un pilar principal en el estudio.

FIGURE 5.13: Plot 2D, amount, category

En el scatter plot 2D de la Figura 5.13 se compara la dispersión entre la cantidadtransferida y la categoría en la que se encuentra según si es o no fraudulento. Puedeobservarse como en el grupo fraudulento el abarcamiento del conjunto es superior


incluso este siendo una mínima proporción del mismo. Esto puede significar la ob-tención de un comportamiento interno dentro de las personas fraudulentas, y queservirá como facilidad de predicción del algoritmo.

Usando una técnica de reducción de dimensionalidad mediante una librería dePython, podemos reducir las dimensiones de los datos hasta crear un gráfico 2D. Elobjetivo aquí es crear una intuición de lo que podría estar pasando en el conjunto deldataset. Si los casos positivos no están demasiado separados de los casos normaleslos métodos de detección de anomalías basados en la distancia podrían no funcionartan bien como otras técnicas en este conjunto de datos. Veamos pues si esto es cierto.

FIGURE 5.14: Reducción de Dimensión

En la Figura 5.14 puede apreciarse como existe un conjunto principal represen-tando todo el dataset, en este puede observarse que la mayoría de las instanciasfraudulentas parecen pertenecer a un cúmulo concreto en la dispersión que se en-cuentra apreciativamente separado de la nube de puntos. Esto son buenas noticias,ya qe siempre que a simple vista se puede inferir que hay una sutil pero no por ellomenos significativa del conjunto, esto puede significar una mayor precisión en el al-goritmo, ya que aumenta la facilidad de clasificación.

Nueva correlación

Ya se llevó a cabo un estudio correlativo en la parte de profiling en la sección anterior,sin embargo el truncado y retoque de las variables realizado por limpieza normal-ización y visualización no queda reflejado en este, quedando por tanto finalmente(Figura 5.15):


FIGURE 5.15: Nueva Correlación

5.4.2 Net

Como ya hemos visto antes, el data set banksim está compuesto por dos conjuntos,uno que representa la actitud de las transacciones de cada individuo que es el propiobanksim y otro que representa la estructura de grafo sobre este conjunto, ligandoa cada nodo origen con su nodo destino y proporcionando un valor del peso deesa interacción. En este apartado intentaremos mostrar una representación lo masrepresentante posible del dataset en si.

Grafo

Empecemos con un simple trazado del conjunto del grafo, mediante sus nodos yconexiones directas.


FIGURE 5.16: Grafo

Vemos en la Figura 5.16 que a pesar de la curiosa estructura del conjunto es-tos aparecen como apelotonados en la zona central. La información que aporta lavisualización del grafo no es muy grande, aun así, dentro de ese cluster principal,puede distinguirse una sutil separación entre algunos de los nodos pertenecientes almismo, lo cual puede significar un comportamiento que difiere o se aleja del normaly puede llegar a poder distinguirse como malicioso.

Node2vec

Existe una técnica en el mudo de los grafos que permite la transformación del mismoen vectores. Existen numerosos algoritmos que permiten aprender representacionesde baja dimensión para los nodos en un grafo y optimizar un objetivo de preser-vación de vecindario. El objetivo puede ser flexible, y el algoritmo se adapta avarias definiciones de vecindarios de red simulando paseos aleatorios dentro delpropio grafo. Concretamente, proporciona una forma de equilibrar el intercambiode exploración-explotación que a su vez conduce a representaciones que obedecena un espectro de equivalencias desde la homofilia hasta la equivalencia estructural.Métodos como Node2Vec, librería de Python utilizada para la representación de estemismo grafo en forma de vector para que mediante otra técnica posterior de re-ducción de dimensionalidad seamos capaces de representar este grafo en un simplescatter plot 3D.

5.5. Algoritmos 45

FIGURE 5.17: Reduc-ción de dimensión

2DFIGURE 5.18: Reduc-ción de dimensión

3D

A pesar de la reducida información que puede mostrar la reducción de estedataset (Figuras 5.17, 5.18), puede apreciarse como los individuos fraudulentos apare-cen a la periferia del conjunto y por tanto se puede llegar a presuponer un indicio deoutlier dentro de estos individuos.

5.5 Algoritmos

Tras haber realizado todo el proceso de profiling, limpieza y visualización de datos,estamos preparados para implementar nuestro modelo predictivo. En esta secciónse realizará un recorrido por algunos de los algoritmos mas incidentes vistos enel estado del arte, realizando una comparativa posterior así como un proceso dedocumentación y conclusión de los resultados obtenidos.

En el modelo realizado, se le impondrán una lista de parámetros correspondi-entes para cada algoritmo y se obtendrá dentro de estos, el modelo con mayor pun-tuación en las métricas de predicción según el criterio del área bajo la curva de ROC,área bajo la curva de precision-recall o un promedio entre las dos. El modelo es ca-paz de trazar los resultados según que tipo de criterio se impone como prioritario yguarda las variables y modelos de entrenamiento en un documento separado.

(El documento ha sido realizado principalmente en jupyter notebook, un frame-work de Python que permite ejecutar código secuencial mente sin necesidad de re-compilar todo el script)

5.5.1 BankSim

KNN

Comencemos pues con el algoritmo de k-nearest-neighbors, este algoritmo es muypotente y uno de los mas sencillos de implementar. Este por tanto tendrá un bajotiempo de entrenamiento y de predicción, medidas que se comparan mas a delantecon otros algoritmos visto en esta sección.

Para el algoritmo de KNN, se ejecutará una comparativa imponiendole al mod-elo un array con distintos números de vecinos, comenzando por 2 e incrementadoiterativamente hasta llegar a 20 vecinos.


FIGURE 5.19: Resultados de KNN

Se puede observar en la Figura 5.19, que existe una variación en casi todas lasmedidas de predicción, en los resultados de la precisión y en los verdaderos posi-tivos. Puede notarse un ligero pico en la zona de la mediana donde las métricas derecall áreas bajo las curvas de ROC y PR ascienden ligeramente.

Las gráficas muestran una tendencia alcista desde el inicio hasta la mediana,descendiendo con el incremento de vecinos a partir de ese momento.

FIGURE 5.20: Tiempos de KNN

El numero de vecinos optimo para un promedio de área bajo la curva de ROVy PR es de 7 vecinos. Con este valor la precisión es de 99,43%. Vemos tambiénque el tiempo de entrenamiento para un determinado numero de vecinos asciendelinealmente en relación a k, y que el tiempo de predicción permanece constante apesar de este hecho (Figura 5.20).

KMeans

Para el algoritmo de KMeans, puesto que es una situación muy similar a la del casoanterior plotearemos directamente la gráfica, y los resultados del n_clusters mas op-timo para el algoritmo.

5.5. Algoritmos 47

FIGURE 5.21: Resultados KMeans

Puede observarse que la calidad del algoritmo es muy similar en todos los tramos,de hecho, es tan parecida que para conseguir una imagen como la aquí mostrada enla Figura 5.21 se ha tenido que empezar a contar a partir del segundo decimal.

FIGURE 5.22: Tiempos de KMeans

Aun así se denota una sutil mejora al comienzo del algoritmo con tan solo 3 clus-ters que con respecto al resto del resultado. Es por ello que se decide implementareste como parámetro mas optimo, siendo no solo unos de los mas simples dentro delpropio algoritmo, sino es que menos coste computacional requiere y por ello menortiempo. Si observamos la gráfica de tiempos (Figura 5.22), se puede inferir que eltiempo de entrenamiento asciende de forma exponencial con el numero de clusters.

Resultados:


FIGURE 5.23: IMa-triz de confución K-

means FIGURE 5.24: Curvade ROC

K-Means Confusion Matrixtn = 167469 fp = 8808fn = 2004 tp = 112ScoresAccuracy –> 0.9393922407269344Precison –> 0.012556053811659192Recall –> 0.052930056710775046F1 –> 0.02029720913374411

Time Taken : 141.8880808353424seconds

Local Outlier Factor (LOF)

Breve introducción del algoritmo: LOF se basa en un concepto de densidad local,donde la localidad está definida por k vecinos más cercanos, cuya distancia se usapara estimar la densidad. Al comparar la densidad local de un objeto con las den-sidades locales de sus vecinos, se pueden identificar regiones de densidad similary puntos que tienen una densidad sustancialmente menor que sus vecinos. Estosse consideran valores atípicos. La densidad local se estima por la distancia típica ala que se puede "llegar" a un punto desde sus vecinos. La definición de "distanciade alcance" utilizada en LOF es una medida adicional para producir resultados másestables dentro de los clusters.

Similar al caso de KNN, con este algoritmo se llevará a cabo un proceso iterativovariando el numero de vecinos en la función de LOF.

FIGURE 5.25: Resultados del LOF

5.5. Algoritmos 49

Se puede ver una variación en las medidas de la métricas de predicción alcan-zando un pico en la zona media (Figura 5.25). Para asegurarnos de determinar elpatrón que sigue y elegir el numero de vecinos mas optimo, trazamos las figurasde las medidas determinadas y obtenemos la del promedio AUCs mas optimo, te-niendo en cuenta como se dijo antes las métricas principales de ROC y PR. Al ser tanpoca la diferencia entre estas, la medida se tomar según la diferencia de la menorcantidad en todos los casos, para así obtener una pendiente mas pronunciada en lasgráficas.

FIGURE 5.26: Tiempos del LOF

El algoritmo Local Oulier Factor también sigue una tendencia similar al del KMeans,comenzando con valores modestos, ascendiendo hasta llegar a un pico máximo, ennuestro caso de 10 vecinos, y volviendo a descender según se van aumentando losvecinos a partir de ese punto.

Es por tanto que elegiremos en nuestro caso el resultado que ofrece la parametrizaciónde 10 vecinos, teniendo esta una precisión del 94% y un recall de 93%, valores alta-mente satisfactorios para la determinación de instancias fraudulentas. El tiempo deentrenamiento asciende también al igual que en KNN, linealmente con respecto alnumero de vecinos elegido.

One Class SVM

En esta sección se llevará a cabo la ejecución del algoritmo One Class Suport VectorMachine para distintos ajustes de kernels dentro de su función, siendo estos: lineal,polinomico, RBF y sigmoid. Para ellos, como en los casos anteriores se produciránlas distintas medidas obtenidas de la matriz de confusión.

FIGURE 5.27: Resultados del OCSVM


En la Figura 5.27 se ven las gráficas de comparación de medidas de la matrizde confusión, como se puede observar, el método sigmoig supera en rendimientoen acuracy a todos los demás, en cambio, este tienen un rendimiento pésimo enlas demás métricas, lo cual quiere decir que sacrifica todas las demás métricas paraobtener una precisión mas elevada.

Puede verse que por lo general OCSVM es un algoritmo bastante pobre en cuantoa rendimiento. Las métricas obtenidas son las peores obtenidas hasta ahora. Ningúnmodelo adquiere una precisión razonable, estando todas muy cerca del 50%, exceptoel modelo con kernel sigmoid, que adquiere una precisión del 98% pero a costa deun ratio de falsos negativos enorme denotada por el área bajo la curva PR, estandoeste cerca del nulo.

FIGURE 5.28: Tiempos del OCSVM

En la gráfica de tiempos (Figura 5.28), se puede observar que los tiempos deentrenamiento son bastante elevados, sobre todo en ejercicios como el llevado a cabopor el kernel rbf el cual destaca significativamente ante los demás. A pesar del largoperiodo de entrenamiento, este algoritmo es el peor obtenido hasta el momento ypor lo tanto no se debería de tener en cuenta en el calculo de predicción del modelo.

Isolation Forest

Como breve resumen de como funciona dicho algoritmo: el algoritmo de Isola-tion Forest aísla las observaciones seleccionando aleatoriamente una característicay luego seleccionando aleatoriamente un valor dividido entre los valores máximo ymínimo de la característica seleccionada. El argumento de la lógica es la siguiente:al estar mas "separado" del resto, el aislamiento de las observaciones de anoma-lías será por tanto más fácil porque solo se necesitan unas pocas condiciones paraseparar esos casos de las observaciones normales. Por otro lado, el aislamiento deobservaciones normales requiere más condiciones, por lo que una puntuación deanomalía puede calcularse como el número de condiciones requeridas para separaruna observación dada.

La forma en que el algoritmo construye la separación es creando primero árbolesde aislamiento o árboles de decisión aleatorios. Luego, el score se calcula como lalongitud del camino para aislar la observación. En este primer apartado vamos acomprobar la veracidad de esta afirmación, haciendo un calculo de la longitud delos tramos a recorrer para cada variable y viendo si para las variables consideradascomo anomalas se cumple esta condición. Para ello, se crea una seria de arboles

5.5. Algoritmos 51

aleatorios y ejecutamos el algoritmo en un sample del dataset y obtenemos la longi-tud de estos pasadizos asta la definición de la clase.

FIGURE 5.29: Histogramas de caminos en el árbol de decisión

En la Figura 5.29 superior se muestra las distancias de estos caminos hasta laclasificación, dividiendo entre variables fraudulentas y las que no lo son. A priorino parece notarse una diferencia muy significativa entre los recorridos de las vari-ables fraudulentas y las que no. Esto puede deberse a una elección puntual delsample del conjunto (que se calcula de forma aleatoria). Si este no fuera el caso, estopodría suponer una dificultad añadida al algoritmo para encontrar estas instanciasmaliciosas, restringiendo el rango de diferencia en los que las variables fraudulentasy aleatorias se encuentran y por tanto, haciendo la clasificación mas dificultosa.

Este algoritmo, implementado a través de la librería sklean, lo parametrizamospara incluir 100 estimadores, un nivel de contaminación del 0.01 y la alternativa debootstrap impuesta a False. La matiz de confusión obtenida es la siguiente.

FIGURE 5.30: Matrizde confusión de re-sultados del Isolation

Forest

FIGURE 5.31: Curvade ROC del Isolation

Forest

El resultado final del algoritmo obtiene una precisión del 88,57%, esto no estámal, teniendo en cuenta la proporción tan escueta de instancias fraudulentas y ladificultad del ejercicio resultado bastante satisfactorio. Aun así, también hay quefijarse en el valor de PR, puede verse en la matriz de confusión mostrada que existeun alto nivel de falsos positivos clasificados, esto supondrá un problema a la hora de


inspeccionar estos elementos señalados dado que si el coste de inspección de un in-dividuo es alto, eso puede conducir a elevadas implicaciones monetarias. IsolationForest, sin embargo no produce una clasificación totalitaria, si no que es probabilís-tico, por tanto será necesario ordenar estos sujetos para tener en cuenta estos conmayores probabilidades de fraude primero.

Restricted Boltzmann Machine (RBM)

En esta sección se ha llevado a cabo el proceso de ejecución de un RBM. RBM esuna red neuronal artificial estocástica generativa. En este caso utilizamos el RBMde forma supervisada para lograr el proceso de clasificación de fraude. Para ello, seha creado un split del dataset para entrenamiento y testeo de 80% y 20% respectiva-mente. Para este modelo se itera sucesivamente con distintos indices de aprendizajehasta encontrar el que mejor resultado muestra en el algoritmo.

FIGURE 5.32: Resultados del RBM

Los indices de aprendizaje que no se encuentran son por fallo de costes de in-finito, y que por tanto no son validos para nuestro modelo, estos a su vez no apare-cerán en el resultado final ya que el modelo solo guarda los indices aprendizaje sat-isfactorios. El indice optimo para la curva de ROC y PR es de 0.005 y un tamañode lote de 10000 instancias con 200 épocas de iteración hasta finalizar el proceso deaprendizaje.

FIGURE 5.33: Costecon Learning Rate 1


5.5. Algoritmos 53



En las Figuras 5.33, 5.34, 5.35 y 5.36, puede verse como se muestra la métrica decoste de validación en el proceso de iteración de las muestras de cada época de 10000instancias cada lote, según los distintos valores del indice de aprendizaje. Se puedeobservar como en todos lo ejemplos existe un periodo inicial donde el coste per-manece cuasi constante para mas tarde descender hasta de nuevo llegar a un peridode estancamiento. Dependiendo del indice de aprendizaje esta pendiente se obtieneen distintos puntos de la iteración. Con animo de optimizar, y dependiendo de laprecisión requerida y la importancia del tiempo, este proceso podría ser detenido enel momento de fiscalización de la pendiente, para un tiempo de entrenamiento masreducido y un resultado optimo para cada ejemplo.

FIGURE 5.37: Curva de ROC de RBM para el mejor resultado de LR

En esta imagen (Figura 5.37) de la curva de ROC para el caso mas optimo cal-culado, se define un rendimiento bastante satisfactorio, pudiendo ser este el mejorresultado obtenido hasta el momento. Si es verdad que este resultado no ha sido obrade la red neuronal en sí, si no que ha requerido un largo proceso de entrenamientoy estudio de parámetros para obtener el resultado mas optimo. Por lo tanto, si, escierto que el algoritmo es enormemente eficiente, pero no es genérico per se, es de-cir, se encuentra optimizado para este dataset en concreto y por lo tanto esto va adeterminar un sobre ajuste en el mismo y por lo tanto no puede suponer un ejemplogenérico de caso de detección de fraude. No obstante, el objetivo de esta aplicaciónes que estos parámetros se calculen automáticamente según dicho dataset, este es unalgoritmo de fácil parametrización a pesar del largo coste de entrenamiento, y portanto puede verse definido en cualquier otro ejemplo y dar resultados muy potentes.


FIGURE 5.38: Curva de Precision-recall para el mejor lr del RBM

Autoencoder

Con el autoencoder se lleva a cabo el mismo proceso iterativo que en el del rbm hastaobtener el indice de aprendizaje mas optimo.

FIGURE 5.39: Resultados del Autoencoder

Con animo de indagar en las diferencias obtenidas de las medidas de AUC enROC y PR, en estos resultados se empieza a contar desde el segundo decimal. Losresultados muestran un pido en la medida de área bajo ROC en 0.05 siendo su PRmedio en este punto y por tanto este es el de máximo promedio entre las dos.

5.5. Algoritmos 55

FIGURE 5.40: Coste por cada iteracion en el mejor resultado de LR enel Autoencoder

Para esta medida de indice de 0.005 se observa como, a diferencia de la red neu-ronal, el coste secuencial en este algoritmo tiene un descenso brusco al comienzo delmismo para después verse estabilizado permanentemente hasta finalizar la ejecu-ción, del mismo modo, este algoritmo puede ser optimizado una vez llegado a esepunto de no cambio, como siempre teniendo en cuenta la estimación que se requierede tiempo y precisión del mismo.

FIGURE 5.41: Area bajo la curba de ROC por cada iteración en elmejor resultado de lr en Autoencoder

En la Figura 5.41 se muestra el comportamiento que tiene la medida de AUCdado las iteraciones en el algoritmo. Este comportamiento es un tanto inusual.Puede apreciarse como inicialmente este empieza ascendiendo hasta llegas a unpunto de inflexión donde vuelve a descender para después acabar de subir y man-tenerse estable hasta el periodo de finalización del algoritmo.

No obstante y a pesar de este confuso comportamiento, el algoritmo muestramuy buenos resultados siendo este uno de los mejores sino el mejor implementadohasta ahora. Hay que decir que a pesar de su gran rendimiento este es una algoritmobastante inconsistente, y a cualquier cambio mínimo en parámetros o tamaño dellote podría significar grandes cambios en el resultado final.


FIGURE 5.42: Curvade ROC del Autoen-coder su mejor resul-

tado

FIGURE 5.43: Curvade Precision-Recallen el mejor resultado

del Autoencoder

En la Figura 5.44 se muestra para aquellos casos que realmente no son fraudulen-tos el histograma de puntuación fraudulenta del algoritmo. Puede verse claramenteque esta es extremadamente baja, lo cual es de esperar y satisfactorio en cuanto a lapredicción.

FIGURE 5.44: His-tograma de puntua-ciones para instan-cias no fraudulentas

FIGURE 5.45: His-tograma de puntua-ciones para instan-

cias fraudulentas

En el caso opuesto, es decir para los casos realmente fraudulentos, puede verseque aunque existe aun un pico de puntuación baja, en promedio esta puntuación esmas elevada que en el caso de no fraudulento.

Comparación general de todos los modelos anteriores

Una vez realizado todo el proceso de ejecución de los distintos algoritmos, iterandosus parámetros mas relevantes y obteniendo la forma mas optima de los mismos,estamos preparados para llevar a cabo la lucha.

En esta sección se calcula el área bajo la curva de ROC como métrica comparativade los algoritmos vistos hasta el momento, también se incluirá el tiempo empleadode entrenamiento y predicción de todos los mencionados. Todo ello se hará en laforma mas optima del algoritmo calculada anteriormente para así obtener una in-tuición general del rendimiento de cada algoritmo y dejar a criterio de usuario la

5.5. Algoritmos 57

elección del mismo para que en un futuro, esto pueda servir de ayuda a la elecciónmas optima de detección del fraude.

Los algoritmos utilizados en la comparación serán los siguientes y sus respec-tivos parámetros:

• KNN: 7 numero de vecinos

• KMeans: con 3 clusters y algoritmo en segundo plano kd tree.

• LOF: con 10 vecinos mas cercanos y métrica de minkowski

• OCSVM: sigmoid kernel

• Isolation forest: con 100 estimadores y contaminación de 0,1

• RBM: con indice de aprendizaje de 0.005, un lote de 10000 y 200 épocas

• Autoencoder: con un indice de aprendizaje 0.005 con 200 épocas, y un tamañode lote 100000.

FIGURE 5.46: Comparación de áreas bajo las curvas ROC y PR entodos los algoritmos

En la Figura 5.46 puede verse una comparativa de las medidas del rendimientode área bajo la curva de ROC y PR. PR considera tanto la precisión como el recall dela prueba para calcular la puntuación. Como bien puede observarse hay tres algorit-mos que destacan sobre los demás, estos son KNN, RBM y Autoencoder. IsolationForest, a pesar de tener un muy alto rendimiento en cuanto al area bajo la curva deROC, este no es el caso para PR, lo que quiere decir que toda esa precisión obtenidaes debido a un alto porcentaje de falsos positivos que no se puede permitir. Encuanto a los otros tres, las medidas de PR para estos no es la mas deseada, aunqueteniendo en cuenta la complicación del objetivo y el escaso porcentaje de instan-cias fraudulentas de las que RBM y otros algoritmos tiene oportunidad de aprender,este resultado no esta nada mal. En la sección siguiente veremos esta misma com-paración para un dataset balanceado, y por tanto con una mayor oportunidad deaprendizaje en instancias fraudulentas.


FIGURE 5.47: Comparación de tiempos de entrenamiento y predic-ción para todos los algoritmos

En cuanto al tiempo, KNN y Autoencoder son los claros vencedores. El tiempode entrenamiento y predicción en ambos es muy satisfactorio y teniendo en cuentasus métricas de rendimiento, podría decirse que cualquiera de los dos son los esen-ciales en este caso para la predicción del fraude, decantandome incluso por KNN yaque todas sus métricas son buenas y siendo un algoritmo tan simple con tan buenosresultados supone una gran ventaja en este caso. Por otro lado, puede verse que al-goritmos como OCSVM o LOF a pesar de su alto estima en la literatura, no han sidode gran ayuda en este ejemplo y por tanto quedan totalmente fuera de alcance y sinmas repercusión en el ejercicio. RBM, a pesar de su alto rendimiento posee un peri-odo de entrenamiento que supera incluso a la suma de todos los algoritmos anteri-ores a la vez, en este caso, se deberá de hacer un balance entre coste de computacióny rendimiento del algoritmo y estimar si este es adecuado para la predicción.

5.5.2 BankSim Balanceado

Uno de los mayores escollos de los conjuntos des-balanceados es la enorme cantidadde datos y su distribución. Las transacciones fraudulentas son significativamentemás bajas que las transacciones sanas o normales, es decir, en nuestro caso 587443instancias pertenecen a pagos normales y 7200 transacciones son fraudulentos, estorepresenta aproximadamente el 1-2% del número total de observaciones. La tarea esmejorar la identificación de la rara clase minoritaria en lugar de lograr una mayorprecisión general.

Los algoritmos de Machine Learning tienden a producir clasificadores insatis-factorios cuando se enfrentan a conjuntos de datos desequilibrados. Para cualquierconjunto de datos desequilibrado, si el evento que se va a pronosticar pertenece a laclase minoritaria y la tasa de eventos es inferior al 5%, generalmente se lo denominaevento raro o outlier.

Los métodos de evaluación de modelos convencionales no miden con precisiónel rendimiento del modelo cuando se enfrentan a conjuntos de datos desequilibra-dos.

Los algoritmos clasificadores estándar como RBM, KNN y Autoencoder tienenun sesgo hacia las clases que tienen número de instancias. Tienden a predecir sololos datos de la clase de la mayoría. Las características de la clase minoritaria se tratancomo ruido y, a menudo, se ignoran. Por lo tanto, existe una alta probabilidad declasificación errónea de la clase minoritaria en comparación con la clase mayoritaria.

La evaluación de un rendimiento del algoritmo de clasificación se mide mediantela Matriz de Confusión que contiene información sobre la clase real y la predicha. Sin

5.5. Algoritmos 59

embargo, mientras se trabaja en un dominio desequilibrado, la precisión no es unamedida adecuada para evaluar el rendimiento del modelo. Por ejemplo, un clasifi-cador que alcanza una precisión del 98% con una tasa de eventos del 2% no es exacto,si clasifica todas las instancias como la clase mayoritaria. Y elimina las observacionesde clase minoritaria al 2% como ruido. En este caso por tanto, la precisión tiene encuenta principalmente los casos que ha detectado como no fraudulentos y realmenteno lo son, y por tanto esta sesgado en cuanto al comportamiento de predicción realdado que la falta de precisión de verdaderos positivos es tan desproporcional al con-junto en si que prácticamente no se tiene en cuenta.

Es por tanto que en esta sección se llevará a cabo la misma comparación queanteriormente pero partiendo de un dataset en el cual la proporción de casos fraud-ulentos forme parte de un 20% de los datos totales del conjunto.

Comparación general con BankSim equilibrado

FIGURE 5.48: Comparación de áreas bajo la curva de ROC y PR paralos datos equilibrados

La Figura 5.48 muestra el crecimiento en el rendimiento general los algoritmos.Como era de esperar KNN, RBM, y Autoencoder siguen siendo los métodos preferi-dos de la detección. Como método ilustrativo, en la figura siguiente se muestra unacomparativa en las curvas de RCC y PR de RBM y Autoencoder en los mejores ejem-plos con un dataset des-balanceado y equilibrado.

Comparación RBM

FIGURE 5.49: ROCsin datos equilibra-

dos

FIGURE 5.50: ROCcon datos equilibra-

dos


FIGURE 5.51: PR condatos sin equilibrar

FIGURE 5.52: PR condatos equilibrados

Comparación Autoencoder

FIGURE 5.53: ROCsin datos equilibra-

dos

FIGURE 5.54: ROCcon datos equilibra-

dos

FIGURE 5.55: PR condatos sin equilibrar

FIGURE 5.56: PR condatos equilibrados

Se puede observar en la Figuras 5.55 y 5.56 anteriores como el comportamiento deprecisión apenas varia, sin embargo el área bajo incluyendo recall incrementa satis-factoriamente prouciendo unos resultados admirables.

De nuevo en la totalidad del conjunto KNN es el algoritmo ganador ya que su-pera con creces al resto de modelos conteniendo unos resultados muy cerca del 99%en todas las medidas.

5.5.3 Net

Hasta este momento se ha realizado la predicción en base a las características delas transacciones realizadas. Esto es debido a que banksim muestra los atributosrelevantes a cada transacción, como puede ser el tiempo en el que se realiza esta,quien la realiza, quien la recibe, que cantidad, etc. Sin embargo en este no aparece larelación que existe entre los individuos que realizan las transacciones y la estructuraen consecuencia de esa red intrínseca en el conjunto. Para tener en cuenta estascaracterísticas subyacentes en el dataset, existe Net.

5.5. Algoritmos 61

FIGURE 5.57: Fragmento del obtenido mediante Node2vec

Es por tanto que en esta sección ya no se realiza una detección de fraude en basea cada transacción realizada, sino a cada individuo dentro de la red. Mediante unatécnica llamada node2vec introducida en la sección de visualización del dataset, setransforma cada nodo del dataset Net en un array de X dimensiones, en nuestrocaso 64, mediante un proceso de obtención de múltiples características en la red rel-evantes en su transformación. La tarea principal aquí por tanto es detectar entidadesen la red anómalas, en nuestro caso nodos fraudulentos, dada la estructura del grafocompleto y la definición de nodo transformado a vector.

Los grafos proporcionan una maquinaria poderosa para capturar de maneraefectiva estas correlaciones de largo alcance entre individuos de datos inter-dependientesy por lo tanto estos serán utilizados y explorados para el objetivo de detección defraude inter-conectado mediante el mismo procedimiento que en los casos anteri-ores pero con el conjunto de características obtenidas del grafo mediante node2vec.

5.5.4 Resultados

Los resultados obtenidos por el conjunto node2vec será una matriz de 4112 X 64.Con estos datos entrenaremos de nuevo los algoritmos vistos en la aplicación, secalcularán los parámetros óptimos para los mismos, y se hará una comparativa deefectividad en los algoritmos entrenados para este conjunto obtenido con Node2vec.

KNN

FIGURE 5.58: Resul-tados del KNN para

Net

FIGURE 5.59: Tiem-pos KNN para Net

Se puede observar como la diferencia de resultados para el algoritmo de KNN novaria de forma extrema con un cambio de vecinos secuencial. El tiempo parece tam-bién mantenerse constante durante el ascenso de este parámetro, lo que quiere decirque la varianza no es muy significativa en el dataset Net, esto principalmente sedebe a la reducción de instancias, dado que hemos pasado de tener casi 60000x4 a4112x64.


Km

FIGURE 5.60: Resul-tados del KM para

Net

FIGURE 5.61: Tiem-pos KM para Net

En el ejemplo de K-means, se puede observar como ocurre algo parecido. El re-sultado parece no variar ni mucho menos con el numero de clusters seleccionadosdibujando una linea constante sin pendiente durante todo el recorrido excepto en untramo donde parece mantenerse a un mas bajo nivel pero aun así constante.

LOF

FIGURE 5.62: Resul-tados LOF para Net

FIGURE 5.63: Tiem-pos LOF para Net

Con el algoritmo LOF si que puede notarse un tramo de descenso y subida en losresultados. El tiempo sin embargo, parece mostrarse completamente constante ex-cepto con 3 clusters.

OCSVM

FIGURE 5.64: Resul-tados OCSVM para

Net

FIGURE 5.65: Tiem-pos OCSVM para

Net

En el caso del Suport Vector Machine, puede observarse un claro ganador, y este escon el kernel de rbf. Su tiempo de entrenamiento no aun soliendo ser siempre el maselevado para este kernel, parece no ser el caso en este ejemplo.

5.5. Algoritmos 63

RBM

FIGURE 5.66: ROCRBM para Net

FIGURE 5.67: PRRBM para Net

Para el RBM se puede observar que tanto la curva de ROC como la de Precision-Recall son bastante satisfactorias.

FIGURE 5.68: Resultados RBM para Net

Hasta ahora hemos visto que el algoritmo de RBM siempre esta entre los mejoresobtenidos para predicción del modelo, y parece que aquí esto sigue siendo el caso.Esto indica la extrema versatilidad que contienen los algoritmos basados en redesneuronales conectadas.

Autoencoder

FIGURE 5.69: Au-toencoder Roc curvefor best result in Net

FIGURE 5.70: IPreci-sion Recall curve forbest result of Autoen-

coder in Net

Para el caso del autoencoder pasa algo muy parecido que para el RBM, se puedeobservar como las medidas que alcanzan el área bajo la curva no tienen nada queenvidiarle a estas de la red neuronal RBM siendo solo escasamente inferiores a lassusodichas.


Como era de esperar, el autoencoder tampoco ha defraudado en el estudio de lared del conjunto, obteniendo unos resultados que permanecen en el top tres de losvistos hasta ahora.

FIGURE 5.71: Results for Autoencoder in Net with different lr

Los resultados en esta complementación mejoran significativamente aquello delos de banksim simplemente. En todos los ejemplos resaltados en este apartado seobserva un incremento tanto en precisión como en recall en todos los algoritmos uti-lizados. Esto se debe principalmente al auto-balanceo producido automáticamenteen la conversión de nodos a vectores, habiendo solamente entre unos 4100 nodostotales obtenidos del conjunto Net y de los cuales al rededor del 20% pertenecen laclase fraudulenta.

Comparación

FIGURE 5.72: Final Results for Algorithms in Net

5.5. Algoritmos 65

FIGURE 5.73: Times for algorithms in Net

Se observa como en la comparación de nuevo son los tres algoritmos estrella KNN,RBM y Autoencoder los que mejor rendimiento en general generan para los datos ex-traídos del grafo del conjunto. La simpleza de KNN y su alto rendimiento a lo largode todo este ejercicio es motivo suficiente para calificar a dicho algoritmo como elmejor obtenido en global. RBM y autoencoder, aun siendo ligeramente superioresa KNN, son tan complejos y llevan tanto coste comunicacional, que quedan en se-gundo plano en mi opinión en comparación. Aun así, se los resultados de los mismossiguen siendo excelente, en caso de RBM por encima de todos los demás, y por tantoesta decisión debe de tomarse haciendo un balance entre el nivel de precisión que sequiere lograr y el tiempo que puede llevar conseguir dicho resultado.

67

Chapter 6

Conclusión

En este trabajo se resume brevemente el estado del arte de la detección de fraude fi-nanciero mediante técnicas de aprendizaje automático. En el se exponen algunas delas metodologías mas importantes, un estudio detallado y como difieren estas segúnel tipo de procedimiento a utilizar. Hemos visto que el fraude es un hueso duro deroer y que este no puede ser tratado como un proceso de aprendizaje automáticohabitual. Las primeras técnicas de análisis de datos se orientaron hacia la extracciónde características de datos cuantitativos y estadísticos. Estas técnicas facilitan inter-pretaciones de datos útiles y pueden ayudar a obtener una mejor comprensión delos procesos detrás de los datos pero no son del todo eficientes a la hora de predecirnuevos comportamientos en instancias no vistas previamente. Aunque las técnicastradicionales de análisis de datos pueden llevarnos indirectamente al conocimiento,estas no tienen en cuenta nuevas instancias que puedan aparecer en un futuro y portanto estarán muy sesgadas al conocimiento previo.

Para ir más allá, un sistema de análisis de datos debe estar equipado con unacantidad sustancial de conocimientos básicos, en nuestro conjunto los datos aporta-dos pueden ser mas que suficientes para la clasificación de individuos fraudulentosincluyendo incluso una red que define la estructura del conjunto. Por otro lado,ser capaz de realizar tareas de razonamiento que involucren ese conocimiento y losdatos proporcionados es algo que no es trivial cuando se tratan datasets fraudu-lentos debido a su alto desequilibrio, en nuestro caso el conjunto se compone detan solo un 1% a 2% de individuos clasificados como fraudulentos, algo que difi-culta el entrenamiento en base a la etiqueta a detectar y empaña la interpretaciónde las métricas obtenidas. La agrupación de algoritmos se ha hecho en base a lassoluciones de aprendizaje automático mas comunes: aprendizaje "supervisado" y"no supervisado". Los métodos tratados buscan cuentas, clientes, proveedores, etc.que se comporten in-usualmente para emitir puntuaciones de sospecha, reglas oanomalías visuales, según el método empleado. Sean cuales sean los métodos quese utilicen, hay que tener en cuenta que el resultado solo nos da una indicación de laprobabilidad de fraude de ese individuo. Ningún análisis estadístico independientepuede asegurar que un objeto en particular sea fraudulento por muy satisfactorioque sea el resultado. Solo puede indicar que es más probable que este objeto seafraudulento ante otros objetos. Es por ello que es vital centrar el estudio en clasificara estos individuos según su nivel de sospecha.

En el este ultimo capitulo, se ha realizado un proceso de comparación de dis-tintos algoritmos de detección de fraude en tres datsets distintos. Hemos visto quepara el conjunto de datos des-balanceado el resultado es el menos satisfactorio. Sepodía observar que para la mayoría de los algoritmos, el elevado resultado de laprecisión obtenido era una mera ilusión de la desproporción de datos fraudulentoscon respecto a los legítimos. Una vez equilibrado el dataset se podía observar unincremento en todas las métricas de predicción en todos los algoritmos, y la curva

68 Chapter 6. Conclusión

de precision-reall elevándose a valores de muy alta consideración. La aplicación im-plementada, realiza una comparativa de los parámetros que delimitan la forma delas funciones del algoritmo, y este a su vez, da la opción de elegir el mejor resultadosegún el área bajo la curva de ROC, PR o un promedio entre ambas. A lo largo detoda la comparativa hemos elegido la opción de mejor promedio en la puntuaciónde ROC y PR, ya que esta combina precisión y recall al mismo tiempo, y dará valoresmas cercanos a la realidad. También nos hemos encontrado con la sorpresa de que elalgoritmo mas sencillo en nuestro modelo, es el que mejor rendimiento ofrece, KNN.Al mismo tiempo hemos visto que algoritmos de alto reconocimiento en la literaturase desvanecen en nuestro modelo para todas las instancias de datasets, ya sea bal-anceado o desequilibrado, como son el caso de OneClassSVM y Isolation Forest. Laalta puntuación de los algoritmos basados en redes neuronales, como son RBM yAutoencoder, muestran la versatilidad y potencial de estos algoritmos de adaptarsea cualquier tipo de circunstancia, ya sea desbalanceada o de datos masivos.

Por último hemos podido representar el conjunto en su totalidad en base a unaserie de nodos transformados a vectores que nos proporciona el propio dataset se-leccionado. Hemos visto que estos vectores contienen información de alta relevan-cia en el conjunto, y del cual se pueden obtener patrones de estructura y compor-tamiento subyacente al propio conjunto que no se podrían haber obtenido medianteel mero análisis de atributos del dataset. El conjunto total de 4112 nodos, es capazde transmitir información al modelo la cual no se tenia en cuenta con el análisis detransacciones simples e individual. También hemos comprobado que el equilibradorealizado por esta transformación a los nodos una vez convertidos en vectores incre-menta el rendimiento de los módulos implementados en la mayoría de los algorit-mos.

69

Bibliography

Ahn H., Lee K. and K. Kim (2006). “Global Optimization of Support Vector MachinesUsing Genetic Algorithms for Bankruptcy Prediction,” in: ICONIP.

Akoglu L McGlohon M, Faloutsos C ((2010)). “OddBall: spotting anomalies in weightedgraphs”. In: Advances in Knowledge Discovery and Data Mining. PAKDD 2010. Lec-ture Notes in Computer Science, vol 6119. Springer, Berlin, Heidelberg.

Barnett, V. and T. Lewis (1994). In: Outliers in Statistical Data. 3rd edition. J. Wiley Sons1994, XVII. 582 pp., £49.95.

Breiman, L. (2001). “Random Forest,” in: Machine Learning (2001) 45: 5.Brin S, Page L (1998). “The anatomy of a large-scale hypertextual web search en-

gine.” In: Seventh International World-Wide Web Conference (WWW 1998), April 14-18, 1998, Brisbane, Australia.

Caputo B., Sim K. Furesjo F. and A. Smola (2002). “Appearance-Based Object Recog-nition Using SVMs”. In: Proceedings XIV Brazilian Symposium on Computer Graph-ics and Image Processing.

Carter, C. and J. Catlett (1987). “Assessing Credit Card Applications Using MachineLearning,” in: IEEE Expert ( Volume: 2, Issue: 3, Sept. 1987 ).

Chan P. K., Fan W. and A. L. Prodromidis (1999). “Distributed Data Mining in CreditCard Fraud Detection,” in: Intelligent Systems and their Applications.

Cooper, G. F. and E. Herskovits (1992). “A Bayesian Method for the Induction ofProbabilistic Networks From Data,” in: Mach Learn (1992) 9: 309.

D, Chakrabarti (2007). “Dynamic personalized pagerank in entity-relation graphs.”In: Proceeding WWW ’07 Proceedings of the 16th international conference on WorldWide Web.

Dorronsoro J., Ginel F. Sanchez C. and C. Santa Cruz (1997). “Neural Fraud Detectionin Credit Card Operations,” in: Transactions on Neural Networks ( Volume: 8, Issue:4, Jul 1997 ).

Foster, D. P. and R. A. Stine (2004). “Variable Selection in Data Mining: Building aPredictive Model for Bankruptcy,” in: Journal of the American Statistical Associa-tion.

Frank, E. and I. H. Witten (1998). “Generating Accurate Rule Sets Without GlobalOptimization,” in: ICML ’98 Proceedings of the Fifteenth International Conference onMachine Learning.

Freund, Y. and R. Schapire (1997). “A Decision-Theoretic Generalization of OnlineLearning and Application to Boosting,” in: Journal of Computer and System Sci-ences.

Friedman N., Geiger D. and M. Goldszmidt (1997). “Bayesian Network Classifiers,”in: https://doi.org/10.1023/A:1007465528199.

Friedman, J. H. and B. E. Popescu (2008). “Predictive Learning via Rule En- sembles,”in: Annals of Applied Statistics 2008, Vol. 2, No. 3, 916-954.

Gaines, B. and P. Compton (1995). “Induction of Ripple-Down Rules Applied toModeling Large Databases,” in: Journal of Intelligent Information Systems.

70 Bibliography

Gallagher B Tong H, Eliassi-Rad T Faloutsos C (2008). “Using ghost edges for clas-sification in sparsely labeled networks.” In: KDD ’08 Proceedings of the 14th ACMSIGKDD international conference on Knowledge discovery and data mining.

Galstyan, A. and P. R. Cohen (2005). “Is Guilt by Association a Bad Thing?” In: caitejournal.

Gao J Liang F, Fan W Wang C Sun Y Han J ( (2010). “community outliers and theirefficient detection in information networks”. In: Proceedings of the 16th ACM in-ternational conference on knowledge discoy and data mining (SIGKDD).

Goldberg, H. G. and T. E. Senator (1995). “Restructuring Databases for KnowledgeDiscovery by Consolidation and Link Analysis,” in: KDD.

— (1997). “Break Detection Systems,” in: International Conference on Data Mining(ICDM’05) (2005).

Gopinathan K. M., Biafore L. S. Ferguson W. M. Lazarus M. A. Pathia A. K. and A.(1998). “Fraud Detection Using Predictive Modeling,” in: HNC Software Inc.

Hawkins, D. (1980). “Identification of Outliers”. In: Identification of Outliers.Haykin, S. (1998). “Neural Networks)”. In: A Comprehensive Foundation (2nd ed.)Henderson K Gallagher B, Li L Akoglu L Eliassi-Rad T Tong H Faloutsos C (2011).

“It’s who you know: graph mining using recursive structural features.” In: BookReport Conference proceeding › Conference contribution.

Hothorn T., Hornik K. and A. Zeileis (2006). “Unbiased Recursive Partitioning: AConditional Inference Framework,” in: KDD.

Hsu C., Chang C. and C. Lin (2009). “A Practical Guide to Support Vector Classifica-tion,” in: Machine learning.

Issa, H. and M. Vasarhelyi (2011). “Application of Anomaly Detection Techniques toIdentify Fraudulent Refunds”. In: Machine Learning.

Jyotindra, N. D. and R. P. Ashok (2011). “A Data Mining with Hybrid ApproachBased Transaction Risk Score Generation Model (TRSGM) for Fraud Detection ofOnline Financial Transaction”. In: International Journal of Computer Applications.

Kass, G. (1980). “An Exploratory Technique for Investigating Large Quantities ofCategorical Data,” in: Journal of the Royal Statistical Society. Series C (Applied Statis-tics).

Kim, M. J. and T. S. Kim (2002). “Neural Classifier With Fraud Density Map for Effec-tive Credit Card Fraud Detection,” in: Intelligent Data Engineering and AutomatedLearning.

Kohavi, R. (1997). “Wrappers for Feature Subset Selection,” in: Artificial Intelligence.Lee, T. and I. Chen (2003). “Mining the Customer Credit Using Classification and Re-

gression Tree and Multivariate Adaptive Regression Splines,” in: ComputationalStatistics Data Analysis.

Li F., Xu J. Dou Z. and Y. Huang (2004). “Data Mining-Based Credit Eval- uation forUsers of Credit Card,” in: Proceedings of 2004 International Conference on MachineLearning and Cybernetics (IEEE Cat. No.04EX826).

Liu R., Parelius J. and K. Singh (1999). “Multivariate Analysis by Data Depth: De-scriptive Statistics, Graphics, and Inference,” in: The Annals of Statistics.

Macskassy, S. A. and F. Provost (1997). “A Brief Survey of Machine Learning Meth-ods for Classification in Networked Data and an Application to Sus- picion Scor-ing,” in: ICML 2006 Workshop on Statistical Network Analysis.

Maes S., Tuyls K. and B. Vanschoenswinkel (2002). “Credit Card Fraud De- tectionUsing Bayesian and Neural Networks,” in: Maciunas RJ, editor. Interactive image-guided neurosurgery. American Association Neurological Surgeons.

Bibliography 71

Muller E Sanchez PI, Muller Y Bohm K (2013). “Proceedings of the 4th internationalworkshop on graph data management: techniques and applications”. In: work-shop GRADES ’16 Graph Data Management Experiences and Systems.

Murad, U. and G. Pinkas (1999). “Unsupervised Profiling for Identifying Su- per-imposed Fraud,” in: Lecture Notes in Computer Science book series (LNCS, volume1704).

Opitz, D. and R. Maclin (1999). “Popular Ensemble Methods: An Empirical Study,”in: Journal of Artificial Intelligence Research.

Perozzi B Akoglu L, Sanchez PI Muller E (2014). “Focused clustering and outlierdetection in large attributed graphs.” In: KDD ’14 Proceedings of the 20th ACMSIGKDD international conference on Knowledge discovery and data mining Pages 1346-1355.

Quinlan, J. R. (1987). “Simplifying Decision Trees,” in: International Journal of Human-Computer Studies.

Rui Liu Xiao-long Qian, Shu Mao and Shuai zheng Zhu (2011). “Research on anti-money laundering based on core decision tree algorithm”. In: 2011 Chinese Con-trol and Decision Conference (CCDC).

Street, W. N. and Y. Kim (2001). “A Streaming Ensemble Algorithm (SEA) for Large-Scale Classification,” in: Proceeding KDD ’01 Proceedings of the seventh ACM SIGKDDinternational conference on Knowledge discovery and data mining Pages 377-382.

Wang H., Fan-W. Yu P. S. and J. Han (2003). “Mining Concept-Drifting Data StreamsUsing Ensemble Classifiers,” in: Proceeding KDD ’03 Proceedings of the ninth ACMSIGKDD international conference on Knowledge discovery and data mining Pages 226-235.

Widmer, G. and M. Kubat (1996). “Learning in the Presence of Concept Drift andHidden Contexts,” in: Machine Learning.

Witten, I. A. and E. Frank (2005). “Data Mining: Practical Machine Learning Toolsand Techniques (2nd ed.)” In: Data Management Systems.

Zhang Z., Salerno-J. J. and P. S. Yu (2003). “Applying Data Mining in InvestigatingMoney Laundering Crimes,” in: Proceeding KDD ’03 Proceedings of the ninth ACMSIGKDD international conference on Knowledge discovery and data mining Pages 747-752.

análisis y detección de fraude fiscal mediante técnicas de...

Documents