Métodos estadísticos básicos de discriminación con árboles de decisión

 

 

Roberto Araya

AutoMind

www.automind.cl

 

 

Tabla de Contenidos

 

 

Discriminación de árboles

 

 

Muestras

 

 

Construcción de árboles

 

 

Ajustes

 


Discriminación de árboles

 

Un modelo es cualquier mecanismo que estime el nivel de riesgo de cada uno de los clientes existentes y potenciales. Es básico poder medir la capacidad de discriminación del modelo. Para esto se definen dos categorías gruesas: buenos clientes y malos clientes. Ellos representan de alguna forma a clientes rentables y no rentables. En modelos de iniciación, ser un cliente bueno normalmente se traduce en que en los próximos 2 años de otorgado el crédito o tarjeta, nunca pasa de una mora de 90 días. En modelos de comportamiento, ser un buen cliente frecuentemente se traduce en que en los próximos 6 meses al momento de análisis no pasa de una mora de 90 días. Ambas definiciones se pueden ajustar, según experiencias y políticas locales, pero en definitiva su ajuste se traduce en correcciones en niveles de riesgo. Esos ajustes se analizarán en el último punto de este documento.

 

¿Qué es un árbol de decisión?

 

Un árbol de decisión es un tipo particular de modelo. A continuación se muestra un árbol de decisión.

 

Ejemplo 1:

 

 

Este árbol contiene dos variables:  edad y antigüedad. Se lee de arriba hacia abajo. En el rectángulo inicio está el comienzo. Primero pregunta por la edad. Si es menos a 25 años el cliente es rechazado. Si su edad es igual o mayor a 25 años el árbol pregunta por la antigüedad. Si es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad es igual o mayor a 18 meses entonces el cliente es aceptado.

 

En el caso anterior ambas variables eran numéricas. También pueden haber variables categóricas, tal como en el ejemplo siguiente.

 

Ejemplo 2:

 

 

En este caso las variables son Edad y EstadoCivil. La variable Edad es numérica y EstadoCivil es categórica. Sus valores posibles son: Soltero, Casado y Viudo. Si el cliente tiene edad igual o mayor a 25 años y es soltero, entonces el árbol lo rechaza. Si, en cambio, es de edad igual o mayor a 25 años pero su EstadoCivil es Casado o Viudo, entonces el árbol lo acepta.

 

Los dos ejemplos de árboles son binarios. Esto significa que cada vez salen dos ramas y no más. Esta característica no es pérdida de generalidad, pues todo árbol no binario se puede rescribir como binario agregando nodos adicionales.

 

Los diagramas de árbol son representaciones naturales a la mente que ayudan a clasificar información, establecer regulaciones y políticas, y a seguir razonamientos. Inventados aparentemente el año 500 por lógicos sirios, fueron traídos a España cerca del año 600. En el año 1.300 fueron muy utilizados por el catalán Ramón Lull, lo que habría influido en Leibnitz, el gran matemático co-inventor del cálculo infinitesimal, quién habría utilizado estas ideas para proponer un lenguaje universal de cálculo lógico.

 

Capacidad de discriminación de un árbol de decisión y error del estimador

 

Tal como en cualquier modelo, se puede calcular el KS de un árbol en una muestra. Esto considera los dos porcentajes:

 

·        el porcentaje de malos clientes que el modelo rechaza, y

·        el porcentaje de buenos clientes que el modelo rechaza.

 

KS del árbol =  |  % de malos clientes rechazados   -   % de buenos clientes rechazados |

 

Un buen árbol es aquel en el que el primer porcentaje es cercano a 100% y el segundo es cercano a 0%, y así el valor absoluto de esta diferencia es cercana a 100. Un árbol con mala discriminación es aquel en el que el KS es cercano a cero.

 

Es muy importante recordar que el KS verdadero en la población completa, que incluye potenciales clientes futuros, nunca se conoce. Todo lo que se puede calcular es una estimación del KS. Esta estimación se hace usando una muestra de la cartera, por lo que el cálculo depende de la muestra donde se realiza el cálculo.

 

Ejemplo 3:

 

Si en una muestra con 10.000 clientes hay 9.500 clientes buenos y 500 clientes malos, y al pasar toda la muestra por el árbol queda clasificada de acuerdo al esquema siguiente:

 

Es decir, en el nodo izquierdo, de aquellos clientes de la muestra con edad menor a 25 años, quedan 400 clientes buenos y 200 clientes malos. En el nodo DerechoIzquierdo, con aquellos clientes de la muestra con 25 años o más pero Solteros, quedan 800 clientes buenos y 200 clientes malos. Y, finalmente, en el nodo DerechoDerecho,  con aquellos clientes de la muestra con 25 años o más que son Casados o Viudos, quedan 8.300 clientes buenos y 100 clientes malos.

 

De estos datos se desprende que el número de clientes malos rechazados es 400, y el número de clientes buenos rechazados es de 1.200. Por lo tanto:

 

% de malos clientes rechazados  = 100*(400/500) = 80%

% de buenos clientes rechazados = 100*(1.200/9.500) = 12,6%

 

y entonces el KS del modelo = | 80% - 12,6% | = 67,4 %

 

Este es un ejemplo artificial. En modelos de Iniciación no se consiguen esos KS, pero son razonables en los modelos de Comportamiento.

 

Es muy importante tener una estimación del error que tiene el estimador del KS. Es decir, poder decir cuán cerca estará el KS calculado de los KS que se obtendrán en otras muestras independientes. Para esto es esencial tener mucho cuidado en medir la capacidad de discriminación y su desviación estándar en una muestra adecuada. Una muestra mal escogida invalida completamente las estimaciones.

 

Otras medidas de discriminación diferentes al KS también pueden ser calculadas para modelos tipo árboles.

 

 

Muestras

 

Importancia de medir sobre muestra independiente de la de construcción

 

Hay que distinguir entre una muestra con la que se construye un modelo, sea éste de árbol de decisión o de otra naturaleza, de muestras de testeo. Sólo los resultados medidos en muestras de testeo son válidas para estimar lo que pasará con otros clientes.

 

Una muestra de testeo es una muestra que es independiente de la que se usa para construcción. Puede obtenerse usando funciones pseudoaleatorias que típicamente están disponibles en planillas o bases de datos. Una vez obtenida la muestra es importante chequear que no contenga registros comunes con la muestra de construcción. También es importante verificar que para algunas variables bien conocidas, tales como género, edad, ciudad, etc., sus histogramas para los datos de la muestra se vean con una distribución similar a la de los histogramas con los datos de toda la población.

 

Sin embargo, aún satisfechas estas dos condiciones existe un error muy común que invalida todo. Es tentador durante la construcción del modelo o al final del proceso, usar la muestra de testeo para hacer unos ajustes finales. Por ejemplo, ajustes en puntos de corte, ya sea del modelo o de algunas variables. Si así se hizo, entonces esa muestra no puede usarse para estimar la capacidad de discriminación del modelo construido ni de su error. Habrá que usar otra muestra independiente. Atención: si no ha entendido este párrafo, entonces está listo para cometer errores graves.

 

Selección de muestra para construcción y verificación representatividad.

 

Existen varias maneras de obtener muestras. Algunas maneras ya vienen dentro de la opciones de los paquetes estadísticos. Otra forma sencilla y directa es crear en la planilla o base de datos una columna adicional, y llenarla con la función aleatoria (random) con números entre 0 y un millón. Luego se ordena la planilla o base de datos por ese campo y se toma la mitad superior, es decir, los que están primeros. Si se requiere una muestra de 30% de la población, se toman todos los primeros hasta completar el 30%.

 

Es muy importante verificar la representatividad de la muestra. Así se descartan posibles errores en los procedimientos de creación de muestras aleatorias.

 

Se recomienda comparar distribuciones de variables conocidas en la población con las mismas variables en la muestra. Por ejemplo, género, edad, ciudad de residencia, ingresos, etc.  Así, por ejemplo, si en la población cliente del banco, es decir, en toda la cartera, existe un 60% de hombres  y 40% de mujeres, entonces en la muestra deben haber porcentajes similares.

 

Almacenamiento y uso de muestras de testeo

 

Es crítico asegurar la independencia de las muestras de testeo de la muestra utilizada para la construcción. Los errores más frecuentes son:

 

1)      Procedimiento mal realizado para sacar muestras de testeo

2)      Utilizar toda la información para construir el modelo

3)      No almacenar las muestras de testeo debidamente identificadas, dificultando así la creación posterior de muestras de testeo

4)      Mezclar algunos registros de la muestra de construcción en la muestras de testeo

5)      Uso, aparentemente menor y tangencial, de información en las muestras de testeo para ajustes de modelo.

 

Un uso inadecuado de las muestras de testeo puede hacer creer que un modelo tiene cerca de 100% de discriminación (KS = 100 ) cuando en realidad tiene cerca de cero.

 

De todos los cinco errores anteriores es el quinto el que más cuesta comprender y más fácilmente se olvida. Segunda advertencia: si no entiende cuál es este error, entonces está listo para cometer un error grave.

 

Ejercicio:

 

En una muestra de construcción con cien mil clientes, de los cuales 5.000 son malos y 95.000 son buenos clientes, se analizaron varias variables. Se encontró que una buena variable era el número de la cédula de identidad.

Calcule y explique porqué el estimador del KS de esa variable en la muestra de construcción es igual a 100. ¿Cuál debería ser su desviación estándar? Considere ahora una muestra para testeo de cien mil clientes, independiente de la de construcción, y con  una proporción similar de buenos y malos. Calcule y explique porqué en la base independiente de testeo el KS de esa variable es muy cercana a cero. ¿Cuál debería ser su desviación estándar?

 

 

Construcción de árboles

 

 

Construcción de Modelos:

 

Existen varios tipos de modelos. Revisaremos aquí cómo construir algunos de ellos y luego haremos una comparación. Todas las construcciones aquí revisadas son hechas con métodos estadísticos. Esto significa que las variables escogidas y la manera de mezclarlas se realiza con algoritmos bien definidos, que utilizan la información de la muestra de construcción, y que pueden ser implementados en el computador.

 

Modelos univariados:

 

Un modelo univariado es uno que usa una sola variable. Por ejemplo:

 

Si antigüedad menor a 18 meses rechace. Si no, acepte.

 

Otro ejemplo de modelo univariado:

 

Si edad está entre 25 y 65 acepte. Si no rechace.

 

Para construir estos modelos se puede calcular el KS en la muestra de construcción tomando para cada variable el mejor punto de corte. Finalmente el modelo escogido es alguno con buen  KS.

 

Imaginemos que en la base de construcción se calcularon los KS siguientes:

 

Variable

KS

Ciudad

9,1

Ingreso

18,0

Antigüedad

16,3

Profesión

5,2

Cargas

10,1

Edad

19,8

 

Esto significa que si se escoge Edad y ésta tiene ese KS para el punto de corte 26,3 años, entonces el modelo

 

Si edad <= 26,3 años rechace. Si no acepte.

 

Debe ahora correrse este modelo sobre una muestra de testeo. Si el KS en la muestra de testeo da 15,2, entonces 15,2 es el estimador de KS que tiene el modelo.

 

Lo que sigue es muy importante:

 

Puede ser que jugando con el punto de corte se descubre que en la base de testeo el punto de corte 23,7 años da un KS mejor, por ejemplo un KS de 17,8. Sin embargo, si se desea usar ese nuevo punto de corte entonces debe testearse el modelo en otra muestra independiente para poder estimar el KS. Si no, no vale el cálculo como estimador de lo que será la capacidad de discriminación con nuevos clientes o con otra base. Tercera advertencia: es la misma advertencia que las dos anteriores ante el mismo error. Si no entiende este error, entonces está preparado para cometer un error grave.

 

Modelos con puntaje lineal:

 

Un modelo con puntaje lineal requiere convertir todas las variables a numéricas, o usar sólo aquellas que se traducen a números.  Por ejemplo, habría que traducir la variable sexo con valores Masculino y Femenino a la variable sexo_N con valores 0 y 1 respectivamente.

 

Un modelo de puntaje usa una suma de variables ponderadas. Este tipo de mezclas se llama combinación lineal. Por ejemplo, un modelo de puntaje es el siguiente:

 

Puntaje =  1,2*Edad +  0,5*Antigüedad – 5,4*Cargas

 

Si Puntaje <= 30 rechace. Si no acepte.

 

Un modelo de puntaje asume implícitamente que existe una moneda de intercambio que dice cuánto de una variable es equivalente a cuánto de otra, cuando el resto de las variables están fijas. Esto significa que si una variable está complicada, esto puede ser compensada por otras. Esta suposición es muy discutida, pues hay factores como los de moralidad que si están mal se debe rechazar el cliente sin importar qué tan bien estén las otras variables. Sin embargo, si la moralidad está bien, entonces otros factores tienen gran importancia. Un criterio así, no puede ser puesto como suma ponderada de factores.

 

Los métodos de construcción de modelos de puntaje tratan de encontrar los mejores coeficientes posibles de manera que la capacidad de discriminación del modelo sea máxima. Para esto, normalmente se calculan para cada variable promedios de las variables para clientes malos y los promedios de las variables de los clientes buenos. Además se calculan las dos matrices de covarianzas, la para clientes malos y las para clientes buenos. Usando los promedios y las covarianzas puede encontrarse una nueva variable que resulta ser suma ponderada de las originales. Esa nueva variable es un mecanismo de puntaje que puede tener un buen KS.  Si para todas las variables tanto la distribución de clientes buenos como malos son normales,  y ambos con la misma covarianza, entonces el mecanismo es óptimo. Existen otra gran variedad de otros métodos que son variaciones del anterior. No está claro cuál es el mejor, pero para datos normales (gaussianos), el descrito con la covarianza es el óptimo.

 

Modelos con árboles:

 

La construcción de un árbol se hace por etapas. En cada etapa se selecciona una de las variables más discriminantes y de acuerdo a ella se segmenta lo que queda de la muestra en dos.

 

Tomemos como ejemplo esta mini muestra (sacada de [2]) de construcción con 12 clientes (6 buenos y 6 malos), y cinco variables: Salario, CasaPropia, AutoPropio, Edad y EstadoCivil.

 

Salario

CasaPropia

AutoPropio

Edad

EstadoCivil

Estado

60

si

no

42

soltero

Bueno

180

si

no

50

casado

Bueno

420

si

si

45

casado

Bueno

210

no

si

42

soltero

Bueno

310

no

no

24

soltero

Bueno

220

no

no

35

casado

Bueno

150

no

no

29

casado

Malo

720

si

si

24

soltero

Malo

90

no

no

47

casado

Malo

50

no

no

60

casado

Malo

250

no

no

50

casado

Malo

45

no

no

32

casado

Malo

 

Esta muestra es extremadamente chica como para hacer nada serio, pero permite ilustrar los conceptos básicos. Además, este ejemplo juguete permite calcular a mano todo lo que sea necesario, y así asegurarse que uno ha entendido el algoritmo de construcción de árboles.

 

Tomemos además esta segunda muestra con 8 clientes (4 buenos y 4 malos), y las mismas cinco variables. Esta será nuestra muestra para testeo.

 

Salario

CasaPropia

AutoPropio

Edad

EstadoCivil

Estado

120

si

si

32

casado

Bueno

170

no

si

28

soltero

Bueno

300

no

no

45

casado

Bueno

90

no

no

29

soltero

Bueno

100

no

no

43

casado

Malo

280

no

no

42

casado

Malo

65

no

no

39

casado

Malo

40

no

si

41

casado

Malo

 

Los KS de cada variable junto a su desviación estándar, según la muestra de construcción, son:

 

AutoMind

Variables

KS

s

Salario

 50,0%

 34,5

CasaPropia

 33,3%

 35,6

AutoPropio

 16,7%

 34,5

Edad

 33,3%

 35,6

EstadoCivil

 33,3%

 35,6

 

Claramente la desviación es enorme. Esto se debe al tamaño extremadamente pequeño de la muestra. Aún así, la variable Salario es la más discriminante.

 

Si escogemos Salario y segmentamos por esa variable, obtenemos el siguiente árbol

 

 

Este es un árbol muy elemental. En el segmento izquierdo están aquellos clientes con salario <= 150. De la muestra de construcción quedan 6 clientes (es decir 41,7% de los clientes que están en la muestra), y estos se reparten en uno bueno y 4 malos. En el segmento derecho están aquellos clientes con salario mayor a 150. Hay un total de 7, de los cuales 5 son buenos y 2 son malos. Este modelo tiene un KS de 50%. Ambos segmentos pueden seguir segmentándose. Sin embargo, dado el error lo dejamos hasta acá.

 

Ahora, es muy importante medir el KS del modelo y su desviación en la muestra de testeo. Eso son los valores que importan. Usando la muestra de testeo, tenemos que cinco casos quedan en el segmento izquierdo y tres en el derecho:

 

AutoMind

Segmento

Estado

Total

Tasa de

s

Acumulado

Diferencia

s

Bueno

Malo

Malos

Bueno

Malo

(KS)

1

IniIzq

 2

 3

 5

 60,0%

 21,9

 50,0%

 75,0%

 25,0%

 46,7

2

IniDer

 2

 1

 3

 33,3%

 27,2

 100,0%

 100,0%

 0,0%

 0,0

 

Total general

 4

 4

 8

 50,0%

 17,7

 

 

 

 

 

 

 

 

 

 

 

KS

 

25,0%

46,7

 

 

 

 

 

 

 

Corte (Nº)

 

1

 

 

O sea el KS es sólo de 25%.  Esto quiere decir que si tomamos otra muestra cualquiera de clientes, independiente de la muestra de construcción, el KS andará alrededor de 25%, pudiendo variar desde 0 hasta 71% en la gran mayoría de los casos.

 

Modelos no lineales:

 

Existen varios tipos de modelos no lineales. Uno de los tipos no lineales es el de árboles de decisión. Otros son las redes neuronales, los algoritmos genéticos y muchos otros.

 

Los modelos de redes neuronales asumen que todas las variables son numéricas. Si no lo son, o sólo se trabaja con las numéricas o bien se convierten a numéricas de acuerdo a un criterio especificado. El modelo neuronal busca una combinación de variables con sumas ponderadas y funciones umbrales (si el valor es más allá de cierto umbral sale uno, si no sale cero).

 

Los modelos genéticos también requieren variables numéricas. Los algoritmos recombinan criterios creando nuevos a partir de criterios básicos con métodos similares a la creación de moléculas recombinando partes de moléculas y haciendo mutaciones. En este caso, se mutan partes de fórmulas y se crean nuevas juntando fórmulas. Aquellas fórmulas con mejor capacidad de discriminación van sobreviviendo, y vuelven a mutarse y recombinarse. Eventualmente se llegan a buenas fórmulas que corresponden a criterios con buena capacidad de discriminación.

 

Análisis comparativo de diferentes tipos de modelos y algoritmos

 

Naturalidad

 

Un aspecto muy importante de un modelo es que sea natural para la mente humana. Que exprese en un lenguaje fácil de comprender las características esenciales de los diferentes patrones de riesgo en la cartera. Muchas veces este producto de un modelo es el esencial. Permite hacerse un claro diagnóstico del estado de la cartera, encontrar  oportunidades y hacer ajustes a las políticas. En general, para el análisis de riesgo crediticio, los modelos tipo árbol son más naturales que otros. Esta mayor naturalidad se debe a que encontrar un árbol discriminante es equivalente a encontrar segmentos con diferentes niveles de riesgo, unos bien distintos de los otros. Por ejemplo, el segmento de los menores a 25 años y sin casa propia no es más que un nodo de un árbol. Esta manera de concebir el riesgo, describiendo segmentos con su riesgo asociado, es una manera natural e intuitiva. Es una manera ecológicamente válida, es decir, está expresada en un formato natural a la mente.

 

Capacidad de discriminación

 

Un estudio internacional, (ver [1]) llevado a cabo durante 4 años por varios centros estadísticos universitarios e industriales de varios países de la Comunidad Europea que compararon varias decenas de métodos, concluyó que los métodos de árboles de decisión son los de mejor capacidad de discriminación en crédito. De 23 algoritmos probados, de los cuales 5 eran de árboles de decisión, el mejor resultó ser de árbol de decisión y tres algoritmos de árboles estaban entre los seis primeros lugares. El estudio concluyó que “parte de la razón del éxito (de los árboles) en esta área es sin lugar a dudas que los métodos de árboles de decisión pueden manejar más naturalmente con una gran cantidad de atributos binarios o categóricos (siempre que el número de alternativas sea pequeño). Ellos también incorporan términos de interacción en su desarrollo. Y, quizás más significativamente, ellos son un espejo del proceso de decisión humana”.

 

Estabilidad, simplicidad y comunicabilidad

 

Aparte de la capacidad de discriminación de un modelo, y en particular de un modelo tipo árbol, es muy importante considerar la estabilidad, simplicidad y comunicabilidad.

 

Estabilidad significa que en muestras independientes sus indicadores de discriminación no varíen mucho. Naturalmente, esto depende del tamaño de la muestra con que se construyó el modelo. Pero también depende si se intentó sobre ajustar la información, llegando hasta segmentos con muy pocos casos.  Otra prueba importante de estabilidad es ver cuántos varían los indicadores medidos en diferentes condiciones de stress (por ejemplo, sacando clientes malos muy evidentes). Otra prueba adicional de estabilidad es determinar cómo se comportan los indicadores a través del tiempo.

 

Simplicidad significa que cada vez que hay dos modelos o árboles con similar capacidad de discriminación y estabilidad, es preferible el más simple: con menos variables, menos condiciones, y con segmentos que hagan sentido.

 

Comunicabilidad significa que el árbol puede resumirse en algunos criterios o segmentos fáciles de interpretar y relatar a terceros. Esto asegura que si hubo algún error en el proceso de construcción, o se han producido cambios macroeconómicos o cambios en el mercado objetivo, entonces será fácil detectar esos problemas. La comunicabilidad facilita el seguimiento y la capacidad de hacer ajustes oportunos, mucho antes que errores o desajustes sean muy evidentes.

 

Inclusión de variables indirectas

 

La construcción de un buen modelo, sea éste tipo árbol o no, depende de la inclusión de variables significativas que no siempre está explícitamente en la información original. Por ejemplo, variables como:

 

 

Es importante incluir un gran conjunto de estas variables y echarlas a competir con las otras. Así el algoritmo de construcción las tendrá en cuenta tanto separadamente para toda la muestra de construcción como en cada uno de los segmentos particulares que se vayan definiendo.

 

Determinación de niveles de riesgo para diferentes segmentos y puntos de corte según rentabilidad.

 

Un árbol contiene varios segmentos finales. Cada segmento tiene una combinación de clientes buenos y clientes malos. El nivel de riesgo de cada segmento se obtiene contando los clientes buenos y malos que caen en el segmento, y calculando sus proporciones.

 

Retomemos el ejemplo 3. En el nodo izquierdo, que corresponde al segmento edad menor a 25 años hay 400 clientes buenos y 200 malos. Por lo tanto la tasa de malos es 33,3% y la de buenos es 66,6%. En el nodo del medio correspondiente al segmento de clientes con edad igual o mayor a 25 años y solteros, hay 800 buenos clientes y 200 malos. Por lo tanto la tasa de malos es 20%. En el otro nodo, el de la derecha, correspondiente a clientes con edad igual o mayor a 25 años y casados, hay 8300 clientes buenos y 100 malos. Es decir, la tasa de malos es 1,2%.

 

El mismo árbol puede tener varios puntos de corte. Por ejemplo, podemos

 

 

Las otras combinaciones no son naturales de acuerdo al árbol. Para cada corte tendremos un KS, y su correspondiente desviación. El corte óptimo se decide con la muestra de construcción.

 

Una vez escogido el corte, se evalúan todos los clientes de la muestra de testeo. Se cuentan cuántos clientes buenos y malos caen en la zona de rechazo (menor al corte), y con esos datos se obtiene una estimación del KS.

 

Ajustes

 

Inclusión de clientes negados

 

La información de clientes negados es muy importante para detectar posibilidades de ampliar los criterios crediticios actuales. Es muy posible que se hayan estado rechazando clientes que podrían haber tenido un buen comportamiento. Varios de esos clientes deben tener ciertos perfiles, es decir, pertenecer a ciertos segmentos bien definidos. El problema es que hay que detectar cuáles son esos segmentos. Una vez detectados, pueden relajarse criterios crediticios para pasar a aceptar clientes en esos segmentos.  

 

Información necesaria que debe tenerse para poder usarse la información de negados

 

El mayor problema para implementar la estrategia de incluir negados en la construcción del modelo es la escasez de información sobre los negados. Es necesario haber dejado almacenada toda la información al momento de la presentación, tal como con los clientes aceptados. Esto incluye información de moralidad proveniente de centrales de riesgo, información demográfica y financiera. Si no está esta información relativamente completa, una estrategia es intentar conseguirla con terceros. Por ejemplo, con centrales de riesgo.

 

Por otra parte, es importante conseguir información de comportamiento de esos clientes con operaciones crediticias similares que pudieran haber conseguido en esos mismos momentos con terceros.  Esta información puede conseguirse trabajando con centrales de riesgo.

 

Compra de información de negados almacenada en centrales de riesgo externas

 

Para que la adquisición en centrales de riesgo sea efectiva debe tener los siguientes requisitos:

 

 

 

 

 

Ajustes según definición de buenos y malos

 

¿Qué pasa si se cambia la definición de buenos versus malos, después que el modelo está terminado? ¿Es necesario rehacer todo de nuevo?

 

Es normal hacer ajustes a la definición de buenos y malos. Por ejemplo, para iniciación, de una definición de bueno como aquel cliente que durante los dos años iniciales del crédito nuca pasó de mora de 90 días, cambiar una definición de bueno como aquel cliente que durante los dos años iniciales del crédito nuca pasó de mora de 120 días. Otro cambio, es definir como bueno aquel cliente que durante el primer año inicial del crédito nuca pasó de mora de 90 días.

 

Todos estos cambios, significan reclasificar la cartera. Luego se pasa toda la muestra de testeo por el modelo ya construido. Lo único que cambia es la proporción de buenos y malos en cada segmento final del árbol. Con esa nueva contabilidad de nuevos y malos se puede calcular directamente el nuevo estimador de KS.

 

 

Referencias

 

[1] Michie, D. , Siegelharter, D.J. & Taylor, C.C. “ Machine Learning, Neural and Statistical Classification”. Ellis Horwood, 1994.

[2] Reynolds, A.  & Araya, R. “Building Multimedia Performance Support Systems”. McGraw Hill, New York, 1995.

[3] Fundamentos de Evaluación de Capacidad de Discriminación de Variables y Modelos en Análisis Crediticio