Métodos estadísticos básicos de discriminación
con árboles de decisión
Roberto Araya
Discriminación de árboles
Muestras
Construcción de árboles
Ajustes
Discriminación
de árboles
Un modelo es cualquier mecanismo que estime el nivel de riesgo de cada uno de los clientes existentes y potenciales. Es básico poder medir la capacidad de discriminación del modelo. Para esto se definen dos categorías gruesas: buenos clientes y malos clientes. Ellos representan de alguna forma a clientes rentables y no rentables. En modelos de iniciación, ser un cliente bueno normalmente se traduce en que en los próximos 2 años de otorgado el crédito o tarjeta, nunca pasa de una mora de 90 días. En modelos de comportamiento, ser un buen cliente frecuentemente se traduce en que en los próximos 6 meses al momento de análisis no pasa de una mora de 90 días. Ambas definiciones se pueden ajustar, según experiencias y políticas locales, pero en definitiva su ajuste se traduce en correcciones en niveles de riesgo. Esos ajustes se analizarán en el último punto de este documento.
¿Qué es un árbol de decisión?
Un árbol de decisión es un tipo particular de modelo. A continuación se muestra un árbol de decisión.
Ejemplo 1:

Este árbol contiene dos variables: edad y antigüedad. Se lee de arriba hacia abajo. En el rectángulo inicio está el comienzo. Primero pregunta por la edad. Si es menos a 25 años el cliente es rechazado. Si su edad es igual o mayor a 25 años el árbol pregunta por la antigüedad. Si es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad es igual o mayor a 18 meses entonces el cliente es aceptado.
En el caso anterior ambas variables eran numéricas. También pueden haber variables categóricas, tal como en el ejemplo siguiente.
Ejemplo 2:

En este caso las variables son Edad y EstadoCivil. La variable Edad es numérica y EstadoCivil es categórica. Sus valores posibles son: Soltero, Casado y Viudo. Si el cliente tiene edad igual o mayor a 25 años y es soltero, entonces el árbol lo rechaza. Si, en cambio, es de edad igual o mayor a 25 años pero su EstadoCivil es Casado o Viudo, entonces el árbol lo acepta.
Los dos ejemplos de árboles son binarios. Esto significa que cada vez salen dos ramas y no más. Esta característica no es pérdida de generalidad, pues todo árbol no binario se puede rescribir como binario agregando nodos adicionales.
Los diagramas de árbol son representaciones naturales a la mente que ayudan a clasificar información, establecer regulaciones y políticas, y a seguir razonamientos. Inventados aparentemente el año 500 por lógicos sirios, fueron traídos a España cerca del año 600. En el año 1.300 fueron muy utilizados por el catalán Ramón Lull, lo que habría influido en Leibnitz, el gran matemático co-inventor del cálculo infinitesimal, quién habría utilizado estas ideas para proponer un lenguaje universal de cálculo lógico.
Capacidad de discriminación de un
árbol de decisión y error del estimador
Tal como en cualquier modelo, se puede calcular el KS de un árbol en una muestra. Esto considera los dos porcentajes:
·
el
porcentaje de malos clientes que el modelo rechaza, y
·
el
porcentaje de buenos clientes que el modelo rechaza.
Un buen árbol es aquel en el que el primer
porcentaje es cercano a 100% y el segundo es cercano a 0%, y así el valor
absoluto de esta diferencia es cercana a 100. Un árbol con mala discriminación
es aquel en el que el KS es cercano a cero.
Es muy importante recordar que el KS verdadero
en la población completa, que incluye potenciales clientes futuros, nunca se
conoce. Todo lo que se puede calcular es una estimación del KS. Esta estimación
se hace usando una muestra de la cartera, por lo que el cálculo depende de la muestra donde se realiza el cálculo.
Ejemplo 3:
Si en una muestra con 10.000
clientes hay 9.500 clientes buenos y 500 clientes malos, y al pasar toda la
muestra por el árbol queda clasificada de acuerdo al esquema siguiente:

Es decir, en el nodo izquierdo, de aquellos clientes de la muestra con edad menor a 25 años, quedan 400 clientes buenos y 200 clientes malos. En el nodo DerechoIzquierdo, con aquellos clientes de la muestra con 25 años o más pero Solteros, quedan 800 clientes buenos y 200 clientes malos. Y, finalmente, en el nodo DerechoDerecho, con aquellos clientes de la muestra con 25 años o más que son Casados o Viudos, quedan 8.300 clientes buenos y 100 clientes malos.
De estos datos se desprende que el
número de clientes malos rechazados es 400, y el número de clientes buenos
rechazados es de 1.200. Por lo tanto:
% de malos clientes rechazados = 100*(400/500) = 80%
% de buenos clientes rechazados =
100*(1.200/9.500) = 12,6%
y entonces el KS del modelo = |
80% - 12,6% | = 67,4 %
Este es un ejemplo artificial. En
modelos de Iniciación no se consiguen esos KS, pero son razonables en los
modelos de Comportamiento.
Es muy importante tener una
estimación del error que tiene el estimador del KS. Es decir, poder decir cuán
cerca estará el KS calculado de los KS que se obtendrán en otras muestras
independientes. Para esto es esencial tener mucho cuidado en medir la capacidad
de discriminación y su desviación estándar en una muestra adecuada. Una muestra
mal escogida invalida completamente las estimaciones.
Otras medidas de
discriminación diferentes al KS también pueden ser calculadas para modelos tipo
árboles.
Hay que distinguir entre una muestra con la que se construye un modelo, sea éste de árbol de decisión o de otra naturaleza, de muestras de testeo. Sólo los resultados medidos en muestras de testeo son válidas para estimar lo que pasará con otros clientes.
Una muestra de testeo es una muestra que es independiente de la que se usa para construcción. Puede obtenerse usando funciones pseudoaleatorias que típicamente están disponibles en planillas o bases de datos. Una vez obtenida la muestra es importante chequear que no contenga registros comunes con la muestra de construcción. También es importante verificar que para algunas variables bien conocidas, tales como género, edad, ciudad, etc., sus histogramas para los datos de la muestra se vean con una distribución similar a la de los histogramas con los datos de toda la población.
Sin embargo, aún satisfechas estas dos condiciones existe un error muy común que invalida todo. Es tentador durante la construcción del modelo o al final del proceso, usar la muestra de testeo para hacer unos ajustes finales. Por ejemplo, ajustes en puntos de corte, ya sea del modelo o de algunas variables. Si así se hizo, entonces esa muestra no puede usarse para estimar la capacidad de discriminación del modelo construido ni de su error. Habrá que usar otra muestra independiente. Atención: si no ha entendido este párrafo, entonces está listo para cometer errores graves.
Selección de muestra para
construcción y verificación representatividad.
Existen varias maneras de obtener muestras. Algunas maneras ya vienen dentro de la opciones de los paquetes estadísticos. Otra forma sencilla y directa es crear en la planilla o base de datos una columna adicional, y llenarla con la función aleatoria (random) con números entre 0 y un millón. Luego se ordena la planilla o base de datos por ese campo y se toma la mitad superior, es decir, los que están primeros. Si se requiere una muestra de 30% de la población, se toman todos los primeros hasta completar el 30%.
Es muy importante verificar la representatividad de la muestra. Así se descartan posibles errores en los procedimientos de creación de muestras aleatorias.
Se recomienda comparar distribuciones de variables conocidas en la población con las mismas variables en la muestra. Por ejemplo, género, edad, ciudad de residencia, ingresos, etc. Así, por ejemplo, si en la población cliente del banco, es decir, en toda la cartera, existe un 60% de hombres y 40% de mujeres, entonces en la muestra deben haber porcentajes similares.
Es crítico asegurar la independencia de las muestras de testeo de la muestra utilizada para la construcción. Los errores más frecuentes son:
1) Procedimiento mal realizado para sacar muestras de testeo
2) Utilizar toda la información para construir el modelo
3) No almacenar las muestras de testeo debidamente identificadas, dificultando así la creación posterior de muestras de testeo
4) Mezclar algunos registros de la muestra de construcción en la muestras de testeo
5) Uso, aparentemente menor y tangencial, de información en las muestras de testeo para ajustes de modelo.
Un uso inadecuado de las muestras de testeo puede hacer creer que un modelo tiene cerca de 100% de discriminación (KS = 100 ) cuando en realidad tiene cerca de cero.
De todos los cinco errores anteriores es el quinto el que más cuesta comprender y más fácilmente se olvida. Segunda advertencia: si no entiende cuál es este error, entonces está listo para cometer un error grave.
Ejercicio:
En una muestra de construcción con cien mil clientes, de los cuales 5.000 son malos y 95.000 son buenos clientes, se analizaron varias variables. Se encontró que una buena variable era el número de la cédula de identidad.
Calcule y explique porqué el estimador del KS de esa variable en la muestra de construcción es igual a 100. ¿Cuál debería ser su desviación estándar? Considere ahora una muestra para testeo de cien mil clientes, independiente de la de construcción, y con una proporción similar de buenos y malos. Calcule y explique porqué en la base independiente de testeo el KS de esa variable es muy cercana a cero. ¿Cuál debería ser su desviación estándar?
Construcción de Modelos:
Existen varios tipos de modelos. Revisaremos aquí cómo construir algunos de ellos y luego haremos una comparación. Todas las construcciones aquí revisadas son hechas con métodos estadísticos. Esto significa que las variables escogidas y la manera de mezclarlas se realiza con algoritmos bien definidos, que utilizan la información de la muestra de construcción, y que pueden ser implementados en el computador.
Modelos univariados:
Un modelo univariado es uno que usa una sola variable. Por ejemplo:
Si antigüedad
menor a 18 meses rechace. Si no, acepte.
Otro ejemplo de modelo univariado:
Si edad
está entre 25 y 65 acepte. Si no rechace.
Para construir estos modelos se puede calcular el KS en la muestra de construcción tomando para cada variable el mejor punto de corte. Finalmente el modelo escogido es alguno con buen KS.
Imaginemos que en la base de construcción se calcularon los KS siguientes:
|
Variable |
KS |
|
Ciudad |
9,1 |
|
Ingreso |
18,0 |
|
Antigüedad |
16,3 |
|
Profesión |
5,2 |
|
Cargas |
10,1 |
|
Edad |
19,8 |
Esto significa que si se escoge Edad y ésta
tiene ese KS para el punto de corte 26,3 años, entonces el modelo
Si edad
<= 26,3 años rechace. Si no acepte.
Debe ahora correrse este modelo sobre una muestra
de testeo. Si el KS en la muestra de testeo da 15,2, entonces 15,2 es el
estimador de KS que tiene el modelo.
Lo que sigue es muy importante:
Puede ser que jugando con el punto de corte se
descubre que en la base de testeo el punto de corte 23,7 años da un KS mejor,
por ejemplo un KS de 17,8. Sin embargo, si se desea usar ese nuevo punto de
corte entonces debe testearse el modelo en otra muestra independiente para
poder estimar el KS. Si no, no vale el cálculo como estimador de lo que será la
capacidad de discriminación con nuevos clientes o con otra base. Tercera
advertencia: es la misma advertencia que las dos anteriores ante el mismo
error. Si no entiende este error, entonces está preparado para cometer un error
grave.
Modelos con puntaje lineal:
Un modelo con puntaje lineal requiere convertir todas las variables a numéricas, o usar sólo aquellas que se traducen a números. Por ejemplo, habría que traducir la variable sexo con valores Masculino y Femenino a la variable sexo_N con valores 0 y 1 respectivamente.
Un modelo de puntaje usa una suma de variables ponderadas. Este tipo de mezclas se llama combinación lineal. Por ejemplo, un modelo de puntaje es el siguiente:
Puntaje = 1,2*Edad + 0,5*Antigüedad – 5,4*Cargas
Si Puntaje <= 30 rechace. Si no acepte.
Un modelo de puntaje asume implícitamente que existe una moneda de intercambio que dice cuánto de una variable es equivalente a cuánto de otra, cuando el resto de las variables están fijas. Esto significa que si una variable está complicada, esto puede ser compensada por otras. Esta suposición es muy discutida, pues hay factores como los de moralidad que si están mal se debe rechazar el cliente sin importar qué tan bien estén las otras variables. Sin embargo, si la moralidad está bien, entonces otros factores tienen gran importancia. Un criterio así, no puede ser puesto como suma ponderada de factores.
Los métodos de construcción de modelos de puntaje tratan de encontrar los mejores coeficientes posibles de manera que la capacidad de discriminación del modelo sea máxima. Para esto, normalmente se calculan para cada variable promedios de las variables para clientes malos y los promedios de las variables de los clientes buenos. Además se calculan las dos matrices de covarianzas, la para clientes malos y las para clientes buenos. Usando los promedios y las covarianzas puede encontrarse una nueva variable que resulta ser suma ponderada de las originales. Esa nueva variable es un mecanismo de puntaje que puede tener un buen KS. Si para todas las variables tanto la distribución de clientes buenos como malos son normales, y ambos con la misma covarianza, entonces el mecanismo es óptimo. Existen otra gran variedad de otros métodos que son variaciones del anterior. No está claro cuál es el mejor, pero para datos normales (gaussianos), el descrito con la covarianza es el óptimo.
La construcción de un árbol se hace por etapas. En cada etapa se selecciona una de las variables más discriminantes y de acuerdo a ella se segmenta lo que queda de la muestra en dos.
Tomemos como ejemplo esta mini muestra (sacada de [2]) de construcción con 12 clientes (6 buenos y 6 malos), y cinco variables: Salario, CasaPropia, AutoPropio, Edad y EstadoCivil.
|
Salario |
CasaPropia |
AutoPropio |
Edad |
EstadoCivil |
Estado |
|
60 |
si |
no |
42 |
soltero |
Bueno |
|
180 |
si |
no |
50 |
casado |
Bueno |
|
420 |
si |
si |
45 |
casado |
Bueno |
|
210 |
no |
si |
42 |
soltero |
Bueno |
|
310 |
no |
no |
24 |
soltero |
Bueno |
|
220 |
no |
no |
35 |
casado |
Bueno |
|
150 |
no |
no |
29 |
casado |
Malo |
|
720 |
si |
si |
24 |
soltero |
Malo |
|
90 |
no |
no |
47 |
casado |
Malo |
|
50 |
no |
no |
60 |
casado |
Malo |
|
250 |
no |
no |
50 |
casado |
Malo |
|
45 |
no |
no |
32 |
casado |
Malo |
Esta muestra es extremadamente chica como para
hacer nada serio, pero permite ilustrar los conceptos básicos. Además, este
ejemplo juguete permite calcular a mano todo lo que sea necesario, y así
asegurarse que uno ha entendido el algoritmo de construcción de árboles.
Tomemos además esta segunda muestra con 8 clientes (4 buenos y 4 malos), y las mismas cinco variables. Esta será nuestra muestra para testeo.
|
Salario |
CasaPropia |
AutoPropio |
Edad |
EstadoCivil |
Estado |
|
120 |
si |
si |
32 |
casado |
Bueno |
|
170 |
no |
si |
28 |
soltero |
Bueno |
|
300 |
no |
no |
45 |
casado |
Bueno |
|
90 |
no |
no |
29 |
soltero |
Bueno |
|
100 |
no |
no |
43 |
casado |
Malo |
|
280 |
no |
no |
42 |
casado |
Malo |
|
65 |
no |
no |
39 |
casado |
Malo |
|
40 |
no |
si |
41 |
casado |
Malo |
Los KS de cada variable junto a su desviación estándar, según la muestra de construcción, son:
|
AutoMind |
||
|
Variables |
KS |
s |
|
Salario |
50,0% |
34,5 |
|
CasaPropia |
33,3% |
35,6 |
|
AutoPropio |
16,7% |
34,5 |
|
Edad |
33,3% |
35,6 |
|
EstadoCivil |
33,3% |
35,6 |
Claramente la desviación es enorme. Esto se debe al tamaño extremadamente pequeño de la muestra. Aún así, la variable Salario es la más discriminante.
Si escogemos Salario y segmentamos por esa variable, obtenemos el siguiente árbol

Este es un árbol muy elemental. En el segmento izquierdo están aquellos clientes con salario <= 150. De la muestra de construcción quedan 6 clientes (es decir 41,7% de los clientes que están en la muestra), y estos se reparten en uno bueno y 4 malos. En el segmento derecho están aquellos clientes con salario mayor a 150. Hay un total de 7, de los cuales 5 son buenos y 2 son malos. Este modelo tiene un KS de 50%. Ambos segmentos pueden seguir segmentándose. Sin embargo, dado el error lo dejamos hasta acá.
Ahora, es muy importante medir el KS del modelo y su desviación en la muestra de testeo. Eso son los valores que importan. Usando la muestra de testeo, tenemos que cinco casos quedan en el segmento izquierdo y tres en el derecho:
|
AutoMind |
|||||||||||
|
Nº |
Segmento |
Estado |
Total |
Tasa de |
s |
Acumulado |
Diferencia |
s |
|||
|
Bueno |
Malo |
Malos |
Bueno |
Malo |
(KS) |
||||||
|
1 |
IniIzq |
2 |
3 |
5 |
60,0% |
21,9 |
50,0% |
75,0% |
25,0% |
46,7 |
|
|
2 |
IniDer |
2 |
1 |
3 |
33,3% |
27,2 |
100,0% |
100,0% |
0,0% |
0,0 |
|
|
|
Total
general |
4 |
4 |
8 |
50,0% |
17,7 |
|
|
|
|
|
|
|
|
|
|
|
|
KS |
|
25,0% |
46,7 |
|
|
|
|
|
|
|
|
|
Corte
(Nº) |
|
1 |
|
|
O sea el KS es sólo de 25%. Esto quiere decir que si tomamos otra muestra cualquiera de clientes, independiente de la muestra de construcción, el KS andará alrededor de 25%, pudiendo variar desde 0 hasta 71% en la gran mayoría de los casos.
Modelos no lineales:
Existen varios tipos de modelos no lineales. Uno de los tipos no lineales es el de árboles de decisión. Otros son las redes neuronales, los algoritmos genéticos y muchos otros.
Los modelos de redes neuronales asumen que todas las variables son numéricas. Si no lo son, o sólo se trabaja con las numéricas o bien se convierten a numéricas de acuerdo a un criterio especificado. El modelo neuronal busca una combinación de variables con sumas ponderadas y funciones umbrales (si el valor es más allá de cierto umbral sale uno, si no sale cero).
Los modelos genéticos también requieren variables numéricas. Los algoritmos recombinan criterios creando nuevos a partir de criterios básicos con métodos similares a la creación de moléculas recombinando partes de moléculas y haciendo mutaciones. En este caso, se mutan partes de fórmulas y se crean nuevas juntando fórmulas. Aquellas fórmulas con mejor capacidad de discriminación van sobreviviendo, y vuelven a mutarse y recombinarse. Eventualmente se llegan a buenas fórmulas que corresponden a criterios con buena capacidad de discriminación.
Naturalidad
Un aspecto muy importante de un modelo es que sea natural para la mente humana. Que exprese en un lenguaje fácil de comprender las características esenciales de los diferentes patrones de riesgo en la cartera. Muchas veces este producto de un modelo es el esencial. Permite hacerse un claro diagnóstico del estado de la cartera, encontrar oportunidades y hacer ajustes a las políticas. En general, para el análisis de riesgo crediticio, los modelos tipo árbol son más naturales que otros. Esta mayor naturalidad se debe a que encontrar un árbol discriminante es equivalente a encontrar segmentos con diferentes niveles de riesgo, unos bien distintos de los otros. Por ejemplo, el segmento de los menores a 25 años y sin casa propia no es más que un nodo de un árbol. Esta manera de concebir el riesgo, describiendo segmentos con su riesgo asociado, es una manera natural e intuitiva. Es una manera ecológicamente válida, es decir, está expresada en un formato natural a la mente.
Un estudio internacional, (ver [1]) llevado a cabo durante 4 años por varios centros estadísticos universitarios e industriales de varios países de la Comunidad Europea que compararon varias decenas de métodos, concluyó que los métodos de árboles de decisión son los de mejor capacidad de discriminación en crédito. De 23 algoritmos probados, de los cuales 5 eran de árboles de decisión, el mejor resultó ser de árbol de decisión y tres algoritmos de árboles estaban entre los seis primeros lugares. El estudio concluyó que “parte de la razón del éxito (de los árboles) en esta área es sin lugar a dudas que los métodos de árboles de decisión pueden manejar más naturalmente con una gran cantidad de atributos binarios o categóricos (siempre que el número de alternativas sea pequeño). Ellos también incorporan términos de interacción en su desarrollo. Y, quizás más significativamente, ellos son un espejo del proceso de decisión humana”.
Aparte de la capacidad de discriminación de un modelo, y en particular de un modelo tipo árbol, es muy importante considerar la estabilidad, simplicidad y comunicabilidad.
Estabilidad significa que en muestras independientes sus indicadores de discriminación no varíen mucho. Naturalmente, esto depende del tamaño de la muestra con que se construyó el modelo. Pero también depende si se intentó sobre ajustar la información, llegando hasta segmentos con muy pocos casos. Otra prueba importante de estabilidad es ver cuántos varían los indicadores medidos en diferentes condiciones de stress (por ejemplo, sacando clientes malos muy evidentes). Otra prueba adicional de estabilidad es determinar cómo se comportan los indicadores a través del tiempo.
Simplicidad significa que cada vez que hay dos modelos o árboles con similar capacidad de discriminación y estabilidad, es preferible el más simple: con menos variables, menos condiciones, y con segmentos que hagan sentido.
Comunicabilidad significa que el árbol puede resumirse en algunos criterios o segmentos fáciles de interpretar y relatar a terceros. Esto asegura que si hubo algún error en el proceso de construcción, o se han producido cambios macroeconómicos o cambios en el mercado objetivo, entonces será fácil detectar esos problemas. La comunicabilidad facilita el seguimiento y la capacidad de hacer ajustes oportunos, mucho antes que errores o desajustes sean muy evidentes.
La construcción de un buen modelo, sea éste tipo árbol o no, depende de la inclusión de variables significativas que no siempre está explícitamente en la información original. Por ejemplo, variables como:
Es importante incluir un gran conjunto de estas variables y echarlas a competir con las otras. Así el algoritmo de construcción las tendrá en cuenta tanto separadamente para toda la muestra de construcción como en cada uno de los segmentos particulares que se vayan definiendo.
Determinación de niveles de riesgo para diferentes
segmentos y puntos de corte según rentabilidad.
Un árbol contiene varios segmentos finales. Cada segmento tiene una combinación de clientes buenos y clientes malos. El nivel de riesgo de cada segmento se obtiene contando los clientes buenos y malos que caen en el segmento, y calculando sus proporciones.
Retomemos el ejemplo 3. En el nodo izquierdo, que corresponde al segmento edad menor a 25 años hay 400 clientes buenos y 200 malos. Por lo tanto la tasa de malos es 33,3% y la de buenos es 66,6%. En el nodo del medio correspondiente al segmento de clientes con edad igual o mayor a 25 años y solteros, hay 800 buenos clientes y 200 malos. Por lo tanto la tasa de malos es 20%. En el otro nodo, el de la derecha, correspondiente a clientes con edad igual o mayor a 25 años y casados, hay 8300 clientes buenos y 100 malos. Es decir, la tasa de malos es 1,2%.
El mismo árbol puede tener varios puntos de corte. Por ejemplo, podemos
Las otras combinaciones no son naturales de acuerdo al árbol. Para cada corte tendremos un KS, y su correspondiente desviación. El corte óptimo se decide con la muestra de construcción.
Una vez escogido el corte, se evalúan todos los clientes de la muestra de testeo. Se cuentan cuántos clientes buenos y malos caen en la zona de rechazo (menor al corte), y con esos datos se obtiene una estimación del KS.
La información de clientes negados es muy importante para detectar posibilidades de ampliar los criterios crediticios actuales. Es muy posible que se hayan estado rechazando clientes que podrían haber tenido un buen comportamiento. Varios de esos clientes deben tener ciertos perfiles, es decir, pertenecer a ciertos segmentos bien definidos. El problema es que hay que detectar cuáles son esos segmentos. Una vez detectados, pueden relajarse criterios crediticios para pasar a aceptar clientes en esos segmentos.
Información necesaria que debe tenerse para poder usarse la información de negados
El mayor problema para implementar la estrategia de incluir negados en la construcción del modelo es la escasez de información sobre los negados. Es necesario haber dejado almacenada toda la información al momento de la presentación, tal como con los clientes aceptados. Esto incluye información de moralidad proveniente de centrales de riesgo, información demográfica y financiera. Si no está esta información relativamente completa, una estrategia es intentar conseguirla con terceros. Por ejemplo, con centrales de riesgo.
Por otra parte, es importante conseguir información
de comportamiento de esos clientes con operaciones crediticias similares que
pudieran haber conseguido en esos mismos momentos con terceros. Esta información puede conseguirse
trabajando con centrales de riesgo.
Compra de información de negados almacenada en centrales de riesgo externas
Para que la adquisición en centrales de riesgo sea efectiva debe tener los siguientes requisitos:
¿Qué pasa si se cambia la definición de buenos versus malos, después que el modelo está terminado? ¿Es necesario rehacer todo de nuevo?
Es normal hacer ajustes a la definición de buenos y malos. Por ejemplo, para iniciación, de una definición de bueno como aquel cliente que durante los dos años iniciales del crédito nuca pasó de mora de 90 días, cambiar una definición de bueno como aquel cliente que durante los dos años iniciales del crédito nuca pasó de mora de 120 días. Otro cambio, es definir como bueno aquel cliente que durante el primer año inicial del crédito nuca pasó de mora de 90 días.
Todos estos cambios, significan reclasificar la cartera. Luego se pasa toda la muestra de testeo por el modelo ya construido. Lo único que cambia es la proporción de buenos y malos en cada segmento final del árbol. Con esa nueva contabilidad de nuevos y malos se puede calcular directamente el nuevo estimador de KS.
[1] Michie,
D. , Siegelharter, D.J. & Taylor, C.C. “ Machine Learning, Neural and
Statistical Classification”. Ellis Horwood, 1994.
[2]
Reynolds, A. & Araya, R. “Building
Multimedia Performance Support Systems”. McGraw Hill, New York, 1995.