Fundamentos de Evaluación de Capacidad de Discriminación de Variables y Modelos en Análisis Crediticio
·
Introducción
·
Medidas de Capacidad de Discriminación
·
La ley de los Grandes Números
·
Determinación
de la dispersión de la estimación de clientes buenos y malos en un segmento.
·
Determinación de la dispersión de la estimación
del KS
Un
modelo para evaluación crediticia es una política, fórmula, matriz, guía o
programa que indica para cada cliente un puntaje o nivel de riesgo. El puntaje
se asigna según los valores que toman ciertas variables. Es entonces muy
importante poder medir la capacidad de discriminar clientes buenos de clientes
malos que poseen los modelos y de las variables que lo componen.
Toda
variable es un campo de la información disponible de la cartera. Por ejemplo,
la edad, nivel de ingresos y profesión son tres variables. Las variables pueden
ser tanto campos originales como otras variables creadas a partir de las originales.
Un modelo cualquiera utiliza variables creando en el fondo una nueva variable
que corresponde a los diferentes niveles de puntaje que el modelo asigna.
Un
modelo puede haber sido obtenido por métodos estadísticos, métodos de
inteligencia artificial, métodos de minería de datos, métodos de redes
neuronales, métodos de algoritmos
genéticos, encuestas entre expertos, o por simple intuición e inspiración. Lo
importante es que tanto para el modelo, como cualquier variable original o
intermedia, puede medirse su capacidad
para discriminar entre buenos y malos clientes.
¿Existen modelos o variables que no puedan medirse?
El único requisito para que una variable, criterio, política o modelo
pueda medirse es que éste sea sistemático. Es decir, que pueda establecerse
como un método mecánico que asigne a cada cliente un puntaje o nivel de riesgo.
Políticas difusas que deben ser interpretadas cada vez para poder evaluar un
cliente quedan en principio excluidas, aunque los métodos aquí propuestos
pueden testear incluso a personas evaluadoras calculándoles sus capacidades de
discriminación y la estabilidad de sus criterios, así como variables que tengan
un nivel no muy alto de errores o ruidos.
¿Qué es lo que se mide?
El objetivo final es asegurarse de que tengamos el mejor modelo posible y que tenga capacidad de predicción. Esto significa que, por una parte necesitamos medir la capacidad de discriminación entre buenos y malos clientes que el modelo realiza, y por otra parte necesitamos conocer la estabilidad del modelo. Aquí estabilidad significa comparar la capacidad de discriminación del modelo con aquella que ese modelo tenía cuando fue construido.
¿Porqué
medir la capacidad de discriminación de variables y no sólo la del modelo?
Todo modelo usa variables. Típicamente aquellas más discriminantes entre buenos y malos clientes son las variables que con mayor probabilidad pueden aparecer en un buen modelo o en ajustes a modelos hechos anteriormente.
Todo
modelo asigna un puntaje o nivel de riesgo a cada cliente. Para rechazar un
cliente su puntaje se compara con un punto de corte. Si el puntaje es menor al
punto de corte, entonces se rechaza al cliente. Por esta razón es muy
importante calcular un buen punto de corte. De este modo, el testeo de un modelo
abarca tanto su estructura como el ajuste de su punto de corte.
¿Es necesario testear todo el modelo o sólo el punto
de corte?
Lo más básico y sencillo es estar permanentemente ajustando el punto de corte. Cuando esto no es suficiente entonces se debe analizar también la estructura del modelo.
¿Con qué periodicidad debo testear mi modelo?
El testeo de la capacidad de discriminación se debe realizar al momento de empezar a usar el modelo, y luego mensualmente. El testeo de estabilidad se debe realizar una vez al mes. Para esto se requiere disponer de la infraestructura computacional necesaria, y personal entrenado y dedicado exclusivamente a esta tarea.
¿Cómo sé cuándo la capacidad de discriminación ha cambiado lo suficiente como para ajustar el modelo?
En todo modelo debe no sólo medirse su capacidad de discriminación sino que además debe calcularse la dispersión o desviación estándar de esa medición. Esto ocurre pues no es posible medir exactamente la capacidad de discriminación de un modelo, sólo se puede obtener una estimación, la cual tiene un error. Si el cambio es más allá de dos desviaciones estándares entonces es aconsejable pensar en ajustar el modelo.
Un
modelo que discrimine bien es aquel que detecte todos los malos clientes y los
rechace, pero que no rechace ningún buen cliente. Ese es el ideal.
Esto nos lleva a considerar dos porcentajes:
·
el porcentaje de malos clientes que el modelo
rechaza, y
·
el porcentaje de buenos clientes que el modelo
rechaza.
Un
buen modelo es aquel en el que el primer porcentaje es cercano a 100% y el
segundo es cercano a 0%. Para incluir en un solo número ambos porcentajes, se
utiliza normalmente la diferencia de esos porcentajes. El valor absoluto de
esta diferencia constituye el indicador KS.
Ejemplo 1:
Si en una cartera hay 9.500 clientes buenos y 500 clientes malos, y si
el modelo rechaza (detecta) 300 de los malos pero también rechaza (cree que son
malos) 475 de los buenos, entonces:
% de malos clientes rechazados =
100*(300/500) = 60%
% de buenos clientes rechazados = 100*(475/9500) = 5%
por lo tanto, KS del modelo = | 60%
- 5% | = 55 %
Ejemplo
2:
Juan Pérez evaluó una muestra de 100 clientes. De los 10 malos detectó 5 y de los 90 buenos érroneamente rechazó a 3. Con estos datos podemos calcular el KS de Juan Pérez para esta muestra, pues
% de malos clientes rechazados =
100*(5/10) = 50%
% de buenos clientes rechazados = 100*(3/90) = 3,3%
por lo tanto, KS de Juan Pérez para esta muestra = | 50% - 3,3% | = 46,7 %
El
indicador KS es muy fácil de interpretar porque siempre varía entre 0 y 100.
Mientras más cercano a cero sea, más malo es el modelo. Y mientras el KS sea
más cercano a 100%, mejor es el modelo.
Es
muy importante notar que el indicador KS depende de la cartera donde se
calcule. Es decir todo lo que se puede calcular es un estimador del KS.
Ejemplo
3:
Consideremos el mismo modelo del ejemplo 1 pero ahora calculemos el KS sobre una base de testeo independiente de la anterior que se había separado para fines de testeo. Esta base de testeo contiene 2.000 clientes buenos y 110 clientes malos. En esta base el modelo rechaza 65 de los malos clientes y 120 de los buenos clientes. Entonces el KS del modelo en esta nueva base es:
% de malos clientes rechazados =
100*(65/110) = 59%
% de buenos clientes rechazados = 100*(120/2000) = 6%
por lo tanto, KS del modelo = | 59%
- 6% | = 53 %
Finalmente,
es también muy importante tener presente que el KS de un modelo depende del
punto de corte utilizado. Es decir, si un modelo es usado con un punto de corte
su KS es diferente si ese mismo modelo es usado con otro punto de corte.
¿Se puede calcular el KS para variables categóricas o variables numéricas?
Para ambos tipos de variables, e incluso para multivariables que usan mezclas de categóricas con numéricas.
¿Existen otras medidas para calcular la capacidad de discriminación de variables y modelos?
Existen varias, pero el KS es la más usada en crédito. También es quizás la más simple de entender, y siempre varía entre 0 y 100. Se puede utilizar para variables categóricas y numéricas. Estudios comparativos muestran que las diferentes definiciones no permiten construir modelos mejores. El problema no reside en la definición de la medición.
Esta
ley es uno de los resultados más importantes de la matemática y es el teorema
fundamental sobre el que se cimienta toda la estadística. La utilizaremos para
calcular a magnitud del error en los niveles de riesgo de los diferentes
segmentos así como la magnitud del error en las estimaciones del KS. Para
introducir esta ley comenzaremos con un dado.
Un
dado normal contiene 6 caras. Ellas están numeradas del 1 a 6. Decimos que el
dado está bien construido si al tirar muchas veces, un sexto de las veces sale
1, un sexto de las veces sale 2, un sexto de las veces sale 3, un sexto de las
veces sale 4, un sexto de las veces
sale 5 y otro sexto de las veces sale 6. En adelante supondremos que nuestro
dado está perfectamente construido.
De
esta forma, el histograma de frecuencias de nuestro dado contiene para cada
valor posible la frecuencia 1/6, tal como se observa en la figura siguiente:

Notemos
que si lanzamos muchas veces el dado y calculamos el promedio de lo que sale
cada vez, entonces obtendremos que el promedio es 3,5 y que la dispersión (o
desviación estándar
) es 1,71 .
Consideremos
ahora el caso que lanzamos dos dados simultáneamente. Entonces los valores
posibles de la suma de los dos dados van desde 2 (si en ambos sale 1) hasta 12
(si en ambos sale 6). El punto clave aquí es darse cuenta que si uno fuera a
apostar conviene más apostar por que la suma sale 6 y no apostar de que la
suma sale 2. Claro, pues el 6 se puede obtener con un 1 en el primer dado y un
5 en el segundo, o con un 2 en el primer dado y un 4 en el segundo, o con un 3
en el primer dado y un 3 en el segundo, o un 4 en el primer dado y un 2 en el
segundo, o con un 5 en el primer dado y un 1 en el segundo. O sea hay un total
de 5 combinaciones que dan lugar a que la suma sea 6. Sin embargo, hay sólo una
combinación que da lugar a que la suma sea 2 (ambos dados deben salir con un
1).
Si
anotamos cada vez el promedio de lo que sale en cada dado, entonces veremos que
los valores posibles son 1, 1,5 , 2 , 2,5 , 3 , 3,5 , 4 , 4,5 , 5 , 5,5 y 6
(por ejemplo 1,5 se obtiene si en un dado sale 1 y en el otro sale 2). Además,
tal como en el párrafo anterior es fácil darse cuenta que 3 es mucho más
frecuente que 1, pues 3 se obtiene como el promedio de 1 y 5, de 2 y 4, de 3 y
3, de 4 y 2 y de 5 y 1, mientras que 1 se obtiene sólo si en ambos dados sale
un 1.
Si
construimos el histograma para el promedio, éste ya no queda plano como antes.
Tiene una forma triangular, con la altura máxima en 3,5.

Nótese
que la media en este histograma es también 3,5 tal como en el histograma
anterior. Sin embargo, dado que no todos los valores tienen la misma frecuencia
si no que hay mucho mayor frecuencia para 3,5 y para los valores cercanos a 3,5
entonces la desviación estándar es más pequeña (hay menos dispersión). El valor
de la desviación estándar es la desviación estándar anterior pero dividida por
raíz cuadrada de 2.
Si
lanzamos ahora 10 dados simultáneamente y anotamos el promedio de lo que sale
cada vez (promediando los 10 valores, uno por cada dado), y repetimos esto
varias veces se genera un histograma mucho más concentrado en 3,5. Esto
significa que la desviación estándar es mucho más pequeña (o sea, hay mucho
menor dispersión de los datos). El valor exacto de la desviación estándar es el
valor de la desviación estándar del primer histograma pero dividido por raíz cuadrada
de 10.
La
forma que tiene el histograma cuando se lanzan simultáneamente n dados y se
grafica el promedio de los n dados, es un fenómeno matemático que se deriva de
repetir un proceso y de calcular las diferentes formas de obtener una suma.
Este fenómeno tiene el nombre de Ley de los Grandes Números, y se cumple no
sólo para dados sino que para cualquier proceso que se repita, cada vez en
forma independiente de las anteriores, y en el que utilicemos promedios. En
resumen la ley de los grandes números nos dice que si una variable aleatoria
tiene desviación estándar
, entonces el promedio de n de esas variables aleatorias
tiene la misma media que la variable sola pero su desviación estándar es mucho
menor y, es exactamente igual a
(es decir, la
desviación estándar original partido por raíz cuadrada de n).
Ejemplo 4:
En una base de datos la frecuencia de malos es 0,166 y la de buenos es
0,833 . Uno puede imaginarse esto como un dado en el que sólo se consideran dos
valores: la cara con el número 1 representa un cliente malo y el resto de las
caras representan clientes buenos. Tomemos una muestra de 16 clientes (es como
lanzar 16 de estos dados en forma simultánea). Si tomamos el promedio de estos
16 clientes considerando 1 cuando es malo y 0 cuando es bueno, entonces el
histograma sería el siguiente:

Es decir, el histograma de los 16 clientes tiene un promedio de 0.166 y
una desviación estándar igual a un cuarto (pues 4 es la raíz cuadrada de 16) de
la desviación estándar del histograma para un solo cliente.
Veamos
porqué disminuye la desviación estándar del promedio de una muestra de tamaño n
según la raíz de n.
Sean
y
dos variables
aleatorias independientes pero ambas con la misma media
y desviación estándar
. Sea
la media de las n=2
variables anteriores. Entonces la Media de
es ![]()
![]()
![]()
Es
decir la media de
es la misma que la de
y la de
. Veamos ahora la desviación estándar de
.
La
desviación estándar de
es la raíz cuadrada
de su varianza ![]()
Pero,
![]()
![]()
![]()
![]()
![]()
![]()
![]()
Y,
por lo tanto la desviación estándar de
es
, y así hemos
comprobado la fórmula para n =2.
¿Qué significa la independencia entre las diferentes variables?
La independencia es muy importante. Significa que al formar una muestra cada sacada de un cliente es totalmente independiente de los clientes que salieron antes o de otros factores como que tenga algunos campos vacíos. Si están saliendo muchos clientes con ingresos bajos, o muchos con el campo profesión en “otros”, o muchos con el campo edad en vacío, entonces si empezamos a tratar de evitar esos casos vamos a producir dependencia y por lo tanto el resultado no se cumple.
Supongamos
que nuestro modelo predice que para clientes en un cierto segmento (por ejemplo
con puntaje mayor a 200 y menor o igual a 300, o para clientes masculinos con
menos de 30 años e ingresos superiores a 1.500 dólares) la frecuencia de malos
clientes es 16,66 %. Si tomamos una muestra de 100 clientes al azar dentro de
ese mismo segmento y 20 de ellos resultaron malos, entonces ¿a cuántas desviaciones
estándares estamos de lo predicho por el modelo?
Es
decir de acuerdo a nuestra muestra del segmento en él existe un 20% de clientes
malos y un 80% de clientes buenos. Sin embargo estos porcentajes se obtuvieron
a partir de una muestra de 100 clientes. Si la muestra hubiera sido de 1000
clientes con 200 malos y 800 buenos, entonces claramente tendríamos mayor
seguridad que esos porcentajes son confiables. Y si la muestra hubiera sido de
10.000 clientes con 2.000 malos y 8.000 buenos, entonces estaríamos más seguros
aún. La pregunta es: ¿De dónde nos surge esa mayor seguridad? Veamos cómo usamos la Ley de los Grandes
Números para responder esta pregunta.
Detrás
de una muestra está un proceso de ir sacando clientes. Si se sacan n=100,
entonces significa que se ha instaurado un procedimiento de saque consecutivo
en el 100 veces se ha procedido a sacar cada vez un cliente. Supondremos que
cada vez el proceso de sacar es independiente de los saques anteriores. Para
aplicar la Ley de los Grandes Números necesitamos dos cosas:
Supongamos que existe un porcentaje 100p de buenos clientes y 100(1-p) de malos clientes. Es decir, la proporción de buenos clientes es p y la de malos es q=1-p. Llamemos X a la variable tal que toma el valor 1 si el cliente es bueno y toma el valor cero si el cliente es malo. Entonces la media de X es:
![]()
![]()
![]()
Calculemos su desviación estándar:
![]()
![]()
![]()
![]()
![]()
Es
decir, en nuestro caso dado que de la muestra estimamos 80 por ciento de malo,
entonces si asumimos que la proporción verdadera es 80%, es decir que p=0,80
entonces la desviación estándar debe ser
=0,4 . Es decir la desviación estándar corresponderá a 40
puntos porcentuales.
Por otro lado si promediamos 100 saques, cada
uno correspondiente a una variable con la misma estadística que X pero todas
independientes, entonces el promedio tiene la misma media p pero sus desviación
estándar será:
. Es
decir la desviación estándar de la proporción de buenos en una muestra de cien
corresponderá ahora a 4 puntos porcentuales. Esto es, la proporción de buenos
en términos porcentuales es
.
¿Y cómo anda el error en una muestra de 10.000 clientes donde 8.000 son buenos y 2.000 son malos?
En ese caso la proporción de buenos es nuevamente 80%, pero ahora la
desviación estándar es:
. Es
decir ahora la desviación estándar de la proporción de buenos en la muestra de
diez mil es de 0,4 puntos porcentuales. Esto es, la proporción de buenos en
términos porcentuales es
.
El
KS no es más que la diferencia entre dos proporciones. En el peor de los casos
la desviación estándar es la suma de las desviaciones de cada proporción por
separado. Como ya sabemos calcular la desviación de una proporción todo lo que
necesitamos es por un lado la proporción de buenos rechazados y el tamaño de la
muestra de buenos de donde se obtuvo la proporción, y, por otro lado, la
proporción de malos rechazados y el tamaño de la muestra de malos de donde se
obtuvo la proporción.
De este modo en el ejemplo 1 donde hay 9.500 clientes buenos y 500
clientes malos, y en el que el modelo rechaza (detecta) 300 de los malos pero
también rechaza (cree que son malos) 475 de los buenos, vimos que:
% de malos clientes rechazados =
100*(300/500) = 60%
% de buenos clientes rechazados = 100*(475/9500) = 5%
y en el que el KS era de 55 %,
tenemos entonces que la desviación estándar de la proporción de malos
rechazados es
![]()
y la
desviación estándar de la proporción de buenos rechazados
![]()
es decir, la desviación
estándar del KS no es más allá de 100(0,021+0,00223) = 100(0,0232)=2,3 puntos
porcentuales. Es decir,
.
Nótese en este ejemplo que
la mayor dispersión la aporta la proporción de malos rechazados, y esto se debe
a que la muestra de malos es sólo de 500, lo que es mucho menor que la de
buenos que es de 9.500 clientes.