Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Autor:
Alexander Escobar Berdugo
M.Sc. en Finanzas
alex_escobarb@hotmail.com
Coautor:
Nathaly Hincapie Hincapie
Estadístico
hhly18@gmail.com
Abril 2011
____________________________________________________
I. RESUMEN
Los esquemas de muestreo han sido ampliamente utilizados en diferentes disciplinas para
definir el comportamiento de una población de interés o pronosticar el comportamiento
futuro de la misma. La administración de riesgos financieros no es ajena a estas
necesidades y posee diversos escenarios donde un buen esquema de muestreo puede
generar excelentes resultados. Las principales etapas en las que se puede aplicar con éxito
dichos esquemas son la identificación y cuantificación de riesgos, aunque se pueden ser
aplicados en las otras etapas del ciclo de administración de riesgos.
A nivel general, un muestreo se ejecuta cuando se tiene una población extensa de análisis
y en términos de costo y tiempo es muy difícil hacer un censo poblacional, es decir, realizar
análisis individual de las observaciones; y aunque por lo general en la gestión de riesgos
es necesario realizar análisis de este estilo, existen escenarios donde el análisis de una
muestra representativa mediante una técnica adecuada, se puede traducir en una
estimación adecuada de los mismos parámetros que se obtiene con el censo poblacional,
con costos, tiempo y número de observaciones más reducidas.
De otro lado, cuando se cuenta con una población pequeña lo más recomendable es
realizar censo, ya que el error que se debe aceptar en un muestreo para obtener una
población pequeña es muy grande, esto si se desea reducir el número de observaciones.
Es decir, si se desea pasar de 78 a 50 observaciones el error de estimación de la técnica
es muy alto y por tanto la confiabilidad del modelo se puede ver comprometida. De esta
manera, cuando se desea estimar una muestra a partir de una población pequeña con un
error menor al 10%, en la mayoría de los casos el resultado será el mismo número de
observaciones que se tiene, en cuyo escenario es importante analizar los costos asociados
con el censo y sopesarlos con respecto a los costos asumidos en el esquema de muestreo.
➢ Costos reducidos.
➢ Mayor rapidez para obtener resultados.
➢ Mayor exactitud o mejor calidad de la información debido a los siguientes factores:
o Volumen de trabajo reducido.
o Puede existir mayor supervisión en el trabajo.
o Se puede dar más entrenamiento al personal.
o Menor probabilidad de cometer errores durante el procesamiento de la
información.
➢ Factibilidad de hacer el estudio cuando la toma de datos implica técnicas
destructivas o de alto costo.
1
Por lo general, para el cálculo del tamaño muestral N se utilizan niveles de significancia 𝛼 = 0.05 ó 0.10
garantía real la variable “básica” de análisis será “Saldo respaldado por la prenda” y
bajo este esquema utilizar dos tipos de estrategias de cobro para determinar la más
efectiva.
Etapa de Muestreo.
2
Cuando se carece de características definidas para cada uno de las observaciones y por tanto no se es claro los estratos a
evaluar, se debe recurrir a un análisis de clúster para determinar cuáles son los grupos más homogéneos y realizar un muestreo
estratificado dentro de ellos.
3
Se recomienda tener un número razonable de estratos o sub-estratos ya que entre mayor el número de estratos/sub-estratos
mayor será el error que se tenga en la obtención de la muestra, debido a que la homogeneidad de los datos se ve
comprometida.
uno de estos grupos de clasificación la distribución que siguen mediante la variable
más representativa del estudio (saldo del crédito por ejemplo), llevándolas siempre
a un comportamiento normal mediante transformaciones de los datos (en caso de
ser necesario), es decir, se deben encontrar los parámetros µ y σ que definen la
distribución normal de los datos.
Análisis de clúster
La utilización de este tipo de clasificaciones puede ser muy útil para la realización
de compras masivas de cartera de libranzas, donde la cantidad de clientes a analizar
sea demasiado grande como para realizarlo uno a uno. En estos casos se puede
ejecutar un proceso inicial de clúster son todas las variables sociodemográficas, de
gastos y de ingresos de los clientes persona natural, entendiéndose como
sociodemográficas: género, edad, calificación, Scoring de comportamiento de pago,
estado civil, número de personas a cargo, entre otras; para luego definir una muestra
de clientes para cada uno de estos clústers, los cuales serán sujetos de un proceso
de revisión exhaustiva.
Medidas de similitud
Métodos Jerárquicos
➢ Método de Ward
Se trata de ir agrupando de forma jerárquica elementos de modo que se
minimice una determinada función objetivo.
Métodos No Jerárquicos
Umbral secuencial
Se seleccionan una tras otra, "semillas" de conglomerado agrupando en torno a ellas
todos los objetos que caen dentro de una determinada distancia. Cada objeto ya
asignado no se considera para posteriores asignaciones.
Umbral paralelo
Similar al anterior pero se generan todas las semillas al mismo tiempo y los umbrales
mínimos de aceptación en cada grupo.
Optimización
Similares a los jerárquicos pero no se clasifican como tales porque en las etapas
sucesivas se permite la reasignación de sujetos.
K-means
Es un método de análisis de conglomerados que tiene por objeto una partición n
observaciones en k clústers en los que cada observación pertenece al grupo con la
media más cercana.
Consideraciones Especiales:
4
Esquema de muestreo de mayor utilización en la gestión de riesgos
Npq
n (Tamaño de la muestra) =
(N-1)D^2 + pq
Donde:
o N= tamaño de la población
o p= proporción de clientes a los que se les realiza una correcto proceso de
muestreo
o q= 1-p
o D=B/2 donde B es el error que se está dispuesto a asumir.
Para los caso en que se trabaje con la distribución normal de los datos un
intervalo de confianza del 95% proporciona una exactitud de la estimación puntual
de µ (Media de la variable representativa). Sí se tiene una estimación 𝑥̅ de la media
verdadera, entonces, se tendrá un error de estimación igual a |𝜇 − 𝑥̅ |. Se puede
𝑠
tener una confianza del 95% de que este error no excederá la cantidad 𝑍0.025 ∗ ( 𝑁).
√
Ello quiere decir que sí se quiere estimar la media verdadera con un error menor a
𝑍 ∗𝑠 2
una cantidad específica e, entonces, el tamaño muestral requerido es 𝑁 = ( 0.025 )
𝑒
Donde 𝑍0.025 = 1.96 y s es la desviación estándar muestral, la cual es calculada con
datos existentes de la población.
En ambos casos, el tamaño N obtenido deberá ser repartido entre los estratos de la
siguiente forma:
Para controlar esto dentro del muestreo, se debe colocar una columna que
identifique al elemento de la población sobre si ya fue encuestado o no, y cada vez
que salga elegido un cliente con esta identificación, reemplazarse por el
inmediatamente siguiente, claro está, en la medida que el total poblacional lo
permita.
REFERENCIAS BIBLIOGRÁFICAS (sitios web disponibles en el segundo semestre
de 2010)
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema5am.pdf
http://www.uam.es/personal_pdi/economicas/rmc/documentos/cluster.PDF
http://biplot.usal.es/DOCTORADO/3CICLO/BIENIO-06-
08/MetodosClasicos/CLUSTERSPSS.pdf
http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica3/teoria.html
http://www.chospab.es/calidad/archivos/Metodos/Muestreo.pdf
http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica
APENDICE A. CONCEPTOS ESTADÍSTICOS PRELIMINARES
✓ Moda: la moda es el valor con una mayor frecuencia en una distribución de datos
Lo cual representa una agrupación de los datos hacia la izquierda y una cola derecha
larga y delgada, lo que significa una dispersión un poco mayor, a este tipo de
distribuciones se les conoce como distribuciones log normales, porque basta aplicar
la transformación logarítmica (log) sobre los datos que originales para obtener una
distribución completamente normal.
Se debe tener cuidado cuando se aplique una transformación de los datos sobre el
resultado final, ya que puede tenderse a confundir la transformación con los datos
originales y aplicar los resultados transformados como originales. Para llegar de los
datos transformados a los datos originales se debe aplicar la función inversa a la
transformación empleada, por ejemplo, para el caso del logaritmo se debe aplicar la
función exponencial.
Anotaciones
• Cuando la media, la mediana y la moda coinciden en un mismo valor, nos indica
que la población sigue una distribución normal.
• Generalmente las estadísticas anteriores se usan cuando se quiere caracterizar la
población objeto de muestra, ya que en muchas ocasiones es recomendable
garantizar que se extraerá un número adecuado de observaciones con
características A y un número adecuado con características B, evitando entonces
que solo se obtenga una muestra con características A o B.
• Distancia Euclídea:
La ecuación anterior nos muestra la distancia Euclidea entre dos o más objetos,
ecuación que traduce como raíz de la diferencia de dos puntos elevada al cuadrado.
• Distancia de Minkowsky:
Donde 𝑚 ∈ 𝑁.
Si m = 1, se tiene la distancia en valor absoluto y si m = 2, la euclídea.
• Distancia de Mahalanobis:
Donde W es la matriz de covarianzas entre las variables. De este modo, las variables
se ponderan según el grado de relación que exista entre ellas, es decir, si están más
o menos correlacionadas. Si la correlación es nula y las variables están
estandarizadas, se obtiene la distancia euclídea.
Se comparan las ordenaciones que dan dos variables, es decir, los datos se ordenan
según dos criterios o características y se establece el número de concordancias y
discordancias.
Método:
a) Se Calcula todas las posibles parejas. Se toma una pareja (i, j). Si están ordenados
igual según las dos variables o criterios, se marca una concordancia (es decir, si el
elemento i está delante del elemento j según ambas variables o criterios). Si no lo
están, se establece una discordancia.
𝑛
b) El número total de parejas distintas que se pueden hacer con n elementos es (2 ) =
𝑛(𝑛−1)
2
. Se cuenta, además
a = número total de concordancias,
b = número total de discordancias,
Se define el coeficiente de correlación de rangos como:
Se consideran, igual que antes, 𝑛 objetos clasificados según dos variables o criterios.
Por ejemplo, supongamos dos variables 𝑥 e 𝑦 que toman n valores emparejados
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … … . . (𝑥𝑛 , 𝑦𝑛 ). Se definen los rangos sobre cada una de las variables,
de modo que se emparejan (𝑟𝑥1 , 𝑟𝑦1 ), (𝑟𝑥2 , 𝑟𝑦2 ), … … . . (𝑟𝑥𝑛 , 𝑟𝑦𝑛 ):
Se definen las diferencias 𝑑𝑖 = (𝑟𝑥𝑖 − 𝑟𝑦𝑖 ) es decir, las diferencias de la posición del
individuo i-ésimo según la clasificación (rango) dada por 𝑥 y la clasificación (rango)
dada por 𝑦.
El coeficiente de correlación se define, entonces, como: