Sei sulla pagina 1di 20

APLICACIÓN DE ESQUEMAS DE MUESTREO EN LA

GESTIÓN DE RIESGOS FINANCIEROS

Autor:
Alexander Escobar Berdugo
M.Sc. en Finanzas
alex_escobarb@hotmail.com

Coautor:
Nathaly Hincapie Hincapie
Estadístico
hhly18@gmail.com

Abril 2011
____________________________________________________

Palabras Claves: Población, Muestra, Unidad de Muestreo, Unidad de Análisis,


Marco Muestral.

I. RESUMEN

Desde su creación, las técnicas de administración y gestión de riesgos han aplicado


diferentes metodologías estadísticas en el análisis de información y el procesamiento de
las grandes cantidades de información generada en los procesos de crédito, captación e
inversión manejados por las entidades financieras. Este tipo de análisis se ha vuelto
primordial en la cuantificación de riesgos y en general en los esquemas de prevención de
riesgos financieros.

En la actualidad, la mayoría de las Compañías financieras están volcando la aplicación de


técnicas financieras en la identificación de riesgos, siendo de vital importancia el desarrollo
de modelos de muestreo que ayuden a analizar posibles patrones de comportamiento y/o
en la realización de encuestas para lograr un conocimiento preventivo de los clientes o
activos (financieros y no financieros).

En este orden de ideas, en este documento se busca definir un esquema general de


muestreo que puede ser utilizado en varias de las etapas de la administración del riesgo;
en estudios que requiera la extracción de una muestra para inferencias y que además
garantice una muestra homogénea y representativa para cada uno de los estudios en los
que se emplee.
II. INTRODUCCIÓN

Los esquemas de muestreo han sido ampliamente utilizados en diferentes disciplinas para
definir el comportamiento de una población de interés o pronosticar el comportamiento
futuro de la misma. La administración de riesgos financieros no es ajena a estas
necesidades y posee diversos escenarios donde un buen esquema de muestreo puede
generar excelentes resultados. Las principales etapas en las que se puede aplicar con éxito
dichos esquemas son la identificación y cuantificación de riesgos, aunque se pueden ser
aplicados en las otras etapas del ciclo de administración de riesgos.

A nivel general, un muestreo se ejecuta cuando se tiene una población extensa de análisis
y en términos de costo y tiempo es muy difícil hacer un censo poblacional, es decir, realizar
análisis individual de las observaciones; y aunque por lo general en la gestión de riesgos
es necesario realizar análisis de este estilo, existen escenarios donde el análisis de una
muestra representativa mediante una técnica adecuada, se puede traducir en una
estimación adecuada de los mismos parámetros que se obtiene con el censo poblacional,
con costos, tiempo y número de observaciones más reducidas.

Cada uno de los sistemas de administración de riesgos tradicional (crédito, mercado,


liquidez, operativo, lavado de activos) posee características propias que obligan a utilizar
alternativas de gestión diferentes y aunque dichos sistemas se complementan y su
direccionamiento debe ser integral, cuando se trata de la aplicación de esquemas de
muestreo cada estudio debe ser abordado de manera individual, a través de un análisis
previo (pre-muestreo) con el fin de establecer las reglas en la utilización de la metodología
de muestreo seleccionada, de acuerdo a la tipología del resultado que se quiera adquirir
con este procedimiento.

En este orden de ideas, si bien durante el transcurso de este documento se establecerá un


esquema de muestreo general para la administración del riesgo, cada estudio en particular
asociara ciertas características descritas en este documento dentro de su patrón natural de
comportamiento, mientras que otras de estas no dan lugar en el mismo, y de esto
dependerá la metodología de muestreo empleada. Recordemos que, la forma de los datos,
las variables empleadas y los cálculos necesarios dentro de la población a muestrear,
enmarcan los posibles resultados y el camino que se debe tomar en busca de una adecuada
muestra para análisis

III. CENSO VS. MUESTRA

El muestreo es una herramienta de la investigación científica. Su función básica es


determinar que parte de una realidad en estudio (población o universo) debe examinarse
con la finalidad de hacer inferencias sobre dicha población. El error que se comete debido
al hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación
de sólo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada
significa lograr una versión simplificada de la población, que reproduzca de algún modo sus
rasgos básicos.

En las etapas de gestión y monitoreo de riesgos, regularmente se realizan análisis


detallados de todos los sujetos de riesgo, esto debido a que por lo regular el impacto y/o
frecuencia de los riesgos gestionados son alto, lo que hace necesario un control
permanente de los mismos. Sin embargo, las etapas de identificación y cuantificación de
riesgos por lo regular representan retos importantes en cuanto a la mejora su la efectividad,
de forma que se logren más y mejores resultados en la prevención de los riesgos.

Es en estas etapas donde no siempre es posible o conveniente realizar un censo, lo que


nos lleva a trabajar con una muestra, entendiendo por tal una parte representativa de la
población. Para que una muestra sea representativa, y por lo tanto útil, debe reflejar las
similitudes y diferencias encontradas en la población, ejemplificar las características de la
misma. Cuando decimos que una muestra es representativa indicamos que reúne
aproximadamente las características de la población que son importantes para la
investigación.

De otro lado, cuando se cuenta con una población pequeña lo más recomendable es
realizar censo, ya que el error que se debe aceptar en un muestreo para obtener una
población pequeña es muy grande, esto si se desea reducir el número de observaciones.
Es decir, si se desea pasar de 78 a 50 observaciones el error de estimación de la técnica
es muy alto y por tanto la confiabilidad del modelo se puede ver comprometida. De esta
manera, cuando se desea estimar una muestra a partir de una población pequeña con un
error menor al 10%, en la mayoría de los casos el resultado será el mismo número de
observaciones que se tiene, en cuyo escenario es importante analizar los costos asociados
con el censo y sopesarlos con respecto a los costos asumidos en el esquema de muestreo.

Ventajas del muestreo:

➢ Costos reducidos.
➢ Mayor rapidez para obtener resultados.
➢ Mayor exactitud o mejor calidad de la información debido a los siguientes factores:
o Volumen de trabajo reducido.
o Puede existir mayor supervisión en el trabajo.
o Se puede dar más entrenamiento al personal.
o Menor probabilidad de cometer errores durante el procesamiento de la
información.
➢ Factibilidad de hacer el estudio cuando la toma de datos implica técnicas
destructivas o de alto costo.

Ventajas del censo:

➢ Existe una cobertura total.


➢ Tiene aceptación pública
➢ No se requieren grandes conocimientos de estadística para generar conclusiones
acertadas.

IV. METODOLOGÍAS DE MUESTREO

Lo métodos de muestreo más conocidos son los probabilísticos y métodos de muestreo no


probabilísticos.

Muestreo No Probabilístico: Los elementos de la muestra son seleccionados por


procedimientos al azar ó con probabilidades conocidas de selección. Por lo tanto es
imposible determinar el grado de representatividad de la muestra.
Dentro de los tipos de muestreo no Probabilístico, se pueden mencionar los siguientes:

o Muestreo por Juicio, Selección Experta o Selección Intencional: El analista toma


la muestra seleccionado los elementos que a él le parecen representativos o típicos
de la población, por lo que depende del criterio del mismo.
o Muestreo casual o fortuito: Se usa en los casos en no es posible seleccionar los
elementos, y deben sacarse conclusiones con los elementos que estén disponibles.
Por ejemplo: en el caso de eventos de riesgo operativo relacionado con
interrupciones temporales en los sistemas de la organización que afecten la
continuidad del mismo.
o Muestreo de cuota: Se utiliza en estudios de opinión de mercado. Los
enumeradores, reciben instrucciones de obtener cuotas específicas a partir de las
cuales se constituye una muestra relativamente proporcional a la población.
o Muestreo de poblaciones móviles: Este tipo de muestreo utiliza métodos de
captura, marca y recaptura.

Muestreo Probabilístico: Los elementos de la muestra son seleccionados siguiendo un


procedimiento que brinde a cada uno de los elementos de la población una probabilidad
conocida de ser incluidos en la muestra.

Las propiedades de esta tipología de muestreo se enmarcan en:

a) Existe la posibilidad de definir inequívocamente un conjunto de muestras M1, M2,


.... , Mt mediante la aplicación del procedimiento a una población. Esto significa que
podemos indicar cuales unidades de muestreo pertenecen a M1, M2 y así
sucesivamente.
b) A cada posible muestra Mi se le asigna un probabilidad conocida de selección Pi .
c) Seleccionamos una de las Mi por un proceso mediante el cual, cada Mi tiene una
probabilidad Pi de ser seleccionada.
d) El método de estimación se realiza en base a la muestra, siendo unico para
cualquiera de las posibles muestras Mi.

Dentro de los tipos de muestreo no Probabilístico, se pueden mencionar los siguientes:

➢ Muestreo simple aleatorio (m.s.a.): Cada uno de los elementos de la muestra, se


selecciona aleatoriamente uno por uno, todos con la misma probabilidad de ser
incluidos en la muestra.

➢ Muestreo Estratificado: Una muestra aleatoria estratificada es la obtenida


mediante la separación de los elementos de la población en grupos que no
presenten traslapes, llamados estratos y la selección posterior de una muestra
irrestrictamente aleatoria simple en cada estrato.

En resumen, los motivos principales para utilizar un muestreo aleatorio estratificado


son los siguientes:

a) La estratificación puede producir un error de estimación más pequeño


que el que generaría un muestreo aleatorio simple del mismo
tamaño. Este resultado es particularmente cierto si las mediciones
dentro de los estratos son homogéneas.
b) El costo por observación en la encuesta puede ser reducido mediante
la estratificación de los elementos de la población en grupos
convenientes.
c) Se pueden obtener estimaciones de parámetros poblacionales para
subgrupos de la población. Los subgrupos deben de ser entonces
estratos identificables.
d) Lo anterior debe de tomarse en cuenta cuando se está planeando
estratificar o no una población o decidiendo en qué forma se definirán
los estratos.

➢ Muestreo Sistemático: Muestreo en que los n elementos de la muestra se


seleccionan tomando aleatoriamente un número i, que designará, en una lista o
población de N elementos, al primero que va a formar parte de la muestra. A
continuación de manera sistemática, se van tomando el elemento i + k que está K
lugares después del i-ésimo de la lista; el i + 2k que está 2K lugares después, y así
sucesivamente, hasta agotar los elementos disponibles de la lista o población, lo
que ocurrir cuando se llegue al que ocupa el lugar i + (n 1)K. El número i se elige
entre 1 y K de modo que satisfaga la condición: i + (n 1)K < 0 = N < ó = i + nK.

➢ Muestreo por conglomerados: Muestreo en el que se sustituyen las unidades


físicas, elementales o últimas a las que se refiere el estudio, por unidades de
muestreo que comprendan un grupo de aquellas, llamadas conglomerados.

➢ Muestreo Polietápico: Muestreo en el que se procede por etapas: se obtiene una


muestra de unidades primarias, más amplias que las siguientes; de cada unidad
primaria se toman, para una sub-muestra, unidades secundarias, y así
sucesivamente hasta llegar a las unidades últimas o más elementales. Se le puede
considerar como una modificación del muestreo por conglomerados cuando no
forman parte de la muestra elementos o unidades de todos los conglomerados, sino
que, una vez seleccionados estos, se efectúan sub-muestras dentro de cada uno de
ellos.

➢ Muestreo probabilístico aleatorio usando la distribución normal: este muestreo


consiste básicamente en encontrar los parámetros que determinan la distribución
normal que es seguida por una variable “básica” de los datos en estudio y generar
medias aleatorias en un paquete estadístico. La variable “básica” a utilizar deberá
estar integrada a la estrategia de administración de riesgo o sistema utilizado y las
observaciones seleccionadas serán aquellas que tengan un valor cercano a la
media aleatoria generada1.

A manera de ejemplo, si se está generando un esquema de muestreo para el


Sistema de Administración de Riesgo de Crédito SARC y existe un especial interés
en el impacto generado por este tipo de riesgo, la variable “básica” de análisis será
“saldo obligación” o “el valor de provisión generado” por el crédito. Si lo que se busca
es hacer un muestreo para determinar la efectividad de la cobranza en créditos con

1
Por lo general, para el cálculo del tamaño muestral N se utilizan niveles de significancia 𝛼 = 0.05 ó 0.10
garantía real la variable “básica” de análisis será “Saldo respaldado por la prenda” y
bajo este esquema utilizar dos tipos de estrategias de cobro para determinar la más
efectiva.

En ambos casos se genera un histograma general, con el cual se determina si


existen dos modas o mas y de acuerdo a esto establecer grupos distintos, dentro de
los cuales se establecen clasificaciones de interés dentro del estudio (modalidad del
crédito, destino económico de los recursos, tipo de garantía, etc.) con lo cual se
busca extraer de la muestra la máxima variedad posible.

V. ESQUEMA DE MUESTREO GENERAL PARA LA ADMINISTRACIÓN DEL


RIESGO

Etapa de Muestreo.

1. Definición de objetivos: Esta etapa comprende la identificación del problema y el


establecimiento de las metas del estudio, es importante tener claro cuál es el
objetivo principal de realizar muestreo, ya que esto determinara en muchos estudios
la metodología que se debe emplear para la obtención de la muestra.

Generalmente estos estudios buscan obtener una muestra homogénea,


representativa y con mínimo error posible, para poder hacer inferencias adecuadas
sobre toda la población partiendo de este estudio, por tanto, dependiendo de la
necesidad se establecen las metas hacia donde se quiere llegar.

2. Definición del marco de muestreo: El marco de muestreo es el conjunto de las


unidades de muestreo que constituyen una población. Este generalmente puede ser
de dos tipos:
a) Marco lista: Es una lista depurada (sin traslapes o duplicaciones)
que permite identificar a cada unidad de muestreo. Es recomendable
que además de identificar a cada unidad muestral, incluya algunas
otras características de interés en el estudio.
b) plano o mapa que permite identificar pequeñas áreas usadas como
unidades de muestreo en las que se ha dividido el área total.

Para efectos de este esquema se deben tener las observaciones en un marco de


lista, esto facilita la extracción de la muestra y permite realizar cálculos sobre las
variables tenidas en cuenta en el procedimiento de muestreo.

3. Variables a medir y Métodos de medición: Es importante considerar el tipo de


variable a medir ya que ayuda a definir el esquema o tipo de muestreo. Los métodos
de medición deben de tener las siguientes características:
a) uniformidad.
b) practicidad.
c) deber ser comprensibles para las personas a quienes se les
entregaran los resultados.

4. Tipo o Esquema de Muestreo: Existen actualmente una gran variedad de tipos o


esquemas de muestreo que han sido desarrollados para diferentes situaciones de
manera individual o como la combinación entre dos o más tipos de muestreo.

En término generales, este esquema de muestreo más utilizado para la gestión de


riesgos es el Muestreo Aleatorio Estratificado, que es la metodología que tiene en
cuenta agrupaciones de observaciones con características similares (clientes con
calificaciones o perfil de riesgo similares, inversiones con características
homogéneas, etc.) y de cada una de estas se obtiene una muestra representativa
según la representación que tenga el grupo dentro del total poblacional, así se
garantiza entonces que se obtienen muestras de cada uno de las observaciones con
características distintas y la muestra no se agrupara únicamente en un grupo como
tal, por ejemplo sobre el grupo más grande dentro de la población2.

Es importante notar que antes del procedimiento de agrupación por estratos, se


debe encontrar la distribución seguida por toda la población en conjunto mediante
la variable más representativa del estudio o la más importante, esto porque gracias
a esta distribución se determinara si existe una o varias modas (estadística de
localización), hecho que es determinante en la metodología de muestreo, debido a
que puede dividir la población total en grupos de acuerdo a las modas que presente
dicha distribución, garantizando entonces una muestra representativa para las
modas encontradas en los datos. Esto significa que si la distribución de la variable
total solo presenta una moda, el paso siguiente es la desagregación por estratos y/o
sub-estratos, pero si se tiene dos o más modas, se debe clasificar la población total
de acuerdo a la moda que pertenezca y dentro de cada estos nuevos grupos realizar
la desagregación inicialmente planteada por estratos y/o sub-estratos3.

Esta metodología estratificada cuenta con la versatilidad de combinarse con otras


metodologías como la polietápica, ya que dependiendo de estudio se puede realizar
sub-estratos dentro de estratos. Un ejemplo de esta combinación se puede dar
cuando se requiere hacer un muestreo sobre operaciones de leasing vehículos
productivos (vehículos de carga y pasajeros) con destinos económicos diversos y
dentro de cada uno de estos tener una distinción por cilindraje, capacidad o tipo de
vehículo, en este punto, es necesario entonces definir como estratos generales a
los destinos económicos de los vehículos y como sub-estratos dentro de cada uno
de los anteriores el tipo de vehículo y demás variables.

Dentro cada estrato o Sub-estrato se tienen dos opciones de muestreo, el primero


consiste en un muestreo aleatorio simple y el segundo trata de en encontrar a cada

2
Cuando se carece de características definidas para cada uno de las observaciones y por tanto no se es claro los estratos a
evaluar, se debe recurrir a un análisis de clúster para determinar cuáles son los grupos más homogéneos y realizar un muestreo
estratificado dentro de ellos.
3
Se recomienda tener un número razonable de estratos o sub-estratos ya que entre mayor el número de estratos/sub-estratos
mayor será el error que se tenga en la obtención de la muestra, debido a que la homogeneidad de los datos se ve
comprometida.
uno de estos grupos de clasificación la distribución que siguen mediante la variable
más representativa del estudio (saldo del crédito por ejemplo), llevándolas siempre
a un comportamiento normal mediante transformaciones de los datos (en caso de
ser necesario), es decir, se deben encontrar los parámetros µ y σ que definen la
distribución normal de los datos.

El muestreo estratificado es probabilístico sin reemplazamiento, es decir, que una


vez elegida una observación, esta sale de la lista de casos elegibles para la muestra.

Análisis de clúster

El propósito del análisis de conglomerados (clúster en terminología inglesa) es el


agrupar las observaciones de forma que los datos sean muy homogéneos dentro de
los grupos (mínima varianza) y que estos grupos sean lo más heterogéneos posible
entre ellos (máxima varianza). De este modo se obtiene una clasificación de los
datos multivariante con la que se puede comprender mejor los mismos y la población
de la que proceden. Además se pueden realizar análisis clúster de un solo caso, de
variables o un análisis clúster por bloques si se agrupan variables y casos.

Este agrupamiento se basa en la idea de distancia o similitud entre las


observaciones. La obtención de dichos clústers depende del criterio o distancia
considerados. Por ejemplo, un portafolio de inversiones se puede dividir de distintas
formas: en dos clústers (renta fija y renta variable) en cuatro clústers (renta fija y
renta variable, en emisores públicos y privados), en de acuerdo a la calificación
otorgada (AAA, AA+, AA-, BB, etc.). Es decir, todo depende de lo que se considere
similar.

La distancia o similitud se evaluara para cada variable que se incluya en el análisis


y luego de manera conjunta clasificara las observaciones, de acuerdo a las
características que compartan o sean similares. Si lo que se desea es clasificar
clientes, dentro del procedimiento se podrá utilizar variables como: Edad, Sexo y
Estado civil. Lo que hará será marcar diferencias entre grupos basado en estas
características y luego clasificara cada cliente según la distancia o similitud que
tenga con otro cliente.

La utilización de este tipo de clasificaciones puede ser muy útil para la realización
de compras masivas de cartera de libranzas, donde la cantidad de clientes a analizar
sea demasiado grande como para realizarlo uno a uno. En estos casos se puede
ejecutar un proceso inicial de clúster son todas las variables sociodemográficas, de
gastos y de ingresos de los clientes persona natural, entendiéndose como
sociodemográficas: género, edad, calificación, Scoring de comportamiento de pago,
estado civil, número de personas a cargo, entre otras; para luego definir una muestra
de clientes para cada uno de estos clústers, los cuales serán sujetos de un proceso
de revisión exhaustiva.

Etapas de un Análisis Clúster

a) Selección de la muestra de datos


b) Selección y transformación de variables a utilizar
c) Selección de concepto de distancia o similitud y medición de las
mismas
d) Selección y aplicación del criterio de agrupación
e) Determinación de la estructura correcta (elección del número de
grupos)

Medidas de similitud

En la práctica, es bastante subjetivo el hecho de elegir una medida de similitud ya


que depende de las escalas de medida que se posean. Para la agrupación de
observaciones lo más común es plantear la similitud expresada en términos de una
distancia. Si se agrupan variables, es habitual utilizar como medida de similitud los
coeficientes de correlación en valor absoluto.

En el apéndice B. se presentaran algunas distancias que miden similitud (a nivel de


objetos y de variables) para un análisis de clúster:

Métodos usados en un análisis de clúster

Métodos Jerárquicos

La clasificación se realiza mediante un proceso con fases de agrupación o


desagrupación sucesivas. El resultado final es una jerarquía de unión completa en
la que cada grupo se une o separa en una determinada fase.
La selección de uno u otro método se basa en la forma en que la distancia se
considera en el algoritmo de agrupación. A continuación de observan algunos de los
más utilizados:

➢ Distancia mínima (single linkage)


Los grupos se unen considerando la menor de las distancias existentes entre los
miembros más cercanos de distintos grupos. (Crea grupos más homogéneos
pero permite cadenas de alineamientos entre sujetos muy lejanos).

➢ Distancia máxima (complete linkage)


Los grupos se unen considerando la menor de las distancias existentes entre los
miembros más lejanos de distintos grupos. (Resuelve el anterior problema
aunque los grupos son más heterogéneos)

➢ Método de Ward
Se trata de ir agrupando de forma jerárquica elementos de modo que se
minimice una determinada función objetivo.

Función a minimizar: Se busca la minimización de la Variación Intra Grupal de la


Estructura formada. (Tiende a generar conglomerados muy pequeños y bastante
equilibrados en tamaño).

Métodos No Jerárquicos

A continuación se relacionan los métodos no jerárquicos más utilizados:

Umbral secuencial
Se seleccionan una tras otra, "semillas" de conglomerado agrupando en torno a ellas
todos los objetos que caen dentro de una determinada distancia. Cada objeto ya
asignado no se considera para posteriores asignaciones.

Umbral paralelo
Similar al anterior pero se generan todas las semillas al mismo tiempo y los umbrales
mínimos de aceptación en cada grupo.

Optimización
Similares a los jerárquicos pero no se clasifican como tales porque en las etapas
sucesivas se permite la reasignación de sujetos.

K-means
Es un método de análisis de conglomerados que tiene por objeto una partición n
observaciones en k clústers en los que cada observación pertenece al grupo con la
media más cercana.

Consideraciones Especiales:

✓ El resultado final del Clúster depende radicalmente de la medida de ASOCIACIÓN /


SIMILITUD / DISTANCIA utilizada. Se recomienda, en cada contexto, observar
empíricamente esas diferencias.

✓ La distancia convencionalmente usada para desarrollar esta técnica de clúster es la


distancia Euclidea, lo que lleva consigo transformar las variables categóricas o
cuantitativas en variables cualitativas, es decir, realizar homologaciones, por
ejemplo:

VARIABLE ESTADO HOMOLOGACIÓN


CIVIL (Cualitativa) (Cuantitativa)
Soltero 1
Casado 2
Viudo 3
Separado 4
Unión Libre 5

✓ Los paquetes estadísticos actuales poseen diferentes opciones de agrupación,


utilizando por lo general una distancia Ecluidea y técnicas como las jerárquicas por
distancia mínima y máxima o la agrupación no jerárquica como k-means.

✓ Se debe tener un numero apropiado de observaciones para realizar este


procedimiento de clústers, es decir, el número mínimo de observaciones que se
deben tener es de 100, ya que realizar una agrupación con un número más pequeño
de observaciones generaría una clasificación deficiente al no presentar diferencias
marcadas y la técnica podría arrojar datos errados o clústers con concentraciones
especiales de observaciones.

5. Determinación del tamaño de muestra (n): El tamaño de muestra depende de que


es lo que se desee estimar y el esquema o tipo de muestreo seleccionado.

Para un diseño de muestreo estratificado4, en donde no se conoce la varianza


real poblacional, el tamaño de la muestra viene dado por la siguiente fórmula:

4
Esquema de muestreo de mayor utilización en la gestión de riesgos
Npq
n (Tamaño de la muestra) =
(N-1)D^2 + pq

Donde:

o N= tamaño de la población
o p= proporción de clientes a los que se les realiza una correcto proceso de
muestreo
o q= 1-p
o D=B/2 donde B es el error que se está dispuesto a asumir.

Para los caso en que se trabaje con la distribución normal de los datos un
intervalo de confianza del 95% proporciona una exactitud de la estimación puntual
de µ (Media de la variable representativa). Sí se tiene una estimación 𝑥̅ de la media
verdadera, entonces, se tendrá un error de estimación igual a |𝜇 − 𝑥̅ |. Se puede
𝑠
tener una confianza del 95% de que este error no excederá la cantidad 𝑍0.025 ∗ ( 𝑁).

Ello quiere decir que sí se quiere estimar la media verdadera con un error menor a
𝑍 ∗𝑠 2
una cantidad específica e, entonces, el tamaño muestral requerido es 𝑁 = ( 0.025 )
𝑒
Donde 𝑍0.025 = 1.96 y s es la desviación estándar muestral, la cual es calculada con
datos existentes de la población.

En ambos casos, el tamaño N obtenido deberá ser repartido entre los estratos de la
siguiente forma:

➔ N* (Número de clientes en el Estrato 1)


➔ N* (Número de clientes en el Estrato 2)
➔ N* (Número de clientes en el Estrato 3)
➔ N* (Número de clientes en el Estrato i) con i: 1,2,3,4,5,…..,inf.

Nota: en el caso de tener sub-estratos dentro de los estratos originales, se debe


realizar el mismo procedimiento anterior como si cada uno de estos estratos fueran
completamente independientes, es decir tomar este N* (Número de clientes en el
estrato i) y repartirlo proporcionalmente según los sub-estratos que se tengan.

6. Selección de las unidades de muestreo: de acuerdo al desarrollo de la


metodología (por distribución normal o por estratos simples) se establece la forma
de seleccionar la muestra:

Caso 1: Muestreo Aleatorio Simple dentro de cada Estrato/Sub-estrato

Las unidades de muestreo se eligen mediante los siguientes pasos:

a) Diferenciar dentro de cada estrato, el subestrato al que pertenece la observación


(en caso de que aplique Subestrato)
b) Separar cada Estrato (sub-estrato) en muestras diferentes y enumerar las
observaciones que se encuentran dentro del grupo, contando desde el número
1 hasta el número total de observaciones que se encuentren en el estrato (sub-
estrato).
c) Obtener números aleatorios dentro del intervalo de números que se tenga en
cada Estrato (o en cada substrato), es decir, entre 1 hasta el número total de
muestra que le corresponde a cada caso. buscando este número en la lista
asignada en el numeral b de cada grupo se encuentran las observaciones
seleccionadas para la muestra.
d) Esta metodología se plantea a partir de un muestreo sin Reemplazamiento, por
tanto si la observación que se elige no es efectiva, se debe seguir con la
observación inmediatamente siguiente en la lista, es decir si en la muestra está
la observación número 17, pero esta no fue efectiva para el estudio, se debe
seguir con la observación número 18 como si estuviera originalmente en la lista
de elegidos.

Caso 2: Muestreo Estratificado siguiendo la distribución normal de los datos

Las unidades de muestreo se eligen mediante los siguientes pasos:

a) Diferenciar dentro de cada población, las divisiones que se deben presentar


según las modas que presente la distribución general.
b) Separar para cada población las observaciones según el estrato definido que
tengan las observaciones.
c) Obtener los parámetros de las distribuciones normales que siguen cada uno de
estos estratos según la variable representativa del estudio: 𝑽𝑹~𝒏(𝝁, 𝝈).
d) Esta metodología se plantea a partir de un muestreo sin Reemplazamiento, por
tanto si la observación elegida no puede ser estudiada por algún motivo en
especial, se debe seguir con el observación inmediatamente siguiente en la lista,
por ejemplo si en la muestra está la observación con un valor de la media muy
cerca a la media aleatoria con una diferencia entre estos dos valores de 0.05, se
debe seguir con aquel que presente una diferencia de 0.055.

7. Recomendaciones en caso de Encuestas: en muchas ocasiones, las muestras


son obtenidas para la aplicación de encuestas a diferentes poblaciones objetivo, por
tanto, se hace necesario tener en presente que cuando la encuesta es de
periodicidad constante, la persona encuestada debe tratarse, en la medida de lo
posible, de aquellas que no hayan sido incluidas en encuestas de periodos
anteriores y por tanto, antes de obtener la muestra se deben identificar cuales hacen
parte de las ya encuestadas y cuáles no. Así mismo, es importante notar que el caso
de encuestas múltiples al mismo tiempo, una muestra debe ser distinta a la otra,
evitando hacer dos encuestas a un mismo cliente en el periodo en curso.

Para controlar esto dentro del muestreo, se debe colocar una columna que
identifique al elemento de la población sobre si ya fue encuestado o no, y cada vez
que salga elegido un cliente con esta identificación, reemplazarse por el
inmediatamente siguiente, claro está, en la medida que el total poblacional lo
permita.
REFERENCIAS BIBLIOGRÁFICAS (sitios web disponibles en el segundo semestre
de 2010)

Greene, W. (1999) Análisis Econométrico. Tercera edición. PRENTICE HALL IBERIA,


Madrid.

http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema5am.pdf

http://www.uam.es/personal_pdi/economicas/rmc/documentos/cluster.PDF

http://biplot.usal.es/DOCTORADO/3CICLO/BIENIO-06-
08/MetodosClasicos/CLUSTERSPSS.pdf

http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica3/teoria.html

http://www.chospab.es/calidad/archivos/Metodos/Muestreo.pdf

http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica
APENDICE A. CONCEPTOS ESTADÍSTICOS PRELIMINARES

✓ Población: la palabra población se usa para referirse no sólo a personas si no a


todos los elementos que han sido escogidos para su estudio, por tanto La Población
objetivo de un estudio no es más que un conjunto de individuos de los que se quiere
obtener una información.
✓ Unidades de muestreo: número de elementos de la población, no solapados, que
se van a estudiar. Todo miembro de la población pertenecerá a una y sólo una unidad
de muestreo.
✓ Unidades de análisis: objeto o individuo del que hay que obtener la información.
✓ Marco muestral: lista de unidades o elementos de muestreo.
✓ Muestra: conjunto de unidades o elementos de análisis sacados del marco. Porción
escogida de la población para su análisis.

Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones


como la Media, Mediana, la moda, la desviación estándar. Cuando estos términos describen
una muestra se denominan estadísticas:

✓ Media: En matemáticas y estadística una media o promedio es una medida de


tendencia central que busca determinar el promedio o el punto medio de un conjunto
o nube de datos evaluada. Existen distintos tipos de medias, tales como la media
geométrica, la media ponderada y la media armónica aunque en el lenguaje común,
el término se refiere generalmente a la media aritmética, la cual se define
simplemente como un promedio estándar:

✓ Moda: la moda es el valor con una mayor frecuencia en una distribución de datos

✓ Mediana: mediana es el valor de la variable que deja el mismo número de datos


antes y después que él, una vez ordenados estos. De acuerdo con esta definición
el conjunto de datos menores o iguales que la mediana representarán el 50% de los
datos, y los que sean mayores que la mediana representarán el otro 50% del total
de datos de la muestra. La mediana coincide con el percentil 50, con el segundo
cuartil y con el quinto decil.

✓ Desviación Estándar: Se define como la raíz cuadrada de la varianza (dispersión


de los datos). Junto con este valor, la desviación típica es una medida (cuadrática)
que informa de la media de distancias que tienen los datos respecto de su media
aritmética, expresada en las mismas unidades que la variable.
✓ Distribución normal: Esta distribución es frecuentemente utilizada en las
aplicaciones estadísticas. Su propio nombre indica su extendida utilización,
justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a
parecerse en su comportamiento a esta distribución.

Es decir, un fenómeno normal se compone de poca dispersión, simetría en los datos,


es decir, las variables de localización media, mediana y moda coinciden en un
mismo valor, es decir el comportamiento del histograma de un fenómeno normal
solo reporta un valor repetitivo (unimodal):

Mediana, Media y Moda:


Lo que hay antes de este
valor se replica de la misma
forma después de el.

Se observa que la forma de la grafica es una campana con colas pequeñas. En


resumen, la importancia de la distribución normal se debe principalmente a que hay
muchas variables asociadas a fenómenos naturales que siguen el modelo de la
normal.

La notación empleada para esta distribución es: 𝑥~𝑛(𝜇, 𝜎) donde µ corresponde a la


media de los datos y σ a la desviación estándar calculada a partir de los datos.

Cuando una variable no se comporta de manera normal por sí sola, generalmente se


debe realizar una transformación a los datos para que tengan este comportamiento,
el caso más común es cuando se tiene un histograma de los datos del tipo:

Lo cual representa una agrupación de los datos hacia la izquierda y una cola derecha
larga y delgada, lo que significa una dispersión un poco mayor, a este tipo de
distribuciones se les conoce como distribuciones log normales, porque basta aplicar
la transformación logarítmica (log) sobre los datos que originales para obtener una
distribución completamente normal.

Se debe tener cuidado cuando se aplique una transformación de los datos sobre el
resultado final, ya que puede tenderse a confundir la transformación con los datos
originales y aplicar los resultados transformados como originales. Para llegar de los
datos transformados a los datos originales se debe aplicar la función inversa a la
transformación empleada, por ejemplo, para el caso del logaritmo se debe aplicar la
función exponencial.

Anotaciones
• Cuando la media, la mediana y la moda coinciden en un mismo valor, nos indica
que la población sigue una distribución normal.
• Generalmente las estadísticas anteriores se usan cuando se quiere caracterizar la
población objeto de muestra, ya que en muchas ocasiones es recomendable
garantizar que se extraerá un número adecuado de observaciones con
características A y un número adecuado con características B, evitando entonces
que solo se obtenga una muestra con características A o B.

APENDICE B. ALGUNAS DISTANCIAS PARA LA MEDICIÓN DE SIMILITUDES


Distancias Entre Objetos.

• Distancia Euclídea:

La ecuación anterior nos muestra la distancia Euclidea entre dos o más objetos,
ecuación que traduce como raíz de la diferencia de dos puntos elevada al cuadrado.

• Distancia de Minkowsky:

Donde 𝑚 ∈ 𝑁.
Si m = 1, se tiene la distancia en valor absoluto y si m = 2, la euclídea.

• Distancia de Mahalanobis:

Donde W es la matriz de covarianzas entre las variables. De este modo, las variables
se ponderan según el grado de relación que exista entre ellas, es decir, si están más
o menos correlacionadas. Si la correlación es nula y las variables están
estandarizadas, se obtiene la distancia euclídea.

Distancias Entre Variables:

• Coeficiente de correlación de Pearson:

Donde Sxy es la covarianza muestral entre x e y, Sx y Sy son las desviaciones


estándar de x e y respectivamente.

• Coeficiente de correlación de rangos de Kendall:

Se comparan las ordenaciones que dan dos variables, es decir, los datos se ordenan
según dos criterios o características y se establece el número de concordancias y
discordancias.

Método:
a) Se Calcula todas las posibles parejas. Se toma una pareja (i, j). Si están ordenados
igual según las dos variables o criterios, se marca una concordancia (es decir, si el
elemento i está delante del elemento j según ambas variables o criterios). Si no lo
están, se establece una discordancia.
𝑛
b) El número total de parejas distintas que se pueden hacer con n elementos es (2 ) =
𝑛(𝑛−1)
2
. Se cuenta, además
a = número total de concordancias,
b = número total de discordancias,
Se define el coeficiente de correlación de rangos como:

• Coeficiente de correlación de rangos de Spearman:

Se consideran, igual que antes, 𝑛 objetos clasificados según dos variables o criterios.
Por ejemplo, supongamos dos variables 𝑥 e 𝑦 que toman n valores emparejados
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … … . . (𝑥𝑛 , 𝑦𝑛 ). Se definen los rangos sobre cada una de las variables,
de modo que se emparejan (𝑟𝑥1 , 𝑟𝑦1 ), (𝑟𝑥2 , 𝑟𝑦2 ), … … . . (𝑟𝑥𝑛 , 𝑟𝑦𝑛 ):

Se definen las diferencias 𝑑𝑖 = (𝑟𝑥𝑖 − 𝑟𝑦𝑖 ) es decir, las diferencias de la posición del
individuo i-ésimo según la clasificación (rango) dada por 𝑥 y la clasificación (rango)
dada por 𝑦.
El coeficiente de correlación se define, entonces, como:

Potrebbero piacerti anche