Sei sulla pagina 1di 24

CONTENIDO

Table  of  Contents  


1.   INTRODUCCIÓN  Y  ANÁLISIS  GRÁFICO  DE  DATOS  ...............................................................  3  
1.1   Tipos  de  datos  y  escalas  de  medición.  ...........................................................................................  4  
1.2   Tipos  de  estudios.  .................................................................................................................................  5  
1.3   Muestreos,  censos,  experimentos.  ..................................................................................................  5  
1.4   Búsqueda  de  datos.  ..............................................................................................................................  6  
1.5   Gráficas  para  variables  categóricas.  ...............................................................................................  6  
1.6   Gráficas  para  variables  cuantitativas.  ...........................................................................................  8  
2.   ANÁLISIS  NUMÉRICO  DE  DATOS  ...............................................................................................  9  
2.1   Medidas  de  localización.  ...................................................................................................................  10  
2.2   Medidas  de  dispersión.  .....................................................................................................................  12  
2.3   Diagramas  de  caja.  ..............................................................................................................................  13  
2.4   Uso  de  software  estadístico.  ..........................................................  Error!  Bookmark  not  defined.  
3.   PRODUCCIÓN  DE  DATOS  POR  MEDIO  DE  MUESTREO  .....................................................  14  
3.1   Población,  muestra  y  unidad  de  muestreo.  ................................................................................  15  
3.2   Sesgo  de  selección  y  sesgo  de  medición.  .....................................................................................  16  
3.3   Margen  de  error,  errores  de  muestreo  y  no  de  muestreo.  ....................................................  16  
3.4   Muestreo.  ...............................................................................................................................................  17  
3.4.1   Aleatorio  Simple  .............................................................................................................................................  17  
3.4.2   Estratificado  .....................................................................................................................................................  18  
3.4.3   Por  conglomerados  ........................................................................................................................................  18  
3.4.4   Sistemático  ........................................................................................................................................................  18  
3.4.5   Multietápico  ......................................................................................................................................................  18  
4.   Distribuciones  muestrales  ......................................................................................................  19  
4.1   Parámetros  y  estadísticos.  ...............................................................................................................  19  
4.2   Distribuciones  muestrales.  ..............................................................................................................  21  
4.3   Distribución  muestral  de  la  media.  ..............................................................................................  21  
4.4   Teorema  Central  del  límite.  .............................................................................................................  21  
4.5   En  Distribución  muestral  de  una  proporción.  ..........................................................................  23  
4.6   Uso  de  software  estadístico.  ..........................................................  Error!  Bookmark  not  defined.  
A. INTRODUCCIÓN

La estadística tiene sus inicios desde tiempos del Imperio Romano, con
el levantamiento de censos, dichos datos servían como medidas
descriptivas de la población (Peso, distribución de la renta, etc). Esto
solía ser muy simple por la cantidad de habitantes, sin embargo a
medida que la población creció, empieza a crecer la necesidad de más
tiempo y en consecuencia dinero para hacer los estudios. Por ello es
necesario observar unos cuantos elementos para saber cuantos valen
en ellos aquella característica que nos interesa.

Una población queda entredicho que es un conjunto de individuos u


objetos de los cuales hay un interés por estudiar. Dado que no es
posible observarla en su totalidad será necesario observar sólo un
conjunto de elementos a lo que llamaremos muestra, ésta última debe
representar lo más posible de la población.

Básicamente el objetivo de este curso es descriptivo mediante


representaciones gráficas y numéricas (medidas de localización y
dispersión, entre otras). Éstas ofrecen una idea ímplicita sobre el
comportamiento de los individuos en la población, tomando en cuenta
que las conclusiones son tomadas a partir de una muestra.

Aquí es importante mencionar al alumno que la(s) características


representan de manera técnica a una variable estadística más adelante
serán descritas.

Hay que enfatizar que la información obtenida de una muestra es útil en


la toma de decisiones por ello debemos cuidar la forma de procesar los
datos para que nuestras conclusiones sean certeras.

Como ejemplo de uso de la estadística podemos mencionar que en los


negocios puede ayudar a predecir los volúmenes de venta, medir las
reacciones de los consumidores ante los nuevos productos, etcétera. En
el campo demográfico la estadística se aplica en los registros de los
hechos de la vida diaria, tales como: nacimientos, defunciones,
matrominios, etc. En el lado económico sirve para informar el desarrollo
económico de una empresa o de un país que da a conocer los índices
económicos relativos a la producción, mano de obra, índice de precios al

1
consumidor, fluctuaciones del mercado bursátil, tasas de interés, índice
de inflación, costo de la vida, etcétera.

Básicamente, la estadística aborda teoremas, herramientas, métodos y


técnicas para

a. Recolección, selección y clasificación de datos.


b. Interpretación y análisis de datos.
c. Deducción y evolución de conclusiones y de su confiabilidad,
basada en datos muéstrales.

El análisis de datos obtenidos por muestreo son con el propósito de hacer


inferencia sobre la población. Por esta situación surge la estadística
inferencial. Aunque por el momento nos enfocaremos en conocer los tipos
de datos que nos definirán las variables estadísticas a medir, el análisis
gráfico y numerico de datos, los tipos y características de las técnicas de
muestreo y por último las distribuciones muestrales.

B. OBJETIVO GENERAL

El alumno adquirirá herramientas estadísticas básicas que le


permitirán plantear, resolver e interpretar problemas estadísticos
reales y familiarizarlo con el análisis estadístico computacional a
través del uso de software estadístico.

2
1. INTRODUCCIÓN  Y  ANÁLISIS  GRÁFICO  DE  DATOS  

Actividades a realizar
Actividad Descripción Puntuación
- Examen Solución de múltiples Prueba diagnóstica
ejercicios matemáticos
- Prueba de términos Dinámica grupal para 5
recordar los términos
técnicos en estadística.
-Investigación El alumno investigará un 5
estudio donde identificará:
tipo de datos y escala de
medición, tipo de estudio,
además que explicará en
clase la forma de presentar
los resultados.
- Solución de problemas Análisis Gráfico de datos 10
categóricos. Tarea
-solución de problemas Análisis Gráfico de datos 10
cuantitativos. Tarea

Bibliografía.
• Devore, Jay L. Probabilidad y estadística para ingeniería y ciencias.
Thompson Learning, México, 5ª edición, 2001.
• Gutiérrez, G.E. Fundamentos de Estadística Descriptiva e Inferencial
para Ingeniería y Ciencias. Nauka Educación, 1ª edición. 2006.

• Julián de la Horra Navarro. Estadística Aplicada. Díaz de Santos. 3ª


edición. 2003 - 376 pages.

• Hines, W. Montgomery D. Probabilidad y Estadística para Ingeniería,


CECSA, México, 2ª edición, 2002.
• Montgomery, Douglas. Runger George C. Probabilidad y Estadística.
Mc Graw- Hill. 2ª edición, 2002.
• Ross. Sheldon, M. Probabilidad y Estadística para ingenieros.
Mcgraw-Hill, 1ª edición, 2001.
• Sharon, L. Lohr. Muestreo: Diseño y Análisis. Thomson Learning,
México, 2000.

3
• Walpole R.E., Myers R.H., Myers S.L. Probabilidad y estadística para
ingenieros. Prentice Hall, México, 6ª edición 1999.

En principio es importante detallar el significado de Estadística, rama de las matemáticas que


proporciona métodos para reunir, organizar y analizar información y usar ésta para obtener
diversas conclusiones que pueden ayudar a resolver problemas en la toma de decisiones y el
diseño de experimentos (Gutierrez, 2006).

Al definir una población se habla sobre sus elementos (individuos) a ser descritos por una o
varias propiedas o características.

1.1 Tipos  de  datos  y  escalas  de  medición.  

Los datos provenientes de una población o muestra, los valores de dichos datos suelen ser
representados por pequeñas letras x o y.

Muchos datos pueden ser de la siguientes categorías:

Cualitativos (No métrico): si no admite medición numérica. Indican presencia o ausencia de una
característica propia. Ejemplo: Género: Ser mujer excluye que sea hombre. Estos datos se
subdividen en escalas:
Escala nominal: Son cualidades sin orden. Estado civil, preferencia por una marca, sexo, lugar de
residencia, profesión, colores de un objeto, entre otros.

Escala ordinal: Son cualidades que representan orden y jerarquía. Nivel educativo, días de la
semana, calidad de atención, nivel socioeconómico.

Cuantitativos (Métrico): Si es contable o medible numéricamente. Los sujetos están


identificados por la diferencia en sus cantidades, Se usan en caso donde involucra cantidad o
magnitud, tales como demanda de trabajo, nivel de ozono, número de hijos, tasas de interés,
índices de precios, etc.

Los datos cuantitativos pueden ser de discretos y continuos:

Cuantitativo discreto: Pueden tomar un cierto y único valor numérico. Ejemplo: número de
llamadas recibidas al día. número de hijos, temperatura. Los valores pueden ser 0,1, 2,3…

Cuantitativo continuo: Son números aproximados. Ejemplo: peso de un individuo, tasa de interés,
estatura, sueldo de un trabajador.

La escala de medición para datos cuantitativos pueden ser por intervalos y razón, ya que
proporcionan el nivel más alto de medida de precisión permitiendo realizar casi todas las
operaciones matemáticas.

4
Escala de intervalos: Se pueden medir distancias, el cero es arbitrario como punto de referencia.
Es propicia para variables tanto discretas como continuas. El cero es arbitrario. Ejemplo: escala
de temperatura Celsius y Fahrenheit

Escala de razón: Este tipo de escala es la más fuerte y podemos hacer todas las operaciones
aritméticas y , es propicia para variables tanto discretas como continuas. El cero tiene valor
absoluto. Ejemplo: El peso de una persona de 100 kg, es el doble de uno de 20 kg. El nivel de
inflación, el producto interno bruto, tipo de cambio, precio de la mezcla de petróleo, etc.

1.2 Tipos  de  estudios.  

La parte de la estadística que analiza, estudia y describe a la totalidad de individuos de una


población o muestra se llama Estadística descriptiva. El proceso de la Estadística descriptiva para
el estudio de una población o muestra consta de los siguientes pasos:
• Selección de caracteres dignos de ser estudiados.
• Mediante encuesta o medición, obtención del valor de cada individuo, con respecto a cada
uno de los caracteres seleccionados.
• Obtención de números que sinteticen los aspectos más relevantes de una distribución
estadística (más adelante a dichos números en el caso de la población les llamaremos
parámetros, mientras que en caso de las muestras les llamaremos estadísticos).
• Elaboración de tablas de frecuencia, mediante la adecuada clasificación de los individuos
dentro de cada carácter.
• Representación gráfica de los resultados.

La obtención de la información se puede realizar por diversos medios. Una forma es a través de
una encuesta a un grupo de individuos, donde a cada uno se le hacen las mismas preguntas.
Otra forma es a través de experimentos donde la respuesta a la variable es el resultado del
experimento. Puede también recolectarse los datos en forma directa, es decir, la información se
extrae de alguna base de datos seleccionando una muestra de ellos. En cualquier caso se cuenta
con una selección de información llamada muestra.

1.3 Muestreos,  censos,  experimentos.  

Muestreo: Es simplemente un conjunto de métodos para obtener muestras y una vez obtenidos los
datos mediante el estadístico podemos estimar el parámetro poblacional. Al usar un muestreo se
debe tener cuidado en asegurar la aleatoriedad de las muestras. Por consiguiente existen
diferentes técnicas para llevar a cabo de muestreo

En un estudio observacional observas lo que sucede con los datos y hallar una relación entre los
datos medidos, y para ello es necesario realizar un experimento donde tendremos un grupo
experimental y un grupo de control.

Los censos constituyen un procedimiento de generación de estadísticas que permite recabar


información en todas y cada una de las unidades de observación de la población objeto de
estudio. En este sentido ofrecen la posibilidad de obtener información con una cobertura total y

5
además existe la garantía de la calidad y la precisión de los resultados obtenidos. La desventaja
de realizar un censo es el alto costo tanto económico como en el tiempo.

En muchos casos es necesario la realización de experimentos para dar una explicación detallada o
sustento en los resultados obtenidos. Es decir, muchas veces para verificar una hipótesis. Es
importante mantener siempre las condiciones de la población en estudio, asegurar la aleatoriedad
de los individuos en las muestras.

1.4 Búsqueda  de  datos.  

La recolección de datos fue siempre una actividad importante de gobiernos y estados. Su objeto, a
veces cumplido y otras no, el de estudiarlos en conjunto con ciertas técnicas, sacando ciertos
números globales llamados índices. Índices de población, de cultivos, riquezas, etc.

Uno de los própositos principales de los censos es el de ver la evolución y distribución de la


población, para preveer recursos civiles y militares, planes de conquista, defensa y desarrollo, y
sobre todo controlar el pago de impuestos.

Hasta hace un par de siglos, los recuentos generaban números que se utilizaban en forma muy
limitada. Hoy en día, las masa de datos se ordenan en bases de datos, que son tablas de registro y
campos. Hay tantos registros como atributos o categorías que se quieren investigar.

Continuamente y gracias a las tecnologías de la información es posible tener acceso a inmensa


variedad de datos, desde datos financieros internacionales FMI (Fondo Monetario Internacional),
de tipo social, económico, educativo, pobreza y de salud algunas instituciones donde pueden
consultarse son: INEGI (Instituto Nacional de Estadísticas, Geografía e Informática),
Banxico(Banco de México), INEE (Instituto Nacional de Evaluación para la educación),
CONEVAL (Consejo Nacional de Evaluación de la Política de Desarrollo Social), ENSANUT
(Encuesta Nacional de Salud), entre otras.

1.5 Gráficas  para  variables  categóricas.  

La entrega de información utilizando gráficos y dibujos es un método funcional que no solo sirve
para presentar datos sino también para expresar ideas que se desean destacar, mediante la forma,
tendencia y dispersión (variabilidad). Los gráficos no deben sustituir un análisis estadístico, sino
usarlo como ayuda visual sobre el comportamiento de los datos.
Tipos de gráficos: barras, histogramas y polígonos, histogramas y ojivas, circulares o de pastel,
entre otros.

Caso datos categóricos o cualitativos.

Ejemplo: Se tiene una muestra de 100 personas según su grupo sanguíneo

6
Grupo   No.  
Sanguíneo   Personas  
Grupo  A   42  
Grupo  B   12  
Grupo  AB   5  
Grupo  O   41  
   

Representación gráfica mediante gráfico de pastel y gráfica de barras.


Investigar _ gráfico de polígono

Considere los datos de frecuencia de nivel étnico de una población de estudiantes de Estados
Unidos. Note que no se da el total de estudiantes porque se excluye la categoría
otro/desconocido..

7
Podemos realizar también una gráfica de Pareto, en éste gráfico las barras están ordenadas por
tamaño de categoría (en forma descendente).

1.6 Gráficas  para  variables  cuantitativas.  


Pueden hacerse distintas representaciones gráficas con los datos de una variable cuantitativa X,
diagramas de barras para variables discretas, histogramas para variables continuas, etc. Todas
estas representaciones son muy sencillas y fáciles de comprender. A modo de ejemplo, vamos a
indicar aquí una representación muy interesante para variables cuantitativas continuas: los
diagramas de tallo y hojas.
Ejemplo: Representar mediante un diagrama de tallos y hojas los siguientes datos, expresados en
cm:
11.357 12.543 11,384 12.431 14.212 15.213 13.300 11.300
17.206 12.710 13.455 16.143 12.162 12.721 13.420 14.698

a) Expresemos en mm
114 125 114 124 142 152 133 113
172 127 135 161 121 127 134 147

11 443
12 54727
13 354
14 27
15 2
16 1
17 2

De esta manera, los propios datos nos dan una idea de la zona con mayor frecuencia de
observaciones.

8
2. ANÁLISIS  NUMÉRICO  DE  DATOS    

Actividades a realizar
Actividad Descripción Puntuación
- Solución de problemas Ejercicios extraclase para mejor 10
comprensión de las medidas de
localización.
- Ejercicios extraclase Ejercicios extraclase para mejor 10
comprensión de las medidas de
dispersión.
- Ejercicios extraclase Construir de forma manual un 10
diagrama de caja y
posteriormente usando el
software R.

Bibliografía.
• Devore, Jay L. Probabilidad y estadística para ingeniería y ciencias.
Thompson Learning, México, 5ª edición, 2001.
• Hines, W. Montgomery D. Probabilidad y Estadística para Ingeniería,
CECSA, México, 2ª edición, 2002.
• Montgomery, Douglas. Runger George C. Probabilidad y Estadística.
Mc Graw- Hill. 2ª edición, 2002.
• Ross. Sheldon, M. Probabilidad y Estadística para ingenieros.
Mcgraw-Hill, 1ª edición, 2001.
• Sharon, L. Lohr. Muestreo: Diseño y Análisis. Thomson Learning,
México, 2000.
• Walpole R.E., Myers R.H., Myers S.L. Probabilidad y estadística para
ingenieros. Prentice Hall, México, 6ª edición 1999.

9
2.1 Medidas  de  localización.  

Los parámetros y estadísticos más comunes de la Estadística descriptiva son dos tipos: medidas
centrales (media, mediana, moda, media geométrica, media armónica, media ponderada), y
medidas de dispersión (rango, varianza y desviación estándar).

Si el conjunto de datos numéricos de una muestra de tamaño n (o población N) es de la forma


𝑥! , 𝑥! , … , 𝑥! o para la población 𝑥! , 𝑥! , … , 𝑥! .

Media

Se conoce como Media muestral (Promedio aritmético) de un conjunto de datos, al estadístico


que representa el promedio de los datos, y se simboliza por 𝑥 y se calcula por:
!
𝑥! + 𝑥! +   … + 𝑥! 1
𝑥= = 𝑥!
𝑛 𝑛
!!!

Mediana

La mediana de un conjunto de datos es el valor central de los datos cuando éstos se han ordenado
en forma no decreciente en cuanto a su magnitud. Para calcular la mediana lo primero que
tenemos que hacer es ordenar los datos en forma decreciente. La denotaremos por 𝑥.

Localizamos el punto medio de los datos ordenados, encontraremos dos casos:

- Cuando la cantidad de observaciones es impar: el punto medio del ordenamiento es el dato que
!!!
se encuentra en la posición !
- Cuando la cantidad de datos es par: en este caso resultan dos datos medios localizados en las
! !
posiciones !   y ! + 1, por lo que la mediana se considera el promedio de estos datos medios.

Moda

La moda de un conjunto de datos es el valor de éstos que se presenta en su distribución con


mayor frecuencia.
Ejemplo: en la siguiente lista se muestran las calificaciones de 20 exámenes de literatura.
Encuentre la calificación que más se repita, es decir, la moda de la distribución de las
calificaciones.

5 8 9 9 8 10 9 5 10 5
6 5 10 10 8 9 7 9 5 9

Observando los datos encontraremos que la moda es 9, se repite seis veces.

Puede resultar que un conjunto de datos sea amodal o sin moda, es decir que la frecuencia de los
datos es la misma.

10
Incluso puede no ser única, esto es, que un conjunto de datos dos o mas de éstos tengan la misma
frecuencia de aparición. Cuando los datos tienen más de una moda se llama multimodal.

Otras medidas descriptivas de la muestra o población son:

Valor geométrico o media geométrica (MG)

La media geométrica de los datos 𝑥! , 𝑥! , … , 𝑥! está definida como la raíz n-ésima del producto de
las n mediciones.

𝑀𝐺 = ! 𝑥! ∗ 𝑥! ∗ … ∗ 𝑥!  
No aplicable cuando existe un dato igual a cero o cuando la cantidad de datos es par y existen
valores negativos.

Aplicación en las tasas de interés al considerar su factor de crecimiento medio, entendiendo por
factor de crecimiento a
𝑡𝑎𝑠𝑎  𝑑𝑒  𝑖𝑛𝑡𝑒𝑟é𝑠
𝐹𝑎𝑐𝑡𝑜𝑟  𝑑𝑒  𝑐𝑟𝑒𝑐𝑖𝑚𝑖𝑒𝑛𝑡𝑜 = 1 +
100
El factor de crecimiento medio será un valor medio de los factores de crecimiento, de tal forma
que la mejor medida media que deberá utilizarse resulta ser la media geométrica.

Valor medio armónico o media armónica (MA).

La media armónica de los datos 𝑥! , 𝑥! , … , 𝑥! está definida como el recíproco de la media


aritmética de los recíprocos.
1 1
𝑀𝐴 = =
1 ! 1 1 1 1
𝑛 !!! 𝑥! 𝑛 𝑥! + 𝑥! + ⋯ + 𝑥!
Las principales aplicaciones se basan en promediar variaciones respecto del tiempo, es decir
cuando la misma distancia se recorre a diferentes tiempos. Tiene mayor uso en Psicofisica.

Valor medio ponderado o media ponderada (MP)

En los caso en que cada dato tiene una importancia relativa llamada “peso”, la media más
apropiada se obtiene sumando los productos de cada dato por su peso, llamado a dicha medida
“Media Ponderada”.

Dado un conjunto de datos 𝑥! , 𝑥! , … , 𝑥! se llama pesos o ponderaciones, a las cantidades


𝑤! , 𝑤! , … , 𝑤! que cumple:

- 𝑤! ∈ 0,1  𝑝𝑎𝑟𝑎  𝑡𝑜𝑑𝑜  𝑣𝑎𝑙𝑜𝑟  𝑑𝑒  𝑖


- 𝑤! + 𝑤! + ⋯ + 𝑤! = 1
Se calcula por medio de
!

𝑀𝑃 = 𝑤! 𝑥!
!!!

11
Cuantiles (𝐶! )

En muchas aplicaciones al tener un conjunto de datos requerimos conocer los datos que están por
debajo de cierto valor. Por ejemplo, al realizar un examen a un grupo de 30 personas quisiéramos
conocer la calificación debajo de la cual se encuentra el 40% de los alumnos.
Cuando C está dado en porciento se suele nombrar C percentil o C centil. Cuando se trata de los
0,0.25,0.5,0.75 cuantiles se les llama 0 cuartil, primer cuartil y tercer cuartil, respectivamente.
Los cuartiles se usan con frecuencia en los datos de ventas y encuentas para dividir poblaciones
en grupos.

2.2 Medidas  de  dispersión.  

Las medidas de centralización por sí solas son insuficiente para resumir toda la muestra. Es
conveniente dar una medida que nos dé una idea de la dispersión de los datos con respecto a los
valores centrales. Este es el objetivo de las medidas de dispersión como la varianza y la
desviación estándar o típica muestrales.

Varianza Muestral

Datos continuos (no agrupados)


!
1
𝑆!! = (𝑥! − 𝑥)!
𝑛
!!!
Para datos agrupados se usará
! !
1 1
𝑆!! = 𝑛! (𝑥! − 𝑥) = !
𝑓! (𝑥! − 𝑥)!
𝑛 𝑛
!!! !!!

Desviación típica o estándar

Es la raíz cuadrada positiva de la varianza muestral.


Para datos no agrupados puede resultar my sencillo obtener los valores de varianza y desviación
típica, sin embargo para datos agrupados supongamos el ejemplo siguiente.
Sean los datos agrupados:

Clases 𝑛!
3
[1.60,1.70) 8
[1.70,1.80) 3
[1.80,1.90) 4

12
[1.90.2.10) 6

Tendríamos:
Media muestral:
𝑥 = 1.76
Intervalo mediana
[1.70,1.80)
Varianza muestral

𝑆!! = 0.0441

Desviación típica muestral


𝑆 = 0.0441 = 0.21

Rango

Es el primer valor que muestra como están disperso los datos. Es una medida variacional de los
datos que lo único que indica es el tamaño o longitud del intervalo en el que éstos se encuentran
distribuidos y se calcula por:

Rango= el valor mayor menos el valor menor de los datos.

2.3 Diagramas  de  caja.  

Un diagrama de caja o de dispersión trata, al igual que un histograma, de dar una idea de la
distribución de los datos. Sin embargo, para construirla, no es necesario hacer una subdivisión en
clases de frecuencia. La construcción de una caja de dispersión, se basa en el cálculo de la
mediana, los cuartiles y la desviación cuartil.
La caja de dispersión está compuesta por:
- Un rectángulo que agrupa al 50% de los datos; en su parte inferior está el primer cuartil
𝑄! y en la parte superior el tercer cuartil 𝑄! .
- El rectángulo está dividido por una línea, que representa a la mediana.
- Del rectángulo salen dos líeas, una hacia arriba y otra hacia abajo. Estas líneas agrupan
cada una al 25% de los datos (los datos inferiores la línea de abajo, y los datos superiores
la línea de arriba).
- En ocasiones, se marca con arteriscos o estrellas ciertos puentos especiales: aquellos
puntos que corresponden a valores demasiado alejados del resto de los valores conocidos
como datos atípicos.

13
-
Gutierrez, 2006

3. PRODUCCIÓN  DE  DATOS  POR  MEDIO  DE  MUESTREO  

Actividades a realizar
Actividad Descripción Puntuación
- Resumen de conceptos El alumno elaborará un mapa mental 8
sobre los conceptos involucrados en
este tema.
- Resumen El alumno investigará algunos 10
estudios donde se aplique alguna
técnica de muestreo y explicará en
frente a grupo según lo visto en el
tema de muestreo.
- Ejercicios extraclase Cálculo de tamaños de muestra para 10
cada tipo de muestreo.
- Solución de problemas El alumno definirá con mayor 7

14
exactitud el tipo de muestreo a
emplear en su proyecto definido al
inicio del curso y entregará avance del
mismo.

Bibliografía.
• Devore, Jay L. Probabilidad y estadística para ingeniería y ciencias.
Thompson Learning, México, 5ª edición, 2001.
• Hines, W. Montgomery D. Probabilidad y Estadística para Ingeniería,
CECSA, México, 2ª edición, 2002.
• Montgomery, Douglas. Runger George cursoC. Probabilidad y
Estadística. Mc Graw- Hill. 2ª edición, 2002.
• Ross. Sheldon, M. Probabilidad y Estadística para ingenieros.
Mcgraw-Hill, 1ª edición, 2001.
• Sharon, L. Lohr. Muestreo: Diseño y Análisis. Thomson Learning,
México, 2000.
• Walpole R.E., Myers R.H., Myers S.L. Probabilidad y estadística para
ingenieros. Prentice Hall, México, 6ª edición 1999.

Para poder tener una buena muestra es necesario comprender algunos conceptos que tienen
relevancia. Una muestra perfecta sería aquella que reflejaría cada una de las características de
toda la población. Por supueso, una muestra como ésta no puede existir en poblaiones complejas.
Pero una buena muestra reproduce las características de interés que existen en la población de la
manera más cercana posible. Esta muestra será representativa, en el sentido de que cada unidad
muestreada representará las características de una cantidad conocida de unidades en la población.

3.1 Población,  muestra  y  unidad  de  muestreo.  

Definiciones.

Unidad de observación. Es el objeto sobre el cual se realiza una medición. Ësta es la unidad
básica de observación, a veces llamada elemento. En los estudios de poblaciones humanas, con
frecuencia ocurre que las unidades de observación son los individuos.

Población objetivo. Es la colección completa de observaciones que deseamos estudiar. La


definición de población objetivo es una parte importante y con frecuencia díficil del estudio. Por
ejemplo, en una encuesta pública, ¿ la poblaciñon objetivo deberían ser todo los adultos que
puedan votar? ¿todos los votantes registrados? ¿todas las personas que votaron en la última
elecciñon? La elección de la población objetivo afectará profundamente a las estadísticas
resultantes.

Muestra. Es un subconjutno de una población.

15
Población muestreada. Es la colección de todas las unidades de observación posibles que podrían
extraerse en una muestra; en otras palabras, es la población de donde se extrae la muestra.

Unidad de muestreo. Es la unidad donde realizamos la muestra. Por ejemplo, podriamos querer
estudiar a las personas, pero no tenemos una lista de todos los individuos que pertenencen a la
población objetivo. En vez de esto, las familias sirven como las unidades de muestreo y las
unidades de observación son los individuos que viven en una familia.

Marco de muestreo. Es la lista de las unidades de muestreo. Para las encuestas telefónicas el
marco de muestreo podría ser una lista de todos los números telefónicos residenciaes de la
ciudad; para las entrevistas personales, una lista de las direciones de todas las calles; para una
encuesta de agricultura, una lista de todas las granjas o un mapa de las áreas que contienen
granjas.

3.2 Sesgo  de  selección  y  sesgo  de  medición.  


Una buena muestra estará a salvo de presentar un sesgo de selección; esto ocurre cuando
alguna parte de la población objetivo no está en la población muestreada. Si una encuesta
diseñada para estudiar el ingreso de las familias omite a las personas que se encuentan en un
situación transitoria, las estimaciones de la encuesta del ingreso familiar promedio serían
probablemente muy grandes. Con frecuencia, una muestra de conveniencia es sesgada, pues
las unidades más fáciles de elegir o las que más probablemente respondan a la encuesta no
son representativas de las unidades más díficiles de elegir o de las unidades que no contesten
la encuestas. Ejemplos donde puede ocurrir un sesgo:

- El uso de un procedimiento de selección de la muestra que, sin saberlo los investigadores,


dependa de cierta característica asociada a las propiedades de interés. Por ejemplo, unos
investigadores extrajeron una muestra de convenciencia en adolescentes, para estudiar la
frecuencia con que los adloscentes hablan con sus padres y maestros acercad del SIDA.
- La elección deliberada o que busca una muestra representativa. Muestra de juicio, el
investigador emplea su propio juicio para elegir las unidades específicas que debe incluir
en la muestra.
- No inlcuir a toda la población en el marco de muestreo, lo que se llama subcobertura
- La sustitución de un miembro conveniente de una población por un miembro designado
que no está disponible.
- No poder obtener respuestas de toda la muestra elegida.
-
El sesgo de medición ocurre cuando el instrumento con el que se mide tiene una tendencia a
diferir del valor verdadero en alguna dirección. Como en el caso del sesgo de selecciñon, el sesgo
de medición debe ser considerado y minimizado en la etaà de diseño de la encuesta; ningún
análisis estadístico revelará, por ejemplo, que la pesa añadió de manera errónea 5 kilogramos a
cada persona en un estudio de salud.

3.3 Margen  de  error,  errores  de  muestreo  y  no  de  muestreo.  

La mayor parte de las encuestas de opinión informan de un margen de error. Muchas


simplemente dicen que el margen de error es de 3 puntos porcentuales. El margen de error dado

16
en las encuestas es una expresión del error de muestreo, el cual resulta al considerar una muestra
y no al examinar a toda la población. Si consideramos una muestra distinta, es muy probable que
obtengamos un porcentaje muestral distinto.

Los errores de muestreo se reportan, por lo general, en términos probabilísticos.

El sesgo de selección y la imprecisión de las respuestas son ejemplos de los errores que no son de
muestreo, los cuales no se pueden atribuir a la variabilidad entre las muestras. En muchas
encuestas, el error de muestreo reportado para esa encuesta puede ser despreciable en
comparación con los errores de muestro; con frecuencia, usted verá encuestas con una tasa de
respuesta del 30% que proclaman con orgullo su margen de error del 3%, con esto se ignora el
tremendo sesgo de selección en sus resultados.

El muestreo puede proporcionar información confiable con costos mucho menores que los de un
censo. Con las muestras probabilísticas usted puede cuantificar el error de muestreo a partir de
una encuesta. Los datos pueden reunirse más rápido, de modo que las estimaciones se pueden
publicar de una manera programada. Las estimaciones basadas en encuestas y sus respectivas
muestras son, con frecuencia, más precisas que las basadas en un censo.

3.4 Muestreo.  

En una muestra de probabilidad, cada unidad de la población tiene una probabilidad de selección
conocida; se emplea un método aleatorio (tabla de números aleatorios) para elegir las unidades
específicas que se incluirán en la muestra. Si un muestreo de probabilidad se realiza de manera
adecuada, un investigador puede utilizar una muestra relativamente pequeña para llevar a cabo
inferencias de una población arbitrariamente grande.
Los términos de muestra aleatoria simple, muestra estratificada y muestra por conglomerados son
básicos en cualquier análisis de las encuestas con muestras de modo que las definimos enseguida.

3.4.1 Aleatorio  Simple  

Una muestra aleatoria simple es la forma más sencilla de realizar un muestreo probabilístico. Se
obtiene una muestra aleatoria simple de tamaño n cuando cualquier subconjunto posible de n
unidades en la población tiene la misma probabilidad de ser seleccionada para componer la
muestra. Estas muestras son la base para otros diseños de muestreo complejos. Al extraer una
muestra aleatoria, el investigador mezcla de hecho la población antes de sacar n unidades. Un
investigador no necesita examinar a todos los miembros de una población, por la misma razón
que un encargado de análisis médicos no tiene que obtener toda la sangre para medir la cantidad
de glóbulos rojos: la sangre está bien mezclada, de modo que cualquier muestra sería
representativa.
Se dice que las variables aleatorias 𝑋! , 𝑋! , … , 𝑋! , obtenidas del proceso de muestreo de una
población, forman una Muestra Aleatoria simple de tamaño n, si son independientes y tienen la
misma distribución de probabilidad que toda la población.

17
3.4.2 Estratificado  

Se subdivide en subgrupos llamados estratos. Al llevar a cabo está división, se extrae una muestra
aleatoria simple de cada estrato la cual se elige de manera independiente. Los estratos son, con
frecuencia, subgrupos de interés para el investigador; por ejemplo, los estratos podrían ser grupos
étnicos o de edad en una encuesta que tratara sobre personas; diferentes tipos de terreno en un
estudio ecológico o tamaños de empresas en un estudio comercial. Los elementos del mismo
estrato tienden por lo regular, a ser más similares que los elementos elegidos al azar de la
población entera, de modo que, a menudo, la estratificación aumenta la precisión.
3.4.3 Por  conglomerados  

Las unidades de observación que componen una población se reúnen en unidades de muestreo de
mayor tamaño, llamadas conglomerados. Suponga que debe realizar una encuesta de los
miembros que forman la iglesia Cristiana en San Pedro Pochutla, pero no cuenta con una lista
completa de todos ellos; de modo que no podrá extraer una muestra aleatoria simple de los
miembros que componen dicha Iglesia. Sin embargo, posee una lista de todas las iglesias
cristianas. Entonces, extrae una muestra aleatoria simple de las iglesias y ,luego, realiza una
nueva muestra entre todos o algunos de los miembros de las iglesias elegidas, En este caso, las
iglesias forman los conglomerados y los miembros de cada iglesias son las unidades de
observación.
3.4.4 Sistemático  

A veces el muestreo sistemático se utiliza como sustituto del muestreo aleatorio cuando no se
dispone de una lista de la población o cuando esta última tiene un orden mas o menos aleatorio.
Para elegir una muestra sistemática, se elige una muestra de tamaño n y sea k el siguiente entero
después de N/n. Luego, determinamos un número aleatorio R entre 1 y k, el cual determina que la
muestra esté formada por las unidades numeradas R, R+k, R+2k, …,R+(n-1)k. Por ejemplo, para
elegir una muestra de 45 estudiantes de una lista de 45000 que estudian en la Universidad Estatal
de Arizona, el intervalo de muestreo k es 1000. Supongo que el número elegido es 597. Entonces
los estudiantes numerados como 597, 1597, 2597,…,44597 estarían en la muestra Lohr(2005)

3.4.5 Multietápico  

Un muestreo polietápico utiliza más que una etapa de selección para formar la muestra. Las
primera etapa utiliza las unidades de muestreo de mayor tamaño que se llaman unidades de
muestreo primarios, mientras que en la etapa final se utilizan unidades de muestreo más pequeño
denominadas unidades de muestreo secundarias. Si el objeto es investigar alumnos, entonces los
unidades de muestreo primarias pueden ser escuelas y las unidades de muestreo secundarias los
alumnos dentro de las escuelas seleccionadas.

Una característica de los datos multietápicos es que los elementos en el mismo agrupamiento son
más homogéneos que los distintos agrupamientos. Generalmente se mide el grado de
homogeneidad de los agrupamientos con un coeficiente de correlación intraclase. Si la

18
correlación es alta, los agrupamientos son homogéneos dentro de cada grupo o muy diferentes de
un agrupamiento a otro.

4. Distribuciones  muestrales  

Actividades a realizar
Actividad Descripción Puntuación
-Comprensión de conceptos Realizará ejercicios extraclase para 10
comprender la obtención de
estadísticos.
- Solución de problemas Aplicar el teorema central del límite 15
en casos prácticos.

Bibliografía.
• Devore, Jay L. Probabilidad y estadística para ingeniería y ciencias.
Thompson Learning, México, 5ª edición, 2001.
• Hines, W. Montgomery D. Probabilidad y Estadística para Ingeniería,
CECSA, México, 2ª edición, 2002.
• Montgomery, Douglas. Runger George C. Probabilidad y Estadística.
Mc Graw- Hill. 2ª edición, 2002.
• Ross. Sheldon, M. Probabilidad y Estadística para ingenieros.
Mcgraw-Hill, 1ª edición, 2001.
• Sharon, L. Lohr. Muestreo: Diseño y Análisis. Thomson Learning,
México, 2000.
• Walpole R.E., Myers R.H., Myers S.L. Probabilidad y estadística para
ingenieros. Prentice Hall, México, 6ª edición 1999.

4.1 Parámetros  y  estadísticos.  

Ya hemos definido algunas medidas usadas para describir una muestra y que nos servirán para
estimar a los parámetros de la población. Normalmente tales estadístcas varían de realización en
realización de una muestra aletatoria. Por ejemplo 𝑥 no es más que un valor de una variable
aleatoria 𝑋, a la cual se le da el nombre de estadística, en general se tiene.
Se llama Estadística a cualquier función que se obtenga de las variables aleatorias
correspondientes a una muestra aleatoria, pero que no contenga algún parámetro.
Algunas estadísticas son:

19
Media

Sea un amuestra aleatoria 𝑋! , 𝑋! , … , 𝑋! , entonces la estadística media está dada por


!
𝑋! + 𝑋! + ⋯ + 𝑋! 1
𝑋= = 𝑋!
𝑛 𝑛
!!!

Diferencia de medias

Sean dos muestras aleatorias 𝑋! , 𝑋! , … , 𝑋! y 𝑌! , 𝑌! , … , 𝑌! independientes, entonces la estadística


de la diferencia está dado por 𝑋 − 𝑌.

Mediana

Sea una muestra aleatoria 𝑋! , 𝑋! , … , 𝑋! entonces la estadística mediana está dada por

𝑋!!!            𝑐𝑢𝑎𝑛𝑑𝑜  𝑙𝑎  𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑  𝑑𝑒  𝑑𝑎𝑡𝑜𝑠  𝑒𝑠  𝑖𝑚𝑝𝑎𝑟


!
𝑋 = 𝑋! + 𝑋!
! !! !
, 𝑐𝑢𝑎𝑛𝑑𝑜  𝑙𝑎  𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑  𝑑𝑒  𝑑𝑎𝑡𝑜𝑠  𝑒𝑠  𝑝𝑎𝑟.
2

Varianza insesgada o muestral

Sea una muestra aleatoria 𝑋! , 𝑋! , … , 𝑋! entonces la estadística varianza está dada por:
!
!
1
𝑆!.! = 𝑋! − 𝑋 !
𝑛−1
!!!

Proporciones

Sea una muestra aleatoria 𝑋! , 𝑋! , … , 𝑋! de distribuciones de Bernoulli, entonces la estadística


!
para las proporciones está dada por 𝑋 = ! , en donde 𝑇 = !!!! 𝑋! y tiene una distribución
binomial.

Momentos muestrales

Sea una muestra aleatoria 𝑋! , 𝑋! , … , 𝑋! entonces los momentos muestrales dados por
!
1
𝑀!´ = 𝑋!!
𝑛
!!!
alrededor del 0
y

20
!
1 !
𝑀! = 𝑋! − 𝑋
𝑛
!!!

Alrededor de la estadística media son estadísticas

Media y varianza de la media muestral

La estadística que más se emplea en la práctica es la media muestral y se usa para llevar a acabo
inferencias con respecto al parámetro media, µ. Por tal razón, es conveniente que se estudien dos
propiedades sencillas de la estadística 𝑋 que resultan con bastante frecuencia en las inferencias
para una muestra aleatoria.

Sea una muestra aleatoria 𝑋! , 𝑋! , … , 𝑋! , tomada con reemplazo de una distribución con valor
medio 𝜇  y varianza finita 𝜎 ! , entonces

!!
𝐸 𝑋 = 𝜇! = 𝜇 y 𝑉 𝑋 = 𝜎!! = !

De tal forma que si 𝑋 = 𝑋! + 𝑋! + ⋯ + 𝑋! , entonces 𝐸 𝑋 = 𝑛𝜇 y 𝑉 𝑋 = 𝑛  𝜎 ! .

4.2 Distribuciones  muestrales.  

Se llama distribución muestral a la distribución de probabilidad de la estadística en estudio.


La distribucón muestral de 𝑋 se llama distribución muestral de la media.
La distribución muestral de 𝑆 ! se llama distribución muestral de la varianza.

4.3 Distribución  muestral  de  la  media.  

Para hacer inferencia debemos tener conocimiento sobre el comportamiento de las estadísticas
tales como la media.
Cuando se tiene una muestra aleatoria de variables normales la distribuciñon de el promedio de
dichas variables se tiene entonces:

! ! !!
La estadística media 𝑋 = ! !!! 𝑋! es
normal con media 𝜇 y varianza ! . Luego
𝑋−𝐸 𝑋 𝑋−𝜇 𝑋−𝜇
𝑍= = 𝜎 = 𝑛
𝑉 𝑋 𝜎
𝑛
tiene una distribución normal estándar.

4.4 Teorema  Central  del  límite.  

21
El teorema central del límite (TCL) justifica para cualquier muestra aleatoria de tamaño n grande,
tomada de cualquier población con media 𝜇 y varianza finita 𝜎 ! , que el estadístico 𝑋 o el
!!
estadístico suma tendrán una distribución aproximadamente normal con media 𝜇 y !
.

Generalmente el TCL se estudia, en la parte de distribuciones muestrales en el caso de muestras


grandes.

Para el caso del parámetro de la media, el teorema afrima que la distribución límite de la
distribución muestral para la estadística media es normal, para mayor precisión se tiene el
siguiente teorema:

Teorema
Sean 𝑋! , 𝑋! , … , 𝑋! las variables de una muestra aleatoria de una distribución con valor medio 𝜇 y
varianza finita 𝜎 ! , entonces la forma límite de la distribución de la variables.

𝑿 − 𝝁𝑿 𝑿 − 𝝁
𝒁𝒏 = =𝝈
𝝈𝑿
𝒏
tiene una distribución normal estándar cuando n se hace infinita.
El TCL exige que existan y sean finitos el valor esperado y la varianza de la distribución de la
muestra aleatoria.

En la práctica se ha probado que a partir de muestras grandes de tamaño 30 la aplicación del TCL
da buenas paroximaciones, razón por la que en la mayoría de los libros metodológicos el TCL se
aplica en muestras de tamaños mayores o iguales a ·0. Sin embrago, el tamaño de muestra 30 es
un valor un tanto subjetivo, porque algunos estudiosos de la estadística prefieren el valor de 50.

Ejemplo de uso del Teorema Central del Límite

Un cierto tipo de tornillos se fabrica con un diámetro de 10mm y una desviación estándar de un
milímetro. ¿cuál es la probabilidad de que una muestra aleatoria de 400 tornillos tenga un
diámetro promedio de a lo más 10.05 mm?

Solución
Sean𝑋! , 𝑋! , … , 𝑋!"" las variables aleatorias que representan los diámetros en milímetros de los
400 tornillos, para 𝜇 = 10 y  𝜎 = 1 y n=400. La probabilidad que se pide es 𝑃(𝑋 ≤ 10.05).

Puesto que no se conoce la distribución de las variables aleatorias, no podemos conocer la


distribución de la estadística 𝑿 y por lo tanto no se puede calcular la probabilidad pedida. Sin
embargo, la población tiene media y varianza finitas, además el tamaño de la muestra es grande.
Luego, podemos aproximar la probabilidad pedida aplicando el teorema central del limite, con el
cambio de variables.
𝑿−𝝁
𝒁= 𝝈
𝒏

22
y tomando en cuanta que Z se aproximaría a una distribución normal estándar para tamaños de
muestra grandes.
𝑿 − 𝝁 𝟏𝟎. 𝟓 − 𝟏𝟎
𝑃 𝑋 ≤ 10.05 = 𝑃 𝝈 ≤ = 𝑃 𝑍 ≤ 1 = 0.8413
𝟏
𝒏 𝟒𝟎𝟎

4.5  En  Distribución  muestral  de  una  proporción.  

Sea 𝑋! , 𝑋! , … , 𝑋! una muestra aleatoria de una distribución bernoulli con parámetro p


(probabilidad de éxito), y la variables 𝑇 = 𝑋! + 𝑋! + ⋯ + 𝑋! , que representa la cantidad de
!
éxitos de la muestra, entonces se llama proporción a 𝑝 = 𝑋 = !.
Luego, el valor esperado y la varianza de una proporción están dados por :

Sea 𝑋! , 𝑋! , … , 𝑋! una muestra aleatoria de una distribución bernoulli con parámetro p


(probabilidad de éxito), y la variables 𝑇 = 𝑋! + 𝑋! + ⋯ + 𝑋! , que representa la cantidad de
éxitos de la muestra, entonces se llama proporción a 𝑝 = 𝑋, entonces 𝐸 𝑝 = 𝑝 y
!(!!!)
𝑉 𝑝 = ! .
! !
Además, 𝑋 tiene una distribución discreta con valores 0, ! , ! , … , 1, cuyas probabilidades
respectivas son las de la binomial 𝐶!! 𝑝! (1 − 𝑝)! , 𝐶!! 𝑝! (1 − 𝑝)!!! ,…,  𝐶!! 𝑝! (1 − 𝑝)! .

23