Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Una meta común e importante de la materia de estadística es la siguiente: aprender acerca de un grupo
grande examinando los datos de algunos de sus miembros. En dicho contexto los términos muestra y
población adquieren importancia. Las definiciones formales de términos básicos se presentan a
continuación:1
a. Datos son las observaciones recolectadas (como mediciones, géneros, respuestas de encuestas)
b. Estadística es un conjunto de métodos para planear estudios y experimentos, obtener datos y
luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los
datos
c. Población es el conjunto completo de todos los elementos (puntuaciones, personas, medidas,
etc.) que se va a estudiar. El conjunto es completo porque incluye a todos los sujetos que se
estudiarán.
d. Censo es el conjunto de datos de cada uno de los miembros de la población
e. Muestra es un subconjunto de miembros seleccionados de una población
Se trata de utilizar datos muestrales para hacer inferencias (o generalizaciones) sobre una población
completa.
Los datos cuantitativos consisten en números que representan conteos o mediciones, se pueden clasificar
en:
Datos discretos: Resultan cuando el número de valores posibles es un número finito o un número
que “puede contarse”, ejemplo: número de huevos que ponen las gallinas, número de latas.
Datos continuos: Resultan de un infinito de posibles valores que corresponden a alguna escala
continua que cubre un rango de valores sin huecos, interrupciones o saltos, ejemplo: cantidades de leche
que producen las vacas, el volumen real de la bebida de coca cola.
Los datos cualitativos (o categóricos o de atributo) se dividen en diferentes categorías que se distinguen
por algunas características no numéricas.
Otra forma de común de clasificar los datos consiste en usas 4 niveles de medición: nominal, ordinal, de
intervalo y de razón.2
La escala nominal: en algunos casos los atributos de interés o las variables consisten en nombres o
etiquetas, y las observaciones (mediciones) únicamente se puede clasificar, los datos no se pueden
acomodar en un esquema de orden. En esta escala consiste en asignar símbolos que pueden ser letras,
nombre o incluso números (sin que haya relaciones matemáticas), sin embargo, se puede contar el número
de observaciones de cada clase o categoría, y utilizar las frecuencias o porcentajes de las categorías en
alguna actividad de presentación o análisis.
La escala ordinal: al igual que en la escala nominal, la medición consiste en asignar símbolos que pueden
ser letras, nombres o incluso números. Ejemplos de datos que corresponden a esta escala son las
encuestas que hacen los sitios de internet, en las que se pide categorizar una película, un artículo
publicado por ellos o una opinión respecto de una propuesta de ley. En esta escala se puede distinguir una
relación entre las clasificaciones ya que un excelente es mejor que muy bueno y así sucesivamente, por
La escala de intervalo: posee todas las características de la escala ordinal, con la propiedad adicional de
que los nombres o símbolos asignados son generalmente números, y la diferencia entre dos de ellos da
resultados significativos, ya que hay una unidad de medida común y constante. Un ejemplo de medición
con escala de intervalo es la lectura de temperaturas, que se pueden ordenar fácilmente pero también se
pueden determinar las diferencias y darle un sentido, mas sin embargo, los datos en este nivel no tienen
punto de partida cero natural inherente.
La escala de razón: es el nivel de medición más alto; tiene todas las características de la escala de
intervalo, pero, además, tiene un punto cero natural o teórico. Por consiguiente, además de las diferencias
y las sumas, la multiplicación y división de los datos tienen significado numérico racional, el punto cero
refleja la ausencia de esa característica.
Un censo comprende el examen de todos los elementos de un determinado grupo mientras que el
muestreo comprende el análisis de una pequeña parte de ellos. El objeto del muestreo es establecer
generalizaciones con respecto a un grupo total de elementos sin tener que examinarlos uno por uno.
La parte del grupo de elementos que se examinan recibe el nombre de muestra, y el grupo total a partir del
cual se seleccionó la muestra se conoce como población o universo. Los elementos que forman una
población pueden ser personas, empresas, productos manufacturados, inventarios, escuelas, ciudades,
calificaciones escolares, precios o cualquier otra cosa que se pueda medir, contar o jerarquizar.3
Limitaciones:
Las poblaciones de tamaño limitado se conocen como poblaciones finitas, ejemplo: los alumnos de una
clase determinada, los productos de un supermercado, los libros de una biblioteca, y los automóviles del
estado de California.3
En tanto que las que tienen tamaño ilimitado se conocen como poblaciones infinitas, estas generalmente
son de cierto tipo de proceso que produce elementos o resultados, como la tirada de monedas, en la cual el
número de resultados (cara o cruces) que se pueden obtener es ilimitado. Otros ejemplos de procesos de
poblaciones infinitas con la producción futura de una máquina, la extracción de canicas de una urna
regresando cada canica a su lugar antes de sacar otra, `y el nacimiento de insecto (o de cualquier otra
especie).3
Existen ciertas situaciones en las que es más ventajoso inspeccionar todos los elementos de una población
(efectuar un censo), y son3:
El problema de regresar o no un elemento muestreado a una población antes de sacar otro de ésta, surge
cuando se muestrea una población infinita, ya que la probabilidad de incluir elementos de una población
en una muestra dependerá de si estamos muestreando con reposición o sin reposición 3.
Existen varias razones del por qué el muestreo sin reposición se lleva a cabo en la práctica real3:
a. Los efectos suelen ser insignificantes, y puede ser más conveniente hacerlo así (Si el tamaño de
muestra es pequeño en relación con el de la población).
b. Si se realizan ensayos destructivos, será imposible regresar los elementos muestreados a la
población.
c. En el muestreo industrial será difícil persuadir a los inspectores carentes de adiestramiento en
estadística de que regresen los elementos muestreados a ala población, particularmente si éstos
están defectuosos.
d. Cuando se regresa un objeto muestreado a la población, existe una posibilidad de que sea
incluido en un ensayo subsecuente.
Muestreo no probabilístico:
Por facilidad de acceso: cuando se muestra solo aquellos elementos a los que se puede accesar
fácilmente, con lo que los de difícil acceso nunca serán elegidos.
Intencional: si la muestra se elige por un experto conocedor de la población de manera objetiva
tendrá generalmente una precisión muy alta. Es muy difícil medir si existen tendencias
personales. Cuando se tiene una población pequeña pero heterogénea, el investigador
inspecciona la totalidad de ésta y selecciona una muestra que considera representativa. El
investigardor selecciona una muestra que considera representativa; es decir, elementos que a su
parecer están cercanos al promedio de la población.
Por cuotas: Se eligen elementos hasta completar una cuota preestablecida sin seguir ningún
método especificado de selección, con lo que solo se incluirán solo los n primeros elementos o
solo los que existan en determinado lugar. Se utiliza para sondeos de intención de voto y en las
investigaciones de mercado.
Autoselectivo: La muestra se toma con la gente que voluntariamente responde a un periódico,
una revista, internet, radio o televisión.
Muestreo probabilístico:
Es el proceso por el cual, los elementos de la muestra son escogidos en forma individual y
directamente a través de un procedimiento aleatorio en el cual todos y cada uno de los elementos
de la población tienen la misma probabilidad de ser seleccionados.
Se recomienda su uso para poblaciones relativamente pequeñas y distribuidas en un
área reducida para evitar los gastos de traslado
Técnica del muestreo:
Identificar a todos los elementos del marco del muestreo (población), asociándoles un
número único.
A través de un procedimiento que garantice la obtención de una muestra aleatoria,
elegir a los elementos de la población que conformarán la muestra
Revisar a los elementos seleccionados, para obtener de ellos los datos relevantes que
permitan cumplir el objetivo del muestreo
Realizar los cálculos necesario para poder establecer las conclusiones
Los mecanismos que se utilizan para garantizar la aleatorización son:
La urna y su técnica es la siguiente:
Colocar en una urna tantos papelitos o pelotitas marcados con los números del
uno al tamaño de la población (N)
Revolver muy bien el contenido de la urna
Extraer tantos papelitos o pelotitas que se deseen en la muestra
Tabla de número aleatorios y su técnica es la siguiente:
Determinar el número de dígitos a utilizar
Los mecanismos electrónicos: son las calculadoras y computadoras, las cuáles debido a
su naturaleza de funcionamiento sólo pueden general números pseudoaleatorios, los
cuáles requieren de un valor inicial llamado semilla, si se da el mismo valor se general
la misma secuencia de números.
Se recomienda utilizar como último recurso y en problemas donde la
aleatorización no sea un elemento crítico dentro del estudio que se esté
realizando.
Determinar el tamaño de la muestra
Cuando deseamos estimar el tamaño de la muestra se debe tener en cuenta que los
objetivos de la encuesta suelen requerir varias estadísticas y que al considerar cada una
de ellas pueden llevar a un diseño diferente, por lo tanto, para determinar el tamaño de
la muestra se debe elegir el principal objetivo y calcular el tamaño de muestra necesario
para cumplir dicho objetivo. En caso de ser varios los objetivos principales se
determina un tamaño de muestra para cumplir cada objetivo y entre todos ellos, se elige
el mayor.
El tamaño de la muestra depende básicamente del tamaño de la población, del nivel de
confianza o confiabilidad de las estimaciones, del grado de variación o dispersión de la
variable a estudiar y del error de estimación.
El nivel de confianza o confiabilidad lo fija arbitrariamente quien esté calculando el
tamaño de la muestra, teniendo en cuenta que dicha confiabilidad debe estar entre el
noventa y el noventa y nueve por ciento. A mayor confiabilidad mayor tamaño de
muestra.
El grado de variación o dispersión de la variable se mide a través de la desviación
estándar, la cual puede ser estimada a partir de una muestra piloto o a partir de la
información recopilada en una investigación similar, realizada anteriormente.
El error de estimación es la máxima diferencia en valor absoluto, que se está dispuesto
a aceptar, entre el valor del estimador y el valor del parámetro, a éste error de
estimación se le nota como B. El valor del error de estimación depende del estimador
que se desee obtener y de la magnitud de la variable. Por ejemplo si se va a estimar la
proporción de desempleados, un error de estimación lógico puede ser del 3 por ciento;
pero si se va a estimar el peso promedio de un grupo de estudiantes, un error de
estimación lógico puede ser de 7 kilos. A mayor error de estimación menor tamaño de
muestra.
Dependiendo del tipo de estimador que se desee obtener, se debe utilizar una fórmula
diferente para calcular el tamaño de la muestra.
Tamaño de la muestra para estimar el promedio aritmético
Una empresa tiene 98 operarios y desea determinar el tamaño de muestra necesario para
estimar el tiempo promedio que requiere un operario para completar una labor, con un
error de estimación máximo de medio minuto y una confiabilidad del 95 por ciento.
Se toma una muestra piloto, con la cual se estima una desviación estándar de 1.2
minutos
Solución
El error de estimación es 0.5 minutos (B=0.5). Para una confiabilidad del 95 por ciento,
en la tabla de la distribución normal el valor de k es 1.96:
Si la misma empresa del ejemplo anterior, desea estimar el tiempo total que necesitan
sus obreros para terminar la labor, con un error máximo de 35 minutos y una
confiabilidad del 95 por ciento; por lo tanto, (B = 35), y para una confiabilidad del 95
por ciento k=1.96. El tamaño de muestra requerido es:
Debe seleccionar una muestra aleatoria de 30 operarios, para estimar el tiempo total con
un error máximo de 35 minutos y una confiabilidad del 95 por ciento.
Se desea estimar el porcentaje de empleados en una ciudad que tiene una fuerza de trabajo de 35.250
personas. Por un trabajo realizado anteriormente se sabe que el porcentaje de empleados es del 75 por
ciento. Qué tamaño de muestra será necesario para estimar la proporción con un error de estimación
máximo del 8 por ciento.
Solución
Por lo tanto se debe seleccionar una muestra aleatoria de 112 personas para estimar el porcentaje de
empleados.
Una vez determinado el tamaño de la muestra, para repartirla proporcionalmente al tamaño de los estratos
se utiliza la siguiente expresión:
Se desea estimar la nota promedio de los estudiantes de administración de empresas diurna y nocturna en
una universidad. En la carrera diurna (estrato 1) hay 280 estudiantes y en la nocturna (estrato 2) hay 200
estudiantes. Determine el tamaño de muestra necesario para cumplir el objetivo con un error máximo de
0.15 y una confiabilidad del 95 por ciento.
Por un estudio realizado tiempo atrás se conocen las varianzas de las notas de administración diurna y
nocturna, las que respectivamente son: 0.31 y 0.28.
Solución
Considerando que las varianzas son similares, se trabaja con muestreo estratificado con asignación
proporcional. El error (B) es 0.15 y para una confiabilidad del 95 por ciento el valor correspondiente en
la distribución normal es 1.96, entonces, k = 1.96:
Solución
Como no se dispone de estudios similares, se toma una muestra piloto, con la cual se obtienen las
siguientes varianzas sobre el consumo semanal en galones:
Considerando que las varianzas en los tres estratos son similares, se trabaja con muestreo estratificado
con asignación proporcional
Para estimar el consumo total de gasolina con un error máximo de 15,000 galones/semana, se debe
seleccionar una muestra de 255 autos repartida así: 184 autos particulares, 58 públicos y 13 oficiales.
Recuerde que si se desea, se puede disminuir el error máximo admisible, pero esto conlleva a un aumento
en el tamaño de la muestra.
En vista de la recesión económica existente, una empresa textil pretende reducir el número de dias
laborables por semana a cuatro. Otra alternativa consiste en clausurar una de sus tres plantas y despedir a
los trabajadores. Para tener una idea de la opinión de los trabajadores, el gerente de personal de la
empresa desea seleccionar una muestra de empleados de las tres plantas para estimar la proporción de
trabajadores que prefieren la reducción de la semana de trabajo, con un error de estimación máximo de
0.1.
La empresa emplea 150 personas en la planta 1, 65 en la planta 2 y 40 en la 3. Se estima que cerca del
75 por ciento de los de la planta tres están a favor de la reducción de la semana de trabajo, mientras que
en las otras plantas este porcentaje parece corresponder al 50 por ciento. Encuentre el tamaño de muestra
y la asignación necesaria en cada estrato.
Se desea hacer un estudio sobre producción media de madera aserrada en los E.U.
Todos los aserraderos han sido agrupados en estratos, de acuerdo con la producción. Hace 5 años se hizo
un estudio similar en donde se estimó la desviación estándar de la producción (en miles de pies de tabla).
Por lo tanto, se dispone de la siguiente información:
Determine el tamaño de muestra necesario para estimar la producción media de madera con un error
máximo de 25.000 pies de tabla y una confiabilidad del 95 por ciento.
Solución
El error máximo es de 25.000 pies, pero se debe tener en cuenta que la producción está dada en miles, por
lo tanto se divide por 1000, es decir que B = 25.
Considerando la diferencia en el tamaño de los estratos y en las desviaciones estándar se trabaja con
muestreo estratificado con la asignación de Neyman.
Se debe tomar una muestra de 1.473 aserraderos, repartidos así: 360 en el estrato uno, 424 en el estrato
dos y 690 en el estrato tres.
La fábrica de tapas desea determinar el tamaño de muestra necesario para estimar la producción semanal
total, con un error máximo de 90.000 tapas y una confiabilidad del 95 por ciento.
Solución
Se realiza una muestra piloto, de la cual se utilizan las varianzas obtenidas que son:
Teniendo en cuenta la gran diferencia presentada en las varianzas de los tres estratos y la diferencia en el
tamaño de dichos estratos, el tipo de muestreo adecuado es el estratificado con asignación de Neyman.
Por lo tanto, para estimar la producción total con un error máximo de 90000 tapas y una confiabilidad del
95 por ciento, se debe seleccionar una muestra de 69 máquinas, repartidas así: 15 manuales, 24
semiautomáticas y 30 automáticas.
Una vez obtenido el tamaño de la muestra, se reparte entre los estratos utilizando la siguiente expresión
Las fórmulas empleadas para determinar los tamaños de muestra son las mismas que se utilizan
en el muestreo aleatorio simple.
El único cuidado que se debe tener es lo ya explicado en cuanto a la estimación de la varianza de
los estimadores a partir de una sola muestra sistemática que solo se puede hacer por
equivalencias entre las dos técnicas, si se desea evaluar con mayor precisión estas varianzas se
debe usar una variante de esta técnicas que es el muestreo sistemático replicado
MUESTREO ALEATORIO CONGLOMERADO
DISTRIBUCIÓN DE MUESTRAS
Para distinguir la medida descriptiva de una población con la de una muestra, se llamará al primero
parámetro y al segundo estadístico.
El objetivo de la estadística inferencial es emplear los estadísticos para hacer inferencias respecto a los
parámetros poblacionales correspondientes. Los principales tipos de inferencias que se realizan son:
1. Estimación puntual o por intervalo: en este tipo de inferencia, se estima el valor de un
parámetro poblacional mediante un número o un intervalo numérico
2. Prueba de hipótesis: en este tipo de inferencia se formula una hipótesis acerca del valor de un
parámetro poblacional.
Es una lista de todos los valores posibles de un estadístico y la probabilidad asociada a cada valor. Se
considerarán la distribución muestral de medias y la de proporciones.
Media de las medias muestrales: es el promedio de todos los valores posibles de las medias que se pueden
generar mediante las diversas muestras aleatorias simples. Se puede demostrar que el valor esperado de
las medias muestrales es igual a la media poblacional; es decir,
Usos: indica el tamaño del error de azar que se ha cometido, y además señala la probable precisión que
obtendremos si utilizamos una estadística de muestra para estimar un parámetro de población.
Para población infinita con n>30, muestreo con reemplazo o población normal:
Teorema del límite central: es un teorema a través del cual se asegura que la distribución de muestreo de
la media se aproxima a la normal, al incrementarse el tamaño de la muestra. Este teorema permite usar
estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada
sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la
muestra. Para efectos prácticos el tamaño de la muestra debe ser n ≥ 30
Una aplicación muy corriente y útil de la distribución muestral es determinar la probabilidad de que la
media de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución muestral
seguirá una distribución normal (ya sea porque la muestra se toma de una distribución normal, o porque n
≥ 30 y el teorema del límite central garantice la normalidad en el proceso de muestreo), se podrá utilizar
la variable tipificada para obtener la información necesaria en la toma de decisiones.
2. Media de las proporciones muestrales: es la media de todos los valores posibles de las proporciones
que se pueden generar mediante las diversas muestras aleatorias simples. Se puede demostrar que la
media de las proporciones muestrales p será igual a π (proporción de la población). El valor esperado de
las proporciones muestrales es igual a la proporción poblacional; es decir, E( pˆ ) = p .
n
Para población finita y muestreo sin reemplazo con > 0,05
N
Aplicaciones: una aplicación muy corriente y útil de distribución muestral es determinar la probabilidad
de que la proporción de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución
muestral seguirá una distribución normal (ya sea porque la muestra se toma de una distribución normal, o
porque n ≥ 30 y tanto npˆ como n(1- pˆ ) deben ser mayores a 5, (el teorema del límite central garantiza la
normalidad en el proceso de muestreo), se podrá utilizar la variable tipificada para obtener la información
necesaria en la toma de decisiones.
Observación:
En la terminología estadística, la distribución de muestreo que se obtendría al tomar todas las muestras de
un tamaño dado constituye una distribución teórica de muestreo. En la práctica, el tamaño y el carácter de
la mayor parte de las poblaciones impiden que los responsables de las decisiones tomen todas las
muestras posibles de una distribución de población, sin embargo, se han desarrollado fórmulas para
estimar las características de estas distribuciones teóricas de muestreo, haciendo innecesario que se
recolecten grandes números de muestras. En casi todos los casos, los responsables de las decisiones sólo
toman una muestra de la población, calculan estadísticas para esa muestra y de esas estadísticas infieren
algo sobre los parámetros de toda la población.