Sei sulla pagina 1di 31

INTROD U CCIÓN

2
INTRODUCCIÓN A LA ESTADÍSTICA
INFERENCIAL
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

La estadística inferencial es una parte de la estadística que comprende los


métodos y procedimientos que por medio de la inducción determina propiedades de
una población estadística, a partir de una pequeña parte de la misma. La Estadística
inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para
toda la población a partir del estudio de una muestra, y el grado de fiabilidad o
significación de los resultados obtenidos. Es la descripción de una característica
particular de un fenómeno a partir de datos numéricos; por ejemplo la estatura de
estudiantes, tamaño de plantas, tiempo de reacción de animales a cierto estimulo,
edad de la población escolar, cantidad de piezas fabricadas por hora, etc.,.

El proceso conocido como inferencia estadística, requiere consideraciones de cómo


fue seleccionada la muestra y cuánto varían las observaciones de una muestra a
otra. De esta manera, los métodos
de selección de los individuos que
se usarán en la investigación son
de considerable importancia para
la obtención de resultados y
conclusiones válidas. El requisito
fundamental de una buena
muestra es que sea representativa
de la población que se trata de
describir.

Puede dar respuestas a muchas de las necesidades que la sociedad actual puede
requerir. Su tarea fundamental es el
análisis de los datos que se obtienen a
partir de experimentos, con el objetivo de
representar la realidad y conocerla. La
estadística inferencial se centra en tomar
una pequeña muestra representativa de la

3
población y a partir de ésta, infiere que el resto de la población tiene el mismo
comportamiento.

La estadística inferencial comprende aspectos importantes como:

 La toma de muestras o muestreo, que se refiere a la forma adecuada de


considerar una muestra que permita obtener conclusiones estadísticamente
válidas y significativas.
 La estimación de parámetros o variables estadísticas, que permite estimar
valores poblacionales a partir de muestras de mucho menor tamaño.
 El contraste de hipótesis, que permite decidir si dos muestras son
estadísticamente diferentes, si un determinado procedimiento tiene un efecto
estadístico significativo, etc.
 El diseño experimental(es una técnica estadística que permite identificar y
cuantificar las causas de un efecto dentro de un estudio experimental).
 La inferencia bayesiana (las evidencias u observaciones se emplean para
actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta.)
 Los métodos no paramétricos(Prueba de X2 de Bondad de Ajuste, Prueba de
Kolmogorov-Smirnov con una Muestra, Prueba de Kolmogorov-Smirnov con
dos Muestras, Prueba de Rangos de Wilcoxon, Prueba de Wilcoxon-Mann-
Whitney con Dos Muestras, Prueba de Kruskal-Wallis con k Muestras, Prueba
de los Signos, Prueba de la Mediana, entre otras).

MUESTREO: INTRODUCCIÓN AL MUESTREO Y TIPOS DE MUESTREO

Muestreo: Significa la Selección de un conjunto de personas o cosas que se


consideran representativos del grupo al que pertenecen, con la finalidad de estudiar
o determinar las características del grupo.
4
En estadística se conoce como muestreo a la técnica para la selección de una
muestra a partir de una población. Al elegir una muestra aleatoria se espera
conseguir que sus propiedades sean extrapolables a la población. Este proceso
permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se
alcanzarían si se realizase un estudio de toda la población.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya


función básica es determinar que parte de una población debe examinarse, con la
finalidad de hacer inferencias sobre dicha población. La muestra debe lograr una
representación adecuada de la población, en la que se reproduzca de la mejor
manera los rasgos esenciales de dicha población que son importantes para la
investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de
reflejar las similitudes y diferencias encontradas en la población, es decir
ejemplificar las características de ésta.

Los errores más comunes que se pueden cometer son:

 Hacer conclusiones muy generales a partir de la observación de sólo una


parte de la Población, se denomina error de muestreo.
 Hacer conclusiones hacia una Población mucho más grandes de la que
originalmente se tomo la muestra. Error de Inferencia.

Existen diferentes criterios de clasificación de los diferentes tipos de muestreo,


aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo
probabilísticos y métodos de muestreo no probabilísticos.

Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio
de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la
misma probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos
nos aseguran la representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los
siguientes tipos:

5
Muestreo aleatorio simple: Para obtener una muestra, se numeran los elementos
de la población y se seleccionan al azar los n elementos que contiene la muestra. El
procedimiento empleado es el siguiente: 1) se
asigna un número a cada individuo de la población
y 2) a través de algún medio mecánico (bolas
dentro de una bolsa, tablas de números aleatorios,
números aleatorios generados con una calculadora
u ordenador, etc.) se eligen tantos sujetos como
sea necesario para completar el tamaño de
muestra requerido. Este procedimiento, atractivo
por su simpleza, tiene poca o nula utilidad práctica
cuando la población que estamos manejando es
muy grande.

Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior,


numerar todos los elementos de la población, pero en lugar de extraer n números
aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
elegido al azar, y los elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k,
siendo k el resultado de dividir el tamaño de la población entre el tamaño de la
muestra: k= N/n. El número i que empleamos como punto de partida será un
número al azar entre 1 y k.

Suponemos que queremos saber la opinión sobre un profesor de una clase de 60


personas. Dichas personas están ordenadas por orden alfabético en la lista de
alumnos de clase. Para realizar la encuesta, seleccionamos a 12 personas. Por lo
tanto, N=60 y n=12. El intervalo fijo entre sujetos es: 𝑘 = 𝑁 𝑛 = 60 12 = 5 Ahora
elegimos al azar un
número entre 1 y k =
5. Suponemos que
nos sale i = 2. La
muestra resultado
mediante el muestreo
sistemático será:

El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad que no se da en la población.

6
Muestreo aleatorio estratificado:

Se divide la población en clases o estratos y se escoge, aleatoriamente, un número


de individuos de cada estrato proporcional al número de componentes de cada
estrato. Trata de obviar las dificultades que presentan los anteriores ya que
simplifican los procesos y suelen reducir el error muestral para un tamaño dado de
la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos)
que poseen gran homogeneidad respecto a alguna característica (se puede
estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el
estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de
que todos los estratos de interés estarán representados adecuadamente en la
muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de
ellos el muestreo aleatorio simple o el estratificado para elegir los elementos
concretos que formarán parte de la muestra. En ocasiones las dificultades que
plantean son demasiado grandes, pues exige un conocimiento detallado de la
población. (Tamaño geográfico, sexos, edades,...).

La distribución de la muestra en función de los diferentes estratos se denomina


afijación, y puede ser de diferentes tipos:

 Afijación Simple: A cada estrato le corresponde igual número de elementos


muéstrales.
 Afijación Proporcional: La distribución se hace de acuerdo con el peso
(tamaño) de la población en cada estrato.
 Afijación Óptima: Se tiene en cuenta la previsible dispersión de los
resultados, de modo que se considera la proporción y la desviación típica.
Tiene poca aplicación ya que no se suele conocer la desviación.

Ejemplo: En una fábrica que consta de 600 trabajadores queremos tomar una
muestra de 20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B,
150 en la C y 100 en la D.

7
Muestreo por etapas múltiples: Esta técnica es la única opción cuando no se
dispone de lista completa de la población de referencia o bien cuando por medio de
la técnica de muestreo simple o estratificado se obtiene una muestra con unidades
distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios
múltiples se subdivide la población en varios niveles ordenados que se extraen
sucesivamente por medio de un procedimiento de embudo. El muestreo se
desarrolla en varias fases o extracciones sucesivas para cada nivel. (Otra muestra si
se necesitan más datos).

Por ejemplo: si tenemos que construir una muestra de profesores de primaria en un


país determinado, éstos pueden subdividirse en unidades primarias representadas
por circunscripciones didácticas y unidades secundarias que serían los propios
profesores. En primer lugar extraemos una muestra de las unidades primarias (para
lo cual debemos tener la lista completa de estas unidades) y en segundo lugar
extraemos aleatoriamente una muestra de unidades secundarias de cada una de las
primarias seleccionadas en la primera extracción.

Muestreo aleatorio por conglomerados: En el muestreo por conglomerados, en


lugar de seleccionar a todos los sujetos de la población inmediatamente, el
investigador realiza varios pasos para reunir su muestra de la población. Se utiliza
cuando la población se encuentra dividida, de manera natural, en grupos que se
supone que contienen toda la variabilidad de la población, es decir, la representan
fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de
estos grupos o conglomerados para la realización del estudio. Dentro de los grupos
seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a
encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es
decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos,
seleccionados al azar. Este método
tiene la ventaja de simplificar la
recogida de información muestral.
Cuando, dentro de cada
conglomerado seleccionado, se
extraen algunos individuos para
integrar la muestra, el diseño se llama
muestreo bietápico.

8
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de
la población que forman una unidad, a la que llamamos conglomerado. Las
unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar
conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los
conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El
muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto
numero de conglomerados (el necesario para alcanzar el tamaño muestral
establecido) y en investigar después todos los elementos pertenecientes a los
conglomerados elegidos.

Métodos de muestreo no probabilísticos


Es aquél para el que no se puede calcular la probabilidad de extracción de una
determinada muestra. Por tal motivo, se busca seleccionar a individuos que tienen
un conocimiento profundo del tema bajo estudio y se considera que la información
aportada por esas personas es vital para la toma de decisiones. A veces, para
estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y
se acude a métodos no probabilísticos, aun siendo consciente de que no sirven para
realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea
representativa, ya que no todos los sujetos de la población tienen la misma
probabilidad de ser elegidos.

Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta


generalmente sobre la base de un buen conocimiento de los estratos de la
población y/o de los individuos más "representativos" o "adecuados" para los fines
de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio
estratificado, pero no tiene el carácter de aleatoriedad de aquél. Es la técnica más
difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar
es necesario dividir la población de referencia en varios estratos definidos por
algunas variables de distribución conocida (como el género o la edad).
Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte
proporcional de población que representan. Finalmente se multiplica cada peso por
el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se
diferencia del muestreo estratificado en que una vez determinada la cuota, el
investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.

9
Ejemplo: En un estudio en donde el
investigador quiere comparar el rendimiento
académico de los diferentes niveles de
clases del secundario, su relación con el
género y la situación socioeconómica, el
investigador identifica primero los
subgrupos. Por lo general, los subgrupos
son las características o variables del
estudio. El investigador divide a toda la
población en niveles de clase, cruzados con
el género y el nivel socioeconómico. Luego,
toma nota de las proporciones de estos subgrupos en toda la población y a
continuación hace un muestreo de cada subgrupo.

Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por


un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión
en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en
sondeos preelectorales de zonas que en anteriores votaciones han marcado
tendencias de voto. También puede ser que el investigador seleccione directa e
intencionadamente los individuos de la población. El caso más frecuente de este
procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso
(los profesores de universidad emplean con mucha frecuencia a sus propios
alumnos).

Muestreo de bola de nieve: Consiste en identificar sujetos que se incluirán en la


muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de
individuos que cumplen los requisitos necesarios. Se localiza a algunos individuos,
los cuales conducen a otros, y
estos a otros, y así hasta
conseguir una muestra
suficiente. Este tipo se emplea
muy frecuentemente cuando se
hacen estudios con poblaciones
"marginales", delincuentes,
sectas, determinados tipos de
enfermos, etc.

10
Muestreo subjetivo por decisión razonada
En este caso las unidades de la
muestra se eligen en función de
algunas de sus características de
manera racional y no casual. Una
variante de esta técnica es el
muestreo compensado o equilibrado,
en el que se seleccionan las unidades
de tal forma que la media de la
muestra para determinadas variables
se acerque a la media de la población.
La cual funciona en base a referencias o por recomendación después se reconoce
por medio de la estadística.

Muestreo Discrecional: Se lleva acabo de acuerdo el criterio del investigador, los


elementos son elegidos sobre lo que él cree que pueden aportar al estudio. Los
sujetos se seleccionan a base del
conocimiento y juicio del
investigador. El investigador
selecciona a los individuos a través
de su criterio profesional. Puede
basarse en la experiencia de otros
estudios anteriores o en su
conocimiento sobre la población y el
comportamiento de ésta frente a las
características que se estudian.

11
Muestreo de Conveniencia: Consiste en seleccionar a los individuos que
convienen al investigador para la muestra. Esta conveniencia se produce porque al
investigador le resulta más sencillo
examinar a estos sujetos, ya sea por
proximidad geográfica, por ser sus
amigos, etc. Es el tipo de muestreo que
pretende seleccionar unidades de análisis
que cumplen los requisitos de la población
objeto de estudio, sin embargo, no son
seleccionadas al azar. Se utiliza
preferentemente en estudios exploratorios.
Las pruebas pilotos, también usan con
frecuencia éste tipo de muestreo.

TEOREMA DEL LÍMITE CENTRAL

El teorema del límite central o teorema central del límite indica que, en condiciones
muy generales, la distribución de la suma de variables aleatorias tiende a una
distribución normal cuando la cantidad de variables es muy grande. Este teorema,
perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos
campos relacionados, tales como la inferencia estadística o la teoría de renovación.

El teorema en un curso de estadística inferencial para pregrado se puede enunciar


de la siguiente forma:

TEOREMA: Sea 𝑋1,2,……….., una muestra aleatoria de una población cuya


distribución tiene por media 𝜇 y por desviación estándar 𝜎. Entonces si n es
suficientemente grande la variable aleatoria:

Tiene una distribución aproximadamente normal con


media

De esta forma la variable:

12
Datos:
𝑍=𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑋̅=𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝜇=𝑚𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜎=𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟
𝑛=𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎

NOTA: Para poder determinar la probabilidad de una muestra aleatoria es preciso


hacer uso de las tablas de distribución normal estándar.

Ejemplo: Una empresa eléctrica industrial fabrica focos que tienen una duración que
se distribuye aproximadamente en forma normal, con media de 800 horas y
desviación estándar de 40 horas.

Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida
promedio de menos de 775 horas.

Solución:
De acuerdo con el enunciado, se conoce la variable 𝑋𝑖 como la duración del i-esimo
foco en la muestra tomada. Así la variable aleatoria 𝑋𝑖 proviene de una población
con media 𝜇=800 Horas y desviación 𝜎=40 ℎ𝑜𝑟𝑎𝑠. De esta forma por el teorema del
límite central, si se toman muestras de esta población de tamaño n = 16 y se
calculan sus promedios la variable aleatoria 𝑋̅ se distribuye aproximadamente
normal con media 𝜇𝑋̅=800 y desviación 𝜎𝑋̅=40. El problema requiere el cálculo de la
probabilidad.

Datos:
𝑋̅=725
𝜇=800
𝜎=40
𝑛=16

13
DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO

Si se consideran todas las posibles muestras de tamaño n que pueden extraerse


con o sin reemplazo de una población conocida, para cada muestra se puede
calcular un estadístico (media x, varianza s2, desviación típica s) que variara de una
muestra a otra. De esta forma obtenemos una distribución del estadístico, que se
conoce como distribución muestral. Así si el estadístico de que se trata es la media,
se obtendrá la distribución muestral de medias

Distribución muestral de la media


Una distribución muestral de medias se define como el conjunto de toda la media
que se pueden calcular en todas las muestras posibles que se pueden extraer con o
sin reemplazo de una determinada población. Recordemos que la media es el
promedio aritmético de las medias del conjunto de datos; ya sea de la población o
de la muestra:

Varianza: Es el promedio de la suma de los cuadrados de las desviaciones. Se


entiende por desviación la diferencia de una media respecto a la media:

Como puede verse la varianza es una


medida de dispersión, indica en promedio que tan alejados están los datos respecto
a la media.

Desviación estándar: Es la raíz cuadrada de la varianza:

Por simplicidad, en las expresiones anteriores se su prime el subíndice, así como


los límites de las sumatorias quedando de la siguiente manera:

14
Cuando la distribución de X es normal la distribución de la media muestral es normal
σ
con media m y desviación estándar sin importar el tamaño de la muestra:
√n
El tamaño de la muestra depende del grado de no normalidad de la población. Sin
embargo, una regla empírica señala que una muestra de tamaño 30 es suficiente,
en la mayoría de las situaciones, para aplicar el teorema del límite central.

Distribución muestral de la diferencia de medias


En el uso de la distribución normal para este caso se basa en las mismas
condiciones que para la distribución muestral de medias, la única diferencia es que
ahora se analizarán 2 muestras. Suponga que se tienen dos poblaciones distintas,
la primera con media 𝜇1 y desviación estándar 𝜎1 , y la segunda con media 𝜇22 y
desviación estándar 𝜎2 . Más aún, se elige una muestra aleatoria de tamaño n1 de
la primera población y una muestra independiente aleatoria de tamaño n2 de la
segunda población; se calcula la media muestral para cada muestra y la diferencia
entre dichas medias. La colección de todas esas diferencias se llama distribución
muestral de las diferencias entre medias o la distribución muestral del estadístico
𝑥̅1− 𝑥̅2

15
Suponga que se eligen muestra ordenadas de tamaño 2, con reemplazo, de la
población de valores 0, 2, 4 y 6.

Distribución muestral de la proporción


Las distribuciones muestrales que se han presentado centran su atención en la
distribución de la media de las variables cuantitativas, por otro lado, al examinar las
variables cualitativas la característica que se suele tomar en cuenta es la proporción
de éxitos. Probablemente en algunos casos se desee hacer una encuesta donde se
estuviese interesado en estimar la proporción de familias que tengan un auto
económico (4 cilindros); o a un político quizá le interese estimar la verdadera
proporción de votos que obtendrá un determinado candidato; en control de calidad
quizá al investigador le interese determinar la tasa real de ocurrencia de un defecto
en particular.
16
Para hacer un análisis de este tipo de estadísticos (características) se define lo
siguiente:

Proporción de éxitos en la población.

Numero de resultados exitosos


p 
Numero total de resultados

Proporción de éxitos en la
muestra.

p xn
Numero de exitos en la muestra
 s

s
Tamaño de la muestra

La desviación de la proporción

p1  p 
p n

17
Y al suponer que la distribución muestral de la proporción tiene una
distribución normal se tiene que:

x 
Z  x

 x

Y debido a que se está tratando con proporciones muestrales (y no media de


muestras) entonces se sustituye por el estadístico :

p s
 p
Z 
p(1  p )
n

Distribución muestral de la diferencia entre dos proporciones


La distribución muestral de P s1-Ps2 , o diferencia entre dos proporciones muestrales,
donde Ps1 se calcula a partir de todas las muestras aleatorias simples de tamaño n 1
que se pueden extraer de una población con parámetro P 1 y Ps2 se calcula a partir
de todas las muestras aleatorias simples e independientes de tamaño n 2 que se
pueden extraer de una población con parámetro P 2, tiene una media

p s1
 ps 2
 pp 1 2

Y una desviación típica

p 1  p  p 1  p 
p ps 2
 1
 1 2 2

s1

n 1 n 2

Si n1 y n2 son grandes, la distribución muestral de P s1-Ps2 es más o menos una


distribución normal.
18
En muchas situaciones prácticas el investigador necesita hacer inferencias sobre la
diferencia entre dos proporciones poblacionales. Un sociólogo puede querer saber si
las poblaciones urbanas y rurales difieren en cuanto a la proporción de gente que
está a favor de la pena capital. Un educador quiere saber si la población de alumnos
suspendidos en secundaria y la población de los que siguen en el colegio, son
diferentes en cuanto a la proporción de los que provienen de hogares disueltos. Un
investigador médico está interesado en saber si la proporción de los casos de
cáncer pulmonar es más alta en una población que fuma que en otra compuesta por
no fumadores. El gerente de un almacén podría estar interesado en saber si los
clientes que tienen tarjeta de crédito en dos áreas diferentes de la ciudad varían en
cuanto a la proporción de cuentas atrasadas.

  Distribución t-student
Es una distribución de probabilidad. Se utiliza para hacer estimaciones de la media
de una variable, (que está distribuida normalmente), en una población, cuando el
tamaño de la muestra es pequeño. También se utiliza para hacer estimaciones de
parámetros de las poblaciones a partir de los valores de los estadísticos
correspondientes en las muestras, cuando desconoce el valor de la varianza o la
desviación estándar de la población.

En probabilidad y estadística, la distribución t (de Student) es una distribución de


probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño. Las
distribuciones t de Student fueron descubiertas por William S. Gosset (1876-1937)
en 1908 cuando trabajaba para la compañía de cervezas Guinness en Dublín
(Irlanda). Aparece de manera natural al realizar la prueba t de Student para la
determinación de las diferencias entre dos medias muestrales y para la construcción
del intervalo de confianza para la diferencia entre las medias de dos poblaciones
19
cuando se desconoce la desviación típica de una población y ésta debe ser
estimada a partir de los datos de una muestra.

El estadístico T tiene una distribución que se denomina distribución T de Student,


que está tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se
calculó la desviación standard. La distribución T tiene en cuenta la incertidumbre en
la estimación de la desviación standard de la población, porque en realidad la tabla
de T contiene las distribuciones de probabilidades para distintos grados de libertad.
La distribución T es más ancha que la distribución normal tipificada Para un número
de grados de libertad pequeño. Cuando los grados de libertad tienden a infinito, la
distribución T tiende a coincidir con la distribución normal standard. Es decir, en la
medida que aumentemos el número de observaciones de la muestra, la desviación
standard calculada estará más próxima a la desviación standard de la población y
entonces la distribución T correspondiente se acerca a la distribución normal
standard. El uso de la distribución T presupone que la población con que estamos
trabajando tiene una distribución normal. Si el tamaño de la muestra es n entonces
decimos que la distribución t tiene n-1 grados de libertad. Hay una distribución t
diferente para cada tamaño de la muestra. Estas distribuciones son una familia de
distribuciones de probabilidad continuas. Las curvas de densidad son simétricas y
con forma de campana como la distribución normal estándar. Sus medias son 0 y
sus varianzas son mayores que 1 (tienen colas más pesadas). Las colas de las
distribuciones t disminuyen más lentamente que las colas de la distribución normal.
Si los grados de libertad son mayores más próxima a 1 es la varianza y la función de
densidad es más parecida a la densidad normal.

20
Definición de Grados de Libertad: Los valores de los estadísticos en una muestra
deben ser valores cercanos a los parámetros correspondientes en las poblaciones.
Los grados de libertad representan al número de datos independientes que se
pueden tomar de la población para construir la muestra, de tal manera que los
valores de los estadísticos en la muestra sean cercanos a los valores de los
parámetros correspondientes en la población.

Propiedades de la Distribución t – student:

 El valor de la media es 0
 Tiene forma de campana y es simétrica con respecto a la media
 La distribución t tiene una varianza mayor que 1, pero en la medida en que
aumentan los grados, el valor de la varianza se aproxima a 1, lo cual lleva a
que la distribución t se aproxime a la distribución normal estándar en la
medida en que aumenta el valor de los grados de libertad.

Distribución muestral de la varianza


Ahora estudiaremos la distribución de muestreo teórica de la varianza muestral de
muestras aleatorias de poblaciones normales. Como la varianza muestral S 2 no
puede ser negativa, deberíamos sospechar que esta distribución de muestreo no es
una curva normal; en efecto, se relaciona con la distribución chi-cuadrada, y se tiene
lo siguiente.

Si S2es la varianza de una muestra aleatoria de tamaño n tomada de una población


normal con la varianza 2, entonces:

  x i  x
n 2
21
 n  1 s 2

 2
 i 1

 
2 2
Es la variable aleatoria con la distribución chi-cuadrada con el parámetro v=n-
1(grados de libertad).
Es un valor de una variable aleatoria
que tiene la distribución x-cuadrada
con el parámetro v = n -1
Ver tabla que contiene valores
seleccionados de x2 para distintos
valores de v, llamado de nuevo,
numero de grados de libertad, donde
x2 es tal que el área bajo la curva de
la distribución x – cuadrada(tomada
a la derecha) es igual a 𝛼.

En la tabla la columna de la
izquierda contiene valores de v, los valores que encabezan las columnas son áreas
de la cola derecha de la curva de la distribución x- cuadrada y las entradas son
valores de 𝑥𝛼2. A diferencia de la distribución t, es necesario tabular valores de 𝑥𝛼2
𝑝𝑎𝑟𝑎 𝛼>0.50, que la distribución x – cuadrada no es simétrica.

Distribución muestral de la razón de varianzas


Si se extraen muestras independientes de tamaño n 1 y n2 respectivamente de dos
poblaciones normales con varianzas 21 y 22 respectivamente, y si; S21 y S22 son las
varianzas de las muestras aleatorias, entonces el estadístico de prueba es:

2
S
F  1
2
S 2

Cuando se obtienen los valores S21 y S22 a partir de las muestras y se calcula el
cociente se concluye que la hipótesis de varianzas iguales es falsa si el valor de
este cociente es de manera suficiente, distinto de 1 (1 + .1) Se consideran las
varianzas iguales si se encuentran dentro de este rango.
22
Hipótesis:

H 0 : 1   2
2 2

H A : 1   2
2 2

ESTIMACION

El primer problema del cual se ocupa la estadística inferencial es la estimación, que


puede ser a través de un número simple, generalmente el estadístico
correspondiente llamado estimador puntual, o por medio de dos valores numéricos
que definen un intervalo llamado intervalo de confianza, el cual contiene al
parámetro estimado con cierto grado de confiabilidad.

A los estimadores generalmente se les denota con la misma letra que al parámetro,
pero con un acento circunflejo o “gorrito”; esto es, si el parámetro fuese q , su
ˆ
estimador sería  . Cabe hacer notar que también se acostumbra usar letras griegas
para parámetros y letras latinas para estimadores. Así, por ejemplo, como estimador
de la media m se usa ̂ , o X o Y ; de la varianza  se usa s o ̂ , etcétera.
2 2 2

23
CARACTERÍSTICAS DE UN ESTIMADOR

Las características de un buen estimador puntual son insesgabilidad, consistencia o


exactitud, eficiencia o precisión y suficiencia.

 Insesgabilidad: Un estimador puntual es insesgado si la media de la


distribución muestral del estadístico (esperanza matemática del estadístico)
ˆ
es igual al parámetro por estimar; es decir, si  es un estadístico cualquiera y

 es el parámetro correspondiente y si E ˆ   , entonces ˆ es un estimador
insesgado de  .
 
E  X    X   y E s n21   2 , de donde se concluye que X y s n21 son

estimadores insesgados de  y  , respectivamente. Sin embargo, si se usa


2

 
s n2 para estimar la varianza de una muestra, entonces E s n2   2 . Esto se
puede demostrar fácilmente como se ve a continuación

 (X i  X )2  n 1  (X i  X )2  n 1
 
E s  E
2
n
n
  E
n 1
  
E s n21 
n 1 2
 2 
2
   n  n n n

2

El sesgo en este caso es n , el cual desaparecerá cuando n tienda a
infinito.

 Consistencia o exactitud: Por lo general un estimador no es idéntico al


ˆ  
parámetro que se estima, existe una diferencia entre ellos que es el
error de muestreo, pero si se aumenta el tamaño de la muestra
suficientemente, la probabilidad de que esta diferencia sea mayor que un
número fijo   0 tenderá a cero. Esto es
 
P ˆ      0
cuando n  
 
2 2
Claramente, X y Md son estimadores consistentes de  , así como s n 1 y s n
lo son de  .
2

24
ˆ ˆ
 Eficiencia o precisión: Un estimador  1 es más eficiente que  2 de q , si la
 2   2ˆ2
varianza del primero es menor que la del segundo ( ˆ1 ). Como se vio
en el ejemplo 9.3 X y Md son estimadores insesgados de  y también
consistentes; sin embargo,  X   Md , de donde X es un estimador más
2 2

eficiente que Md para estimar  .

 Suficiencia: Se dice de manera intuitiva que un estimador es suficiente, si


transmite tanta información de la muestra como sea posible acerca del
parámetro, de modo que se proporciona mayor información por cualquier otro
estimador calculado de la misma muestra: y si se obtiene el valor de un
estadístico suficiente los valores de muestra mismos no proporcionan más
información sobre el parámetro. Por ejemplo, tanto la media ( X ) como la
mediana como el centro de amplitud (C.A.) se pueden usar como
estimadores de  ; sin embargo, sólo la media X toma en cuenta cada valor
o toda la información de la muestra, mientras que el centro de amplitud sólo
toma en cuenta el primer y último valor, y la mediana es una medida de
tendencia central de posición. Así pues, la media es un estimador suficiente
para  .

E STIMACIÓN PUNTUAL

El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido


(tiempo medio de ejecución de un algoritmo, altura media de las mujeres de una
población, diferencia del resultado medio entre dos tratamientos médicos,
proporción de gente que mejora con un tratamiento médico…)

Para ello se utiliza la información de la muestra (x1,x2,…,xn) a través de


un estimador.

Algunos estimadores frecuentes son:

 Media muestral, para estimar la media teórica de una variable X.

25
 Proporción muestral, para estimar una proporción p:
Siendo (x1,…,xn) una muestra aleatoria simple de
la variable 
es decir, son unos o ceros.
 Varianza muestral: para estimar la varianza teórica de una población, se
puede usar la varianza de una muestra:

 Cuasi-varianza muestral :
que corresponde a la
varianza de la muestra,
pero dividiendo por n−1, en lugar de dividir por n. En el capítulo de estadística
descriptiva, ya comentamos que el R, por defecto, al calcular la desviación
típica de una muestra, mediante el comando sd, calcula directamente la
cuasi-varianza y luego obtiene la raíz cuadrada.

ESTIMACIÓN POR INTERVALOS

Intervalo de confianza para la media


Nos centramos en la estimación de la media μ de una población o
variable Normal (altura media, peso medio, tiempo medio haciendo gimnasia…).
Inicialmente, consideramos que la desviación típica de la variable es  conocida (es
un número que sabemos).

Por una vez, y sin que sirva de precedente, vamos a ver cómo es la construcción
matemática del intervalo de confianza. Consideremos la variable X ∈ N (μ,σ) que
26
representa a la característica que estamos midiendo (altura, peso…). Supongamos
que σ es conocida.

Consideramos una muestra aleatoria simple X1,…,Xn de la variable X. Dado el


nivel de confianza 1−α, elegimos el llamado estadístico pivote.

Un estadístico es una función de variables aleatorias y es también otra variable


aleatoria. En este caso, vamos a ver que distribución sigue esta variable  T que
acabamos de definir (el término pivote es una nomenclatura utilizada en los test
de hipótesis).
Como vimos anteriormente, la media muestral verifica:

Por lo tanto, si tipificamos la variable (restamos la


media y dividimos por la desviación típica), obtenemos
la variable T, lo que quiere decir que esta variable sigue una distribución normal
estándar (N(0,1)).

Intervalo de confianza para la diferencia de medias


El intervalo de confianza para el parámetro diferencia de
medias  μ1−μ2 e
s:

27
Siendo Δ el entero más próximo a (Corrección de Welch)

Intervalos de confianza para la proporción


El objetivo es construir un intervalo de confianza para la proporción de elementos
(p) de una población que poseen una determinada característica (votantes de un
partido político, alumnos que usan una determinada red social, elementos
defectuosos…) a partir de una muestra aleatoria simple de la población.

De esta forma, consideramos la variable:

Es decir, la variable aleatoria que toma los valores 1 y 0 (1 si tiene la


característica, con probabilidad  p, 0 si no la tiene).

Tomamos entonces una muestra aleatoria simple X1,…,Xn de la


variable X∈B(1,p)
Dado el nivel de confianza 1−α,
El intervalo es:

28
CONCLUSION

29
REFERENCIAS DE CONSULTA

 ESTIMACION. (2020). Recuperado 15 Febrero 2020,desde


https://www2.ulpgc.es/hege/almacen/download/4/4762/Tema_4.pdf
 ESTIMACIÓN. (2020). Recuperado 15 Febrero 2020, desde
https://www.ugr.es/~bioestad/_private/Tema_7.pdf
 Estadística. (2019). Retrieved 15 February 2020, from
https://bookdown.org/aquintela/EBE/EBE.pdf
 Estimacion puntual. (2020). Retrieved 15 February 2020, from
http://www.mate.unlp.edu.ar/practicas/55_5_22102012132242.pdf
 Unidad 1 Introducción a La Estadística Inferencial | Muestreo (Estadísticas) | Estadísticas.
(2020). Retrieved 15 February 2020, from https://es.scribd.com/doc/229026092/Unidad-1-
30
Introduccion-a-La-Estadistica-Inferencial
 Unidad 1 Distribuciones Fundamentales Para El Muestreo | Muestreo (Estadísticas) |
Diferencia. (2020). Retrieved 15 February 2020, from
https://es.scribd.com/doc/162644357/Unidad-1-Distribuciones-Fundamentales-Para-El-
Muestreo

31

Potrebbero piacerti anche