Sei sulla pagina 1di 128

ESTADÍSTICA INFERENCIAL

Mag. Jefferson Monroy Andrade


Jefferson.monroy@uniminuto.edu.co
jeffersonmonroyandrade@gmail.com
Concepto de Estadística
Sus fines son describir al conjunto de datos
obtenidos y tomar decisiones o realizar
generalizaciones acerca de las características
de todas las observaciones bajo consideración.
Principales Ramas de la Estadística
Estadística Descriptiva
•Se encarga de la descripción e interpretación
de datos muestrales o poblacionales

Estadística Inferencial
•Se encarga de Inducción o generalización de
nuevos conocimientos a partir del estudio de
muestras derivadas de poblaciones
Principales Métodos que se Utilizan en la
Estadística Descriptiva
Métodos tabulares
•Tabla de frecuencias
•Tabla de frecuencias por clases

Método gráficos
•Histograma de frecuencias
•Polígono de frecuencias
•Diagrama de pastel, etc.

Cálculo de medidas numéricas


•Medidas de Tendencia central
•Medidas de dispersión o variabilidad
•Medidas de posición
Principales Métodos que se Utilizan en la
Estadística Inferencial

Estimación de parámetros

Pruebas de hipótesis y
análisis de varianza

Análisis de regresión
Principales Tipos de Razonamiento
Existen dos tipos fundamentales de
razonamiento lógico:
I. Razonamiento Deductivo
 Utiliza conceptos generalizados para
tratar de llegar a otros más
específicos.

II. Razonamiento Inductivo


 Se centra en la creación de
declaraciones generalizadas a partir
de ejemplos o sucesos específicos
Inferencia
• Deducción de una cosa a partir de otra, conclusión.
• Conclusión, inferencia: con lo que sabes, deberías
sacar tus deducciones y decidir.
• filos. Método de razonamiento que parte de
conceptos generales o principios universales para
llegar a conclusiones particulares:
la deducción presupone el pensamiento hipotético.
Inferencia
Inferencia
Estadística Inferencial
Es una parte de la Estadística que comprende los
métodos y procedimientos para deducir
propiedades (hacer inferencias) de una población, a
partir de una pequeña parte de la misma (muestra).

La bondad de estas deducciones se mide en


términos probabilísticos, es decir, toda inferencia se
acompaña de su probabilidad de acierto.
Teoría de la Probabilidad
Análisis y compresión de las ocurrencias por
el azar.
¿ Qué es Probabilidad ?
Una probabilidad (p): es una especificación de
con qué frecuencia es probable que ocurra un
evento de interés particular entre un gran
número de ensayos.
Cálculo de una probabilidad

Donde p [de éxito] = Probabilidad del “evento de interés”


Reglas Básicas de la Teoría de
la Probabilidad

La probabilidad de eventos alternativos es igual a la


suma de los eventos individuales
Un evento que tiene doble éxito o une dos aspectos de
éxitos, lo llamamos ocurrencia conjunta.

La probabilidad de un evento compuesto es igual a la


multiplicación de las probabilidades de las partes
separadas del evento.
Con reemplazamiento y sin reemplazamiento.
Uso de la Curva Normal como
una Distribución de Probabilidades

( )
Tres maneras de interpretar el símbolo p
1. Una interpretación distributiva que describe el resultado
en relación con la distribución de puntuaciones en una
población o muestra

2. Una interpretación gráfica que describe la proporción del


área bajo una curva normal

3. Una interpretación probabilística que describe la


probabilidad de una sola extracción al azar de un sujeto de
esta población.

.
Área Bajo la Curva Normal
Identificar parte de la curva y calcular la proporción (p) de
la curva total que dicha parte representa.
Cálculo del Área por debajo de z
Cálculo del Área por arriba de z
Cálculo del Área entre dos Valores
Cálculo del Área entre dos puntuaciones z
Uso de la Teoría de la Probabilidad para
producir Distribuciones Muestrales
Error de Muestreo

Diferencia entre el valor calculado de un


estadístico de la muestra y el valor real
de un parámetro de la población.
Estimación Puntual

Estadístico proporcionado sin indicar un


rango de error.
Muestreo Repetido

Tomar un muestra y calcular los


estadísticos y luego tomar una segunda
muestra, una tercera, una cuarta, y así
sucesivamente. El muestreo repetido
revela la naturaleza del error del
muestreo.
DISTRIBUCIONES MUESTRALES
Distribución Muestral

A partir del muestreo repetido, una


descripción matemática de todos los
resultados posibles del muestreo y la
probabilidad de cada uno.
Distribución Muestral de la Media
Distribución Muestral de la Varianza
Distribución Muestral de Proporciones
Error Estándar

Desviación Estándar de una distribución


muestral. El Error Estándar mide la
dispersión del error de muestreo que
ocurre cuando se muestrea
repetidamente una población.
Error Estándar de una Distribución
Muestral de Medias cuando se
desconoce
= Error Estándar de medias estimado para una variable X.
= Desviación Estándar de una muestra.
n= Tamaño de la muestra.
Ley de los Números Grandes

Entre mayor sea el tamaño de la


muestra, menor ser el Error Estándar.
Teorema del Límite Central

Sin importar la forma de la puntación


bruta de una variable intervalo/razón,
sus distribución muestral será normal
cuando el tamaño de la muestra, n, sea
mayor que 121 casos y se centrara en la
media de la población verdadera.
Teorema del Límite Central
Error Estándar de una Distribución
Muestral de Proporciones cuando se
conocen y
= Error Estándar de proporción para una variable
nominal con P= p (de la categoría de éxito).
= p(de la categoría de éxito en la población).
= p(de la categoría de Fracaso en la población).
n= tamaño de la muestra.
Error Estándar de una Distribución
Muestral de Proporciones cuando no
se conocen y
= Error Estándar de proporciones estimado para una
variable nominal, con P= p (de la categoría de éxito).
= p(de la categoría de éxito en la muestra).
= p(de la categoría de fracaso en la muestra).
n= tamaño de la muestra.
Cálculo del Tamaño Mínimo de la
Muestra para suponer que la
Distribución Muestral de
Proporciones tiene forma Normal
Mínimo n

mínima = tamaño mínimo de la muestra necesario para


suponer normalidad.
= el menor de o (si se conocen estos
parámetros) o el menor de o (si no se conocen y
)
EJEMPLO
Se eligen muestras ordenadas de tamaño 2, con
reemplazo, de la población de valores 0, 2, 4 y 6.

Encuentre:
1. , Media Poblacional.
2. , la desviación estándar Poblacional.
3. , la media de la distribución muestral de medias.
4. , la desviación estándar de la distribución muestral de
medias.
5. , Error Estándar
Además, grafique las frecuencias para la población y para la
distribución muestral de medias.
SOLUCIÓN
1. La media poblacional es:
2. La desviación estándar de la población es:

A continuación se listan los elementos de la distribución


muestral de la media y la correspondiente distribución de
frecuencias.
3. La media de la distribución muestral de medias es:
4. La desviación estándar de la distribución muestral de
medias es:
5. De aquí que podamos deducir que:

Como para cualquier variable aleatoria, la distribución


muestral de medias tiene una media o valor esperado, una
varianza y una desviación estándar, se puede demostrar
que la distribución muestral de medias tiene una media
igual a la media poblacional. Esto es:
Después de haber realizado el ejercicio anterior se puede
ver que una distribución muestral se genera extrayendo
todas las posibles muestras del mismo tamaño de la
población y calculándoles a éstas su estadístico.

Si la población de la que se extraen las muestras es


normal, la distribución muestral de medias será normal
sin importar el tamaño de la muestra.
ESTIMACIONES Y TAMAÑO DE LA
MUESTRA
ESTIMACIÓN PUNTUAL

Es un valor individual (o punto) que se usa para


aproximar un parámetro poblacional.
INTERVALO DE CONFIANZA (O
ESTIMACIÓN DEL INTERVALO)

Es un rango (o un intervalo) de valores que se usa


para estimar el valor real de un parámetro
poblacional. El intervalo de confianza suele
abreviarse como IC.
NIVEL DE CONFIANZA

Es la probabilidad (a menudo expresada


como el valor de porcentaje equivalente) de que el
intervalo de confianza realmente contenga el
parámetro poblacional, suponiendo que el proceso
de estimación se repite un gran número de veces.
(El nivel de confianza también se llama grado
de confianza o coeficiente de confianza).
VALOR CRÍTICO

Es el número en la línea limítrofe que separa


estadísticos muestrales que tienen mayor
probabilidad de ocurrir de aquellos que no tienen
probabilidad de ocurrir. El número es un
valor crítico, una puntuación z con la propiedad
de que separa un área de en la cola derecha de
la distribución normal estándar
EJEMPLO 2
Calcular el valor crítico que
corresponde a un nivel de confianza del
95%.
SOLUCIÓN
1. Calculando área

, luego

2. Utilizando la tabla para D.N se calcula la


puntuación Z asociada a ( = área)
MARGEN DE ERROR

𝑝̂ = Probabilidad de Éxito
𝑞 =Probabilidad de Fracaso
n= Numero de valores muestrales
E= Margen de error
𝑍 / =Valor Critico
INTERVALO DE CONFIANZA

Con

𝑝̂ = Probabilidad de Éxito
n= Numero de valores muestrales
E= Margen de error
𝑍 / =Valor Critico
EJEMPLO 3
En una encuesta realizada por Pew Research
Center, que incluyó a 1501 adultos
estadounidenses elegidos al azar, reveló que el
70% creía en el calentamiento global. Los
resultados muestrales son n =1501 y = 0.70

a) Calcule el margen de error E que corresponde a


un nivel de confianza del 95%.

b) Calcule la estimación de un intervalo de


confianza del 95% de la proporción poblacional p.
c) Con base en los resultados, ¿podemos concluir
con seguridad que la mayoría de los adultos creen
en el calentamiento global?

d) Suponiendo que usted es reportero, escriba un


breve enunciado que describa con exactitud los
resultados e incluya toda la información relevante.
SOLUCIÓN
a. Calculando área

, luego

Utilizando la tabla para D.N se calcula la


puntuación Z asociada a ( = área)
Luego;

, , y

Ahora;
b). Calculando intervalo de confianza
c). Con base en el intervalo de confianza obtenido en el
inciso anterior (b), parece que la proporción de adultos
que creen en el calentamiento global es mayor que 0.5 (o
50%), por lo que podemos concluir con certeza que la
mayoría de los adultos creen en el calentamiento global.
Como es probable que los límites de 0.677 y 0.723
contengan la proporción poblacional verdadera, parece
que la proporción de la población es un valor mayor que
0.5.
d). La siguiente afirmación resume los resultados: el 70%
de los adultos estadounidenses creen que la Tierra se está
calentando. El porcentaje se basa en una encuesta
realizada por el Pew Research Center con 1501 adultos
estadounidenses elegidos al azar. En teoría, en el 95% de
este tipo de encuestas, el porcentaje difiere en no más de
2.3 puntos porcentuales (0,023183), en cualquier
dirección, del porcentaje que se obtendría al entrevistar a
todos los adultos estadounidenses.
DETERMINACIÓN DE LA MUESTRA

,cuando se conoce la estimación

,cuando se desconoce la estimación


EJEMPLO 4
¿Cuántos adultos usan Internet? Internet nos está
afectando a todos de muchas formas diferentes, y por eso
existen muchas razones para estimar la proporción de
adultos que lo utilizan. Suponga que un gerente de e-Bay
desea determinar el porcentaje actual de adultos
estadounidenses que utilizan Internet.

¿A cuántos adultos se debe encuestar para tener una


confianza del 95% de que el porcentaje muestral es
erróneo por no más de tres puntos porcentuales?
a) Utilice este resultado de una encuesta del Pew
Research Center: en 2006, el 73% de los adultos
estadounidenses usaban Internet.

b) Suponga que no contamos con información previa que


sugiera un valor posible de la proporción.
SOLUCIÓN
a).

, , , E=0,03 y
n=?

Luego;

841,3104 842
b).

, , , E=0,03 y n=?

Luego;

,1111
Para tener una confianza del 95% de que nuestro
porcentaje muestral está dentro de tres puntos
porcentuales del porcentaje verdadero de todos los
adultos, debemos obtener una muestra aleatoria
simple de 1068 adultos. Comparando este
resultado con el tamaño de la muestra de 842
calculado en el inciso a), podemos ver que si no
tenemos conocimiento de un estudio previo, se
requiere una muestra más grande para obtener los
mismos resultados que cuando se puede estimar el
valor de .
CÁLCULO DE LA ESTIMACIÓN PUNTUAL
Y DE E A PARTIR DE UN INTERVALO DE
CONFIANZA

Estimación puntual :

Margen de error (E) :


ESTIMACIÓN DE LA MEDIA
POBLACIONAL: CONOCIDA

, con
EJEMPLO 5
Han muerto personas en accidentes de embarcaciones y
aviones debido al uso de una estimación obsoleta del peso
medio de los hombres. En décadas recientes, el peso medio
de los hombres ha aumentado de manera considerable, por
lo que es necesario actualizar la estimación de esa media
con la finalidad de que las embarcaciones, los aviones, los
elevadores y otros vehículos de transporte no se
sobrecarguen peligrosamente. Si utilizamos los pesos de
hombres de un conjunto de datos, obtenemos los
estadísticos muestrales de la muestra aleatoria simple:
y libras.
Investigaciones realizadas por otras fuentes sugieren que la
población de los pesos de hombres tienen una desviación
estándar dada por libras.

a) Calcule la mejor estimación puntual del peso medio de la


población de todos los hombres.
b) Construya un intervalo de confianza del 95% para el
peso medio de todos los hombres.
c) ¿Qué sugieren los resultados acerca del peso medio de
166.3 libras que se utilizaba en 1960 para determinar la
capacidad que ofrece seguridad a los pasajeros de las
embarcaciones.
SOLUCIÒN
a) La media muestral de 172.55 libras es la mejor
estimación puntual del peso medio para la población
de todos los hombres.

b) El nivel de confianza del 0.95 implica que 0,


entonces . El margen de error E se calcula
primero de la siguiente manera. (Los lugares decimales
adicionales se usan para minimizar los errores de
redondeo en el intervalo de confianza).
Con y E=8,0574835 , construimos el intervalo
de confianza como sigue:

180,61
c) Con base en el intervalo de confianza, es posible que el
peso medio de 166.3 libras que se usaba en 1960 sea el
peso medio de los hombres en la actualidad. Sin embargo,
la mejor estimación puntual de 172.55 libras sugiere que el
peso medio de los hombres ahora es mucho mayor que
166.3 libras. Considerando que la subestimación del peso
medio de los hombres podría provocar la pérdida de vidas
debido a la sobrecarga de embarcaciones y aeronaves, esos
resultados sugieren con firmeza que deben reunirse datos
adicionales. (Se reunieron datos adicionales, y se
incrementó el peso medio supuesto de los hombres).
El intervalo de confianza del inciso b) también podría
expresarse como 172.55 8.06 o como (164.49, 180.61).
Con base en la muestra con n = 40, y
suponiendo que , el intervalo de confianza para la
media de la población es 180,61
libras, y este intervalo tiene un nivel de confianza de 0.95.
Esto significa que si seleccionamos muchas muestras
aleatorias simples diferentes de 40 hombres y construimos
los intervalos de confianza como lo hicimos aquí, el 95%
de ellos incluirían realmente el valor de la media
poblacional .
DETERMINACIÓN DEL TAMAÑO DE
LA MUESTRA REQUERIDO PARA
ESTIMAR
EJEMPLO 6
Suponga que queremos estimar la puntuación media
del CI de la población de estudiantes de estadística.
¿Cuántos estudiantes de estadística deben
seleccionarse al azar para aplicarles pruebas de CI,
si queremos tener una confianza del 95% de que la
media muestral estará dentro de 3 puntos de CI de
la media poblacional?
SOLUCIÒN
Para un intervalo de confianza del 95%, tenemos
, de modo que . Puesto que
queremos que la media muestral esté dentro de tres
puntos de CI de , el margen de error es E=3.
Asimismo, .
ESTIMACIÓN DE LA MEDIA
POBLACIONAL:
DESCONOCIDA

La media muestral es la mejor estimación


puntual de la media poblacional .
Distribución t de Student
Si una población tiene una distribución normal, entonces
la distribución de:

𝜇= Media Poblacional
𝑋 =Media Muestral
𝑠 =Desviación Estándar Muestral
n= Numero de valores muestrales
E= Margen de error
𝑡 / =Es una distribución t de Student para todas las muestras de tamaño n. La distribución t de Student a menudo
se conoce simplemente como distribución t.
es una distribución t de Student para todas las muestras de
tamaño n. La distribución t de Student a menudo se
conoce simplemente como distribución t.
GRADOS DE LIBERTAD PARA UN
CONJUNTO DE DATOS MUESTRALES
RECOLECTADOS

Es el número de valores muestrales que pueden variar


después de haber impuesto ciertas restricciones a todos
los valores de los datos. El número de grados de libertad
suele abreviarse como gl.
GRADOS DE LIBERTAD PARA UN
CONJUNTO DE DATOS MUESTRALES
RECOLECTADOS

Es el número de valores muestrales que pueden variar


después de haber impuesto ciertas restricciones a todos
los valores de los datos. El número de grados de libertad
suele abreviarse como gl.
EJEMPLO 7
Una muestra de tamaño n=7 es una muestra
aleatoria simple seleccionada de una población
distribuida normalmente. Calcule el valor crítico
correspondiente a un nivel de confianza del
95%.
SOLUCIÒN
Puesto que , el número de grados de libertad está dado por
. Utilizando la tabla A-3, localizamos el sexto renglón con
respecto a la columna del extremo izquierdo. Un nivel de confianza
del 95% corresponde a , y los intervalos de confianza
requieren que el área se divida de manera equitativa entre las colas
izquierda y derecha de la distribución (como en la figura 7-4), de
manera que encontramos los valores listados en la columna para un
área de 0.05 en dos colas. El valor correspondiente al renglón para 6
grados de libertad y a la columna para un área de 0.05 en dos colas es
2.447, de manera que . Podríamos expresar esto como
. Este tipo de valores críticos se utiliza para el
margen de error E y el intervalo de confianza, como se observa a
continuación.
INTERVALO DE CONFIANZA

𝜇= Media Poblacional
𝑋= Media Muestral
n= Numero de valores muestrales
E= Margen de error
s= Desviación estándar muestral
𝑡 / =Valor Critico t
EJEMPLO 8
Existe la creencia popular de que el ajo reduce los niveles de
colesterol. En una prueba de la eficacia del ajo, 49 sujetos fueron
tratados con dosis de ajo crudo, y sus niveles de colesterol se
midieron antes y después del tratamiento. Los cambios en sus niveles
de colesterol de baja densidad (en mg/dL) tienen una media de 0.4 y
una desviación estándar de 21.0 (según datos de “Effect of Raw
Garlic vs Commercial Garlic Supplements on Plasma Lipid
Concentrations in Adults With Moderate Hypercholesterolemia”, de
Gardner et al., Archives of Internal Medicine,vol. 167). Utilice los
estadísticos muestrales de n = 49, y s = 21.0 para construir
un intervalo de confianza del 95% para el cambio medio neto en el
colesterol de baja densidad después del tratamiento con ajo. ¿Qué
sugiere el intervalo de confianza acerca de la eficacia del ajo para
reducir el colesterol de baja densidad?
SOLUCIÒN
El nivel de confianza del 95% implica que . Con n
= 49, el número de grados de libertad es . Si
utilizamos la tabla A-3, buscamos en el renglón con 48
grados de libertad, y en la columna correspondiente a
en dos colas. La tabla no incluye 48 grados de
libertad, y el número más cercano de grados de libertad es
50, de manera que podemos utilizar . Si
utilizamos , y , calculamos
el margen de error E como sigue:
Con y , construimos el intervalo de
confianza de la siguiente manera:
Este resultado también podría expresarse en la forma de
o . Con base en los resultados muestrales
dados, tenemos una confianza del 95% de que los límites de -
5.6 y 6.4 realmente contienen el valor de , la media de los
cambios en el colesterol de baja densidad para la población.
Como los límites del intervalo de confianza contienen el valor
de 0, es muy posible que la media de los cambios en el
colesterol de baja densidad sea igual a 0, lo que sugiere que el
tratamiento con ajo no modificó los niveles de este tipo de
colesterol.
No parece que el tratamiento con ajo sea eficaz para reducir el
colesterol de baja densidad.
PROPIEDADES IMPORTANTES DE LA
DISTRIBUCIÓN t DE STUDENT

1. La distribución t de Student es diferente para distintos


tamaños de muestra.
2. La distribución t de Student tiene la misma forma de
campana simétrica que la distribución normal estándar, pero
refleja una mayor variabilidad (con distribuciones más
amplias) de lo que se espera con muestras pequeñas.
3. La distribución t de Student tiene una media de t=0 (así
como la distribución normal estándar tiene una media de
z=0).
4. La desviación estándar de la distribución t de Student varía
con el tamaño de la muestra, pero es mayor que 1 (a
diferencia de la distribución normal estándar, que tiene s=1).

5. Conforme el tamaño de la muestra n se vuelve más grande,


la distribución t de Student se acerca más a la distribución
normal estándar.
ELECCIÓN ENTRE z Y t
EJEMPLO 9
Usted planea construir un intervalo de confianza para la
media poblacional . Utilice los datos para determinar si el
margen de error E debe calcularse utilizando un valor
crítico de (de la distribución normal), un valor crítico
de (de la distribución t) o ninguno de estos.

y La población tiene una


distribución normal.

b) y La población tiene una


distribución muy sesgada.
c) y La población tiene una
distribución normal. (En la realidad, pocas veces se conoce
).

d) y La población tiene
una distribución muy sesgada. (En la realidad, pocas veces
se conoce ).

e) y La población tiene una


distribución muy sesgada.
SOLUCIÒN
a) Puesto que la desviación estándar poblacional no se
conoce y la población está distribuida normalmente, el
margen de error se calcula usando .

b) Puesto que la muestra es pequeña ( ) y la


población no tiene una distribución normal, el margen
de error E no se debe calcular usando un valor crítico de
o .

c) Puesto que se conoce y la población tiene una


distribución normal, el margen de error se calcula
usando .
d) Como la muestra es grande ( ) y se conoce , el
margen de error se calcula usando .

e) Como la muestra es grande ( ) y se desconoce ,


el margen de error se calcula usando .
PRUEBA DE HIPÓTESIS
El principal objetivo de la prueba de hipótesis consiste en
desarrollar la habilidad de realizar pruebas de hipótesis
para afirmaciones acerca de una proporción poblacional
p, una media poblacional , o una desviación estándar
poblacional .

Potrebbero piacerti anche