Sei sulla pagina 1di 13

En el archivo de Excel (https://goo.

gl/rarYdV) se tiene información sobre las


características generales de las personas que respondieron en un mes en particular.
Para este trabajo colaborativo, realice lo siguiente:

Parte 1

Tamaño de muestra

Utilizando la variable edad (P6040), realice lo siguiente:


● Realice un histograma y describa la información según la forma y la curtosis de
los datos.

Histograma

40

30
frecuencia

20

10

0
-10 10 30 50 70 90 110
edad (P6040)

Gráfico de Densidad Suavizada

(X 0,001)
16

12
densidad

0
0 20 40 60 80 100
edad (P6040)

Ahora veamos la medida de forma la curtosis (o apuntamiento) la cual mide cuan


escarpada o achatada esta una curva o distribución.

El coeficiente de curtosis viene dado por la siguiente ecuación:


∑𝑁 ̅ 4
𝑖=1(𝑋𝑖 −𝑋)
Curtosis= −3
𝑁𝑆 4

Siendo
𝑥̅ =la media
S=desviación típica

La curva se puede clasificar en 3 grupos según el signo de la curtosis, es decir según el


signo de la distribución.

 Leptocurtica: la curtosis>o. los datos están muy concentrados en la media


siendo una curva muy apuntada
 Mesocurtica: : la curtosis=0 la distribución es normal
 platicurtica: la curtosis<o. muy poca concentración de datos en la media
presentando una forma muy hachada.
Del resumen de los datos se tienen que

Media = 33,5486 Desviación típica = 20,944; así

Curtosis = - 0.81747

Luego respecto a la información de los datos variable (edad “p6040”) Según la forma
la curtosis es platicurtica dado que (curtosis< o), es decir muy poca concentración de
datos en la media presentando una forma muy hachada. Es decir el valor de curtosis
no se encuentra dentro del rango esperado para datos provenientes de una distribución
normal.

● Realice una descripción numérica y descripción como es la población.

En efecto la población consta de 31 variables las cuales están clasificadas como


numéricas y categóricas dichas variables están clasificados como Directorio, Secuencias
orden, hogar, Registro p6016, P6030S1, P6030S3, p6020 (edad p6040), clase , mes
Dpto. Entre otras, algunas variables tienen un tamaño de 370 datos

● Calcule una nueva variable que sea el

A partir de la variable 𝑃6040𝑛𝑒𝑤 vamos a generar una nueva variable la cual seria
𝑃60402/3
● Teniendo en cuenta la variable anterior realice el cálculo del tamaño de muestra,
utilizando la siguiente fórmula:
Donde, se tiene lo siguiente:

Z: Es el cuantil de la distribución normal estándar al nivel de significancia que se


establezca.
S: Es la desviación estándar de la variable.
Es el margen de error absoluto.

Para calcular el tamaño de la muestra, utilice un nivel de confianza del 95% y un margen
de error de absoluto que no supere 0.5.

Del resumen de los datos anteriores se tiene:


µ=9.8704
S=4.5266
=0.5
N=370
Con un nivel de confianza del 95% es decir α=0.05 entonces el cuantil de la distribución
normal estándar seria 𝑍𝛼/2=𝑍0.05/2 = 1.96
Así reemplazando en la ecuación anterior se tiene:

𝑍 2 𝑆2 (1.96)2 (4.5266)2
𝑛0 = = =314.859≅ 315es decir
δ2 (0.5)2

𝑛0 = 315

● Teniendo en cuenta los resultados anteriores, realice una selección de elementos


para una muestra, utilizando el algoritmo del coordinado negativo.

Veamos la implementación del algoritmo del coordinado negativo. Para realizar una
selección de elemento para una muestra.
Para extraer la muestra de tamaño n de un universo de N objetos.

Generar N realizaciones de una variable aleatoria 𝜀𝑘 (k ∈ U) con distribución uniforme


(0,1).

Asignar 𝜀𝑘 al elemento k-´esimo de la población.


Ordenar la lista de elementos descendente (o ascendentemente) con respecto a este
número aleatorio 𝜀𝑘 .

A continuación, seleccionar los n primeros (o los n últimos) elementos. Esta selección


corresponde a la muestra realizada.
● Compara la media poblacional, con la media muestral y determine la variación
relativa.

Calculemos la media poblacional


µ=9.8704
Calculemos la media muestral
𝑥̅ =9.7164
De aquí podemos observar que la media de la población es menor que la media de la
muestra esto es µ=9.8704 > 𝑥̅ =9.7164

Ahora calculemos el CV es decir coeficiente de variación y de ese modo verificamos en


cuál de los dos casos varia mas
𝐶𝑉𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 =0.5486 es decir del 54.86%
𝐶𝑉𝑚𝑢𝑒𝑠𝑡𝑟𝑎 =0.4632 es decir del 46.32%
De los resultados de los coeficientes de variación anteriores se tiene que
𝐶𝑉𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 =0.5486 > 𝐶𝑉𝑚𝑢𝑒𝑠𝑡𝑟𝑎 =0.4632

𝐶𝑉𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 =54.86% > 𝐶𝑉𝑚𝑢𝑒𝑠𝑡𝑟𝑎 =46.32%

Parte 2

Prueba de hipótesis para dos variables nominales


Un investigador, cree determinar que los hombres asisten más a un colegio oficial que
las mujeres en Colombia. Para determinar lo anterior, se sugiere utilizar la base de la
hoja de “muestra” y realizar lo siguiente:

● Utilizando la variable si actualmente asiste a un establecimiento oficial (P6175) y


sexo (P6020), realice un diagrama de barras comparativo para los hombres y
mujeres en un solo gráfico. Según los resultados, ¿Existen diferencias?

Solución:
Sean las variables (P6175) y sexo (P6020) realicemos un diagrama de barra
comparativo para los hombres y mujeres
Diagrama de Barras para P6175 según P6020

P6020
Hombre
Mujer

No

P6175

0 10 20 30 40 50
frecuencia

(Grafico #1)

Del diagrama de barras anterior para las variables (P6175) y (P6020) se puede
observar que existe mucha diferencia en cuanto si asisten o no a un establecimiento
oficial por parte de los hombres y las mujeres.

Ahora podemos decir que 41 mujeres están asistiendo a un establecimiento oficial


con un (41,41%). Respecto al total de mujeres, mientras que 33 hombres están
asistiendo a dicho estadero oficial con un (33.33%). respecto al total de hombres. Por
lo tanto se concluye que hay mayor asistencia en de mujeres que hombres en cuenta
a establecimiento oficial.

Con un nivel de confianza del 95%, realice una estimación de los hombres que asisten a
un establecimiento oficial.

En este caso dicha estimación corresponde a un intervalo de confianza para la


proporción

Si X es el número de éxitos en n ensayos tipo Bernoulli con probabilidad de éxito 𝜋


entonces un intervalo de confianza al (1 - 𝛼) 100% para 𝜋 está dado por

𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
𝑝̂ - 𝑧(𝛼) √ ≤ 𝜋 ≤ 𝑝̂ + 𝑧(𝛼) √
2 𝑛 2 𝑛

𝑋 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑖𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎


Donde 𝑝̂ =𝑛= 𝑛𝑢𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑒𝑛𝑠𝑎𝑦𝑜𝑠
y z 𝛼/2 el valor que deja un área de 𝛼/2 en la cola superior de la distribución normal
estándar.

En este caso se tiene que X =33, n =45, de donde

𝑋 33
𝑝̂ =𝑛= 45 =0.7333

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 z 0.05/2 =1.96

Con estos datos se tiene

(0.7333)(1−0.7333) (0.7333)(1−0.7333)
(0.7333)- (1.96)√ ≤ 𝜋 ≤ (0.7333) + (1.96)√
45 45

0.604 ≤ 𝜋 ≤ 0.862
Estamos 95% confiados que el porcentaje de los hombres que asisten a un
establecimiento oficial. Está entre un 60.4% y un 86.2 %.

● Con un nivel de confianza del 95%, realice una estimación de las mujeres que
asisten a un establecimiento oficial.

De manera análoga en este caso dicha estimación corresponde a un intervalo de


confianza para la proporción

Si X es el número de éxitos en n ensayos tipo Bernoulli con probabilidad de éxito 𝜋


entonces un intervalo de confianza al (1 - 𝛼) 100% para 𝜋 está dado por

𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
𝑝̂ - 𝑧(𝛼) √ ≤ 𝜋 ≤ 𝑝̂ + 𝑧(𝛼) √
2 𝑛 2 𝑛

En este caso se tiene que X =41, n =54, de donde

𝑋 41
𝑝̂ =𝑛= 54 =0.7592

Como se pide un intervalo al 95% entonces 𝛼 = 0.05 z 0.05/2 =1.96

Con estos datos se tiene

(0.7592)(1−0.7592) (0.7592)(1−0.7592)
(0.7592)- (1.96)√ ≤ 𝜋 ≤ (0.7592)+ (1.96)√
54 54
0.6451 ≤ 𝜋 ≤ 0.8732

Estamos 95% confiados que el porcentaje de las mujeres que asisten a un


establecimiento oficial. Está entre un 64.51% y un 87.32 %.

● Realice una prueba de hipótesis para determinar la afirmación del investigador.


Utilice un nivel de significancia del 5%. ¿Qué se puede decir de lo anterior?

En este caso estamos interesados en realizar una prueba de hipótesis sobre dos
proporciones.

Que los hombres asisten más a un colegio oficial que las mujeres en Colombia

Sea el juego de hipótesis

𝑝1 ≤ 𝑝2
{ 𝑣𝑠
𝑝1 > 𝑝2

Donde

𝑋1 33
𝑝̂1= = =0.7333
𝑛1 45
𝑋2 41
𝑝̂2 = = =0.7592
𝑛2 54

𝑋 +𝑋 33+41
𝑃̂= 𝑛1 +𝑛2 = 45+54 =0.7474
1 2
El valor de la estadística de prueba es

𝑝̂1 −𝑝̂2 0.7333−0.7592


Z= 1 1
= 1 1
= -0.2953
√𝑝̂(1−𝑝̂)(𝑛 +𝑛 ) √(0.7474)(1−0.7474)( + )
1 2 45 54

Con un nivel de significancia de 𝛼 = 0.05 𝑍𝛼 = 𝑍0.05 =1.64

Como el valor del estadístico de prueba Z=-0.2953 < 𝑍0.05=1.64 con un nivel de
confianza 𝛼 = 0.05 No se rechaza la hipótesis nula H0, es decir que no hay suficiente
evidencia para concluir que la afirmación del investigador es la correcta.

Potrebbero piacerti anche