Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
En primer lugar, debemos calcular los totales por variable (completar la tabla de abajo). El
total de flores blancas, rojas y amarillas sería (respectivamente):
> 45+36
[1] 81
> 24+83
[1] 107
> 60+40
[1] 100
Ahora debemos calcular el total de flores con y sin abejas, que corresponden a
(respectivamente):
> 45+24+60
[1] 129
> 36+83+40
[1] 159
Luego debemos calcular la cantidad esperada de flores con abejas y sin abejas.
Partiremos con las flores blancas. Para esto debemos primero dividir 129 por 288, que es
la proporción de flores con abejas, y luego multiplicarlo por 81 que representa el total de
flores blancas. Esto significa que si a las abejas no les importa el color de la flor
(independencia) deberían estar en esa proporción en las flores blancas. Esto es:
> Esperadas_BC<-(129/288)*81
> Esperadas_BC
[1] 36.28125
> Esperadas_AS<-(159/288)*100
> Esperadas_AS
[1] 55.20833
> X2<-((45-36.3)^2/36.3)+((36-44.7)^2/44.7)+((24-
47.9)^2/47.9)+((83-59.1)^2/59.1)+((60-44.8)^2/44.8)+((40-
55.2)^2/55.2)
> X2
[1] 34.71126
Por lo tanto, el valor de Chi-cuadrado para nuestro análisis fue de 34.71 aprox. Como
nosotros necesitamos el valor de significancia de la prueba estadística (el valor-p)
debemos recurrir a la tabla de valores-p de la distribución Chi-cuadrado. El número de
grados de libertad en la prueba de Chi-cuadrado para tablas de contingencia se obtiene
así (n°columnas-1) x (n°filas-1). Según esto, nuestro análisis de X2 posee dos grados de
libertad. Si observamos la tabla de los valores p de la tabla de Chi-cuadrado podemos
observar que el valor crítico de X2 con dos grados de libertad y alpha=0.05 es 5.991.
Como 34.7>>>5.991, rechazamos H0, y determinamos que existe una asociación
significativa entre el color de las flores y la presencia de abejas.
Finalmente, podemos hacer el mismo análisis en R de manera simple. Recordemos que
poseemos una tabla de contingencia. Para analizar esta tabla debemos transformarla de
la siguiente manera:
> Con_abejas <- c(45,24,60)
> Con_abejas
[1] 45 24 60
> Sin_abejas <- c(36,83,40)
> Sin_abejas
[1] 36 83 40
> Presencia <- data.frame(rbind(Con_abejas,Sin_abejas))
rbind():es una función que combina vectores, matrices o marco de datos (data.frame)
combinados por columnas y filas.
> Presencia
X1 X2 X3
Con_abejas 45 24 60
Sin_abejas 36 83 40
> names(Presencia) <- c('Blancas','Rojas','Amarillas')
> Presencia
Blancas Rojas Amarillas
Con_abejas 45 24 60
Sin_abejas 36 83 40
chisq.test(Presencia)
> pres<-(as.matrix(Presencia))
>
barplot(pres,beside=TRUE,col=c("black","white"),legend=TRUE,ylab="
Frecuencia")
Ejemplo 3
Tabaco: Este primer ejemplo se basa en el estudio de una Universidad X que encuestó
en el gimnasio de la Facultad de Ciencias a 237 de sus alumnos sobre su actividad física
y adicción al tabaco. Los resultados de esta encuesta se encuentran en el archivo
"Tabaco.csv", carguémoslo en R utilizando el comando file.choose():
Warning message:
In chisq.test(tc_tabaco) : Chi-squared approximation may be
incorrect
El resultado de la prueba de Chi-cuadrado indica un valor de p mayor a 0.05 por lo
tanto no podemos rechazar H0. Luego, podemos afirmar (en base a los resultados) que el
hábito de fumar es independiente del nivel de actividad física de los estudiantes.
Si se fijaron en el resultado obtenido en R, bajo el valor de p, se indica un "Warning",
este aviso se debe a que tenemos algunos factores en nuestra tabla de contingencia con
muy pocos valores. Para remediar esto podemos juntar factores para obtener mayor
tamaño muestral. Lo que haremos será combinar las columnas Nada (de Ejercicio) y Poco
(Ejercicio), y las ingresaremos a un nuevo vector. Para esto utilizaremos el comando
cbind(): el cual toma una secuencia de argumentos de vectores, matrices o marcos de
datos y los combina por columnas o filas, respectivamente.
data: tc2_tabaco
X-squared = 3.2328, df = 3, p-value = 0.3571
Con la nueva tabla no obtuvimos la señal de advertencia, sin embargo, el resultado es
el mismo, el hábito de fumar es independiente del nivel de actividad física. Sin embargo,
sabemos (por múltiples estudios científicos) que el tabaco sí afecta la actividad física de
las personas, entonces, ¿por qué obtenemos estos resultados? Recuerden, siempre una
posibilidad es que realizamos un muestreo sesgado. Los resultados obtenidos provienen
de 237 personas encuestadas en el gimnasio de la Universidad X, no solo tenemos una
muestra reducida (N=237), sino que también la encuesta se realizó en un lugar donde
probablemente no acuden los fumadores.
Entonces, ahora utilizaremos una nueva base de datos llamada "Tabaco2.csv", este
archivo contiene la misma encuesta, pero esta vez realizada a 1296 estudiantes en
distintos lugares de la Universidad X. Revisemos nuestra nueva base de datos:
> tabaco2 <- read.csv("Tabaco2.csv",header=TRUE,sep=";")
> head(tabaco2)
Adiccion Ejercicio
1 Nunca Poco
2 Regularmente Nada
3 Ocasionalmente Nada
4 Nunca Nada
5 Nunca Poco
6 Nunca Poco
> dim(tabaco2)
[1] 1296 2
Nuevamente creemos una tabla de contingencia:
> tc_tabaco2 <- table(tabaco2$Adiccion,tabaco2$Ejercicio)
> tc_tabaco2
Frecuentemente Nada Poco
Nunca 432 72 336
Ocasionalmente 48 12 16
Regularmente 36 4 28
Siempre 28 156 124
> chisq.test(tc_tabaco2)
Pearson's Chi-squared test
data: tc_tabaco2
X-squared = 332, df = 6, p-value < 2.2e-16
Con estos nuevos datos (una muestra ampliada y representativa) los resultados
cambian rotundamente, en base a lo estimado rechazamos H 0, por tanto, el hábito de
fumar y la actividad física NO son variables independientes. ¿Qué más podrían decir al
respecto de este resultado?
Tarea (Ejercicios).
Comentario: para cada gráfico que genere en estos ejercicios, no olvide indicar las leyendas de
eje y el título principal del gráfico.
1. La siguiente tabla posee datos de preferencia de ciertos sabores de helado de acuerdo al sexo
o género de los individuos. Evalúe si existe una asociación entre el género de los individuos y el
sabor de los helados a través de la prueba de Chi-cuadrado. Para esto, determine el número de
observaciones esperadas dentro de cada categoría generando vectores de acuerdo a los códigos
de la tabla que aparece a continuación. Finalmente exprese el cálculo del estadístico Chi-
cuadrado en base a la fórmula utilizada en el ejemplo 1 y realice el contraste de hipótesis en base
a la tabla de la distribución Chi-cuadrado. Recuerde explicitar las hipótesis a contrastar y
conclusión en base a los resultados.
Chocolate Esperadas Vainilla Esperadas Frutilla Esperadas Total
Mujeres 300 MC= 100 MV= 90 MF=
Hombres 100 HC= 220 HV= 80 HF=
Total
2. Ud. Desea evaluar si existe asociación entre el color del pelaje de una raza X de perros y el
sexo de los ejemplares en base a la siguiente tabla:
Negro Castaño Rubio
Machos 35 50 20
Hembras 54 63 70
4. Evalúe la normalidad de las variables FSIQ, PIQ y VIQ de la tabla IQ.csv. ¿Es posible
normalizar estas variables mediante transformación logarítmica?
Literatura revisada: