Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ÍNDICE
1- Dependencia
Características
Se trabaja con frecuencias en lugar de con datos, por lo tanto, se utilizan las
TABLAS DE CONTINGENCIA.
La masa es lo que pesa cada nivel, ¿cuál es el que más pesa? Lo vemos en la tabla
de porcentajes totales (frecuencias marginales).
i nij ni.
n.j n
- Filas que:
Se parezcan a la frecuencia.
No se parezcan a la frecuencia.
- Filas y columnas
- Asociar los niveles de dependencias
Distancia Chi-cuadrado.
Para calcular los perfiles dividimos cada nº de una fila entre el total de esa fila.
Consecuencias
Las filas y columnas juegan un papel simétrico.
Diferencias relativa de personas de cabello rubio entre los ojos azules y claros:
frecuencia relativa de ojos azules – frecuencia relativa de ojos claros.
Podemos coger Manure y Use (lo miro por arriba) o Use y Manure (lo miro por abajo).
El chi cuadrado puede ser una medida de disimilaridad o si realizo un contraste de
hipótesis la medida de discrepancia. Si hay poca diferencia el chi cuadrado es
pequeño, si chi cuadrado es cero las variables son independientes y el p-valor
sería 1 (p-valor máximo). La frecuencia que debe aparecer en la tabla de
contingencia para obtener un Xsquared = 0 es 2 (independientes). La frecuencia para
que sean dependientes es
H0: independientes
H1: dependientes
En la diagonal están los valores más grandes, la estructura de las frecuencias nos da
una idea de la dependencia. Por otro lado, nos sale un p-valor muy pequeño, por lo
que se rechaza la hipótesis nula, son dependientes. También podemos observar el
chi-cuadrado.
Podemos observar las observadas (nij), las esperadas, los residuos (diferencia entre la
observada y esperadas si fueran independientes)
Inercia Total
.Test$statistic/n
X2
= 2337.6 / 3892
n
La inercia es la cantidad de info que tiene la tabla de contingencia.
(Fila - 1)*(Columa - 1)
Obtención de la MASA
f1<-rowPercents(.Table)[1,1:6]/100
f2<-rowPercents(.Table)[2,1:6]/100
f<-rowPercents(.Table)[1:4,c("Count")]/n
sum(f[1]*((f1-c1)^2/c1))
sum(f[2]*((f2-c1)^2/c1))
Se puede comprobar que la suma de las inercias de las filas y las columnas coincide
con la suma de los autovalores.
ca<-ca(.Table)
ca
str(ca)
La salida contiene los valores propios y los porcentajes de inercia explicada para todas
las dimensiones posibles.
Perfiles Fila
100*round(c, digits = 4)
f1<-rowPercents(.Table)[1,1:6]/100
f2<-rowPercents(.Table)[2,1:6]/100
f3<-rowPercents(.Table)[3,1:6]/100
c1<-colPercents(.Table)[c("Count"),1:6]/n
sum((f1-f2)^2*t(1/c1))
sum((f2-f3)^2*t(1/c1))
sum((f1-f3)^2*t(1/c1))
Columnas
c1<-colPercents(.Table)[1:4,1]/100
c2<-colPercents(.Table)[1:4,2]/100
f1<-rowPercents(.Table)[1:4,c("Count")]/n
sum((c1-c2)^2*t(1/f1))
f1<-rowPercents(.Table)[1,1:6]/100
f2<-rowPercents(.Table)[2,1:6]/100
f3<-rowPercents(.Table)[3,1:6]/100
f4<-rowPercents(.Table)[4,1:6]/100
t(X)%*%X
c1<-colPercents(.Table)[1:4,1]/100
c2<-colPercents(.Table)[1:4,2]/100
c3<-colPercents(.Table)[1:4,3]/100
c4<-colPercents(.Table)[1:4,4]/100
c5<-colPercents(.Table)[1:4,5]/100
c6<-colPercents(.Table)[1:4,6]/100
X<-as.matrix(rbind(c1,c2,c3,c4,c5,c6)*sqrt(1/f1))
summary (ca)
plot(ca)
En ella se observa que los hoteles de 1º tienen ingresos menores de 10. Los hoteles
de 2º se relacionan con ingresos de 20-50. Los hoteles de 4º y 5º tienen más de 500
millones de ingresos. Los hoteles de 3º se relacionan con ingresos de entre 100-500.
Otra vez, da los valores propios y los porcentajes relativos de inercia explicada para
todas las dimensiones disponibles.
Notar que las cantidades en estas tablas están multiplicadas por 1000.
Tabla de Burt
Es una tabla simétrica. Se forma con la tabla de doble entrada (porcentaje por filas).
.Table <-
matrix(c(3,19,39,14,10,1,2,13,1,12,1,2,13,1,12,3,15,41,35,26,10,22,47,9,26,3,11,25,15,34,1,
6,14,5,11,0,12,34,17,23,2,5,11,4,7,2,11,37,8,20), 10, 5, byrow=TRUE)
dimnames(.Table) <- list("rows"=c("Geo", "bio", "qui", "ZOO", "FIS", "ing", "micro", "bot",
"est", "mat"), "columns"=c("A", "B", "C", "D", "E"))
dimnames(.Table) <- list("rows"=c("Geo", "bio", "qui", "ZOO", "FIS", "ing", "micro", "bot",
"est", "mat"), "columns"=c("A", "B", "C", "D", "E"))dimnames(.Table) <- list("rows"=c("Geo",
"bio", "qui", "ZOO", "FIS", "ing", "micro", "bot", "est", "mat"), "columns"=c("A", "B", "C", "D",
"E"))