Sei sulla pagina 1di 9

TEMA 2: ANÁLISIS DE CORRESPONDENCIA

ÍNDICE

1- Dependencia

2- ¿Cómo se obtiene la INERCIA? Inercia Total

3- ¿De dónde salen los grados de libertad?

4- Obtención de la MASA (Perfiles fila y columna)

5- Inercia Explicada por cada Fila

6- Análisis de Correspondencia Simple

7- Centroides: perfiles filas

8- Distancia Chi-Cuadrado o Distancia de Benzecri (Filas y Columnas)

9- Matriz (puntos filas) Sobre la que se Calcularán las Componentes

Características

 Además de analizar la relación existente entre las variables, permite examinar


como está estructurada esta asociación.

 Se trabaja con frecuencias en lugar de con datos, por lo tanto, se utilizan las
TABLAS DE CONTINGENCIA.

 Se ha revelado eficaz para el análisis de cualquier matriz de números no


negativos.

 Considera como variables las diversas categorías de las variables originales


que intervienen en el estudio.

 Sus resultados pueden ser representados gráficamente en un espacio


dimensional de escasas variables sintéticas o factores que pueden ser
interpretados o nombrados y que además deben condensar el máximo posible
de información.

 Admite la posibilidad de la inclusión a posteriori de una nueva categoría de


alguna de las variables (categoría suplementaria) para su comparación con las
que han participado en el cálculo.

 El Análisis de Correspondencias es un Análisis de Componentes Principales


aplicados a variables cualitativas que se basan en la distancia no euclídea de
X^2
Existen 2 tipos de análisis de correspondencia:

1. Análisis de Correspondencia Simple

La masa es lo que pesa cada nivel, ¿cuál es el que más pesa? Lo vemos en la tabla
de porcentajes totales (frecuencias marginales).

.Table  nij (frecuencias absolutas), a partir de estas podemos obtener las


frecuencias relativas  fij = nij / n. (Frecuencias observadas nij)
Para obtener la frecuenta marginal por filas  ni.
Y para obtener la frecuencia marginal por columnas  n.j
La total es n
fi. = ni. / n
Si fueran independientes fij sería igual a fi.*f.j (Ecuación fij = fi. * f.j, frecuencia relativa
de la fila “i” por la frecuencia relativa de la columna “j”).
Eij frecuencia esperada.

i nij ni.

n.j n

La inercia vale cero cuando son independientes: X^2 / n = inercia

La gráfica tiene que representar:

- Filas que:
 Se parezcan a la frecuencia.
 No se parezcan a la frecuencia.
- Filas y columnas
- Asociar los niveles de dependencias

Dividir cada columna por su marginal:

 Distancia Chi-cuadrado.

Para calcular los perfiles dividimos cada nº de una fila entre el total de esa fila.

Para obtener autovalores y autovectores: fij / fi. * sqrt (f.j)  X(número)

X^t (matriz) X  se obtienen autovelores y autovectores

Aquí las cargas factoriales son las filas y columnas.

Consecuencias
 Las filas y columnas juegan un papel simétrico.

 Criterio de normalización canónica, la inercia total de la tabla puede ser


explicada sólo con las filas o sólo con las columnas, o sea, la distribución de
las categorías de una variable a lo largo de la otra basta para explicar la
varianza total.

 Como la suma de los perfiles originales suman 1, el primer valor propio


calculado es siempre igual a 1, por lo que no representa a ningún factor, es
irrelevante y se desecha del análisis.
 Al no ser la matriz de perfiles cuadrada, únicamente se podrán extraer tantos
factores como la menor dimensión de la tabla menos uno, al ser el primero
trivial.

 Los factores extraídos explicarán la inercia total de la tabla.

 Se obtienen dos matrices de coeficientes:”pesos” de cada variable en cada


factor, de “cargas” de cada factor en cada variable, por duplicado.

 Se obtienen los cuadros de las contribuciones absolutas por filas y las


contribuciones absolutas por columnas, en los que, frente a cada categoría, se
muestran sus porcentajes de inercia en cada uno de los factores retenidos.
Estos valores son precisamente los cuadrados de los pesos.

 Recíprocamente, se obtienen dos cuadros, por filas y por columnas, que se


denominan contribuciones relativas por filas y contribuciones relativas por
columnas, que indicarán la proporción de la inercia de la categoría explicada
por el factor. Estos valores son los cuadrados de las cargas.

 En el caso de dos factores retenidos, se obtienen dos gráficos independientes,


uno para las filas y otro para las columnas.

Problemas (SE ENCUENTRA EN EL ANÁLISIS DE CORRESPONDENCIA


CAMPUS)

Diferencias relativa de personas de cabello rubio entre los ojos azules y claros:
frecuencia relativa de ojos azules – frecuencia relativa de ojos claros.

El data frame farms de MASS contiene datos de 20 granjas de la isla holandesa


de Tercherllin con 4 factores sobre niveles de humedad (mois), tipo de gestión
de pastizales (manag), uso de pastizales (use) y uso de abonos orgánicos
(manure),

a) ¿hay relación de dependencia significativa entre el iso de pastizales (use) y el


uso de abonos orgánicos (manure)?

R --- Cargamos Farms


En la tabla de doble entrada nos muestra las frecuencias.

Estadísticos --- Tabla de contingencia --- Tabla de doble entrada

Podemos coger Manure y Use (lo miro por arriba) o Use y Manure (lo miro por abajo).
El chi cuadrado puede ser una medida de disimilaridad o si realizo un contraste de
hipótesis la medida de discrepancia. Si hay poca diferencia el chi cuadrado es
pequeño, si chi cuadrado es cero las variables son independientes y el p-valor
sería 1 (p-valor máximo). La frecuencia que debe aparecer en la tabla de
contingencia para obtener un Xsquared = 0 es 2 (independientes). La frecuencia para
que sean dependientes es

H0: independientes
H1: dependientes

Son independientes, no obstante nuestro objetivo es establecer las relaciones


entre los distintos niveles. Para ello los niveles deben ser dependientes.

Trabajando con Ingresos de Hoteles

Cargamos el PAQUETE CA (ANÁLISIS DE CORRESPONDENCIA)

.rda (extensión)  archivo de datos de R

Para estudiar la dependencia/independencia realizaremos una tabla de contingencia

En la diagonal están los valores más grandes, la estructura de las frecuencias nos da
una idea de la dependencia. Por otro lado, nos sale un p-valor muy pequeño, por lo
que se rechaza la hipótesis nula, son dependientes. También podemos observar el
chi-cuadrado.

Str(.Test)  Sacamos la estructura (info)

Podemos observar las observadas (nij), las esperadas, los residuos (diferencia entre la
observada y esperadas si fueran independientes)

Info de las esperadas  .Test$esperadas: se observa una gran diferencia entre lo


observado y lo esperado

Info de los residuos  round(.test$residuals^2,2) (Son las componentes del chi-


cuadrado)

Inercia Total

.Test$statistic/n

¿Cómo se obtiene la INERCIA?

X2
= 2337.6 / 3892
n
La inercia es la cantidad de info que tiene la tabla de contingencia.

¿De dónde salen los grados de libertad?

(Fila - 1)*(Columa - 1)

Obtención de la MASA

Perfiles fila  rowPercent(.Table)  ni. (marginales por filas o por columas)

Perfiles columna  colPercents(.Table)

Inercia Explicada por cada Fila (2 primeras filas)

f1<-rowPercents(.Table)[1,1:6]/100

f2<-rowPercents(.Table)[2,1:6]/100

c1<-colPercents(.Table)[c("Count"),1:6]/n (Centroide para las filas)

f<-rowPercents(.Table)[1:4,c("Count")]/n

sum(f[1]*((f1-c1)^2/c1))

sum(f[2]*((f2-c1)^2/c1))

Se puede comprobar que la suma de las inercias de las filas y las columnas coincide
con la suma de los autovalores.

Análisis de Correspondencia Simple

ca<-ca(.Table)

ca

str(ca)

La salida contiene los valores propios y los porcentajes de inercia explicada para todas
las dimensiones posibles.

 Masas: peso de cada categoría en el total


 Distancias chi-cuadrado a su centroide: Por filas el centroide sería:
(0.274, 0.288, 0.318, 0.118)
 Por columnas: (0.12,0.11,0.2,0.17,0.31,0.05)
 Inercia: La parte de inercia explicada por cada punto fila o columna
 Coordenadas estándar. Por defecto las coordenadas se restringen a
dos dimensiones.
Centroide

Perfiles Fila

rowPercents(.Table)  Masa, perfiles fila

c<-colPercents(.Table)[c("Count"),1:6]/n  Centroides perfiles fila

100*round(c, digits = 4)

DISTANCIA CHI-CUADRADO O DISTANCIA DE BENZECRI

Filas 1-2, 2-3, 1-3:

f1<-rowPercents(.Table)[1,1:6]/100

f2<-rowPercents(.Table)[2,1:6]/100

f3<-rowPercents(.Table)[3,1:6]/100

c1<-colPercents(.Table)[c("Count"),1:6]/n

sum((f1-f2)^2*t(1/c1))

sum((f2-f3)^2*t(1/c1))

sum((f1-f3)^2*t(1/c1))

Columnas

c1<-colPercents(.Table)[1:4,1]/100

c2<-colPercents(.Table)[1:4,2]/100

f1<-rowPercents(.Table)[1:4,c("Count")]/n

sum((c1-c2)^2*t(1/f1))

Matriz (puntos filas) Sobre la que se Calcularán las Componentes

f1<-rowPercents(.Table)[1,1:6]/100

f2<-rowPercents(.Table)[2,1:6]/100

f3<-rowPercents(.Table)[3,1:6]/100

f4<-rowPercents(.Table)[4,1:6]/100

c1<-colPercents(.Table)[c("Count"),1:6]/n  CUAL EXPLICA MÁS


X<-as.matrix(rbind(f1,f2,f3,f4)*sqrt(1/c1))

t(X)%*%X

Componentes para cada Fila:

c1<-colPercents(.Table)[1:4,1]/100

c2<-colPercents(.Table)[1:4,2]/100

c3<-colPercents(.Table)[1:4,3]/100

c4<-colPercents(.Table)[1:4,4]/100

c5<-colPercents(.Table)[1:4,5]/100

c6<-colPercents(.Table)[1:4,6]/100

f1<-rowPercents(.Table)[1:4,c("Count")]/n  CUAL EXPLICA MÁS

X<-as.matrix(rbind(c1,c2,c3,c4,c5,c6)*sqrt(1/f1))

cor Cargas factoriales al cuadrado (contribución de la dimensión a la inercia del


punto)

Representar gráficamente toda la info:

summary (ca)

plot(ca)

En ella se observa que los hoteles de 1º tienen ingresos menores de 10. Los hoteles
de 2º se relacionan con ingresos de 20-50. Los hoteles de 4º y 5º tienen más de 500
millones de ingresos. Los hoteles de 3º se relacionan con ingresos de entre 100-500.

Otra vez, da los valores propios y los porcentajes relativos de inercia explicada para
todas las dimensiones disponibles.

mass: peso en el total

qlt: % en el que queda explicada por las dimensiones retenidas

inr: % de inercia que aporta el punto del total

Además, muestran porcentajes acumulados y un gráfico scree. Los items Filas y


Columnas incluyen las coordenadas principales para las dos primeras dimensiones (k
= 1 y k = 2).
Además, se calcula las correlaciones al cuadrado (cor) y las contribuciones (ctr) por
puntos junto con las coordenadas.

cor: contribución de la dimensión a la inercia del punto

ctr: contribución de los puntos a la inercia de la dimensión

También calcula el porcentaje de inercia explicado por cada fila y columna

Notar que las cantidades en estas tablas están multiplicadas por 1000.

En el caso de variables suplementarias, se añade un asterisco a los nombres de las


variables suplementarias en la salida:

summary(ca(.Table, supcol = 1))

plot(ca(.Table, supcol = 1))

En este caso se considera la primera columna como columna suplementaria.

Trabajando con Titanic

No podemos realizar un análisis de correspondencia simple, ya que las variables son


dicotómicas (2*1/2)=1 dimensión.

Tabla Disyuntiva Completa

Se realiza para variables dicotómicas, ya que se le asigna a uno el 0 y a otro el 1.

Tabla de Burt

Es una tabla simétrica. Se forma con la tabla de doble entrada (porcentaje por filas).

Problemas que Suelo Tener

¿Cómo Genero .Table?

Para empezar generamos la tabla de contingencia. Nos generará .Table y se borrará,


por lo que para volver a activarlo debemos ejecutar:

.Table <-
matrix(c(3,19,39,14,10,1,2,13,1,12,1,2,13,1,12,3,15,41,35,26,10,22,47,9,26,3,11,25,15,34,1,
6,14,5,11,0,12,34,17,23,2,5,11,4,7,2,11,37,8,20), 10, 5, byrow=TRUE)

dimnames(.Table) <- list("rows"=c("Geo", "bio", "qui", "ZOO", "FIS", "ing", "micro", "bot",
"est", "mat"), "columns"=c("A", "B", "C", "D", "E"))

A continuación activaremos .Test:

.Test <- chisq.test(.Table, correct=FALSE)


.Test

¿Cómo Nombro a las Variables en una Gráfica?

Generamos tabla de contingencia, ejecutamos .Table y .Test y volvemos a ejecutar la


siguiente orden que nos ha aparecido al ejecutar la tabla de contingencia:

dimnames(.Table) <- list("rows"=c("Geo", "bio", "qui", "ZOO", "FIS", "ing", "micro", "bot",
"est", "mat"), "columns"=c("A", "B", "C", "D", "E"))dimnames(.Table) <- list("rows"=c("Geo",
"bio", "qui", "ZOO", "FIS", "ing", "micro", "bot", "est", "mat"), "columns"=c("A", "B", "C", "D",
"E"))

Potrebbero piacerti anche