Análisis de Correspondencia

TEMA 2: ANÁLISIS DE CORRESPONDENCIA
ÍNDICE
1- Dependencia
2- ¿Cómo se obtiene la INERCIA? Inercia Total
3- ¿De dónde salen los grados de libertad?
4- Obtención de la MASA (Perfiles fila y columna)
5- Inercia Explicada por cada Fila
6- Análisis de Correspondencia Simple
7- Centroides: perfiles filas
8- Distancia Chi-Cuadrado o Distancia de Benzecri (Filas y Columnas)
9- Matriz (puntos filas) Sobre la que se Calcularán las Componentes
Características
 Además de analizar la relación existente entre las variables, permite examinar

como está estructurada esta asociación.
 Se trabaja con frecuencias en lugar de con datos, por lo tanto, se utilizan las
TABLAS DE CONTINGENCIA.
 Se ha revelado eficaz para el análisis de cualquier matriz de números no

negativos.
 Considera como variables las diversas categorías de las variables originales

que intervienen en el estudio.
 Sus resultados pueden ser representados gráficamente en un espacio

dimensional de escasas variables sintéticas o factores que pueden ser
interpretados o nombrados y que además deben condensar el máximo posible
de información.
 Admite la posibilidad de la inclusión a posteriori de una nueva categoría de

alguna de las variables (categoría suplementaria) para su comparación con las
que han participado en el cálculo.
 El Análisis de Correspondencias es un Análisis de Componentes Principales

aplicados a variables cualitativas que se basan en la distancia no euclídea de
X^2
Existen 2 tipos de análisis de correspondencia:
1. Análisis de Correspondencia Simple
La masa es lo que pesa cada nivel, ¿cuál es el que más pesa? Lo vemos en la tabla
de porcentajes totales (frecuencias marginales).
.Table  nij (frecuencias absolutas), a partir de estas podemos obtener las

frecuencias relativas  fij = nij / n. (Frecuencias observadas nij)
Para obtener la frecuenta marginal por filas  ni.
Y para obtener la frecuencia marginal por columnas  n.j
La total es n
fi. = ni. / n
Si fueran independientes fij sería igual a fi.*f.j (Ecuación fij = fi. * f.j, frecuencia relativa
de la fila “i” por la frecuencia relativa de la columna “j”).
Eij frecuencia esperada.
i nij ni.
n.j n
La inercia vale cero cuando son independientes: X^2 / n = inercia
La gráfica tiene que representar:
- Filas que:
 Se parezcan a la frecuencia.
 No se parezcan a la frecuencia.
- Filas y columnas
- Asociar los niveles de dependencias
Dividir cada columna por su marginal:
 Distancia Chi-cuadrado.
Para calcular los perfiles dividimos cada nº de una fila entre el total de esa fila.
Para obtener autovalores y autovectores: fij / fi. * sqrt (f.j)  X(número)
X^t (matriz) X  se obtienen autovelores y autovectores
Aquí las cargas factoriales son las filas y columnas.
Consecuencias
 Las filas y columnas juegan un papel simétrico.
 Criterio de normalización canónica, la inercia total de la tabla puede ser

explicada sólo con las filas o sólo con las columnas, o sea, la distribución de
las categorías de una variable a lo largo de la otra basta para explicar la
varianza total.
 Como la suma de los perfiles originales suman 1, el primer valor propio

calculado es siempre igual a 1, por lo que no representa a ningún factor, es
irrelevante y se desecha del análisis.
 Al no ser la matriz de perfiles cuadrada, únicamente se podrán extraer tantos
factores como la menor dimensión de la tabla menos uno, al ser el primero
trivial.
 Los factores extraídos explicarán la inercia total de la tabla.
 Se obtienen dos matrices de coeficientes:”pesos” de cada variable en cada

factor, de “cargas” de cada factor en cada variable, por duplicado.
 Se obtienen los cuadros de las contribuciones absolutas por filas y las

contribuciones absolutas por columnas, en los que, frente a cada categoría, se
muestran sus porcentajes de inercia en cada uno de los factores retenidos.
Estos valores son precisamente los cuadrados de los pesos.
 Recíprocamente, se obtienen dos cuadros, por filas y por columnas, que se

denominan contribuciones relativas por filas y contribuciones relativas por
columnas, que indicarán la proporción de la inercia de la categoría explicada
por el factor. Estos valores son los cuadrados de las cargas.
 En el caso de dos factores retenidos, se obtienen dos gráficos independientes,

uno para las filas y otro para las columnas.
Problemas (SE ENCUENTRA EN EL ANÁLISIS DE CORRESPONDENCIA

CAMPUS)
Diferencias relativa de personas de cabello rubio entre los ojos azules y claros:
frecuencia relativa de ojos azules – frecuencia relativa de ojos claros.
El data frame farms de MASS contiene datos de 20 granjas de la isla holandesa

de Tercherllin con 4 factores sobre niveles de humedad (mois), tipo de gestión
de pastizales (manag), uso de pastizales (use) y uso de abonos orgánicos
(manure),
a) ¿hay relación de dependencia significativa entre el iso de pastizales (use) y el

uso de abonos orgánicos (manure)?
R --- Cargamos Farms

En la tabla de doble entrada nos muestra las frecuencias.
Estadísticos --- Tabla de contingencia --- Tabla de doble entrada
Podemos coger Manure y Use (lo miro por arriba) o Use y Manure (lo miro por abajo).
El chi cuadrado puede ser una medida de disimilaridad o si realizo un contraste de
hipótesis la medida de discrepancia. Si hay poca diferencia el chi cuadrado es
pequeño, si chi cuadrado es cero las variables son independientes y el p-valor
sería 1 (p-valor máximo). La frecuencia que debe aparecer en la tabla de
contingencia para obtener un Xsquared = 0 es 2 (independientes). La frecuencia para
que sean dependientes es
H0: independientes
H1: dependientes
Son independientes, no obstante nuestro objetivo es establecer las relaciones

entre los distintos niveles. Para ello los niveles deben ser dependientes.
Trabajando con Ingresos de Hoteles
Cargamos el PAQUETE CA (ANÁLISIS DE CORRESPONDENCIA)
.rda (extensión)  archivo de datos de R
Para estudiar la dependencia/independencia realizaremos una tabla de contingencia
En la diagonal están los valores más grandes, la estructura de las frecuencias nos da
una idea de la dependencia. Por otro lado, nos sale un p-valor muy pequeño, por lo
que se rechaza la hipótesis nula, son dependientes. También podemos observar el
chi-cuadrado.
Str(.Test)  Sacamos la estructura (info)
Podemos observar las observadas (nij), las esperadas, los residuos (diferencia entre la
observada y esperadas si fueran independientes)
Info de las esperadas  .Test$esperadas: se observa una gran diferencia entre lo

observado y lo esperado
Info de los residuos  round(.test$residuals^2,2) (Son las componentes del chi-

cuadrado)
Inercia Total
.Test$statistic/n
¿Cómo se obtiene la INERCIA?
X2
= 2337.6 / 3892
n
La inercia es la cantidad de info que tiene la tabla de contingencia.
¿De dónde salen los grados de libertad?
(Fila - 1)*(Columa - 1)
Obtención de la MASA
Perfiles fila  rowPercent(.Table)  ni. (marginales por filas o por columas)
Perfiles columna  colPercents(.Table)
Inercia Explicada por cada Fila (2 primeras filas)
f1<-rowPercents(.Table)[1,1:6]/100
c1<-colPercents(.Table)[c("Count"),1:6]/n (Centroide para las filas)
f<-rowPercents(.Table)[1:4,c("Count")]/n
sum(f[1]*((f1-c1)^2/c1))
sum(f[2]*((f2-c1)^2/c1))
Se puede comprobar que la suma de las inercias de las filas y las columnas coincide
con la suma de los autovalores.
Análisis de Correspondencia Simple
ca<-ca(.Table)
ca
str(ca)
La salida contiene los valores propios y los porcentajes de inercia explicada para todas
las dimensiones posibles.
 Masas: peso de cada categoría en el total

 Distancias chi-cuadrado a su centroide: Por filas el centroide sería:
(0.274, 0.288, 0.318, 0.118)
 Por columnas: (0.12,0.11,0.2,0.17,0.31,0.05)
 Inercia: La parte de inercia explicada por cada punto fila o columna
 Coordenadas estándar. Por defecto las coordenadas se restringen a
dos dimensiones.
Centroide
Perfiles Fila
rowPercents(.Table)  Masa, perfiles fila
c<-colPercents(.Table)[c("Count"),1:6]/n  Centroides perfiles fila
100*round(c, digits = 4)
DISTANCIA CHI-CUADRADO O DISTANCIA DE BENZECRI
Filas 1-2, 2-3, 1-3:
c1<-colPercents(.Table)[c("Count"),1:6]/n
sum((f1-f2)^2*t(1/c1))
sum((f2-f3)^2*t(1/c1))
sum((f1-f3)^2*t(1/c1))
Columnas
c1<-colPercents(.Table)[1:4,1]/100
f1<-rowPercents(.Table)[1:4,c("Count")]/n
sum((c1-c2)^2*t(1/f1))
Matriz (puntos filas) Sobre la que se Calcularán las Componentes
c1<-colPercents(.Table)[c("Count"),1:6]/n  CUAL EXPLICA MÁS

X<-as.matrix(rbind(f1,f2,f3,f4)*sqrt(1/c1))
t(X)%*%X
Componentes para cada Fila:
f1<-rowPercents(.Table)[1:4,c("Count")]/n  CUAL EXPLICA MÁS
X<-as.matrix(rbind(c1,c2,c3,c4,c5,c6)*sqrt(1/f1))
cor Cargas factoriales al cuadrado (contribución de la dimensión a la inercia del

punto)
Representar gráficamente toda la info:
summary (ca)
plot(ca)
En ella se observa que los hoteles de 1º tienen ingresos menores de 10. Los hoteles
de 2º se relacionan con ingresos de 20-50. Los hoteles de 4º y 5º tienen más de 500
millones de ingresos. Los hoteles de 3º se relacionan con ingresos de entre 100-500.
Otra vez, da los valores propios y los porcentajes relativos de inercia explicada para
todas las dimensiones disponibles.
mass: peso en el total
qlt: % en el que queda explicada por las dimensiones retenidas
inr: % de inercia que aporta el punto del total
Además, muestran porcentajes acumulados y un gráfico scree. Los items Filas y

Columnas incluyen las coordenadas principales para las dos primeras dimensiones (k
= 1 y k = 2).
Además, se calcula las correlaciones al cuadrado (cor) y las contribuciones (ctr) por
puntos junto con las coordenadas.
cor: contribución de la dimensión a la inercia del punto
ctr: contribución de los puntos a la inercia de la dimensión
También calcula el porcentaje de inercia explicado por cada fila y columna
Notar que las cantidades en estas tablas están multiplicadas por 1000.
En el caso de variables suplementarias, se añade un asterisco a los nombres de las

variables suplementarias en la salida:
summary(ca(.Table, supcol = 1))
plot(ca(.Table, supcol = 1))
En este caso se considera la primera columna como columna suplementaria.
Trabajando con Titanic
No podemos realizar un análisis de correspondencia simple, ya que las variables son

dicotómicas (2*1/2)=1 dimensión.
Tabla Disyuntiva Completa
Se realiza para variables dicotómicas, ya que se le asigna a uno el 0 y a otro el 1.
Tabla de Burt
Es una tabla simétrica. Se forma con la tabla de doble entrada (porcentaje por filas).
Problemas que Suelo Tener
¿Cómo Genero .Table?
Para empezar generamos la tabla de contingencia. Nos generará .Table y se borrará,

por lo que para volver a activarlo debemos ejecutar:
.Table <-
matrix(c(3,19,39,14,10,1,2,13,1,12,1,2,13,1,12,3,15,41,35,26,10,22,47,9,26,3,11,25,15,34,1,
6,14,5,11,0,12,34,17,23,2,5,11,4,7,2,11,37,8,20), 10, 5, byrow=TRUE)
dimnames(.Table) <- list("rows"=c("Geo", "bio", "qui", "ZOO", "FIS", "ing", "micro", "bot",
"est", "mat"), "columns"=c("A", "B", "C", "D", "E"))
A continuación activaremos .Test:
.Test <- chisq.test(.Table, correct=FALSE)

.Test
¿Cómo Nombro a las Variables en una Gráfica?
Generamos tabla de contingencia, ejecutamos .Table y .Test y volvemos a ejecutar la

siguiente orden que nos ha aparecido al ejecutar la tabla de contingencia:
dimnames(.Table) <- list("rows"=c("Geo", "bio", "qui", "ZOO", "FIS", "ing", "micro", "bot",
"est", "mat"), "columns"=c("A", "B", "C", "D", "E"))dimnames(.Table) <- list("rows"=c("Geo",
"bio", "qui", "ZOO", "FIS", "ing", "micro", "bot", "est", "mat"), "columns"=c("A", "B", "C", "D",
"E"))

Análisis de Correspondencia

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Análisis de Correspondencia

Caricato da

Copyright:

Formati disponibili

TEMA 2: ANÁLISIS DE CORRESPONDENCIA

2- ¿Cómo se obtiene la INERCIA? Inercia Total

3- ¿De dónde salen los grados de libertad?

4- Obtención de la MASA (Perfiles fila y columna)

5- Inercia Explicada por cada Fila

6- Análisis de Correspondencia Simple

7- Centroides: perfiles filas

8- Distancia Chi-Cuadrado o Distancia de Benzecri (Filas y Columnas)

9- Matriz (puntos filas) Sobre la que se Calcularán las Componentes

 Además de analizar la relación existente entre las variables, permite examinar

 Se ha revelado eficaz para el análisis de cualquier matriz de números no

 Considera como variables las diversas categorías de las variables originales

 Sus resultados pueden ser representados gráficamente en un espacio

 Admite la posibilidad de la inclusión a posteriori de una nueva categoría de

 El Análisis de Correspondencias es un Análisis de Componentes Principales

1. Análisis de Correspondencia Simple

.Table  nij (frecuencias absolutas), a partir de estas podemos obtener las

La inercia vale cero cuando son independientes: X^2 / n = inercia

La gráfica tiene que representar:

Dividir cada columna por su marginal:

Para obtener autovalores y autovectores: fij / fi. * sqrt (f.j)  X(número)

X^t (matriz) X  se obtienen autovelores y autovectores

Aquí las cargas factoriales son las filas y columnas.

 Criterio de normalización canónica, la inercia total de la tabla puede ser

 Como la suma de los perfiles originales suman 1, el primer valor propio

 Los factores extraídos explicarán la inercia total de la tabla.

 Se obtienen dos matrices de coeficientes:”pesos” de cada variable en cada

 Se obtienen los cuadros de las contribuciones absolutas por filas y las

 Recíprocamente, se obtienen dos cuadros, por filas y por columnas, que se

 En el caso de dos factores retenidos, se obtienen dos gráficos independientes,

Problemas (SE ENCUENTRA EN EL ANÁLISIS DE CORRESPONDENCIA

El data frame farms de MASS contiene datos de 20 granjas de la isla holandesa

a) ¿hay relación de dependencia significativa entre el iso de pastizales (use) y el

R --- Cargamos Farms

Estadísticos --- Tabla de contingencia --- Tabla de doble entrada

Son independientes, no obstante nuestro objetivo es establecer las relaciones

Trabajando con Ingresos de Hoteles

Cargamos el PAQUETE CA (ANÁLISIS DE CORRESPONDENCIA)

.rda (extensión)  archivo de datos de R

Para estudiar la dependencia/independencia realizaremos una tabla de contingencia

Str(.Test)  Sacamos la estructura (info)

Info de las esperadas  .Test$esperadas: se observa una gran diferencia entre lo

Info de los residuos  round(.test$residuals^2,2) (Son las componentes del chi-

¿Cómo se obtiene la INERCIA?

¿De dónde salen los grados de libertad?

Perfiles fila  rowPercent(.Table)  ni. (marginales por filas o por columas)

Perfiles columna  colPercents(.Table)

Inercia Explicada por cada Fila (2 primeras filas)

c1<-colPercents(.Table)[c("Count"),1:6]/n (Centroide para las filas)

Análisis de Correspondencia Simple

 Masas: peso de cada categoría en el total

rowPercents(.Table)  Masa, perfiles fila

c<-colPercents(.Table)[c("Count"),1:6]/n  Centroides perfiles fila

DISTANCIA CHI-CUADRADO O DISTANCIA DE BENZECRI

Filas 1-2, 2-3, 1-3:

Matriz (puntos filas) Sobre la que se Calcularán las Componentes

c1<-colPercents(.Table)[c("Count"),1:6]/n  CUAL EXPLICA MÁS

Componentes para cada Fila:

f1<-rowPercents(.Table)[1:4,c("Count")]/n  CUAL EXPLICA MÁS

cor Cargas factoriales al cuadrado (contribución de la dimensión a la inercia del

Representar gráficamente toda la info:

mass: peso en el total

qlt: % en el que queda explicada por las dimensiones retenidas

inr: % de inercia que aporta el punto del total