Sei sulla pagina 1di 23

Análisis de Componentes Principales

Objetivo:
Transformar un conjunto de variables en un nuevo conjunto, componentes
principales, incorrelacionadas entre sí. Se consigue una representación
simplificada, más sencilla y fácil de ver.

Metodología:
Los datos se presentan en una tabla rectangular con n líneas (individuos) y p
columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables
heterogéneas. Hay dos espacios:
Rp : n individuos con los valores que toman para cada una de las p variables.
Rn : p variables para cada individuo.

Finalidad:

Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de


información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la
deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se
obtendrán nuevas variables, combinaciones lineales de las variables originales
llamadas factores o componentes.

1
Agrupación de Variables

2
MATRIZ DE DATOS

Cálculo de medias y
desviaciones típicas

X: MATRIZ DE DATOS TIPIFICADOS

R =X´X
MATRIZ DE CORRELACIONES

Diagonalización de R, cálculo de
valores propios, varianza
explicada y correlaciones

COMPONENTES PRINCIPALES

3
Resumen

Las componentes principales son combinaciones lineales de las variables


originales.

Los coeficientes de las combinaciones lineales son los elementos de los


vectores característicos asociados a la matriz de covarianzas de las variables
originales. Por tanto, la obtención de componentes principales es un caso típico
de cálculo de raíces y vectores característicos de una matriz simétrica.

La primera componente se asocia a la mayor raíz característica a que va


asociada.

Si se tipifican las variables originales, su proporción de variabilidad total captada


por una componente es igual a su raíz característica dividida por el número de
variables originales.

La correlación entre una componente y una variable original se determina con la


raíz característica de la componente y el correspondiente elemento del vector
característico asociado, si las variables originales están tipificadas

4
CASO:
Posicionamiento de turistas en Tenerife

Objetivo: Posicionamiento del producto turístico de


Tenerife según nacionalidades.

Metodología:

 Cuestionario: Fichero base turistas curso.sav.


 Caso de ACP: Se han elegido noches, nº visitas, nº
personas, gasto y edad
 Se crea una nueva variable: Gasto/persona/noche.
 Se obtienen las medianas por nacionalidad para las
variables.

5
Datos. Medianas
Nacionalidad Nº Nº visitas Gasto Edad
Noches anteriores noche/persona
Alemana 14,00 ,00 76,6290 42,00
Austriaca 7,00 ,00 35,7452 33,00
Belga 7,00 1,00 46,2028 35,00
Británica 14,00 2,00 37,5633 39,00
Española 7,00 ,00 85,8589 31,00
Europa exc 7,00 ,00 41,7811 24,50
Finlandesa 32,00 50,00 46,9541 73,00
Francesa 7,00 ,00 75,1265 38,00
Holandesa 14,00 ,00 18,9410 26,00
Italiana 7,00 ,00 72,9800 28,00
R. América 29,00 1,00 19,1990 22,50
R. Europa 7,00 ,00 89,0786 34,00
R. mundo 6,00 ,00 117,9486 30,00
Sueca 7,00 ,00 123,5552 30,00
Suiza 7,00 ,00 80,3639 37,00

Fuente: Encuesta a turistas.

Tabla de datos:
Matriz con 15 filas, correspondientes a las nacionalidades, y 4
columnas, correspondientes a las 4 variables. Dentro, medianas
6
SPSS
Analizar Reducción de Dimensiones Factor

7
Elección del numero de ejes
Criterio de la media aritmética:

Se seleccionan las componentes cuya varianza (valor propio) o inercia


asociada a cada componente, exceda de la media de las raíces
características. Por tanto, se debe pverificar que
 λi
λh  λ  i1
p

p
Si las variables originales están tipificadas,  λ j  p , por lo que la media
de la inercia es igual a 1. Se retendrán losj1factores cuya inercia sea
mayor que 1.

8
Resultados ACP 1
Estadísticos descriptivos más importantes de las variables utilizadas

El perfil promedio de los turistas de la muestra tiene un estancia promedio


de 11 o 12 días, han visitado con anterioridad la isla entre 3 y 4 ocasiones, el
gasto persona/día de sus vacaciones ha sido de 64,53€, la edad es
aproximadamente 35 años.
La variable con mayor grado de dispersión relativa es el nº de visitas
anteriores (357%).

9
Resultados ACP 2

Matriz de coeficientes de correlación para todos los pares de variables


originales.
Niveles de significación unilaterales de cada uno de los coeficientes.
Para un nivel del 5% de significación, resultaron significativos 4 de los 6
(67%), porcentaje de índices de correlación adecuado para el análisis.

10
Resultados ACP 3
La adecuación de los datos al análisis factorial de componentes principales se contrasta
mediante KMO y prueba de Bartlett

11
Resultados ACP 4
KMO:
Estadístico de prueba de la hipótesis de que las correlaciones parciales entre las
variables son pequeñas. Indica la proporción de varianza de las variables originales que
es común, y que podría ser explicada por factores subyacentes. Valores cercanos a 1: un
análisis factorial puede ser útil para los datos. Valores menores de 0,5: los resultados
probablemente no sean muy útiles.

  rij2
i j
KMO  rij : coeficiente de correlación lineal de Pearson entre las variables i,j
 rij2    a ij2
i j i j aij: coeficiente de correlación parcial entre las variables i,j

KMO = 0,6: Los datos muestran ser adecuados para el análisis ACP.

Prueba de esferidad de Bartlett:


Indica si la matriz de correlaciones es una matriz identidad, por lo que que las variables
no están relacionadas
Hay evidencia suficiente para rechazar que la matriz de correlaciones es una matriz
identidad. Existe un cierto nivel de relación entre las variables.

12
Resultados ACP 5
Matrices anti-imagen

Nº vis itas Edad del Gas to por


Nº Noches anteriores turis ta persona y día
Covarianza anti-imagen Nº Noches ,333 -,117 ,057 ,236
Nº vis itas anteriores -,117 ,128 -,130 -,013
Edad del turis ta ,057 -,130 ,184 -,047
Gas to por pers ona y día ,236 -,013 -,047 ,661
Correlación anti-imagen Nº Noches ,617 a -,567 ,229 ,503
Nº vis itas anteriores -,567 ,556 a -,850 -,043
Edad del turis ta ,229 -,850 ,569 a -,136
Gas to por pers ona y día ,503 -,043 -,136 ,513 a
a. Medida de adecuación mues tral

Covarianzas y correlaciones parciales negativas. Índice de las correlaciones no debidas a los


factores. Valores pequeños: las variables están relativamente libres de correlaciones no
explicadas. La mayoría de los valores fuera de la diagonal principal deberían ser muy pequeños
(próximos a cero). En nuestro caso, parece existir una parte importante de las correlaciones entre
las variables que los factores extraídos no consiguen explicar.
Elementos de la diagonal principal de la matriz de correlación anti-imagen: medida de adecuación
muestral para cada variable. Valores inferiores a 0,5: Las variables no se ajustan a la estructura
de las otras. Deberíamos eliminarlas del análisis. En nuestro caso todas las variables presentan
una medida de adecuación muestral superior a 0,5.

13
Resultados ACP 6
Comunalidades

Inicial Extracción
Nº Noches 1,000 ,835
Nº vis itas anteriores 1,000 ,954
Edad del turista 1,000 ,918
Gas to por pers ona y día 1,000 ,926
Método de extracción: Anális is de Componentes principales .

Indican la cantidad de varianza de cada variable que es explicada. En el método de


extracción Componentes Principales, las comunalidades iniciales son siempre 1.
Las comunalidades de la extracción son estimaciones de la varianza de cada variable
que es explicada por los factores incluidos en la solución factorial.
Para todas las variables la cantidad de varianza explicada por los factores de la
solución factorial es alta.
Todas las variables se ajustan bien a la solución factorial.

14
Resultados ACP 7
Varianza total explicada

Sumas de las saturaciones al cuadrado Suma de las s aturaciones al cuadrado


Autovalores iniciales de la extracción de la rotación
% de la % de la % de la
Componente Total varianza % acumulado Total varianza % acumulado Total varianza % acumulado
1 2,511 62,772 62,772 2,511 62,772 62,772 2,248 56,190 56,190
2 1,122 28,047 90,819 1,122 28,047 90,819 1,385 34,628 90,819
3 ,291 7,265 98,084
4 ,077 1,916 100,000
Método de extracción: Análisis de Componentes principales .

Las tres primeras columnas se refieren a la solución inicial, y hay tantos valores como
componentes o factores posibles.
Total: Cantidad de varianza explicada por cada componente en las variables observadas.
“% de varianza”: Porcentaje de varianza explicada por las componentes.
“% de varianza acumulado”: Porcentaje acumulado de varianza explicada por la componente
correspondiente y las anteriores.
En nuestro caso los dos primeros factores consiguen explicar prácticamente el 91% de la
varianza de las variables originales, lo que indica un buen modelo factorial.
También se muestran las cantidades de varianza explicada por cada factor extraído una vez
realizada la rotación de los mismos. En ese caso, el factor 1 explica más del 56% de la
varianza, mientras que el segundo factor explica el 34.63%.
15
Resultados ACP 8
Matriz de componentesa
Matriz de casos
Componente
1 2 Nacionalidad F1 F2
Nº vis itas anteriores ,943 ,254 Alemana 0,142 0,380
Nº Noches ,860 -,309
Austriaca -0,201 -0,666
Edad del turista ,848 ,447
Gas to por pers ona y día -,404 ,873 Belga -0,167 -0,331
Método de extracción: Análisis de componentes principales . Británica 0,309 -0,619
a. 2 componentes extraídos
Española -0,505 0,466
Europa excomunista -0,471 -0,805
Cargas factoriales para cada variable
Finlandesa 3,374 0,988
sobre las componentes no rotadas.
Cada valor representa la correlación Francesa -0,254 0,443

entre la variable y la componente. Holandesa -0,026 -1,534


Pueden ayudar a formular una Italiana -0,526 0,058
interpretación de los factores. Resto América 0,524 -2,126

La mayoría de las variables originales Resto Europa -0,436 0,643

presentan una correlación alta con el Resto mundo -0,734 1,234


primero de los factores, lo que dificulta Sueca -0,720 1,335
la interpretación de los mismos. Suiza -0,308 0,535

16
Resultados ACP 9
Correlaciones reproducidas y residuos
Patrón predictivo de las relaciones. Si la solución es correcta, las correlaciones
reproducidas están próximas a los valores observados, Los residuos indican la
diferencia entre valores reproducidos y observados. La mayoría de estos valores
deberán ser pequeños.
Correlaciones reproducidas

Nº vis itas Edad del Gas to por


Nº Noches anteriores turis ta persona y día
Correlación reproducida Nº Noches ,835 b ,733 ,591 -,617
Nº vis itas anteriores ,733 ,954 b ,913 -,159
Edad del turis ta ,591 ,913 ,918 b ,047
Gas to por pers ona y día -,617 -,159 ,047 ,926 b
Res iduala Nº Noches -,030 -,082 ,109
Nº vis itas anteriores -,030 -,026 -,011
Edad del turis ta -,082 -,026 -,063
Gas to por pers ona y día ,109 -,011 -,063
Método de extracción: Análisis de Componentes principales .
a. Los res iduos se calculan entre las correlaciones obs ervadas y reproducidas . Hay 3 (50,0%)
res iduales no redundantes con valores absolutos mayores que 0,05.
b. Comunalidades reproducidas

a. Hay 3 (50,0%) residuales no redundantes con valores absolutos mayores que 0,05.
Los valores residuales son pequeños. La bondad del modelo factorial estimado es
bastante alta 17
Resultados ACP 10
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentes

Componente
1 2
Nº Noches ,189 -,397
Nº vis itas anteriores ,437 ,040
Edad del turista ,477 ,211
Gas to por pers ona y día ,194 ,771
Método de extracción: Análisis de componentes principales .

Método de rotación: Normalización Varimax con Kaiser.

Valores utilizados para el cálculo de las puntuaciones para cada caso. Para cada
nacionalidad, la puntuación factorial se calcula multiplicado los valores de la variable
por los coeficientes de la puntuación factorial.

18
Gráfico ACP: Diagrama de dispersión

19
Rotación de los ejes: Procedimientos
Objetivo:
Obtener nuevos factores más fáciles de interpretar. Cada variable original
tendrá una correlación lo más próxima a 1 con uno de los factores y lo más
próximas a 0 con el resto. Cada factor tendrá correlación alta con un grupo de
variables y baja con el resto.

1. Rotación ortogonal: Queda preservada la incorrelación entre los factores.


VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma
de varianzas de las cargas factoriales al cuadrado dentro de cada factor.
Problema: Las variables con mayores comunalidades tienen mayor influencia
en la solución final. Para evitarlo: normalización de Kaiser: Cada carga factorial
al cuadrado se divide por la comunalidad de la variable correspondiente
(VARIMAX normalizado). Ventaja: queda inalterada tanto la varianza total
explicada por los factores como la comunalidad de cada una de las variables
EQUAMAX y el QUARTIMAX

2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se


consigue una asociación más nítida de cada variable con el factor
correspondiente.

OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad.


Tampoco se ve modificada la comunalidad en la rotación oblicua 20
Resultados Rotación VARIMAX 1
Matriz de componentes rotadosa

Componente
1 2
Nº vis itas anteriores ,960 -,182
Edad del turista ,958 ,033
Gas to por pers ona y día ,017 ,962
Nº Noches ,640 -,652
Método de extracción: Análisis de componentes principales .

Método de rotación: Normalización Varimax con Kaiser.


a. La rotación ha convergido en 3 iteraciones .

Las cargas factoriales quedan más repartidas


Para la componente 1 las variables con mayores cargas factoriales son: “nº de
visitas anteriores” (+), “edad del turista” (+) y “nº de noches” (+), aunque ésta
última, también presenta una alta carga factorial con la componente 2.
Con la componente 2 además de el “nº de noches” (-), se da una alta
correlación con : “gasto por persona y día” (+).

Explicación:
Componente 1: Los turistas de más edad son los que más veces han repetido
visita a Tenerife, y los que más alargan su estancia durante sus vacaciones.
Componente 2: Los que más gastan por persona y día son los que menor
tiempo de estancia tienen.
21
Resultados Rotación VARIMAX 2
MATRIZ DE CASOS ROTADOS Factor 1:
Nacionalidad F1 F2
Cuadrante positivo:
Alemana 0,293 0,280
Nacionalidades: Finlandesa, Alemana y
Austriaca -0,471 -0,512 Británica.
Belga -0,294 -0,226 Nº visitas anteriores, edad, nº noches
Cuadrante negativo:
Británica 0,008 -0,692
Nacionalidades: Resto
Española -0,252 0,640
Europa excomunista -0,775 -0,520 Factor 2:
Finlandesa 3,467 -0,580
Cuadrante positivo:
Francesa -0,036 0,510
Nacionalidades: Alemana, Española, Francesa,
Holandesa -0,691 -1,370 Italiana, Resto de Europa, Resto del Mundo,
Italiana -0,449 0,281 Sueca y Suirza.
Gasto noche persona
Resto América -0,454 -2,142
Cuadrante negativo:
Resto Europa -0,112 0,769 Nacionalidades: Resto.
Resto mundo -0,123 1,430 Nº noches
Sueca -0,067 1,515
Suiza -0,044 0,616

22
Gráfico ACP rotado: Diagrama de dispersión

23

Potrebbero piacerti anche