Sei sulla pagina 1di 15

El anlisis de Componentes

Principales

Uso e intepretacin.

Prof. Luis Carvacho Bart
Mayo de 2007

Concepto general
El Anlisis de Componentes Principales
(ACP), es un mtodo que busca crear
variables sintticas, o en trminos simples,
nuevas variables que encuentren los rasgos
comunes de otras conocidas. Una variable
sinttica, ser as, una especie de
combinacin de variables segn lo que
tengan ellas en comn.
Esquema conceptual
Suponga que tiene 5 variables:
Alfa
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
A11
A12
Beta
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
B11
B12
Gama
G1
G2
G3
G4
G5
G6
G7
G8
G9
G10
G11
G12
Delta
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
Epsilon
E1
E2
E3
E4
E5
E6
E7
E8
E9
E10
E11
E12
Suponga que
calcula una matriz
de correlaciones
para estas 5
variables y obtiene
que Alfa
correlaciona con
Epsilon, Beta con
Delta y Gama con
ninguna de las
anteriores
Reordenemos para
que sea ms claro
Recuerde, sin
embargo, que una
correlacin siempre
implica una varianza
explicada y una
varianza no explicada,
es decir, la variacin de
una variable, rara vez
es capaz de explicar la
variacin de la otra
variable en su totalidad
Varianza explicada
Varianza no explicada
Note que no
necesariamente
deben ser las
mismas
proporciones de
varianza explicada y
no explicada en
ambos grupos de
variables. Como
puede ver, en el
caso de Alfa y
Epsilon, la varianza
explicada es mayor
que en el caso de
Beta y Delta.
La idea de los Componentes Principales es combinar lo
que tienen en comn las variables relacionadas y generar
variables nuevas con eso, es decir variables sintticas
que se llaman as porque sintetizan lo comn de dos o
ms variables en una sola. Vea:
Ahora tiene dos variables nuevas: una que combina lo
que tienen en comn las variables originales Alfa y
Epsilon y la otra que combina lo que tienen en comn
Beta y Delta.
Esas variables sintticas reciben el nombre de Factores al
ser calculadas, y de Componentes al ser interpretadas por
el usuario. Puede decirse que un Factor pasa a
convertirse en Componente al momento de ponerle
nombre, en este caso tenemos dos componentes:
AlfaEpsilon y BetaDelta
Con respecto a Gama, que no tena relacin con las otras
4 variables, podra decirse que queda como un
componente ms, as, de 5 variables originales se tiene
ahora 3 componentes.
Como puede ver, los componentes agrupan lo que tienen
en comn variables que estn corelacionadas, por lo que
conceptualmente, este anlisis asume que existe una
correlacin significativa entre las variables en que se
buscarn componentes. En este ejemplo se mostr
correlacin entre pares de variables, pero perfectamente
puede haber 3, o ms variables correlacionadas que se
podran transformar en componente.
Una ltima cosa: considere que si para formar los
componentes se logr sintetizar lo que tenan en comn
variables que estn correlacionadas entre s, resulta
evidente entonces que los componentes, entre ellos, no
estn correlacionados (piense, piense). Sepa entonces,
que los componentes, por construccin, nunca son
colineales.
Resumen insistente
Los factores son la expresin estadstica de los componentes,
es decir el resultado de los clculos que se realizan para
obtenerlos y tienen una expresin numrica. Un factor se
transforma en componente cuando el investigador puede darle
sentido conceptual a dicho factor.
Por ejemplo, tras el clculo respectivo usted podra obtener 3
factores: Factor 1, Factor 2, Factor 3. Cuando logre darles a
esos factores un nombre representativo, lo habr
transformado en componente; as, si en lugar de lo anterior
usted logra dar nombres como : Salud, Educacin, Vivienda
y propiedad en lugar de Factor 1, Factor 2, Factor 3, recin
estar hablando de componentes.
La verdad es que esta ltima parte es la ms
complicada de todo el proceso, que hay que
admitir tambin, sencillo no es. Si no logra
usted darle un sentido conceptual a los factores
para transformarlos en componentes, el anlisis
sencillamente no result. Tan triste como eso.
Existen tcnicas para averiguar el sentido de un
factor para poder transformarlo en componente;
es un ejercicio puramente conceptual segn los
indicios que entregan los clculos hechos por el
SPSS. Lo que ac se debe reiterar es que
obtener componentes a partir de factores es un
esfuerzo conceptual y NO implica nuevos
clculos.
Caso de estudio: Amrica Latina
Pais Mort_inf Poblacin Densidad Pob_urbana Esp_Vida_M Esp_vida_H Alfabetismo Crec_pob Ingreso Caloras
Argentina 25.6 33900 12.0 86.0 75.0 71.5 95.0 1.3 3408 3113
Barbados 20.3 256 605.0 45.0 78.0 75.5 99.0 0.2 6950 2780
Bolivia 75.0 7900 6.9 51.0 64.0 61.5 78.0 2.7 730 1916
Brasil 66.0 156600 18.0 75.0 67.0 62.0 81.0 1.3 2354 2751
Chile 14.6 14000 18.0 85.0 78.0 74.5 93.0 1.7 2591 2581
Colombia 28.0 35600 31.0 70.0 75.0 72.0 87.0 2.0 1538 2598
Costa Rica 11.0 3300 64.0 47.0 79.0 77.5 93.0 2.3 2031 2808
Cuba 10.2 11100 99.0 74.0 78.0 76.0 94.0 1.0 1382 2450
Domincan R. 51.5 7800 159.0 60.0 70.0 68.0 83.0 1.8 1034 2359
Ecuador 39.0 10700 39.0 56.0 73.0 70.0 88.0 2.0 1085 2531
El Salvador 41.0 5800 246.0 44.0 69.0 66.5 73.0 2.0 1078 2317
Guatemala 57.0 10300 97.0 39.0 67.0 64.5 55.0 2.6 1342 2235
Haiti 109.0 6500 231.0 29.0 47.0 45.0 53.0 1.6 383 2013
Honduras 45.0 5600 46.0 44.0 70.0 67.5 73.0 2.7 1030 2247
Mexico 35.0 91800 46.0 73.0 77.0 73.0 87.0 1.9 3604 3052
Nicaragua 52.5 4100 33.0 60.0 67.0 64.0 57.0 2.7 447 2265
Panama 16.5 2600 34.0 53.0 78.0 74.5 88.0 1.9 2397 2539
Paraguay 25.2 5200 11.0 48.0 75.0 73.5 90.0 2.7 1500 2757
Peru 54.0 23650 18.0 70.0 67.0 65.0 85.0 2.0 1107 2186
Uruguay 17.0 3200 18.0 89.0 77.0 74.0 96.0 0.8 3131 2653
Venezuela 28.0 20600 22.0 91.0 76.0 73.0 88.0 2.2 2829 2582
Examine estos datos censales de Amrica Latina
Para que un anlisis de componentes principales se
pueda interpretar, es muy importante establecer el sentido
conceptual de las variables entre positivas, negativas y
neutras.
Una variable positiva, es la que representa una situacin
buena o deseable en tanto mayor sea el valor de la
variable
Variables negativas son las que representan una situacin
no deseable o desfavorable mientras mayor sea el valor
de la variable
La variables neutras no representan algo deseable o no
deseable, sino un fenmeno que no se puede evaluar en
bueno o malo segn el valor de la variable.
Observe la calificacin de estas variables
Positiva
Negativa
Neutra
A diferencia de las positivas, en el caso de Mortalidad
Infantil, es evidente que un alto valor indica una condicin
indeseable para esa variable, en tanto que con la
Esperanza de Vida, por ejemplo, la idea es la contraria.
Discusiones ms, discusiones menos, no es fcil dar un
concepto de bueno o malo para las variables neutras, as
que quedan con esa categora
Es MUY importante para una mejor interpretacin de los
componentes que se obtendrn, que todas las variables
tengan el mismo sentido, ya sea positivo o negativo. Las
variables neutras no se consideran en esto
Ya que la mayor parte de las variables parecen ser
positivas, habra que cambiar el sentido de la nica
negativa para que quede positiva. Esto es un simple
ejercicio conceptual, as, si lo que tenemos es la tasa de
mortalidad infantil (por cada mil nacidos), podemos
reemplazar esa variable por sobrevivencia infantil, que
sera el simple complemento de mil de la mortalidad.
Sobr_inf
974.4
979.7
925.0
934.0
985.4
972.0
989.0
989.8
948.5
961.0
959.0
943.0
891.0
955.0
965.0
947.5
983.5
974.8
946.0
983.0
972.0
Vea cmo quedara esta nueva variable
Habra que proceder de una manera
similar con otras variables que necesitaran
cambio de sentido. Muchas veces lo
complicado no es la funcin matemtica
para hacer el cambio, sino el concepto de
la variable resultante qu nombre le
pongo?
Clculo de los factores
Una vez cargados los datos al SPSS, el
clculo de los factores de realiza a travs
de Analyze Data Reduction - Factor
Se escogen las variables de aqu
Y por medio de este botn
Se pasan para ac; en este caso, vamos
a procesar todas las variables.
Esta entrada es opcional y slo se usa
cuando se desean filtrar casos de
acuerdo a un valor establecido de la
variable de seleccin. Nosotros no la
usaremos.
Paciencia, todo a su tiempo.
Presione este botn y
veamos qu pasa.
Resultados
El primer cuadro de resultados
se llama Comunalidades, y
para ser honestos, no hay forma
de entender lo que dice por s
solo.
As que mejor dejmoslo ah
para que no moleste mientras
tanto.
Este cuadro s dice muchas cosas y es
punto de inicio del anlisis de nuestros
factores.
La clave de todo, son los Eigenvalues o
autovalores.
Este es el llamado vector de
autovalores y es la columna clave de
todo el asunto. Su valor indica el nmero
de variables originales al que equivale
cada factor.
En la primera columna aparece cada factor
potencialmente elegible. Inicialmente cada variable
podra ser un factor, por lo que aparecen en este
caso 10, ya que tenamos 10 variables originalmente.
Esto es ms bien terico, porque tener tantos
factores como variables no sirve para nada.
Si recuerda la introduccin, el primer
valor (5,212) significa que se encontraron
poco ms de 5 variables muy
correlacionadas y que significan ms o
menos lo mismo en trminos de
tendencias, entonces su varianza comn
se sintetiza en un factor, que hasta
aqu, se llama Factor 1.
Esta columna es la expresin porcentual
de lo mismo, y se interpreta como el
porcentaje de la varianza total de todas
las variables que es reunido en cada
factor.
Y esto es ms de lo mismo, ya que
entrega la acumulacin de la varianza
explicada que va aportando cada factor.
La gran pregunta que surge en este
momento es cuntos factores debo elegir? Hay ms de una forma de determinar el
nmero de factores adecuado, pero lo
habitual es seleccionar slo aquellos que
aporten varianza equivalente a al menos una
variable, es decir, factores con un autovalor
igual o superior a 1,0. En este caso, seran 3
factores.
SPSS adopta este criterio de manera
automtica, por eso en el lado derecho del
cuadro aparecen las estadsticas referidas a
3 factores.
En este caso, el resultado es maravilloso,
porque con los tres factores, se tiene una
varianza total explicada sobre el 86%, lo que
es macanudo, se vea por donde se vea.
Volveremos ahora al cuadro de
Comunalidades tras el prximo click de su
mouse. La comunalidad expresa qu
parte de la varianza de cada
variable est repartida en los
factores.
Estos 1,0 representan la comunalidad de las
variables repartidas en todos los factores
posibles. Como inicialmente hay tantos
factores como variables, el total de la
varianza de cada variable est repartida de
alguna forma entre esos 10 factores, por eso
este valor es 1,0 (adivine cunto suma esa
columna).
Esta segunda columna, expresa la
comunalidad de cada variable que est
repartida en el nmero de factores
seleccionados, que en este caso son 3. En
este caso, por ejemplo, el 97,8% de la
varianza de Esperanza de vida hombres
est repartida en los 3 factores en cuestin.
Si nos atenemos al concepto del autovalor,
podemos decir que los tres factores que
tenemos equivale a tantas variables como
sumen los autovalores. Una rpida suma de
ellos, nos da en este caso, 8,67
aproximadamente (o sea que los 3 factores
equivalen a 8,67 de las variables originales).
Ahora adivine cunto suma esta columna
por qu lo dice?
Estos cuadros no entregan mucha ms
informacin, pero es un buen momento para
meditar un poco. Observe que con 3
factores estamos agrupando lo que tienen
en comn casi 9 variables.
Esto claramente implica que las variables originales
estaban fuertemente correlacionadas entre s, pero
que en realidad esas variables estn
representando slo 3 tendencias. Es evidente,
entonces, que un mtodo de sntesis de variables
como este, era totalmente aplicable.
Lo que ahora nos queda, es tratar de
identificar conceptualmente qu son las 3
tendencias que el anlisis factorial nos est
diciendo que se ocultaban en esas 10
variables originales. Ahora nos ponemos a
ello.
Semifinales
Component Matrix
a
.899 .158 -.364
.123 .129 .902
.036 -.958 -.177
.617 .405 .434
.928 .198 -.254
.907 .184 -.339
.903 .014 -.024
-.525 .638 -.332
.739 -.551 .148
.828 .007 .284
Sobr_i nf
Pobl aci n
Densi dad
Pob_urbana
Esp_Vi da_M
Esp_vi da_H
Al fabeti smo
Crec_pob
Ingreso
Caloras
1 2 3
Component
Extracti on Method: Pri nci pal Component Anal ysi s.
3 components extracted.
a.
Este cuadro es el que finalmente nos
indicar qu son los componentes que
hemos elegido. Se llama tabla de
saturaciones.
Los valores de saturacin pueden
interpretarse como la correlacin entre
el factor y cada variable, por tanto, los
valores ms cercanos a 1 o a -1 son
indicativos de una fuerte presencia de
la variable en el factor.
La interpretacin del componente se
hace en funcin de las variables con
mayor saturacin en cada cual. Veamos las mayores saturaciones en
cada factor.
Con las mayores saturaciones
determinadas, se procede a intentar dar
un sentido a cada factor. El factor 1
tiene grandes cargas en esperanza de
vida, alfabetismo, sobrevivencia infantil,
poblacin urbana, ingreso y caloras.
No parece muy fcil agrupar todas
estas variables en un solo concepto.
Esperanza de vida puede relacionarse
bien con sobrevivencia infantil y
caloras, tal vez con poblacin urbana,
todo tiene que ver con condiciones de
salud y nutricin. El problema es que el
ingreso y el alfabetismo no encajan
conceptualmente muy bien con lo
anterior.
Veamos el factor 2. All tampoco es
muy clara su conceptualizacin. Si bien
densidad y crecimiento de la poblacin
parecen similares, una de las variables
se refiere a dinmica de la poblacin y
la otra muestra un situacin esttica.
Adems el signo negativo de densidad
complica un poco ms la interpretacin
(eso significa que cuando aumenta el
valor de densidad, el factor disminuye
el suyo y viceversa).
Finalmente, el factor 3 es el ms simple
de conceptualizar. Se refiere a la
poblacin como magnitud. Simple.
Es posible forzar la interpretacin de
cada factor con algo de imaginacin,
pero la idea es que sta no sea muy
rebuscada y de difcil concepto.
En los casos de conceptualizacin
difcil existe una herramienta auxiliar
que se llama rotacin del espacio
factorial.
Antes de pasar a ello, sin embargo,
haremos una pequea recapitulacin.
Otro resumen insistente
El anlisis factorial nos ha permitido sintetizar en 3
factores las tendencias observadas en 10 variables
iniciales.
Esta sntesis fue posible porque las variables
originales que ahora son parte de los 3 factores
estaban correlacionadas entre s.
No siempre es posible dar un sentido inmediato a los
factores tras el anlisis de la tabla de saturaciones.
Efectivamente se puede forzar la interpretacin, pero
ello no es recomendable.
Una forma de reenfocar el anlisis de saturaciones se
consigue mediante la tcnica de rotacin del espacio
factorial, punto en el que nos encontramos.
Rotacin del espacio factorial
La rotacin consiste en reorientar los
ejes del espacio factorial (cada eje
corresponde a las cargas, es decir
oscila entre -1 y 1), con lo que se
conserva la relacin entre las variables,
aunque cambien sus coordenadas, es
decir, sus cargas. Slo es posible
imaginar esta situacin con un mximo
de 3 factores; con ms, el desarrollo es
slo matemtico al entrar el espacio
factorial en una cuarta dimensin o
ms.
Hay muchos algoritmos de rotacin. El
que sirve es que d una solucin
satisfactoria a nuestro esfuerzo por
interpretar el factor y convertirlo en un
componente.
Para rotar se hace lo siguiente: se
vuelve a calcular todo como al
principio.
Y se aprieta este botn
Con lo que aparece el
control de rotaciones
En este caso,
mostraremos el
resultado del clculo al
seleccionar la rotacin
Quartimax
Resultado anterior y rotado
Component Matrix
a
.899 .158 -.364
.123 .129 .902
.036 -.958 -.177
.617 .405 .434
.928 .198 -.254
.907 .184 -.339
.903 .014 -.024
-.525 .638 -.332
.739 -.551 .148
.828 .007 .284
Sobr_i nf
Pobl aci n
Densi dad
Pob_urbana
Esp_Vi da_M
Esp_vi da_H
Al fabeti smo
Crec_pob
Ingreso
Caloras
1 2 3
Component
Extracti on Method: Pri nci pal Component Anal ysi s.
3 components extracted.
a.
Rotated Component Matrix
a
,966 -,006 -,180
-,032 ,055 ,917
-,118 ,898 -,362
,587 -,174 ,598
,980 -,019 -,061
,974 -,025 -,150
,875 ,190 ,120
-,314 -,787 -,271
,573 ,722 ,145
,742 ,231 ,404
Sobr_inf
Poblacin
Densidad
Pob_urbana
Esp_Vida_M
Esp_vida_H
Alf abetismo
Crec_pob
Ingreso
Caloras
1 2 3
Component
Extraction Method: Principal Component Analysis.
Rotation Method: Quartimax with Kaiser Normalization.
Rotation converged in 5 iterations.
a.
Esta es la solucin anterior Y esta la solucin rotada
En el factor 1 algo se ha aclarado el
panorama, y este factor parece
representar el componente salud y
educacin. Vea cmo se relacionan las
variables conceptualmente en estas dos
ideas principales.
En el factor 2 definitivamente se nos
unen densidad y crecimiento de la
poblacin, y se nos agrega ingreso. Este
componente podra ser dinmica de la
poblacin y condiciones econmicas
El factor 3, finalmente hace referencia a
aspectos poblacionales, por lo que este
componente podra llamarse poblacin
y poblamiento
Si bien lo ideal en trminos de
interpretacin de componentes es que
stos tengan un nombre simple, no es
ningn pecado que hagan referencia a
situaciones compuestas, como salud y
educacin, por ejemplo.
Hay ocasiones en que las soluciones
rotadas tampoco dan respuestas
satisfactorias, ya que pueden confundirse
conceptos que no son asimilables entre s.
En nuestro caso, la variable densidad
dificulta mucho la interpretacin correcta
del componente 2.
La solucin en esos casos puede ser de dos tipos:
Aumentar el nmero de componentes, por ejemplo a 4
(se puede) y ver si se produce una mejor separacin o
combinacin de esa variable.
Eliminar la variable ofensora. Hay ocasiones en que
finalmente nos damos cuenta de que alguna variable
que estimbamos importante en nuestro estudio en
realidad es ms perturbadora que un apoyo a la
comprensin del fenmeno subyacente. Habitualmente
la variable densidad, por ser una variable compuesta
(poblacin y superficie) no es un aporte explicativo, y
generalmente ocasiona ms problemas que lo que
puede ayudar. En este caso, una buena solucin sera
tambin recalcular los componentes eliminando esta
variable.
Puntajes factoriales
Ahora que ya tenemos los componentes y
que son:
Salud y educacin (factor 1)
Dinmica de la poblacin (factor 2)
Poblacin y poblamiento (factor 3)
1
2
3
Qu necesitamos? Necesitamos los valores
de las observaciones de cada componente.
No olvide que en el fondo estas son nuevas
variables que estn sintetizadas a partir de
otras, pero que finalmente terminan tambin
utilizndose como variables comunes y
corrientes.
As, por ejemplo, nos hace falta el
valor de Brasil en salud y educacin,
o el de Chile, o Argentina, o del pas
que sea y para cualquiera de los
componentes
Puntajes factoriales
Los puntajes se obtienen
presionando ese botn del
panel principal del
procedimiento Factor Analysis
Aparecer ese panel, donde lo
fundamental es activar ese
checkmark. El mtodo djelo
en Regression.
Ahora repita el clculo que le
result ms satisfactorio,
rotacin incluida si es
necesario.
Los puntajes factoriales se
agregarn a la tabla de
variables original, a la derecha.
Se expresan en trminos de
Score Z.
Aqu tiene una muestra para
que sepa dnde buscar.
Estas son las variables
sintticas que se agregaron en
este caso, no olvide ponerles
los nombres que corresponden.
Eplogo
Pues eso es. Todo el trabajo hecho fue para obtener
esas nuevas variables sintticas. Recuerde que para
que operen como tales, es fundamental ponerles un
nombre. No las deje como Factor 1, Factor 2, etc.
Eso no sirve para nada.
Muy rara vez, el clculo de componentes principales
es un fin en s mismo. Lo ms habitual es utilizarlos
en operaciones estadsticas sucesivas, sean las que
sean.
Fcil verdad?

Potrebbero piacerti anche