Sei sulla pagina 1di 36

COMPONENTES PRINCIPALES

Si es posible describir con precisin los valores de p variables por un


pequeo subconjunto r<p de ellas, se habr reducido la dimensin a costa
de una pequea prdida de informacin.

Dadas n observaciones de p variables, se analiza si es posible representar
adecuadamente esta informacin con un nmero menor de variables
construidas como combinaciones lineales de las originales. Su utilidad es
doble:

1. Permite representar en un espacio de dimensin pequea,
observaciones de un espacio general p-dimensional. Es el primer paso
para identificar posibles variables latentes o no observadas, que estn
generando la variabilidad de los datos.

2. Permite transformar las variables originales, en general
correlacionadas, en nuevas variables incorrelacionadas, facilitando la
interpretacin de los datos.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
1.- PLANTEAMIENTO DEL PROBLEMA

Supongamos que se dispone de los valores de p-variables en n elementos
de una poblacin dispuestos en una matriz X de dimensiones np, donde
las columnas contienen las variables y las filas los elementos.

Supondremos en este captulo que previamente hemos restado a cada
variable su media, de manera que las variables de la matriz X tienen media
cero y su matriz de covarianzas vendr dada por 1/n XX.

Ejemplo: Problema 1

El problema que se desea resolver es cmo encontrar un espacio de
dimensin ms reducida que represente adecuadamente los datos. El
problema puede abordarse desde tres perspectivas equivalentes.


ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
a) Enfoque descriptivo
Se desea encontrar un subespacio de dimensin menor que p tal que al
proyectar sobre l los puntos conserven su estructura con la menor
distorsin posible. Consideremos el caso de dos dimensiones (p=2).












El diagrama de dispersin y una recta, proporciona un buen resumen de
los datos, ya que las proyecciones de los puntos sobre ella indican
aproximadamente la situacin de los puntos en el plano.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
La representacin es buena porque la recta pasa cerca de todos los puntos
y estos se deforman poco al proyectarlos. Esta propiedad puede
concretarse exigiendo que las distancias entre los puntos originales y sus
proyecciones sobre la recta sean lo ms pequeas posibles.

Si consideramos un punto x
i
y una direccin a
1
=(a
11
,..., a
1p
), definida por un
vector a
1
de norma unidad, la proyeccin del punto x
i
sobre esta direccin
es el escalar:


y el vector que representa esta proyeccin ser z
i
a
1
. Llamando r
i
a la
distancia entre el punto x
i
, y su proyeccin sobre la direccin a
1
, este
criterio implica:



donde |u| es la norma euclidiana o mdulo del vector u
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
En la figura se muestra que al proyectar cada punto sobre la recta se forma
un tringulo rectngulo donde la hipotenusa es la distancia al origen del
punto al origen, (x
i
x
i
)
1/2
, y los catetos la proyeccin del punto sobre la
recta (z
i
) y la distancia entre el punto y su proyeccin (r
i
). Por Pitgoras:


y sumando esta expresin para todos los puntos, se obtiene:



Como el primer miembro es constante, minimizar
La suma de las distancias a la recta de todos los puntos, es equivalente a
maximizar.

La suma al cuadrado de los valores de las proyecciones. Como las
proyecciones zi son, variables de media cero, maximizar la suma de sus
cuadrados equivale a maximizar su varianza
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
En el espacio de p-dimensiones, lo caracterstico de la nube de puntos son
sus distancias relativas. Tratemos de encontrar un subespacio de
dimensin 1, es decir, un recta tal que los puntos proyectados conserven lo
ms posible sus distancias relativas.

Si llamamos a los cuadrados de las distancias originales entre
los puntos y a las distancias entre los puntos proyectados
sobre una recta, deseamos que.

sea mnima.

Como la suma de las distancias originales es fija, minimizar D requiere
maximizar , las distancias entre los puntos proyectados.

Se demuestra que la direccin es la misma que proporciona una variable
escalar de varianza mxima.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
b) Enfoque estadstico:
Representar puntos p dimensionales con la mnima prdida de informacin
en un espacio de dimensin uno es equivalente a sustituir las p variables
originales por una nueva variable, z
1
, que resuma ptimamente la
informacin. Esto supone que la nueva variable debe tener globalmente
mxima correlacin con las originales o, en otros trminos, debe permitir
prever las variables originales con la mxima precisin (utilizar la variable
de mxima variabilidad).

c) enfoque geomtrico
Si consideramos la nube de puntos de la figura vemos que los puntos se
sitan siguiendo una elipse y podemos describir su orientacin dando la
direccin del eje mayor de la elipse y la posicin de los punto por su
proyeccin sobre esta direccin. En varias dimensiones tendremos
elipsoides y la mejor aproximacin a los datos es la proporcionada por el
eje mayor del elipsoide. Considerar los ejes del elipsoide como nuevas
variables originales supone pasar de variables correlacionadas a variables
ortogonales
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
2.- CALCULO DE LOS COMPONENTES

2.1 Clculo del primer componente
Ser la combinacin lineal de las variables originales que tenga varianza
mxima. Los valores de este primer componente en los n individuos se
representarn por un vector z
1
, dado por

Como las variables originales tienen media cero tambin z
1
tendr media
nula. Su varianza ser:


S es la matriz de varianzas-covarianzas. Para maximizar la varianza sin
limite aumentamos el mdulo del vector a
1
. Para que la maximizacin
tenga solucin debemos imponer una restriccin al mdulo del vector a
1
, y,
sin prdida de generalidad, impondremos que a
1
a
1
=1. Introduciremos esta
restriccin mediante el multiplicador de Lagrange:

y maximizaremos esta expresin
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
cuya solucin es:


que implica que a
1
es un vector propio de la matriz S, y su
correspondiente valor propio.

Para determinar qu valor propio de S es la solucin de la ecuacin
tendremos en cuenta que, multiplicando por la izquierda por a
1
esta
ecuacin,



y concluimos, que es la varianza de z
1
. Como esta es la cantidad que
queremos maximizar, ser el mayor valor propio de la matriz S.
Su vector asociado, a
1
, define los coeficientes de cada variable en el
primer componente principal.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Problema 1.- Las observaciones corresponden a acciones que se cotizan
en el mercado y las variables a tres medidas de rentabilidad de estas
acciones durante un perodo de tiempo. Las variables son : X1 es la
rentabilidad efectiva por dividendos, X2 es la proporcin de beneficios que
va a dividendos y X3 el ratio entre precio por accin y beneficios.
Obs. X1 X2 X3
1 3.4 89.7 30.2
2 5.1 55.7 9.9
3 4.5 52.3 11.5
4 3.5 47.0 11.2
5 5.9 42.7 7.0
6 5.1 30.6 6.9
7 4.6 64.4 11.8
8 5.0 51.0 9.6
9 3.2 54.4 14.7
10 3.4 45.7 13.2
11 6.5 39.9 5.2
12 4.4 40.3 13.7
13 5.1 52.4 11.0
14 5.8 43.9 8.0
15 4.6 52.8 14.4
16 7.2 65.8 7.8
17 7.2 58.1 7.7
18 4.4 58.5 12.1
19 7.8 84.3 11.0
20 16.0 96.5 6.0
21 16.7 100.0 6.8
22 15.2 92.3 5.2
23 17.5 99.9 6.8
24 16.2 93.5 6.1
25 14.7 100.0 6.6
26 15.3 99.9 5.9
27 15.8 100.0 6.9
28 18.3 96.3 5.7
29 15.9 100.0 6.1
30 16.1 92.5 6.1
31 9.7 87.6 7.7
32 6.9 53.6 6.6
33 14.4 87.8 5.2
34 14.9 34.5 4.69
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Las medidas de asimetra y kurtosis indican un alejamiento de la
distribucin normal para las tres variables: las dos primeras tienen
valores muy bajos de la kurtosis, lo que indica alta heterogeneidad,
posiblemente por la presencia de dos grupos de datos distintos, y la
tercera tiene alta kurtosis, lo que sugiere la presencia de valores atpicos.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Estas caractersticas son muy claras en los histogramas de las variables.
La primera variable, rentabilidad efectiva por dividendos, x1, muestra dos
grupos de acciones con comportamiento distinto.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
El histograma de la segunda variable, x2, proporcin de beneficios
que va a dividendos, muestra tambin dos grupos de acciones.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Finalmente, la distribucin de la tercera variable es muy asimtrica, con un
valor atpico muy destacado. La evidencia disponible indica que las
acciones pueden probablemente dividirse en dos grupos ms
homogneos. Sin embargo, vamos a ilustrar el anlisis de todos los datos.
X3 el ratio entre precio por accin y beneficios.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
La matriz de varianzas y covarianzas de estas tres variables
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Como las dimensiones de las variables son distintas, no tiene sentido
calcular medidas promedio. Los histogramas de las tres variables han
mostrado una clara falta de normalidad. Una posibilidad, que
estudiaremos con ms detalle en el captulo siguiente, es transformar las
variables para facilitar su interpretacin. Tomando logaritmos, la matriz
de covarianzas de las variables transformadas,
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Se observa que los logaritmos modifican mucho los resultados. Los datos
ahora son ms homogneos y la variable de mayor varianza pasa a ser la
primera, el logaritmo de la rentabilidad efectiva, mientras que la menor es
la segunda, el logaritmo de la proporcin de beneficios que va a
dividendos. La relacin entre el logaritmo del ratio precio/beneficios (X3) y
la rentabilidad efectiva es negativa. Las otras relaciones son dbiles. Una
ventaja adicional de los logaritmos es que hace las variables
independientes de la escala de medida: Si multiplicamos las variables por
una constante al tomar logaritmos esto es equivalente a sumar una
cantidad y sumar una constante a los datos no altera su variabilidad. Por
tanto, al tomar logaritmos en las variables las varianzas pueden
compararse aunque los datos tengan distintas dimensiones. La varianza
media de las tres variables es

ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Clculo de los Autovalores: Para el clculo de los autovalores tenemos que
calcular las races de la ecuacin:
Las races del polinomio, obtenidas son
1
=0.521,
2
=0.113,
3
=6.5110
3
.

El autovector asociado a
1
nos da los pesos de la primera componente
principal. Para calcular el primer autovector resolvemos el sistema.


que conduce a:
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
El sistema es compatible indeterminado. Para encontrar una de las
infinitas soluciones tomemos la primera variable como parmetro, x,
resolvamos el sistema en funcin de x. La solucin es,


El valor de x se obtiene ahora imponiendo que el vector tenga norma
unidad, con lo que resulta:



el primer componente es

ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Donde X1,X2 y X3 son las variables en logaritmos. Por ejemplo, el valor de
esta nueva variable, la primera componente principal, para la primera
observacin (la primera accin) es



El primer componente principal puede aproximadamente escribirse.



y utilizando la definicin de las variables originales este componente
puede escribirse


es decir

ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Que indica que este primer componente depende bsicamente de la
variable X1, la rentabilidad por dividendos. Llamando z
1
=logZ
1
este
primer componente puede escribirse tambin como




que es, aproximadamente, de nuevo la variable x1, el cociente entre el
precio de la accin y los dividendos recibidos. Esta variable es la que
explica mejor la variabilidad conjunta de las acciones.

ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Problema 2.- La encuesta de presupuestos familiares en Espaa (EPF)
presenta los gastos medios de las familias: X
1
=alimentacin, X
2
=vestido y
calzado, X
3
=vivienda, X
4
=mobiliario domstico, X
5
=gastos sanitarios,
X
6
=transportes, X
7
=enseanza y cultura, X
8
=turismo y ocio, X
9
=otros
gastos, para 51 provincias. La matriz de covarianzas resume la variabilidad
de estas 9 variables en los 51 elementos observados. Como las
distribuciones de los gastos son muy asimtricas, las variables se han
expresado en logaritmos. El vector propio asociado al mayor valor propio,
0,348, define la siguiente variable:



z
1
es una suma ponderada de todos los gastos con mayor peso en los
gastos en enseanza y cultura (x
7
) y gastos sanitarios (x
5
). El menor peso
lo tiene el gasto en alimentacin (x
1
). Si calculamos las coordenadas z
1

para las provincias y las ordenamos por esta nueva variable las provincias
quedan prcticamente ordenadas por su renta. La primera componente
principal tiene pues en este caso una explicacin inmediata.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
2.2 Clculo del segundo componente

Vamos a obtener el mejor plano de proyeccin de las variables X. Lo
calcularemos estableciendo como funcin objetivo que la suma de las
varianzas de z
1
= Xa
1
y z
2
= Xa
2
sea mxima, donde a
1
y a
2
son los vectores
que definen el plano. La funcin objetivo ser:

..(1)

que incorpora las restricciones de que las direcciones deben de tener
mdulo unitario (a
i
a
i
) =1, i = 1, 2. Derivando e igualando a cero:



La solucin de este sistema es:
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
que indica que a
1
y a
2
deben ser vectores propios de S. Tomando los
vectores propios de norma uno y sustituyendo en (5.7), se obtiene que, en
el mximo, la funcin objetivo es


es claro que
1
y
2
deben ser los dos autovalores mayores de la matriz S y
a
1
y a
2
sus correspondientes autovectores. Observemos que la covarianza
entre z
1
y z
2
, dada por a
1
Sa
2
es cero ya que a
1
a
2
= 0, y las variables z
1
y z
2
estarn correlacionadas.

Puede demostrarse que si en lugar de maximizar la suma de varianzas, que
es la traza de la matriz de covarianzas de la proyeccin, se maximiza la
varianza generalizada (el determinante de la matriz de covarianzas) se
obtiene el mismo resultado.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Problema 3
El segundo componente principal para las variables del EPF es el
asociado al segundo valor propio mayor que es 0,032. El vector propio
asociado a este valor propio define la nueva variable:






Esta variable puede verse como la diferencia entre dos medias ponderadas
de los gastos. La primera da sobre todo peso a otros gastos (x
9
), y
transporte (x
6
).

Este segundo componente va a separar a provincias que envan recursos a
otras (alto valor de x9) y que tienen tambin altos gastos de transporte,
respecto a las que transfieren relativamente poco y tienen altos gastos de
educacin y sanidad.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
2.3 En General
El espacio de dimensin r que mejor representa a los puntos viene definido
por los vectores propios asociados a los r mayores auto valores de S. Si la
matriz X (S) tiene rango p, existen tantas componentes principales como
variables que se obtendrn calculando los valores propios o races
caractersticas,
1
,...,
p
, de la matriz S de las variables, mediante:

y sus vectores asociados son:

Los
i
son reales, al ser la matriz S simtrica, y positivos, ya que S es definida
positiva. Por ser S simtrica si
j
y
h
son dos races distintas sus vectores
asociados son ortogonales. En efecto:


y si
j

h
, a
h
a
j
=a
j
a
h
=0 y son ortogonales.
Si S fuese semidefinida positiva de rango p<p, lo que ocurrira si pp
variables fuesen combinacin lineal de las dems, habra solamente p races
caractersticas positivas y el resto seran ceros.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Sea Z la matriz cuyas columnas son los valores de las p componentes en
los n individuos, estas nuevas variables estn relacionadas con las
originales mediante:
Z = XA

donde AA = I.

Calcular los componentes principales equivale a aplicar una transformacin
ortogonal A a las variables X para obtener unas nuevas variables Z
incorrelacionadas entre s.

Esta operacin puede interpretarse como elegir unos nuevos ejes
coordenados, que coincidan con los .ejes naturales. de los datos.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Problema 4
Los restantes valores propios de la matriz de covarianzas de los datos de la
EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir
del tercero son muy pequeos y de valor similar. El tercer componente
principal es.




Puede interpretarse como la diferencia entre dos medias ponderadas. La
primera da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1,
alimentacin y 4, mobiliario domstico. La segunda a la 5, gastos sanitarios,
y a la 7, enseanza y cultura.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Problema 5: La matriz de varianzas y covarianzas de nueve indicadores
econmicos medidos en distintas empresas es.








Las races caractersticas de esta matriz se presentan en



Los vectores propios de los tres primeros componentes
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
3. PROPIEDADES DE LOS COMPONENTES
1. La suma de las varianzas de los componentes es igual a la suma de las
varianzas de las variables originales, y la varianza generalizada de los
componentes es igual a la original, pero con distribucin distinta.


Componentes principales conservan la Varianza generalizada,


2. La proporcin de variabilidad explicada por un componente es el
cociente entre su varianza, el valor propio asociado al vector propio que
lo define, y la suma de los valores propios de la matriz.

3. Las covarianzas entre cada componente principal y las variables X
vienen dadas por el producto de las coordenadas del vector propio que
define el componente por el valor propio (donde a
i
es el vector de
coeficientes de la componente z
i
).
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
Justificacin:


Donde Z = XA y A contiene en columnas los vectores propios de S y D es la
matriz diagonal de los valores propios. En consecuencia, la covarianza
entre.

4. Las correlacin entre un componente principal y una variable X es
proporcional al coeficiente de esa variable en la definicin del
componente, y el coeficiente de proporcionalidad es el cociente entre
la desviacin tpica del componente y la desviacin tpica de la variable.




5. Las r componentes principales (r<p) proporcionan la prediccin lineal
ptima con r variables del conjunto de variables X.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
6. Si estandarizamos los componentes principales (Z), dividiendo cada
uno por su desviacin tpica, se obtiene la estandarizacin
multivariante de los datos originales.


D
1/2
matriz inversa de desviaciones tpicas de las componentes. La
estandarizacin multivariante de una matriz de variables X de media
cero es.


y ambas variables estn incorreladas y tienen matriz de covarianzas
identidad. Se diferencian en que unas pueden ser una rotacin de las
otras, lo que es indiferente al tener todas las mismas varianzas.

Por tanto, la estandarizacin multivariante puede interpretarse como :

(1) obtener los componentes principales;
(2) estandarizarlos para que tengan todos la misma varianza.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
La transformacin mediante componentes principales conduce a variables
incorreladas pero con distinta varianza, puede interpretarse como rotar los
ejes de la elipse que definen los puntos para que coincidan con sus ejes
naturales. La estandarizacin multivariane produce variables incorreladas
con varianza unidad, lo que supone buscar los ejes naturales y luego
estandarizarlos.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
5. Seleccin del nmero de componentes
1. Realizar un grfico de
i
frente a i. Seleccionar componentes hasta que
los restantes tengan aproximadamente el mismo valor de
i
. La idea es
buscar un codo en el grfico, es decir, un punto a partir del cual los
valores propios son aproximada mente iguales.

2. Seleccionar componentes hasta cubrir una proporcin determinada
de varianza, como 80% o 90%. Debe aplicarse con cierto cuidado. Por
ejemplo, es posible que un nico componente recoja el 90% de la
variabilidad y sin embargo pueden existir otros componentes que sean
muy adecuados para explicar la forma de las variables.

3. Desechar los componentes asociados a valores propios inferiores a
una cota, que suele fijarse como la varianza media Para la matriz
de correlacin, el valor medio es 1, seleccionar los valores propios
mayores a 1. (Regla arbitraria: una variable independiente del resto
suele llevarse un componente principal y puede tener un valor propio
mayor que la unidad. Sin embargo, si esta incorrelada con el resto
puede ser una variable poco relevante para el anlisis).
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
ANLISIS NORMADO CON CORRELACIONES
Los componentes principales normados se obtiene calculando los vectores y
valores propios de la matriz correlacin R. Llamando
R
p
a las races
caractersticas de esa matriz, que suponemos no singular, se verifica que:


La proporcin de variacin explicada por
R
p
ser:

Ejemplo 6: La matriz de correlacin de los nueve indicadores econmicos








Los valores propios son:
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO
y los vectores propios asociados a los tres primeros valores propios son:





Con la matriz de varianzas las variables con ms peso en el componente
eran las que tenan una mayor varianza: la 2, luego la 3 y finalmente las
1,4,5 y 6 con un peso parecido. Al utilizar la matriz de correlaciones este
efecto desaparece, y el peso de las variables est ms relacionado con las
correlaciones. La proporcin de variabilidad explicada por el primer
componente cambia mucho: de 878, 5/1441,8 = 60, 9% a 3.7/9 = 41% .

El segundo componente cambia completamente: ahora est prcticamente
asociado a las tres ltimas variables. La proporcin de variabilidad que
explica ha aumentado considerablemente, del 196/1441,8 = 13, 6% a
2.72/9 = 30% . El tercer vector propio es tambin distinto en ambas
matrices.
ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

Potrebbero piacerti anche