Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Gran parte del material de los primeros nueve capítulos de este libro corresponden al análisis
unidimensional o invariados de datos. Es decir los métodos de análisis presentados fueron
orientados principalmente hacia los valores de datos escalares y sus distribuciones. Sin embargo,
en muchas situaciones prácticas, los conjuntos de datos se componen de observaciones
vectoriales. En dichos casos, cada registro de datos consta de observaciones simultáneas de
variadas cantidades. Estos conjuntos de datos se conocen como multivariadas. Algunos ejemplos
de datos atmosféricos multivariados incluyen observaciones simultáneas de múltiples variables en
una ubicación, o un campo atmosférico representado por un conjunto de valores de punto de
cuadrícula en un momento determinado.
Los métodos univariantes pueden aplicarse, y son aplicados, a los elementos escalares individuales
de las observaciones a los datos multivariantes. El atributo diferenciador de los métodos
multivariados, es que se consideran tanto el comportamiento articular de las observaciones
simultáneas múltiples, como las variaciones de los elementos de datos individuales. Los capítulos
restantes de este libro presentan introducciones a algunos de los métodos multivariados que se
utilizan con mayor frecuencia con los datos atmosféricos. en esto se incluye los enfoques para la
reducción de datos, la simplificación estructural, caracterización y resumenes de múltiples
dependencias, predicción de subconjuntos de las variables de las restantes, agrupación y
clasificación de las observaciones multivariadas.
Tal como se representan las observaciones n en la fila del vector en la ecuación 10,1, se han
apilado verticalmente para producir una matriz rectangular. De manera convencional, el primero
de los dos sub números de los elementos escalares de una matriz denota el número de fila, y el
segundo indica el número de columna, por ejemplo, x3, 2 es el tercero de las observaciones n de la
segunda de las Variables K. Las matrices en este libro, tal como [X], serán denotadas por el uso de
corchetes, como un recordatorio ilustrado de que el símbolo dentro de este representa una matriz
rectangular.
La matriz de datos [X] en la ecuación 10,2 corresponde exactamente a una tabla de datos
convencional o a una pantalla de hoja de cálculo, en la que cada columna pertenece a una de las
variables consideradas y cada fila representa una de las n observaciones. El contenido también se
puede visualizar o imaginar de manera geométrica dentro de un espacio abstracto en el
dimensional K, con cada una de las n filas definiendo un solo punto. un ejemplo sencillo es una
matriz de datos para datos bivariados, que tiene n filas y columnas K 2. Dentro del plano
cartesiano el par de números de cada una de las filas se localiza en un punto de este. El conjunto
de estos n puntos en el plano define una gráfica de dispersión de los datos bivariados.
Al igual que el vector de datos de la ecuación 10,1 es la extensión multivariada de un dato escalar,
las estadísticas de muestra multivariada se pueden expresar mediante la notación de vectores y
matrices. La más común de estas es la media muestral multivariada, la cual es sólo un vector de los
medios de una muestra escalar individual K (ecuación 3,2), dispuestas en el mismo orden que los
elementos de los vectores de datos subyacentes,
Es decir, la covarianza sk,ℓ se muestra en la fila kth y la columna ℓth de la matriz de covarianza. La
matriz de covarianza de muestra, o también denominada como matriz de varianza-covarianza de
muestra, es directamente análoga a la matriz de correlación de muestra (Pearson) (véase la figura
3,26), con la relación entre los elementos correspondientes de las dos matrices dadas por la
ecuación 3,24; es decir, rk,ℓ sk,ℓ/[(sk,k)(sℓ,ℓ)]1/2. Las covarianzas K, sk,k en las posiciones diagonales,
entre las esquinas superior izquierda e inferior derecha de la matriz de covarianza de muestra son
simplemente las variantes de la muestra K. Los elementos restantes, fuera de la diagonal, son
covarianzas entre variables a diferencia, y los valores de abajo y a la izquierda de las posiciones
diagonales duplican los valores de arriba y a la derecha.
Tal como se señaló en la sección anterior que un vector de datos puede ser considerado como un
punto en el espacio geométrico de dimensión K , cuyos ejes de coordenadas corresponden a las
variables K que se representan simultáneamente. Muchos enfoques estadísticos multivariados se
basan o pueden interpretarse en términos de distancias.
dentro de este espacio K-dimensional. Se puede definir cualquier cantidad de medidas de distancia
(véase la sección 15.1.2), pero dos de ellas son de particular importancia.
Puede ser matemáticamente conveniente para trabajar en términos de distancias cuadradas. No se pierde
información al hacerlo porque la distancia normalmente se considera necesariamente no negativa, por lo que
la distancia cuadrada es una transformación monótona e invertible de la distancia dimensional ordinaria (por
ejemplo, la ecuación 10,6). En adición, se evita la operación de la raíz cuadrada. Puntos a una distancia
cuadrada constante C2 ¼ ||x – y|| , definir un círculo en el plano con el radio C para las dimensiones K 2, una
esfera en un volumen con el radio C para las dimensiones K 3 y una hiperesfera con radio C dentro de un
hipervolumen dimensional K para las dimensiones K > 3.
La figura 10,2 ilustra los problemas de las dimensiones de K 2. La figura 10.2 a muestra un
contexto estadístico establecido por la dispersión de los puntos x ¼ [x1, x2]. La distribución se
centra en el origen, y la desviación estándar de x1 es aproximadamente tres veces la de x2, es
decir, , s1 = 3 s2. La orientación de la nube de puntos a lo largo de uno de los ejes refleja el hecho
de que las dos variables x1 y x2 son esencialmente no correlacionadas (los puntos de hecho se han
extraído de una distribución gaussiana bivariada; ver sección 4.4.2). A causa de esta diferencia en
la dispersión, una separación dada entre un par de puntos en el horizontal es menos extraña que
en el vertical, con relación a esta dispersión de datos. Aunque el punto a está más cerca del centro
de la distribución según la distancia euclidiana, es más inusual que el punto B en el contexto
establecido por la nube de puntos, por lo que estadísticamente está más lejos del origen.
Dado que los puntos de la figura 10.2 a no están correlacionados, una medida de distancia que
refleje lo inusual en el contexto de la dispersión de datos se puede definir simplemente como
que es un caso especial de la distancia de Mahalanobis entre el punto xT [x1, x2] y el origen
(porque las dos medias de muestra son cero) cuando las variaciones en las dimensiones de K 2 no
están correlacionadas. Para mayor conveniencia, la ecuación 10,7 se expresa como una distancia
cuadrada, y es equivalente a la distancia euclidiana cuadrada ordinaria después de la
transformación que divide cada elemento del vector de datos por su respectiva desviación
estándar (recordemos que, por ejemplo, s1,1 es la varianza de la muestra de x1). Otra
interpretación de la ecuación 10,7 es como la suma de las dos anomalías estandarizadas
cuadradas, o las puntuaciones z (ecuación 3,23). En cualquier caso, la importancia atribuida a una
distancia a lo largo de uno de los ejes es inversamente proporcional a la dispersión de datos, o
incertidumbre, en esa dirección. En consecuencia, el punto A está más lejos del origen que el
punto B de la figura 10.2 a cuando se mide de acuerdo con la distancia de Mahalanobis.
Para una distancia fija de Mahalanobis de D2, la ecuación 10,7 define una elipse de distancia
estadística constante en el plano, y esa elipse también es un círculo si s1,1 ¼ s2,2. Generalizando la
ecuación 10,7 a tres
Los Vectores ya han sido introducidos en la ecuación 10.1 y como se ha señalado anteriormente
serán indicado con negrita. Un vector con solo el elemento K 1 es solo un número ordinario o
escalar. A menos que se indique lo contrario, los vectores se considerarán como vectores de
columna, lo que significa que sus elementos se organizan verticalmente. Por ejemplo, el vector de
la columna x consistiría en los elementos x1, x2, x3, . . ., xK; organizados como.
Estos mismos elementos se pueden organizar horizontalmente, como en la ecuación 10,1, que es un vector de
fila. Los vectores de columna se transforman en vectores de fila, y viceversa, a través de una operación
denominada transposición del vector. La operación de transposición se denota por el superíndice T, por lo que
podemos escribir el vector x en la ecuación 10,10 como el vector de fila xT en la ecuación 10,1, el cual se
pronuncia "x-TRANSPOSE." En español transpuesta de x. La transposición de un vector de columna es útil
para la coherencia notacional, dentro de ciertas operaciones de matriz. También es útil con objetivos
tipográficos, ya que permite que un vector sea escrito en una línea horizontal del texto
La adición de dos o más vectores con la misma dimensión es sencilla. La adición de vectores se logra
agregando los elementos correspondientes de los dos vectores, por ejemplo.
La sustracción se realiza de forma análoga. Esta operación reduce a adición escalar ordinaria
o substracción cuando los dos vectores tienen la dimensión K 1. No se definen la suma y resta de
vectores con diferentes dimensiones.
Multiplicar un vector por un escalar da como resultado un nuevo vector cuyos elementos son
simplemente los elementos correspondientes del vector original multiplicado por ese escalar. Por
ejemplo, multiplicar el vector x en la ecuación 10,10 por un constante escalar c
Aquí dos puntos, x e y, situados por los puntos, definen la hipotenusa de un triángulo rectangular
cuyas otras dos caras son paralelas a los dos ejes de datos.
Dos vectores de la misma dimensión se pueden multiplicar mediante una operación denominada
producto de punto o producto interno. Esta operación consiste en multiplicar juntos cada uno de
los pares de K como elementos vectoriales y luego sumar estos productos K. Es decir,
La ecuación 10.14 es a veces conocida como la norma euclídea del vector x. La figura 10.1, con y
0como origen, ilustra que esta longitud es simplemente una aplicación del teorema de Pitágoras.
Una aplicación común de la longitud euclídea es el cálculo de la velocidad total del viento
horizontal a partir de la velocidad horizontal del viento.
vector de velocidad vT[u, v], según vH (u2 v2)1/2. Sin embargo, la Ecuación 10.14 también se
generaliza a K arbi- trarily alto.
Esta relación implica que dos vectores son perpendiculares en el caso de que el producto de punto
es cero, ya que cos-1[0] 90○ Los vectores perpendiculares mutuos también se denominan
ortogonales.
Las interpretaciones geométricas de estos tres cálculos de longitud, ángulo y proyección están
ilustardos en la Figura 10.3 para los vectores T[1, 1] y T[2, 0.8]. La longitud de es simplemente
FIGURA 10.3 Ilustración de los conceptos de longitud del vector (Ecuación 10.14), el ángulo entre
dos vectores (Ecuación 10.15), y la proyección de un vector sobre otro (Ecuación 10.16); para los
dos vectores xT ¼[1, 1] e yT ¼[2, 0.8].
The geometric interpretations of these three computations of length, angle, and projection are
T T
illu- strated in Figure 10.3 for
x the
¼ vectors y ¼ [1, 1] and [2, 0.8].
x The lengthx ¼of is simply
|| ||
þ (12 ¼ 12)1/2 p2, and theylength
y ¼of is ¼2
þ || || (2 0.82)1/2 2.154. Since the dot product of
the two
10.3.2. Matrices
Se denomina matriz como una matriz rectangular bidimensional de números que tiene filas I y
columnas J. La dimensión de una matriz se especifica por el número de filas y columnas. Se escribe
una dimensión matricial (I J) y se pronuncia "I por J." Las matrices se indican aquí con letras
mayúsculas rodeadas de corchetes. A veces, para mayor claridad, una expresión paréntesis para la
dimensión de una matriz se escribirá directamente debajo de ella. Los elementos de una matriz
son las variables individuales o valores numéricos que ocupan las filas y columnas. Los elementos
de matriz se identifican de manera noticional por dos subíndices; el primero de éstos identifica el
número de línea, y el segundo identifica el número de columna. La Ecuación 10.2 muestra una
matriz de datos (n K), y la Ecuación 10.5 muestra una matriz de covarianza (K K), con la convención
de subíndices ilustrada.
Un vector es un caso especial de una matriz, y las operaciones de la matriz son aplicables también
a los vectores. Un vector de fila K-dimensional es una matriz (1 K), y un vector de columna es una
matriz (K 1). Así como un vector K unidimensional es también un escalar, así también lo es una (1
1) matriz.
Una matriz con el mismo número de filas y columnas, como[S] en la Ecuación 10.5, se llama matriz
cuadrada. Los elementos de una matriz cuadrada para los cuales i j están dispuestos en diagonal
entre las esquinas superior izquierda e inferior derecha y se denominan elementos diagonales. Las
matrices de correlación[R] (véase la figura 3.26) son matrices cuadradas que tienen todos los 1
sobre la diagonal. Una matriz cuadrada para la cual ai,j aj,i para todos los valores de i y j se llama
simétrica. Las matrices de correlación y covarianza son simétricas porque la correlación entre la
variable i y la variable j es idéntica a la correlación entre la variable j y la variable i. Otra matriz
cuadrada y simétrica importante es la matriz de identidad[I], que consiste en 1 en la diagonal y
ceros en todas partes,
Se puede construir una matriz de identidad para cualquier dimensión (cuadrada). Cuando la matriz
de identidad aparece en una ecuación, se puede suponer que tiene la dimensión adecuada para
las operaciones de la matriz pertinente.
definido. La matriz de identidad es un caso especial de una matriz diagonal, cuyos elementos fuera
de la diagonal son todos ceros.
La operación de transposición se define para cualquier matriz, incluyendo el caso especial de los
vectores. La transposición de una matriz se obtiene en general mediante el intercambio de índices
de filas y columnas, no mediante una rotación como se podría haber anticipado de una
comparación de las ecuaciones 10.1 y 10.10. Geométricamente, la operación transposición es
como un reflejo a través de la diagonal de la matriz que se extiende hacia abajo y a la derecha
desde el elemento superior izquierdo. Por ejemplo, la relación entre la matriz (3 × 4)[B] y su
transposición, la matriz (4 × 3)[B]T, se ilustra comparando
debajo del símbolo de matriz. Si una matriz cuadrada[A] es simétrica, entonces[A] ¼[A] .
La multiplicación de una matriz por un escalar es la misma que para los vectores y se logra
multiplicando cada elemento de la matriz por el escalar,
Del mismo modo, la suma y la resta de matrices se definen sólo para matrices de dimensiones
idénticas y se realizan mediante la realización de estas operaciones en los elementos de las
correspondientes posiciones de filas y columnas. Por ejemplo, la suma de dos matrices (2 × 2) se
calcularía de la siguiente manera
Los componentes individuales de[C] tal como están escritos en la Ecuación 10.21b pueden parecer
confusos al principio. Para entender la multiplicación de la matriz, es útil darse cuenta de que cada
elemento de la matriz del producto[C] es simplemente el producto punteado, tal como se define
en la Ecuación 10.13, de una de las filas de la matriz izquierda [A] y una de las columnas de la
matriz derecha[B]. En particular, el número que ocupa la fila i y la columna k de la matriz[C] es
exactamente el producto punteado entre el vector de la fila que comprende la fila i de[A] y el
vector de la columna que comprende la columna k de[B]. Equivalentemente, la multiplicación de
matrices se puede escribir en términos de los elementos individuales de la matriz utilizando la
notación de suma,
La matriz de identidad (Ecuación 10.17) se denomina así porque funciona como la identidad
multiplicativa es decir, [A][I][A][A], y[I][A][A] independientemente de la dimensión de[A]- aunque
en el primer caso[I] es una matriz cuadrada con el mismo número de columnas que[A], y en el
segundo su dimensión es la misma que el número de filas de[A].
Es innecesario que dos vectores que forman un producto exterior posean la misma dimensión
porque como vectores tienen una dimensión común ("interior") 1. El producto exterior se conoce
a veces como el producto díádico, o producto tensor, y la operación se indica a veces utilizando
una "x" marcada con un círculo, es decir,
El trazo de una matriz cuadrada es simplemente la suma de sus elementos diagonales, es decir,
para la matriz (K K)[A]. Para la matriz de identidad (K K), tr[I] K. El determinante de una matriz
cuadrada es una cantidad escalar definida como
donde[A1,k] es la matriz (K - 1 K - 1) formada por la eliminación de la primera fila y la columna kth
de[A]. La notación de valor absoluto para el determinante de la matriz sugiere que esta operación
produce un escalar que es en cierto sentido una medida de la magnitud de la matriz. La definición
en la Ecuación 10.25 es recursiva, así que, por ejemplo, calcular el determinante de una matriz (K ×
K) requiere que los determinantes de K de matrices reducidas (K - 1 K - 1) sean calculados primero,
y así sucesivamente hasta llegar a |A| a1,1 para K 1. Por consiguiente, el proceso es bastante
tedioso y generalmente es mejor dejarlo en manos de una computadora. Sin embargo, en el caso
(2x2)
La generalización de la matriz de la división aritmética existe para las matrices cuadradas que
tienen una propiedad conocida como rango completo, o no singularidad. Esta condición puede
interpretarse en el sentido de que la matriz no contiene información redundante en el sentido de
que ninguna de las filas puede construirse a partir de combinaciones lineales de las otras filas.
Considerando cada fila de una matriz no singular como vector, es imposible construir sumas
vectoriales de filas multiplicadas por constantes escalares que sean iguales a cualquiera de las
otras filas. Estas mismas condiciones aplicadas a las columnas también implican que la matriz no
esingular. Las matrices no singulares tienen un factor determinante distinto de cero.
Las matrices cuadradas no singulares son invertibles. Que una matriz[A] sea invertible significa que
existe otra matriz[B] tal que
Se dice entonces que[B] es el inverso de[A], o[B][A]-1; y que[A] es el inverso de[B], o[A][B]-1. En
términos generales,[A][A]-1 indica la división de la matriz[A] por sí misma y así produce la
identidad (matriz)[I]. Las inversiones de matrices (2 × 2) son fáciles de calcular a mano, utilizando
Esta matriz se reconoce como "A la inversa". También existen fórmulas explícitas para invertir
matrices de dimensiones superiores, pero rápidamente se vuelven muy engorrosas a medida que
las dimensiones aumentan. Los algoritmos informáticos para la inversión de matrices están
ampliamente disponibles y, en consecuencia, las matrices con dimensiones superiores a dos o tres
raras veces se invierten a mano. Una excepción importante es la inversa de una matriz diagonal,
que es simplemente otra matriz diagonal cuyos elementos distintos de cero son los recíprocos de
la matriz diagonal.
En la tabla 10.1 se enumeran algunas propiedades adicionales de las operaciones aritméticas con
matrices que no se han mencionado específicamente en el cuadro anterior.
Definir la matriz (n n)[1], cuyos elementos son todos iguales a 1. La matriz (n K) de anomalías (en el
sentido meteorológico de las variables con su media sustraída), o datos centrados[Xt] es entonces
(Note que algunos autores usan la notación principal en este contexto para indicar la transposición
de la matriz, pero el superíndice T ha sido usado para indicar la transposición a lo largo de este
libro, para evitar confusión.) El término segundario en la Ecuación 10.29 es una matriz (n K) que
contiene los medios de la muestra. Cada una de sus n filas es la misma y consiste en el medio de la
muestra K en el mismo orden en que aparecen las variables correspondientes en cada fila de[X].
Esta es la misma matriz simétrica (K K) que en la Ecuación 10.5, cuyos elementos diagonales son
las variaciones de las variables K, y cuyos otros elementos son las covarianzas entre todos los
pares posibles de las variables K. La operación en la Ecuación 10.30 corresponde a la suma en el
numerador de la Ecuación 3.24.
Ahora se define la matriz diagonal (K K)[D], cuyos elementos diagonales son las desviaciones
estándar de la muestra de las variables K. Es decir, [D] consiste en todos los ceros excepto los
elementos diagonales, cuyos valores son las raíces cuadradas de los elementos correspondientes
de[S]: ]: dk,k sk,k,k 1, . . ., K.. La matriz de correlación de puede ser calculada a partir de la matriz
de covarianza usando
Puesto que[D] es diagonal, su inverso es la matriz diagonal cuyos elementos son los recíprocos de
las desviaciones estándar de la muestra en la diagonal de[D]. La multiplicación de la matriz en la
Ecuación 10.31 corresponde a la división por las desviaciones estándar en la Ecuación 3.25.
(o anomalías estandarizadas) zk (Ecuación 3.23). Es decir, dividir las anomalías xk0 por sus
desviaciones estándar sk,k no dimensionaliza las variables y resulta en que tengan varianza
unitaria.
(1 en la diagonal de[R]) y covarianzas iguales a sus correlaciones. En notación matricial esto puede
verse sustituyendo la Ecuación 10.30 por la Ecuación 10.31 para obtener donde[Z] es la matriz (n
K) cuyas filas son los vectores de las variables estandarizadas z, análogamente a la matriz[X0] de
las anomalías. La primera línea de la Ecuación 10.32 convierte la matriz[X0] a la matriz
Z] dividiendo cada elemento por su desviación estándar, dk,k. La comparación de las ecuaciones
10.32 y 10.30 muestra que[R] es en realidad la matriz de covarianza para las variables
estandarizadas z.
donde la media del vector (muestra) es la transposición de cualquiera de las filas de la matriz que
se sustrae del lado derecho de la ecuación 10.29 o, de manera equivalente, la transposición de la
ecuación 10.3. También que las correspondientes anomalías estandarizadas (la contraparte
vectorial de la Ecuación 3.23) sean
donde[D] es de nuevo la matriz diagonal de las desviaciones estándar. La ecuación 10.34 se llama
transformación de escala y simplemente indica la división de todos los valores en un vector de
datos por sus respectivas desviaciones estándar. La matriz de covarianza puede entonces ser
calculada de una manera que es notationalmente análoga al cálculo usual de la varianza escalar
(Ecuación 3.6, al cuadrado),
La discusión de la regresión lineal múltiple en la Sección 7.2.8 indicó que las matemáticas
relevantes se expresan y resuelven más fácilmente usando álgebra de matriz. En esta notación, la
expresión para el predictado y, como una función de las variables predictoras xi (Ecuación 7.24) se
convierte en.
Aquí y es una (n 1) matriz (es decir, un vector) de las n observaciones del predictor, [X] isa (n K 1)
matriz de datos que contiene los valores de las variables predictoras, y bT[b0, b1,b2,.... .,bK] isa (K
1 1) vector de los parámetros de regresión. La matriz de datos en el contexto de regresión es
similar a la de la ecuación 10.2, excepto que tiene columnas K 1 en lugar de K. Esta columna extra
es la columna más a la izquierda de[X] en la ecuación 10.37, y consta enteramente de 10. Así, la
Ecuación 10.37 es una ecuación vectorial, con dimensión (n 1) a cada lado. En realidad, son n
repeticiones de la Ecuación 7.24, una vez cada una para los n registros de datos.
Las ecuaciones normales (presentadas en la Ecuación 7.6 para el caso simple de K 1) se obtienen
multiplicando a la izquierda cada lado de la Ecuación 10.37 por[X]T,
donde todas las sumas están por encima de los n puntos de datos. La matriz[X]T[X] tiene una
dimensión (K þ 1 × K þ 1). Cada lado de la Ecuación 10.38 tiene dimensión (K þ 1 × 1), y esta
ecuación realmente representa K þ 1 ecuaciones simultáneas que implican los coeficientes de
regresión desconocidos de K þ 1. Álgebra de matrices
PARTE III Estadísticas multivariadas
se utiliza muy comúnmente para resolver conjuntos de ecuaciones lineales simultáneas como
éstas. Una manera de obtener la solución es multiplicar a la izquierda ambos lados de la Ecuación
10.38 por el inverso de la matriz[X]T[X]. Esta operación es análoga a la división de ambos lados
entre esta cantidad y rendimientos.
Las varianzas y covarianzas para la distribución conjunta del muestreo de los parámetros de
regresión K 1 bT, correspondientes a las ecuaciones 7.17b y 7.18b, también pueden calcularse
utilizando el álgebra de matriz. La matriz de covarianza (K þ 1 × K þ 1), conjuntamente para los
coeficientes de interceptación y regresión K, es la siguiente
Como antes, se2 es la varianza residual estimada, o MSE (ver Tabla 7.3). Los elementos diagonales
de
La ecuación 10.40 son las varianzas estimadas de las distribuciones de muestreo de cada elemento
del vector paramétrico b; y los elementos fuera de diagonal son las covarianzas entre ellos,
correspondientes a (para covarianzas que involucran la intercepción, b0), la correlación en la
ecuación 7.19. Para tamaños de muestra suficientemente grandes, la distribución del muestreo
conjunto es multivariada normal (ver Capítulo 11), por lo que la Ecuación 10.40 define
completamente su dispersión.
Como antes, esta cantidad depende de los valores de los predictores para los que se evalúa la
función de regresión, x0T ¼[1, x1, x2, .... , xK]. e
Una matriz cuadrada se llama ortogonal si los vectores definidos por sus columnas tienen
longitudes unitarias y son mutuamente perpendiculares (es decir, y 90○ según la Ecuación 10.15),
y las mismas condiciones se mantienen para los vectores definidos por sus columnas. En ese caso,
Las matrices ortogonales también se denominan unitarias, y este último término abarca también
las matrices que pueden tener elementos complejos.
Una transformación ortogonal se logra multiplicando un vector por una matriz ortogonal.
Considerando que un vector para definir un punto en el espacio K-dimensional, corresponde una
transformación ortogonal
a una rotación rígida de los ejes de coordenadas (y también a una reflexión, si el determinante es
negativo), resultando en una nueva base (nuevo conjunto de ejes de coordenadas) para el espacio.
Por ejemplo, considere las dimensiones K 2, y la matriz ortogonal
Las longitudes de ambas filas y ambas columnas de esta matriz son sin2(y) cos2(y) 1 (Ecuación
10.14), y los ángulos entre los dos pares de vectores son ambos 90○ (Ecuación 10.15), así que[T] es
una matriz ortogonal.
Debido a que las filas y columnas de una matriz ortogonal tienen longitud unitaria, transformación
ortogonal-de la longitud de conservación de la información. Es decir, no comprimen ni expanden
los ejes de coordenadas (girados). En términos de longitud euclídea (cuadrada) (Ecuación 10.14)
FIGURA 10.5 El punto xT ¼ (1, 1), cuando está sujeto a una rotación ortogonal de los ejes de
coordenadas a través de un ángulo de y 72○, se transforma
Un valor propio l, y un vector propio, e de una matriz cuadrada[A] son un vector escalar y no nulo,
respectivamente, que complementan la ecuación
o equivalente
debido 0 es un vector formado enteramente por ceros. Por cada par de autovalores y
autovectores que se pueda encontrar para complementar la Ecuación 10.46, cualquier múltiplo
escalar del autovector, ce, también complementará la ecuación junto con ese autovalor. Por lo
tanto, para la definición es habitual exigir que tengan una longitud unitaria,
kek ¼ 1: ð10:47Þ
Esta restricción sólo elimina la ambigüedad hasta un cambio de signo, ya que si un vector
complementa la ecuación 10.46, entonces también lo hará su negativo, -e.
Si[A] no es singular, habrá pares de valores propios K y ek con valores propios distintos de cero,
donde K es el número de filas y columnas en[A]. Cada vector propio será dimensionado (K x 1).
Si[A] es singular, al menos uno de sus valores propios será cero, siendo los correspondientes
vectores propios arbitrarios. La terminología sinónima que a veces también se utiliza para valores
propios y vectores propios incluye valores característicos y vectores característicos, valores
latentes y vectores latentes, y valores propios y vectores propios. Debido a que cada vector propio
está definido para tener una longitud unitaria, el producto de puntos de cualquier vector propio
con sí mismo es uno. Si, además, la matriz[A] es simétrica, entonces sus propios vectores son
mutuamente ortogonales, de modo que
Se dice que los vectores ortogonales de longitud unitaria son ortonormales. (Esta terminología no
tiene nada que ver con la distribución gaussiana o "normal".) La propiedad de ortonormalidad es
análoga a la Ecuación 9.66, expresando la ortogonalidad de las funciones seno y coseno.
Para muchas aplicaciones estadísticas, los valores propios y los vectores propios se calculan para
matrices simétricas reales (no para números complejos o imaginarios), como las matrices de
covarianza o correlación. Los valores propios y los vectores propios de dichas matrices tienen una
serie de propiedades importantes y notables. La primera de estas propiedades es que sus valores
propios y vectores propios son de valor real. También, como se acaba de señalar, los vectores
propios de las matrices simétricas son ortogonales. Es decir, sus productos de puntos entre sí son
cero, de modo que son mutuamente perpendiculares en el espacio dimensional k.
A menudo se forma la matriz (K × K)[E], cuyas columnas K son los vectores propios ek. Eso es,
Debido a la ortogonalidad y longitud unitaria de los vectores propios de las matrices simétricas, la
matriz[E] es ortogonal y tiene las propiedades expresadas en la Ecuación 10.42. La transformación
ortogonal[E]Tx define una rotación rígida de los ejes de coordenadas dimensionales K de x,
llamados un espacio propio. Este espacio cubre el mismo "territorio" que las coordenadas
originales, pero utilizando los diferentes conjuntos de ejes definidos por las soluciones de la
ecuación 10.46.
Los pares de valores propios K contienen la misma información que la matriz[A] a partir de la cual
se calcularon, por lo que pueden considerarse como una transformación de[A]. Esta equivalencia
puede expresarse, de nuevo para[A] simétrica, como la descomposición espectral o la
descomposición jordana,
de modo que[L] denota una matriz diagonal cuyos elementos distintos de cero son los valores K
de[A]. Es ilegal considerar también el equivalente de la Ecuación 10.50 en notación de suma,
El producto exterior de cada vector propio con sí mismo en la Ecuación 10.51a define una
matriz[Ek]. La ecuación 10.51b muestra que la matriz original[A] puede ser recuperada como una
suma ponderada de estas matrices[Ek], donde los pesos son los valores propios correspondientes.
Por lo tanto, la descomposición espectral de una matriz es análoga a la descomposición de Fourier
de una función o serie de datos (Ecuación 9.62a), con los valores propios desempeñando el papel
de las amplitudes de Fourier y las matrices[Ek] correspondientes a las funciones del coseno.
Otras consecuencias de la equivalencia de la información en los dos lados de la ecuación 10.50 por
cada uno de los valores propios. El primero de ellos es
Esta relación es particularmente importante cuando[A] es una matriz de covarianza, en cuyo caso
sus elementos diagonales ak,k son las varianzas K. La ecuación 10.52 dice que la suma de estas
varianzas está dada por la suma de los valores propios de la matriz de covarianza.
YK
que es consistente con la propiedad de que al menos uno de los valores propios de una matriz
singular (con cero determinantes) será cero. Una matriz simétrica real con todos los valores
propios positivos se denomina positiva definida.
A] a partir del cual se calcularon los vectores propios y los valores propios. La ecuación de
multiplicación a la izquierda 10.50a por[E]T, la de multiplicación a la derecha por[E], y usando la
ortogonalidad de[E] da como resultado
Existe también una fuerte conexión entre los valores propios lk y vectores propios ek de una
matriz simétrica no singular, y las cantidades correspondientes l*k y e*k de su inversa. Los
vectores propios de los pares matriz-inverso son los mismos -es decir, e*k ek para cada k- y los
correspondientes valores propios son recíprocos, l*k lk-1. Por lo tanto, el propio vector de[A]
asociado con su mayor valor propio es el mismo que el del[A]-1 asociado con su menor valor
propio, y viceversa.
La extracción de pares de vectores propios a partir de matrices es una tarea que requiere un gran
esfuerzo de cálculo, especialmente a medida que aumenta la dimensión del problema. Es posible
pero muy tedioso hacer los cálculos a mano si K ¼ 2, 3, o 4, usando la ecuación
Este cálculo requiere primero resolver un polinomio de orden K para los valores propios de K y
luego resolver conjuntos K de ecuaciones simultáneas de K para obtener los vectores propios. En
general, sin embargo, se utilizan algoritmos informáticos ampliamente disponibles para calcular
aproximaciones numéricas a valores propios y vectores propios. Estos cálculos también pueden
realizarse en el marco de la descomposición del valor singular (ver Sección 10.3.5).
La matriz simétrica
tiene como valores propios l1 ¼ 254,76 y l2 ¼ 8,29, con sus correspondientes vectores propios e1
¼[0,848, 0.530] y e2T [ 0,530, 0.848]. Es fácil verificar que ambos vectores propios son de longitud
unitaria. Su producto de puntos es cero, lo que indica que los dos vectores son perpendiculares u
ortogonales.
Finalmente, la suma de los valores propios, 254,76 þ 8,29 ¼ 263,05, es igual a la suma de los
elementos diagonales de la matriz original[A], 185,47 þ 77,58 ¼ 263,05. e
entonces[B] multiplicado por sí mismo produce[A], por lo que[B] se dice que es una "raíz
cuadrada" de[A], o[B][A]1/2. A diferencia de las raíces cuadradas de los escalares, la raíz cuadrada
de una matriz simétrica no está definida de manera única. Es decir, hay cualquier número de
matrices[B] que puedan complementar la Ecuación 10.60, aunque dos algoritmos son usados con
mayor frecuencia para encontrar soluciones para esta.
Si[A] es de rango completo, se puede encontrar una matriz triangular inferior[B] que complementa
la Ecuación 10.60 usando la descomposición de Cholesky de[A]. (Una matriz triangular inferior
tiene ceros arriba y a la derecha de la diagonal principal, es decir, bi,j ¼ 0 para i < j.) Comenzando
con
b1, 1 ¼ pffiaffiffi1ffiffi,ffi1ffiffi
ð10:61Þ
como único elemento distinto de cero en la primera fila de[B], la descomposición de Cholesky
procede iterativamente, calculando los elementos distintos de cero de cada una de las filas
subsiguientes, i, de[B] a su vez según
Es una buena idea hacer estos cálculos con doble precisión para minimizar los errores de
redondeo de acumulación que pueden llevar a una división por cero en la ecuación 10.62a para la
dimensión de matriz grande K, incluso si[A] es de rango completo.
El segundo método comúnmente utilizado para encontrar una raíz cuadrada de[A] es utilizar sus
valores propios y sus propios vectores, y es computable incluso si la matriz simétrica[A] no es de
rango completo. Usando la posición espectral de descompresión (Ecuación 10.50) para[B],
La ecuación 10.63 puede ser extendida para encontrar la raíz cuadrada de una matriz inversa, [A]-
1/2, si[A] es simétrica y de rango completo. Debido a que una matriz tiene los mismos vectores
propios que su inversa, también tendrá los mismos vectores propios que la raíz cuadrada de su
inversa. En consecuencia,
donde[L]-1/2 es la matriz diagonal con los elementos l-1/2 , los recíprocos de las raíces cuadradas
de los valores propios de[A]. Las implicaciones de la Ecuación 10.64 son las que cabría esperar; es
decir,[A]-1/2 ([A]-1/2)T ¼[A]-1, y[A]-1/2 ([A]1/2)T ¼[I].
La matriz simétrica[A] en la Ecuación 10.56 es de rango completo, ya que ambos de sus valores
propios son positivos. Por lo tanto, se puede calcular una matriz de raíz cuadrada triangular más
baja[B] ¼[A]1/2 usando la descomposición de Cholesky. La ecuación 10.61 produce b1,1 ¼
(a1,1)1/2 ¼ 185.471/2 ¼ 13.619 como el único elemento no nulo de la primera fila (i ¼ 1) de[B].
Debido a que[B] tiene sólo una fila adicional, las Ecuaciones 10.62 necesitan ser aplicadas sólo una
vez cada una. La ecuación 10.62a produce b2,1 ¼ (a1,1-0)/b1,1 ¼ 110.84/13.619 ¼ 8.139. El cero
se resta en el numerador de la Ecuación 10.62a para b2,1 porque no hay términos en la suma.
(Si[A] hubiera sido una matriz (3 × 3), la Ecuación 10.62a se aplicaría dos veces para la tercera fila (i
¼ 3): la primera de estas aplicaciones, para b3,1, tampoco tendría términos en la suma, pero al
calcular b3,2 habría un término correspondiente a k ¼ 1.) Finalmente, el cálculo indicado por la
ecuación 10.62b is b2,2 ¼ (a2,2–b2 )1/2 ¼ (77.58–8.1392)1/2 ¼ 3.367. La matriz de raíz cuadrada
inferior triangular de Cholesky para[A] es así
que puede ser verificada como una raíz cuadrada válida de[A] a través de la multiplicación de la
matriz[B][B]T.
Una matriz simétrica de raíz cuadrada para[A] puede ser calculada usando sus valores propios y
vectores propios del Ejemplo 10.3 y la Ecuación 10.63:
Esta matriz también puede ser verificada como una raíz cuadrada válida de[A] calculando[B][B]T.
La ecuación 10.64 permite el cálculo de una matriz de raíz cuadrada para el inverso de[A],
La ecuación 10.50 expresa la descomposición espectral de una matriz cuadrada simétrica. Esta
descomposición puede extenderse a cualquier (n m) matriz rectangular[A] con al menos tantas
filas como columnas (n m) utilizando la descomposición de valor singular (SVD),
Las columnas m de[L] se denominan vectores singulares izquierdos, y las columnas m de[R] se
denominan vectores singulares derechos. (Nótese que, en el contexto de la SVD,[R] no denota una
matriz de correlación.) Ambos conjuntos de vectores son mutuamente ortonormales, por lo
que[L]T[L][R]T[R][R][R]T[I], con dimensión (m m). La matriz[O] es diagonal, con elementos
diagonales no negativos que se denominan los valores singulares de[A]. La ecuación 10.68 es a
veces llamada la SVD "delgada", en contraste con una expresión equivalente en la que la
dimensión de[L] es (n n n), y la dimensión de[O] (n m), pero con las últimas n - m filas contienen
todos los ceros de modo que las últimas n - m columnas de[L] son arbitrarias.
Aunque[A] no sea simétrica, existe una conexión entre la SVD y los valores propios y los vectores
propios de ambos[A]T[A] y[A][A]T, ambos productos matriciales son cuadrados (con dimensiones
(m × m) y (n × n), respectivamente) y simétricos. Específicamente, las columnas de[R] son los (m ×
1) vectores propios de[A]T[A], y las columnas de[L] son los (n × 1) vectores propios de[A][A]T. Los
valores singulares respectivos son las raíces cuadradas de los valores propios correspondientes, es
decir, o2i ¼ li.
Ejemplo 10.5. Valores propios y vectores propios de una matriz de covarianza utilizando la SVD
calculando[S] (si[S] ya se conoce, la SVD también puede ser usada para calcular los valores propios
y los vectores propios, a través de la equivalencia de las Ecuaciones 10.68 y 10.50).
La razón para multiplicar la matriz de anomalías[X0] por 30-1/2 debería ser evidente a partir de la
Ecuación 10.30: el producto (30-1/2[X0]T) (30-1/2[X0]) (n - 1)-1[X0]T[X0] produce la matriz de
covarianza[S] para estos datos, que es la misma que la matriz[A] en la Ecuación 10.56. Porque la
matriz de vectores singulares derechos [R] contiene los vectores propios para el producto de la
matriz a la izquierda de la Ecuación 10.70, multiplicados a la izquierda por su transposición, la
matriz[R]T en el extremo derecho de la Ecuación 10.70 es la misma que la (transposición de) la
matriz[E] en la Ecuación 10.57. De manera similar, los cuadrados de los valores singulares en la
matriz diagonal[O] en la Ecuación 10.70 son los valores propios correspondientes; por ejemplo,
o21 15.9612 l1 254.7.
Los vectores singulares derechos de (n - 1)1/2[X0][S] son los vectores propios de la matriz de
covarianza (2 2).
La SVD es una herramienta versátil con una gran variedad de aplicaciones. Uno de ellos es el
análisis de covarianza máxima (MCA), que se describirá en la sección 13.4. A veces la MCA se llama
confusamente análisis SVD, aunque la SVD es simplemente la herramienta computacional utilizada
para calcular una MCA.
Así como las variables aleatorias ordinarias son cantidades escalares, un vector aleatorio (o matriz
aleatoria) es un vector (o matriz) cuyas entradas son variables aleatorias. El propósito de esta
sección es ampliar los rudimentos del álgebra de matrices presentados en la Sección 10.3 para
incluir ideas estadísticas.
Un vector x cuyos elementos K son las variables aleatorias xk es un vector aleatorio. El valor
esperado de este vector aleatorio es también un vector, llamado media vectorial, cuyos elementos
K son los valores esperados individuales (es decir, promedios ponderados por probabilidad) de las
variables aleatorias correspondientes. Si todos los xk son variables continuas,
Si algunas o todas las variables K en x son discretas, los elementos correspondientes de m serán
sumas en la forma de la Ecuación 4.12.
½S]
Los elementos diagonales de la Ecuación 10.73 son las varianzas escalares (de población), que se
calcularían (para variables continuas) usando la Ecuación 4.20 con g(xk) ( xk - mk)2 o, en forma
equivalente, la Ecuación 4.21. Los elementos fuera de diagonal son las covarianzas, que se
calcularían utilizando las integrales dobles
s ¼ ð1
cada uno de los cuales es análogo a la suma en la Ecuación 10.4 para las covarianzas de la muestra.
Aquí fk,ℓ(xk, xℓ) es el PDF conjunto (bivariable) para xk y xℓ Análogamente a la Ecuación 4.21b
para la varianza escalar, una expresión equivalente para la matriz de covarianza (de población) es
En algunos entornos, es natural definir colecciones de variables que se segregan en dos o más
grupos. Ejemplos simples son un conjunto de predictores L junto con un conjunto diferente de
predictores K - L, o dos o más conjuntos de variables, cada una observada simultáneamente en un
gran número de lugares o puntos de cuadrícula. En tales casos, a menudo es conveniente y útil
mantener estas distinciones de forma notacional mediante la partición de los vectores y matrices
correspondientes.
Las particiones están indicadas por líneas finas en la representación expandida de vectores y
matrices. Estos indicadores de particiones son líneas imaginarias, en el sentido de que no tienen
ningún efecto en el álgebra de la matriz aplicada a los vectores o matrices más grandes. Por
ejemplo, considere un vector aleatorio (K 1) x que consiste en un grupo de variables L y otro grupo
de variables K - L,
exactamente como la Ecuación 10.71, excepto que tanto x como m están divididos (es decir,
compuestos de una concatenación de) un vector (L 1) y un vector (K-L 1).
La matriz (K - L L)[S2,1] contiene las covarianzas entre todos los pares de variables posibles, con un
miembro en el segundo grupo y el otro miembro en el primer grupo. Debido a que no es una
matriz de covarianza completa, no contiene variaciones a lo largo de la diagonal principal, incluso
si es cuadrada, y en general no es simétrica. La matriz (L K - L)[S1,2] contiene las mismas
covarianzas entre todos los pares de variables posibles, con un miembro en el primer grupo y el
otro en el segundo grupo. Porque la matriz de covarianza completa[S] es simétrica,[S1,2]T ¼[S2,1].
Una combinación lineal es esencialmente una suma ponderada de dos o más variables x1, x2, .... .,
xK. Por ejemplo, la regresión lineal múltiple de la ecuación 7.24 es una combinación lineal de los
predictores de regresión K que produce una nueva variable, que en este caso es la predicción de
regresión. Para simplificar, considera que el parámetro b0 ¼ 0 en la Ecuación 7.24. Entonces la
Ecuación 7.24 puede ser expresada en notación matricial como
y ¼ bT x, ð10:78Þ
donde bT[b1, b2, . . ., bK] es el vector de los parámetros que son las ponderaciones en la suma
ponderada.
XK
Este resultado escalar es bastante engorroso, aunque la combinación lineal es de sólo dos
variables aleatorias, y la extensión general a las combinaciones lineales de variables aleatorias K
implica términos K(K 1)/2. De manera más general, y mucho más compacta, en notación matricial
las ecuaciones 10.79 y 10.80 se convierten en
my ¼ b m ð10:81aÞ
Las cantidades en el lado izquierdo de la Ecuación 10.81 son escalares porque el resultado de la
combinación lineal simple en la Ecuación 10.78 es escalar. Pero considere la posibilidad de formar
simultáneamente L combi- naciones lineales de las variables aleatorias K x,
Aquí cada fila de[B]T define una sola combinación lineal como en la Ecuación 10.78, y
colectivamente estas combinaciones lineales L definen el vector aleatorio y. Extendiendo las
Ecuaciones 10.81 al vector medio y a la matriz de covarianza de esta colección de combinaciones
lineales L de x,
mi ¼
Nótese que al usar las ecuaciones 10.83, no es necesario calcular explícitamente las variables
transformadas en la ecuación 10.82 para encontrar su media y covarianza, si se conocen el vector
medio y la matriz covariante de .
Ejemplo 10.6. Vector medio y matriz de covarianza para un par de combinaciones lineales
El Ejemplo 10.5 mostró que la matriz de la Ecuación 10.56 es la matriz de covarianza para los datos
de temperatura mínima de Ítaca y Canandaigua en la Tabla A.1. El vector medio de estos datos es
mT [mIth, mCan] [13.0, 20.2]. Considere ahora dos combinaciones lineales de estos datos de
temperatura mínima en la forma de la Ecuación 10.43, con y 32○. Es decir, cada una de las dos filas
de[T]T define una combinación lineal (Ecuación 10.78), que puede ser expresada conjuntamente
como en la Ecuación 10.82b. Juntas, estas dos combinaciones de línea y oreja equivalen a una
transformación que corresponde a una rotación en sentido contrario a las agujas del reloj de los
ejes de coordenadas a través del ángulo y. Es decir, cada vector y[T]T x ubicaría el mismo punto,
pero en el marco del sistema de coordenadas girado.
Una forma de encontrar la media y la covarianza de los puntos transformados, my y[Sy], sería
llevar a cabo la transformación para todos los pares de n 31 puntos, y luego calcular el vector
medio y la matriz de covarianza para el conjunto de datos transformado. Sin embargo, conociendo
la media y la covarianza de la
subyacente x0 s, es sencillo y mucho más fácil usar la Ecuación 10.83 para obtener
m¼Σ
El ángulo de rotación y32○ es evidentemente especial para estos datos, ya que produce un par de
variables transformadas y que no están correlacionadas. De hecho, esta transformación es
exactamente la misma que en la ecuación 10.59, que se expresó en términos de los vectores
propios de[Sx]. e
Así como la media y la varianza de una combinación lineal pueden expresarse y calcularse sin
calcular realmente las combinaciones lineales, la covarianza de dos combinaciones lineales puede
calcularse de forma similar, utilizando
Aquí[S1,2] es la matriz de covarianzas entre los vectores x1 y x2, que es el cuadrante superior
derecho de la ecuación 10.77. Si[A]T y[B]T son vectores (y así dimensionados (1 L) y (1 K - L),
respectivamente), la Ecuación 10.85 producirá la covarianza escalar entre el par simple de
combinaciones lineales.
La Sección 10.2.2 introdujo la distancia Mahalanobis, o distancia estadística, como una forma de
medir las diferencias o inusualidades dentro del contexto establecido por una dispersión de datos
empíricos o una densidad de probabilidad multivariada subyacente. Si las variables K en el vector
de datos x no están correlacionadas entre sí, la distancia (cuadrada) de Mahalanobis toma la
forma simple de la suma de las anomalías estandarizadas cuadradas zk, como se indica en la
Ecuación 10.7 para las variables K2. Cuando algunas o todas las variables están correlacionadas, la
distancia de Mahalanobis también explica las correlaciones, aunque, como se señaló en la Sección
10.2.2, la notación es prohibitivamente complicada en forma escalar. En notación matricial, la
distancia de Mahalanobis entre los puntos x e y en su espacio K-dimensional es
Si la dispersión definida por[S] implica correlación cero entre las variables K, no es difícil ver que la
Ecuación 10.86 se reduce a la Ecuación 10.7 (en dos dimensiones, con obvia extensión a
dimensiones superiores). En ese caso, [S] es diagonal, y su inverso es también diagonal con los
elementos (sk,k)-1, así que la Ecuación 10.86 se reduciría a D2 Sk (xk - yk)2/sk,k. Esta observación
subraya una propiedad importante de la distancia de Mahalanobis, a saber, que las diferentes
escalas intrínsecas de variabilidad para las variables K en el vector de datos no confunden a D2
porque cada una se divide por su desviación estándar antes de la cuadratura. Si[S] es diagonal, la
distancia de Mahalanobis es la misma que la distancia euclídea después de dividir cada variable
por su desviación estándar.
FIGURA 10.6 El punto zT ¼ (1, 1) (punto grande) en los contextos de dispersión de datos con (a)
correlación cero, (b) correlación 0.99, y (c) correlación - 0.99. Las distancias de Mahalanobis, D2, al
origen son drásticamente diferentes en estos tres casos.
son casi la misma variable. Usando la Ecuación 10.86, la distancia de Mahalanobis al origen es D2
1.005, que es sólo ligeramente mayor que si sólo una de las dos variables casi redundantes
hubiera sido considerada sola y sustancialmente menor que la distancia apropiada para el
contexto de la dispersión en la Figura 10.6a. Finalmente, la Figura 10.6c muestra una situación
muy diferente en la que la correlación es de 0.99. Aquí el punto (1, 1) es extremadamente inusual
en el contexto de la dispersión de datos, y usando la Ecuación 10.86 encontramos que D ¼ 200. Es
decir, está extremadamente lejos del origen relativo a la dispersión de la nube de puntos, y esta
inusualidad se refleja en la gran distancia de Mahalanobis. El punto (1, 1) de la figura 10.6c es un
valor atípico multivariado. Visualmente, está bien alejado del punto de dispersión en dos
dimensiones. Pero en relación con cualquiera de las dos distribuciones univariadas, se trata de un
punto bastante ordinario que está relativamente cerca de (una desviación estándar de) cada
media escalar, de modo que no se destacaría como inusual cuando se aplican métodos estándar
de EDA a las dos variables individualmente. Es un valor atípico en el sentido de que no se
comporta como la dispersión de la nube de puntos negativamente correlacionada, en la que
grandes valores de x1/s1 se asocian con pequeños valores de x2/s2, y viceversa. La gran distancia
de Mahalanobis al centro (media vectorial) de la nube de puntos la identifica como un valor atípico
multivariado.
10.5. EJERCICIOS
10.1. Calcular el producto de la matriz[A][E], utilizando los valores de las ecuaciones 10.56 y
10.57.
10.2. Derivar la ecuación de regresión producida en el Ejemplo 7.1, usando notación matricial.
10.3. Calcular el ángulo entre los dos vectores propios de la matriz[A] en la Ecuación 10.56.
10.4. Verificar a través de la multiplicación de matrices que tanto la[T] de la Ecuación 10.43
como su transposición son matrices ortogonales.
10.5. Demuestra que la Ecuación 10.63 produce una raíz cuadrada válida.
10.6. Los valores propios y los vectores propios de la matriz de covarianza de Ítaca y
Canandaigua
Las temperaturas máximas en la Tabla A.1 son l1 ¼ 118.8 y l2 ¼ 2.60, y e1 ¼ [ .700, .714]
y e2T [.714, .700], donde el primer elemento de cada vector corresponde a la temperatura de
Ítaca.
10.7. a. Utilizar las correlaciones de Pearson de la Tabla 3.5 y las desviaciones estándar de la Tabla
A.1 para describir la matriz de covarianza[S] para las cuatro variables de temperatura de la Tabla
A.1.
b. Considere las temperaturas medias diarias definidas por las dos combinaciones lineales: y1 ¼
0.5 (Ithaca Max) þ 0.5 (Ithaca Min)
donde m es el vector medio dimensional k y[S] es la matriz de covarianza (K x K) para las variables
K en el vector x. En la dimensión K 1, la Ecuación 11.1 se reduce a la Ecuación 4.23, y para K 2 se
reduce a PDF para la distribución normal bivariada (Ecuación 4.33). La parte clave del PDF MVN es
el argumento de la función exponencial, e independientemente de la dimensión de x, este
argumento es una distancia cuadrada y estandarizada (es decir, la diferencia entre x y su media,
estandarizada por la (co)varianza). En la forma multivariante general de la Ecuación 11.1 esta
distancia es la distancia de Mahalanobis, que es una forma cuadrática positiva-definida cuando[S]
es de rango completo, y no se define de otra manera porque en ese caso[S]-1 no existe. Las
constantes fuera de la exponencial en la Ecuación 11.1 sirven sólo para asegurar que la integral
sobre todo el espacio dimensional k es 1,
Si cada una de las variables K en x se estandariza por separado de acuerdo con 4.25, el resultado
es la densidad MVN estandarizada,
1 " zT½R]-1z#
donde[R] es la matriz de correlación (Pearson) (por ejemplo, la Figura 3.26) para las variables K. La
Ecuación 11.3 es la generalización multivariante de la Ecuación 4.24. La notación casi universal
para indicar que un vector aleatorio x sigue a una MVN K-dimensional con matriz de covarianza[S]
es
Porque la única dependencia de la Ecuación 11.1 del vector aleatorio x es a través del Mahalanobis
dentro del exponencial, los contornos de igual densidad de probabilidad son elipsoides de la
constante D2 de m. Estos contornos elipsoidales centrados en la media encierran las regiones más
pequeñas en el espacio dimensional k, que contienen una porción dada de la masa de
probabilidad, y el vínculo entre el tamaño de estos elipsoides y la probabilidad encerrada es la
distribución w2:
Aquí wK2(a) denota el cuantillo de la distribución w2 con K grados de libertad, asociado con la
probabilidad acumulativa a (Tabla B.3). Es decir, la probabilidad de que una x esté dentro de una
determinada distancia de Mahalanobis D2 de la media es el área a la izquierda de D2 bajo la
distribución w2 con grados de libertad n K. Como se indica al final de la Sección 10.4.4, las
orientaciones de estos elipsoides están dadas por los vectores propios de[S], que son también los
vectores propios de[S]-1. Además, la elongación de los elipsoides en las direcciones de cada uno
de estos vectores propios viene dada por la raíz cuadrada del producto del respectivo valor propio
de[S] multiplicado por el correspondiente cuantillo w2. Para un D2 dado, el (hiper-) volumen
encerrado por uno de estos elipsoides es proporcional a la raíz cuadrada del determinante de[S],
2 K=2
donde G() denota la función gamma (Ecuación 4.7). Aquí el determinante de[S] funciona como una
medida escalar de la magnitud de la matriz, en términos del volumen ocupado por la dispersión de
probabilidad que describe. Por consiguiente, a veces se denomina det[S] la varianza generalizada.
El determinante, y por lo tanto también los volúmenes encerrados por los elipsoides D2
constantes, aumenta a medida que las varianzas K sk,k aumentan; pero también estos volúmenes
disminuyen a medida que las correlaciones entre las variables K aumentan, porque las
correlaciones mayores resultan en que los elipsoides sean menos esféricos y más alargados.
FIGURA 11.1 El 90% de la elipse de probabilidad para la distribución normal bivariada representa
los datos de temperatura mínima en la Tabla A.1, centrada en la media de la muestra vectorial. Sus
ejes mayor y menor están orientados en las direcciones de los vectores propios (grises) de la
matriz de covarianza en la Ecuación 10.56 y estirados en estas direcciones en proporción a las
raíces cuadradas de los respectivos valores propios. La constante de proporcionalidad es la raíz
cuadrada del cuantillo w2 apropiado. Los vectores propios se dibujan 10 veces más grandes que la
longitud de la unidad para mayor claridad.
Ejemplo 11.1 Las elipses de probabilidad para la distribución normal bivariada
Es más fácil visualizar ideas multivariadas en dos dimensiones. Considere que la distribución de
MVN se ajusta a los datos de temperatura mínima de Ítaca y Canandaigua en la Tabla A.1. Aquí K
2, es una distribución normal bivariada con vector medio de la muestra [13.0, 20.2]T y matriz de
covarianza (2 x 2) como se muestra en la Ecuación 10.56. El ejemplo 10.3 muestra que esta matriz
de covarianza tiene valores propios l1 254.76 y l2 8.29, con los correspondientes vectores propios
e1T[0.848, 0.530] y e2T [ 0.530, 0.848].
La Figura 11.1 muestra la elipse de probabilidad del 90% para esta distribución. Todas las elipses
de probabilidad para esta distribución están orientadas 32° a partir de los ejes de datos, como se
muestra en el Ejemplo 10.6. (Este ángulo entre e1 y el vector de la unidad horizontal[1, 0]T
también puede calcularse usando la Ecuación 10.15.) La extensión de esta elipse con un 90% de
probabilidad en las direcciones de sus dos ejes está determinada por el 90% del cuantillo de la
distribución w2 con n K 2 grados de libertad, que es w 2(0.90) 4.605 de la Tabla B.3. Por lo tanto, la
elipse se extiende hasta (w22(0.90)lk)1/2 en las direcciones de cada uno de los dos vectores
propios ek; o las distancias (4.605 254.67)1/2 34.2 en la dirección e1, y (4.605 8.29)1/2 6.2 en la
dirección e2.
El volumen que encierra esta elipse es en realidad un área en dos dimensiones. De la Ecuación
11.6 esta área es V ¼ 2(p 4.605)1 √2103.26/(2-1) ¼ 663.5, ya que det[S] ¼ 2103.26. e
1. Todos los subconjuntos de variables de una distribución MVN son a su vez MVN
distribuidos. Consideremos la partición de un vector aleatorio MVN x (K × 1) en los vectores x1 ¼
(x1, x2, ., ., xL), y x2 ¼ (xLþ1, xLþ2, , xK), como en la Ecuación 10.76a. Entonces, cada uno de estos
dos subvectores sigue a las distribuciones MVN, con x1 NL (m1,[S1,1]) y x2 NK-L (m2,[S2,2]). Aquí
los dos vectores medios componen la partición correspondiente del vector medio original como en
la Ecuación 10.76b, y las matrices de covarianza son las submatrices indicadas en la Ecuación
10.77b y 10.77c. Tenga en cuenta que el orden original de los elementos de x es inmaterial y que
una partición MVN puede construirse a partir de cualquier subconjunto. Si un subconjunto de
MVN x contiene sólo un elemento (por ejemplo, el escalar x1), su distribución es univariante
gaussiana: x1 N1 (m1, s1,1). Es decir, esta primera propiedad práctica implica que todas las
distribuciones marginales para los elementos K de un MVN x son univariantes gausianos. Lo
contrario puede no ser cierto: no es necesariamente el caso que la distribución conjunta de un
conjunto arbitrariamente seleccionado de variables K gaussianas siga a un MVN.
4. Las distribuciones condicionales de subconjuntos de un MVN x, dados los valores fijos para
otros subconjuntos, también son MVN. Esta es la generalización multivariante de las Ecuaciones
4.37, que se ilustra en el Ejemplo 4.7, expresan esta idea para la distribución normal bivariada.
Consideremos nuevamente la partición x[x1 , x2]T tal como se define en la Ecuación 10.76b y
utilizada para ilustrar las propiedades (1) y (3). La media condicional de un subconjunto de las
variables x1 dados valores particulares para el resto de las variables X2 ¼ x2 es la siguiente
donde las submatrices de[S] son nuevamente como se definen en la Ecuación 10.77. Al igual que
en el caso de la distribución normal de los bivar-iate, el desplazamiento medio condicional en la
Ecuación 11.8a depende del valor particular de la variable condicionante x2, mientras que la
matriz de covarianza condicional en la Ecuación 11.8b no lo hace. Si x1 y x2 son independientes,
entonces el conocimiento de uno no proporciona información adicional sobre el otro.
Matemáticamente, si[S1,2] ¼[S2,1]T ¼[0] entonces la Ecuación 11.8a se reduce a m1|x2 ¼ m1, y la
Ecuación 11.8b se reduce a[S1|x2] ¼[S1].
Capítulo
Imagine un PDF tridimensional de MVN como un pepino, que es un ovoide sólido y tridimensional.
Dado que el pepino tiene un borde distinto, sería más correcto imaginar que representa la parte
de un PDF MVN encerrada dentro de una superficie elipsoidal D2 fija. El pepino sería una metáfora
aún mejor si su densidad aumentara hacia el centro y disminuyera hacia la piel.
La figura 11.2a ilustra la propiedad (1), que es que todos los subconjuntos de una distribución
MVN son a su vez MVN. Aquí hay tres hipotéticos pepinos flotando sobre una tabla de cocina en
diferentes orientaciones e iluminados desde arriba. Sus sombras representan la distribución
conjunta de las dos variables cuyos ejes están alineados con los bordes del tablero.
Independientemente de la orientación del pepino en relación con el tablero (es decir,
independientemente de la estructura de covarianza de la distribución tridimensional), cada una de
estas distribuciones de sombra conjunta bidimensional para x1 y x2 es bivariable normal, con
probabilidad de con- tours dentro de las distancias fijas de Mahalanobis de los medios de los
óvalos en el plano del tablero.
La Figura 11.2b ilustra la propiedad (4), que las distribuciones condicionales de subconjuntos a los
que se les han dado valores particulares para las variables restantes en una distribución MVN son
a su vez MVN. Aquí hay porciones de dos pepinos en la tabla de corte, con el eje largo del pepino
izquierdo (indicado por la dirección de la flecha, o el correspondiente vector propio) orientado
paralelamente al eje x1 de la tabla, y el eje largo del pepino derecho ha sido colocado
diagonalmente a los bordes de la tabla. Las tres variables representadas por el pepino izquierdo
son, por lo tanto, mutuamente independientes, mientras que las dos variables horizontales (x1 y
x2) para el pepino derecho están correlacionadas positivamente. Cada pepino ha sido cortado
perpendicularmente al eje x1 de la tabla de corte, y las caras expuestas representan las
distribuciones condicionales conjuntas de las dos variables restantes (x2 y x3). Ambas caras son
ovaladas, lo que ilustra que ambas distribuciones condicionales resultantes son normales
bivariadas. Porque el pepino
FIGURA 11.2 Distribuciones tridimensionales de MVN como pepinos en una tabla de cocina. (a)
Tres pepinos flotando ligeramente por encima de la tabla de corte e iluminados desde arriba, lo
que ilustra que sus sombras (las distribuciones normales bivariadas que representan los
subconjuntos bidimensionales de las tres variables originales en el plano de la tabla de corte) son
ovales, independientemente de la orientación (estructura de covarianza) del pepino. (b) Dos
pepinos apoyados en la tabla de corte, con las caras expuestas por cortes hechos
perpendicularmente al eje de coordenadas x1; ilustrando la normalidad bivariada en las otras dos
dimensiones (x2, x3), dada la ubicación izquierda-derecha del corte. Las flechas indican las
direcciones de los vectores propios del pepino de eje largo.
Si se hubieran hecho cortes paralelos en otra parte de estos pepinos, las formas de las caras
expuestas habrían sido las mismas, ilustrando (como en la Ecuación 11.8b) que la covarianza
condicional (forma de la cara expuesta del pepino) no depende del valor de la variable
condicionante (ubicación a la izquierda o a la derecha a lo largo del eje x1 en el que se hace el
corte). Por otro lado, los medios condicionales (los centros de las caras expuestas proyectadas en
el plano x2 - x3, Ecuación 11.8a) dependen del valor de la variable condicionante (x1), pero sólo si
las variables están correlacionadas como en el pepino derecho. Haciendo el corte más a la derecha
se desplaza la ubicación del centro de la cara expuesta hacia la parte posterior de la placa (el com-
ponente x2 de la media del vector bivariante condicional es mayor). Por otro lado, debido a que
los ejes del elipsoide izquierdo del pepino están alineados con los ejes de coordenadas, la
ubicación del centro de la cara expuesta en el plano x2 - x3 es la misma independientemente de
dónde se haya realizado el corte en el eje x1. e
Se señaló en la Sección 3.4.1 que una fuerte motivación para transformar los datos para
aproximarlos a la normalidad es la capacidad de utilizar el MVN para describir las variaciones
conjuntas de un conjunto de datos multivariados. Normalmente se utilizan las transformaciones
de potencia de Box-Cox (Ecuación 3.19) o la generalización de Yeo y Johnson (2000) a datos
posiblemente no positivos. La estadística de Hinkley (Ecuación 3.20), que refleja el grado de
simetría en una distribución univariada transformada, es la forma más sencilla de decidir entre las
transformaciones de poder. Sin embargo, cuando la meta es específicamente aproximar una
distribución gaussiana, como es el caso cuando esperamos que cada una de las distribuciones
transformadas forme una de las distribuciones marginales de un MVN, probablemente sea mejor
elegir exponentes de transformación que maximicen la función de probabilidad gaussiana
(Ecuación 3.21). También es posible elegir exponentes de transformación simultáneamente para
múltiples elementos de x eligiendo el vector correspondiente de exponentes que maximizan la
función de verosimilitud de MVN (Andrews et al., 1972), aunque este enfoque requiere una
computación sustancialmente mayor que el ajuste de los exponentes individuales de forma
independiente, y en la mayoría de los casos probablemente no vale la pena el esfuerzo adicional.
Otras opciones además de las transformaciones de potencia también son posibles y a veces
pueden ser más apropiadas. Por ejemplo, los datos bimodales y/o estrictamente limitados, tales
como los que podrían estar bien descritos por una distribución beta (ver Sección 4.4.4) con ambos
parámetros por debajo de 1, no se transformarán para aproximarse a la normalidad. Sin embargo,
si tales datos son descritos adecuadamente por un CDF paramétrico F(x), pueden ser
transformados para aproximarse a la normalidad al igualar las probabilidades acumulativas; es
decir,
zi ¼ F-1½FðxiÞ]: ð11:9Þ
Aquí F-1[ ] es la función de cuantiles para la distribución gaussiana estándar, por lo que la Ecuación
11.9 trans- forma un valor de datos xi para el zi gaussiano estándar que tiene la misma
probabilidad acumulativa que el del xi dentro de su CDF.
Los métodos para evaluar la normalidad son necesarios tanto para evaluar la necesidad de
transformaciones como para evaluar la eficacia de las transformaciones de los candidatos. No
existe un enfoque único para la evaluación de la multinormalidad y, en la práctica, solemos
considerar múltiples indicadores, que pueden incluir tanto pruebas formales cuantitativas como
herramientas gráficas cualitativas.
Dado que todas las distribuciones marginales de un MVN son univariantes gaussianas, las pruebas
de bondad de ajuste se calculan a menudo para las distribuciones univariantes correspondientes a
cada uno de los elementos de la x cuya multi-normalidad se está evaluando. Una buena opción
para el propósito específico de probar la distribución gaussiana es la prueba de Filliben para la
correlación de la gráfica Q-Q gaussiana (Tabla 5.3). Distribuciones marginales gaussianas
Capítulo
Existen dos pruebas para determinar la multinormalidad (es decir, conjuntamente para todas las
dimensiones K de x) con respecto a la asimetría multivariante y la curtosis (Mardia, 1970; Mardia
et al., 1979). Ambos se basan en la función del par de puntos xi y xj dada por
donde[S] es la matriz de covarianza de la muestra. Esta función se utiliza para calcular la medida
de asimetría multivariante
b1:K ¼
que refleja una simetría de alta dimensión y será cercana a cero para los datos de MVN. Esta
estadística de prueba puede ser evaluada usando
nb1, K 2
6 ~ wv , ð11:12aÞ
1 Xn
que es equivalente al promedio de (D2)2 porque para esta estadística i j en la Ecuación 11.10. Bajo
la hipótesis nula de la multinormalidad,
existencia de valores atípicos multivariados de alta dimensión, así como la detección de otros
posibles problemas, es utilizar la Ecuación 11.5. Esta ecuación implica que si los datos x son MVN,
la distribución (univariante) para D 2, i ¼ 1, ...., n, es w 2. Es decir, la distancia D 2 de Mahalanobis
de la media de la muestra para cada x puede ser
Debido a que cualquier combinación lineal de variables que sean conjuntamente multinormales
será univariante de Gauss- ian, también puede ser informativo mirar y probar formalmente
combinaciones lineales para la distribución gaussiana. A menudo es útil observar específicamente
las combinaciones lineales dadas por los vectores propios de[S],
yi ¼ ek xi: ð11:15Þ
Resulta que las combinaciones lineales definidas por los elementos de los vectores propios
asociados con los valores propios más pequeños pueden ser particularmente útiles para identificar
valores atípicos multivariados, ya sea mediante la inspección de las gráficas Q-Q o mediante
pruebas formales de las correlaciones Q-Q. (La razón detrás de las combinaciones lineales
asociadas con los valores propios más pequeños que son especialmente poderosos en la
exposición de los valores atípicos se relaciona con el análisis de los componentes principales, como
se explica en la Sección 12.1.5). La inspección de los diagramas de dispersión por pares de
combinaciones lineales en los espacios bidimensionales rotados definidos por los vectores propios
de[S] también puede ser reveladora.
¿Son los datos de temperatura máxima y mínima de Canandaigua de enero de 1987 en la Tabla A.1
consistentes con la propuesta de que fueron extraídos de una distribución normal bivariada? En la
Figura 11.3 se presentan cuatro gráficos que indican que este supuesto no es irrazonable,
teniendo en cuenta que
un tamaño de muestra bastante pequeño. Las figuras 11.3a y 11.3b son diagramas de Q-Q
gaussianos para las temperaturas máxima y mínima,
La figura 11.3c muestra la gráfica de dispersión para las dos variables conjuntamente. La
distribución de los puntos parece ser razonablemente elíptica, con mayor densidad cerca de la
media de la muestra, [31.77, 20.23]T, y menor densidad en los extremos. Esta evaluación se apoya
en la figura 11.3d, que es el diagrama Q-Q de las distancias de Maha- lanobis de cada uno de los
puntos con respecto a la media de la muestra. Si los datos son bivariables normales, la distribución
de estos valores D2i será w2, con dos grados de libertad, que es una distribución exponencial
(Ecuaciones 4.46 y 4.47), con b2. Los valores de su función cuantitativa en el eje horizontal de la
figura 11.3d se han calculado utilizando la ecuación 4.83. Los puntos en este gráfico Q-Q también
son razonablemente rectos, con el mayor valor atípico bivariado (D2 7.23) obtenido el 25 de
enero. Este es el punto más a la izquierda de la figura 11.3c, correspondiente a la temperatura
máxima más fría. El segundo D2 más grande de 6.00 resulta de los datos del 15 de enero, que es el
día más cálido en los datos de temperatura máxima y mínima.
Capítulo
11 La distribución normal multivariada (MVN)
a) b)
FIGURA 11.3 Evaluaciones gráficas de la normalidad bivariante para los datos de temperatura
máxima y mínima de Canandaigua.
(a) Gráfica de Q-Q de Gauss para las temperaturas máximas, (b) Gráfica de Q-Q de Gauss para las
temperaturas mínimas, (c) Gráfica de dispersión para los datos de temperatura bivariados, y (d)
Gráfica de Q-Q para las distancias de Mahalanobis relativas a la distribución w2.
La correlación de los puntos de la Figura 11.3d es de 0.989, pero sería inapropiado utilizar la Tabla
5.3 para juzgar su inusualidad en relación con la hipótesis nula de que los datos fueron extraídos
de una distribución normal bivariada, por dos razones. Primero, la Tabla 5.3 fue derivada para las
correlaciones de la gráfica Q-Q de Gauss, y la distribución nula (bajo la hipótesis de los datos MVN)
para la distancia de Mahalanobis es w2. Además, estos datos no son independientes. Sin embargo,
sería posible derivar valores críticos análogos a los de la Tabla 5.3 generando sintéticamente un
gran número de muestras a partir de una distribución normal bivariada con correlaciones
temporales (bivariadas) que simulan las de las temperaturas de Canandaigua, calculando el gráfico
D2 Q-Q para cada una de estas muestras y tabulando la distribución de las correlaciones
resultantes. Los métodos apropiados para construir tales simulaciones se describen en la siguiente
sección. e
La simulación estadística de las variantes MVN se realiza a través de una extensión de las ideas
univariadas presentadas en la Sección 4.7. La generación de valores MVN sintéticos aprovecha la
propiedad (2) de la sección 11.2, según la cual las combinaciones lineales de valores MVN son en sí
mismas MVN. En particular, las realizaciones
Específicamente, las combinaciones lineales utilizadas para generar MVN varían con un vector
medio y una matriz de covarianza dados están dadas por las filas de una matriz de raíz cuadrada
(véase el apartado 10.3.4) para[S], con el elemento apropiado del vector medio añadido:
xi ¼ ½S]1=2zi þ m: ð11:16Þ
Como una combinación lineal de los valores estándar gaussianos K en el vector z, los vectores
generados x tendrán una distribución MVN. Es fácil ver que también tendrán el vector medio y la
matriz de covarianza correctos:
porque E(z) ¼ 0, y
Diferentes opciones para la matriz no única[S]1/2 producirán diferentes vectores x simulados para
una entrada z dada, pero la Ecuación 11.17 muestra que, colectivamente, el x NK resultante (m,[S])
es tan largo como[S]1/ 2 ([S]1/2)T[S].
Es interesante notar que la transformación en la Ecuación 11.16 puede ser invertida para producir
vectores MVN estándar z NK (0,[I]) correspondientes a vectores MVN x de distribuciones
conocidas. Usualmente, esta manipulación se realiza para transformar una muestra de vectores x
al estándar MVN de acuerdo a su media estimada y covarianza de x, análogamente a la anomalía
estandarizada (Ecuación 3.23),
Los procesos autorregresivos para series temporales escalares descritos en las Secciones 9.3.1 y
9.3.2 pueden generalizarse a series temporales multivariadas estacionarias o vectoriales. En este
caso, la variable x es una cantidad vectorial observada a intervalos de tiempo discretos y
regularmente espaciados. La generalización multivariada del proceso AR(p) en la Ecuación 9.23 es
Aquí los elementos del vector x consisten en un conjunto de series temporales correlacionadas
con K, m contiene el vector medio correspondiente, y los elementos del vector " son variables
aleatorias mutuamente independientes (y generalmente gaussianas) con una varianza media y
unitaria nula. Las matrices de los parámetros autorregresivos[Fi] corresponden a los parámetros
autorregresivos escalares fk de la ecuación 9.23. La matriz[B], que opera sobre el vector "tþ1,
permite que los componentes aleatorios de la ecuación 11.20 tengan diferentes varianzas y se
correlacionen mutuamente en cada paso temporal (aunque no estén correlacionados en el
tiempo). Nótese que el orden, p, de la autorregresión fue denotado como K en el Capítulo 9 y no
indica la dimensión de un vector allí. También se pueden definir modelos medios multivariantes
autorregresivos en movimiento, extendiendo los modelos escalares de la Sección 9.3.6 a los datos
vectoriales.
Las dos matrices de parámetros de la Ecuación 11.21 se estiman más fácilmente usando las
covarianzas simultáneas y retardadas entre los elementos de x. Las covarianzas simultáneas están
contenidas en la matriz de covarianzas usual[S], y las covarianzas retardadas están contenidas en
la matriz
1 Xn-1 0 0T
Esta ecuación es similar a la Ecuación 10.35 para[S], excepto que los pares de vectores cuyos
productos externos se suman son datos (anomalías) en pares de puntos temporales sucesivos. Los
elementos diagonales de[S1] son las autocovarianzas lag-1 (las autocorrelaciones retardadas en la
Ecuación 3.32 multiplicadas por las respectivas varianzas, como en la Ecuación 3.35) para cada uno
de los elementos K de x. Los elementos fuera de la diagonal de[S1] son las covarianzas retardadas
entre los elementos contrarios de x. La anotación en flecha en esta ecuación indica la secuencia de
tiempo del retardado de las variables. Por ejemplo, s1(1!2) denota la correlación entre x1 en el
tiempo t, y x2 en el tiempo t þ 1, y s1 (2!1) denota la correlación entre x2 en el tiempo t, y x1 en el
tiempo t 1. Observe que la matriz[S] es simétrica, pero que en general[S1] no lo es.
½S] ¼ ½S1]¼]-1:
La obtención de la matriz[B] requiere encontrar una raíz cuadrada de la matriz (Sección 10.3.4) de
E½"t] ¼ 0 ð11:25aÞ
Si los " vectores contienen realizaciones de variantes gaussianas independientes, entonces los x
vectores resultantes tendrán una distribución MVN porque son combinaciones lineales de
vectores MVN (estándar) ". Si los datos originales que las series simuladas deben emular son
claramente no gausianos, pueden transformarse antes de ajustar el modelo de series temporales.
Las estadísticas de muestra necesarias para ajustar la Ecuación 11.21 se calculan fácilmente a
partir de los datos de temperatura de Canandaigua en la Tabla A.1 como
½B]½B]T ¼ Σ 61:85 56:12 Σ - Σ :241 :399 ΣΣ 37:32 42:11 Σ ¼ Σ 35:10 25:49 Σ, ð11:28Þ
con una solución dada por la factorización de Cholesky (Ecuaciones 10.61 y 10.62),
B 5:92 0
Utilizando los valores estimados en las ecuaciones 11.27 y 11.29, y sustituyendo la media de la
muestra de la ecuación 11.26a por el vector medio, la ecuación 11.21 se convierte en un algoritmo
para simular series de xt bivariados con las mismas estadísticas del primer y segundo momento
(de la muestra) que las temperaturas de Canandaigua en la Tabla A.1. El algoritmo Box-Muller (ver
Sección 4.7.4) es especialmente conveniente para generar los vectores "t en este caso porque los
produce en pares. La figura 11.4a muestra una realización de 100 puntos de una serie temporal
bivariada generada de esta manera. Aquí las líneas verticales conectan las temperaturas máximas
y mínimas simuladas para un día dado, y las líneas horizontales de luz ubican los dos valores
medios (Ecuación 11.26a). Estas dos series de tiempo se asemejan estadísticamente a los datos de
temperatura de Canandaigua de enero de 1987 en la medida en que la Ecuación 11.21 es capaz de
hacerlo. Son poco realistas en el sentido de que las estadísticas de población no cambian a lo largo
de los 100 días simulados, ya que el modelo generador subyacente es la covarianza estacionaria.
Es decir, las medias, las varianzas y las covarianzas son constantes a lo largo de los 100 puntos
temporales, mientras que en la naturaleza estas estadísticas cambiarían en el curso de un invierno.
Además, la serie temporal es potencialmente irrealista en el sentido de que es posible (aunque
raro) simular estadísticamente temperaturas máximas que son más frías que la temperatura
mínima simulada para el día. Recalcular la simulación, pero partiendo de una semilla de número
aleatorio diferente, produciría una serie diferente, pero con las mismas características estadísticas.
FIGURA 11.4 (a) Una realización de 100 puntos desde el proceso bivariable AR(1) ajustado a las
temperaturas máximas y mínimas diarias de Canandaigua de enero de 1987. Las líneas verticales
conectan el máximo y el mínimo simulado para cada día, y las líneas horizontales ligeras localizan
los dos medios. b) Diagrama de dispersión de los 100 puntos bivariables. Los segmentos de línea
gris claro conectan los primeros 10 pares de valores.
La figura 11.4b muestra una gráfica de dispersión para los pares de 100 puntos, correspondiente a
la gráfica de dispersión de los datos reales en el panel inferior derecho de la figura 3.27. Dado que
los puntos se generaron al forzar la Equa-ción 11.21 con variantes gaussianas sintéticas para los
elementos de ", la distribución resultante para x es bivariable normal por construcción. Sin
embargo, los puntos no son independientes y muestran una correlación temporal similar a la
encontrada en la serie de datos original. El resultado es que los puntos sucesivos no aparecen al
azar dentro de la gráfica de dispersión, sino que tienden a agruparse. La línea gris claro ilustra esta
dependencia temporal trazando una trayectoria desde el primer punto (marcado con un círculo)
hasta el décimo punto (indicado por la punta de la flecha).
Dado que las estadísticas subyacentes a la Figura 11.4a permanecieron constantes a lo largo de la
simulación, se trata de la realización de una serie temporal estacionaria, en este caso un enero
perpetuo. Las simulaciones de este tipo pueden hacerse más realistas permitiendo que los
parámetros, basados en las estadísticas de la Ecuación 11.26, varíen periódicamente a lo largo de
un ciclo anual. El resultado sería una autorregresión ciclostacionaria cuyas estadísticas son
diferentes para diferentes fechas, pero la misma en la misma fecha en diferentes años.
El Teorema del Límite Central para datos univariados se describió brevemente en la Sección 4.4.2 y
de nuevo más cuantitativamente en la Sección 5.2.1. Establece que la distribución de muestreo del
promedio de un número suficientemente grande de variables aleatorias será gaussiana y que si las
variables promediadas son mutuamente independientes, la varianza de esa distribución de
muestreo será menor que la varianza de las variables originales por el factor 1/n. La generalización
multivariante del Teorema del Límite Central establece que la distribución del muestreo de la
media de n vectores aleatorios independientes (K x 1) x con la media mx y la matriz de
covarianza[Sx] será MVN con la misma matriz de covarianza, nuevamente escalada por el factor
1/n. Eso es,
¯x ~ N
o, de forma equivalente
Kxnx
Si los vectores aleatorios x que se están promediando son en sí mismos MVN, entonces las
distribuciones indicadas en las ecuaciones 11.30 son exactas porque entonces el vector medio de
la muestra es una combinación lineal de los vectores MVN
La multidimensionalidad para la distribución del muestreo del vector medio de la muestra implica
que la distribución del muestreo para la distancia de Mahalanobis entre la muestra y la población
media será w2. Es decir, asumiendo que[Sx] es conocido, la Ecuación 11.5 implica que
Por lo general, las inferencias sobre las medias deben hacerse sin conocer la varianza de la
población, y esto es cierto tanto en entornos univariados como multivariados. Sustituyendo la
matriz de covarianza estimada por la Ecuación 11.31 se obtiene la estadística de una muestra de
Hotelling T2,
T2 ¼ ð¯x - m ÞT .1
ðn - KÞ T2 F
T2 > ðn — 1ÞK F
T2 ~ w2
Las diferencias entre los cuantiles w2 y F (a escala) son de aproximadamente 5% para n - K 100, de
modo que esta es una regla empírica válida para la idoneidad de las ecuaciones 11.36 como
aproximaciones de muestra grande a las ecuaciones 11.33 y 11.34.
dónde
es la diferencia de los dos vectores medios de la muestra bajo H0, correspondiente al segundo
término en el numerador de la ecuación 5.5. Si, como ocurre a menudo, la hipótesis nula es que
las dos medias subyacentes son iguales, entonces d0 0 (correspondiente a la Ecuación 5.6). El
Hotelling T2 de dos muestras de la ecuación 11.37 es una distancia de Mahalanobis entre la
diferencia de los vectores medios de dos muestras que se están probando y los
diferencia correspondiente de sus valores esperados bajo la hipótesis nula. Si la hipótesis nula es
d0 0, la Ecuación 11.37 se reduce a una distancia de Mahalanobis entre los dos vectores medios de
la muestra.
La matriz de covarianza para la distribución de muestreo (MVN) de la diferencia de las dos ve-villas
medias.
se estima de manera diferente, dependiendo de si las matrices de covarianza para las dos
muestras,[S1] y[S2], pueden ser asumidas de manera plausible como iguales. Si es así, esta matriz
se estima utilizando una estimación combinada de esa covarianza común,
½S ] ¼ . 1 þ 1 ΣΣS
dónde
ΣS Σ ¼ n1 - 1 ½S ] ] þ n2 - 1 ½S ] ð11:39bÞ
es un promedio ponderado de las dos matrices de covarianza de la muestra para los datos
subyacentes. Si no es posible suponer que estas dos matrices son iguales, y si además los tamaños
de la muestra son relativamente grandes, entonces la matriz de dispersión para la distribución del
muestreo de la diferencia de los vectores medios de la muestra puede estimarse como
Es decir, los valores críticos son proporcionales a los cuantiles de la distribución F con n1 K y n2 n1
n2 n2 - K -1 grados de libertad. Para n2 suficientemente grande (>100, quizás), se puede usar la
Ecuación 11.36b, como antes.
La Tabla 11.1 muestra los promedios de enero de las temperaturas máximas y mínimas diarias en
la ciudad de Nueva York y Boston para los 30 años de 1971 al 2000. Debido a que estos son valores
anuales, sus correlaciones en serie son bastante pequeñas. Como promedio de 31 valores diarios
cada uno, se espera que las distribuciones univariadas de estos valores mensuales se aproximen
mucho al gaussiano. La figura 11.5 muestra gráficas de dispersión de los valores en cada ubicación.
Las dispersiones elipsoidales de las dos nubes de puntos sugieren una normalidad bivariada para
ambos pares de temperaturas máxima y mínima. Los dos diagramas de dispersión se superponen
un poco, pero la separación visual es lo suficientemente distinta como para sospechar
fuertemente que sus distribuciones generadoras son diferentes.
x¯N
TABLA 11.1 Temperaturas máximas y mínimas promedio de enero para la ciudad de Nueva York y
Boston, 1971-2000, y las diferencias anuales correspondientes.
Como cabía esperar de su menor latitud, las temperaturas medias en Nueva York son más cálidas.
La matriz de covarianza de la muestra para las cuatro variables conjuntamente es la siguiente
ð11:44Þ
Dado que los dos lugares están relativamente cerca uno del otro y que los datos se tomaron en los
mismos años, es apropiado tratarlos como valores emparejados. Esta afirmación se apoya en las
grandes covarianzas cruzadas en las submatrices[SB-N][SN-B]T, correspondientes a correlaciones
que van de 0,89 a 0,94: es evidente que los datos de las dos ubicaciones no son independientes
entre sí. Sin embargo, es instructivo realizar primero cálculos T2 para diferencias de vectores
medios como una prueba de dos muestras, ignorando por el momento estas grandes covarianzas
cruzadas.
Con respecto a las temperaturas de Boston y Nueva York como mutuamente independientes, la
estadística de prueba apropiada sería la Ecuación 11.37. Si la hipótesis nula es que las medias
vectoriales subyacentes de las dos distribuciones de las que se extrajeron estos datos son iguales,
d0 ¼ 0. Tanto las impresiones visuales de las dos dispersiones de datos de la figura 11.5 como la
similitud de las matrices de covarianza[SN] y[SB] en
La ecuación 11.44 sugiere que asumir la igualdad de las matrices de covarianza sería razonable. La
covarianza apropiada para la distribución del muestreo de la diferencia de medias se calcularía
usando la Ecuación 11.39, aunque debido a que los tamaños de la muestra son iguales, el mismo
resultado numérico se obtiene con la Ecuación 11.40:
½S ] ¼ . 1 þ 1 Σ. 29 ½
(Ecuación 11.36b).
La hipótesis nula de vectores medios iguales para Nueva York y Boston implica mD 0 en la
Ecuación 11.42, dando como resultado la estadística de prueba
Debido a que estos datos de temperatura están espacialmente correlacionados, gran parte de la
variabilidad que se atribuyó a la incertidumbre del muestreo para los vectores medios por
separado en la prueba de dos muestras se comparte y no contribuye a la incertidumbre del
muestreo sobre las diferencias de temperatura.
La consecuencia numérica es que las varianzas en la matriz (1/30)[SD] son mucho menores que sus
contrapartes en la Ecuación 11.45 para la prueba de dos muestras. Por consiguiente, T2 para la
prueba emparejada en la Ecuación 11.48 es mucho más grande que para la prueba de dos
muestras en la Ecuación 11.46. De hecho, es enorme, lo que lleva a la estimación aproximada
(porque los tamaños de la muestra son sólo moderados), a través de la Ecuación 4.47, de 2 x 10-
65.
Tanto la prueba de dos muestras (incorrecta) como la prueba emparejada (apropiada) producen
fuertes rechazos de la hipótesis nula de que los vectores medios de Nueva York y Boston son
iguales. Pero, ¿qué se puede concluir sobre la(s) forma(s) en que son diferentes? Esta pregunta se
retomará en el ejemplo 11.7. e
Las pruebas T2 descritas hasta ahora se basan en el supuesto de que los vectores de datos no
están relacionados entre sí. Es decir, aunque los elementos K de x pueden tener correlaciones
distintas de cero, se ha asumido que cada una de las observaciones vectoriales, xi, i 1, .... n, son
mutuamente independientes. Como se indica en la Sección 5.2.4, ignorar la correlación en serie
puede conducir a grandes errores en la inferencia estadística, típicamente porque las
distribuciones de las estadísticas de la prueba tienen mayor dispersión (las estadísticas de la
prueba son más variables de un lote a otro de datos) que si los datos subyacentes fueran
independientes.
Un ajuste simple (Ecuación 5.13) está disponible para las pruebas escalares t si la correlación serial
en los datos es consistente con una autoregresión de primer orden (Ecuación 9.16). La situación es
más complicada para la prueba T2 multivariada porque, incluso si la dependencia del tiempo para
cada uno de los elementos K de x es razonadamente representada por un proceso AR(1), sus
parámetros autorregresivos f pueden no ser los mismos, y las correlaciones retardadas entre los
diferentes elementos de x también deben ser tenidas en cuenta. Sin embargo, si se puede suponer
que el proceso AR(1) multivariado (ecuación 11.21) representa razonablemente la dependencia en
serie de los datos, y si el tamaño de la muestra es lo suficientemente grande como para producir
multinormalidad como consecuencia del Teorema del Límite Central, la distribución del muestreo
del vector medio de la muestra es la siguiente
¯x ~ N
dónde
Kxnf
La ecuación 11.49 corresponde a la ecuación 11.30a para datos independientes, y[SF] se reduce
a[Sx] si[F]. ¼[0] (es decir, si las x son independientes en serie). Para n grandes, las contrapartes de
muestra de las cantidades de la ecuación 11.49 pueden ser sustituidas, y la matriz[SF] utilizada en
lugar de[Sx] en el cálculo de las estadísticas de la prueba T2.
Como se indica en la Sección 5.1.7, un intervalo de confianza es una región alrededor de una
muestra estadística que contiene valores que no serían rechazados por un ensayo cuya hipótesis
nula es que el valor observado de la muestra es el valor verdadero. En efecto, los intervalos de
confianza se construyen mediante pruebas de hipótesis de trabajo a la inversa. La diferencia en los
ajustes multivariados es que un intervalo de confianza define una región en el espacio K-
dimensional del vector de datos x en lugar de un intervalo en el espacio unidimensional (la línea
real) del x escalar.
Considere la prueba de una muestra 2, ecuación 11.32. Una vez observados los datos , 1, , , y
calculada la matriz de covarianza de la muestra[Sx], una (1 - a) región de confianza del 100% para
la media vectorial real consiste en el conjunto de puntos que satisfacen los siguientes criterios
porque estas son las x que no desencadenarían un rechazo de la hipótesis nula de que la media
verdadera es la media de la muestra observada. Para n - K suficientemente grande, el lado
derecho de la ecuación 11.50 sería
estar bien aproximado por w2K(1 - a). Del mismo modo, para la prueba T2 de dos muestras
(ecuación 11.37) a (1 - a) La región de confianza del 100% para la diferencia de las dos medias
consiste en que los puntos d satisfacen
½d - ð¯x
donde de nuevo el lado derecho es aproximadamente igual a w2K(1 - a) para muestras grandes.
Los puntos x que satisfacen la Ecuación 11.50 son aquellos cuya distancia de Mahalanobis desde ¯x
no es mayor que el cuantillo escalado (1 - a) de la distribución de F (o w2, según corresponda) en
el lado derecho, y de manera similar para los puntos d que satisfacen la Ecuación 11.51. Por lo
tanto, las regiones de confianza definidas por estas ecuaciones están delimitadas por
(hiper)elipsoides cuyas características están definidas por la covarianza
para la distribución del muestreo del estadístico de prueba respectivo, por ejemplo, por (1/n)[Sx]
para la Ecuación 11.50. Debido a que la distribución de muestreo de ¯x se aproxima a la
distribución de MVN en la fuerza del Teorema del Límite Central, las regiones de confianza
definidas por la Ecuación 11.50 son elipsoides de confianza para la distribución de MVN con media
¯x y covarianza (1/n)[Sx] (cf. Ecuación 11.5). De manera similar, las regiones de confianza definidas
por la Ecuación 11.51 son hiper-elipsoides centradas en la diferencia de medias del vector entre
las dos medias de la muestra.
Como se ilustra en el Ejemplo 11.1, las propiedades de estas elipses de confianza, aparte de su
centro, están definidas por los valores propios y los vectores propios de la matriz de covarianza
para la distribución de muestreo en cuestión. En particular, cada eje de una de estas elipses se
alineará en la dirección de uno de los vectores propios, y cada uno se alargará en proporción a la
raíz cuadrada del correspondiente valor propio. En el caso de la región de confianza de una
muestra, por ejemplo, los límites de x satisfaciendo la Ecuación 11.50 en las direcciones de cada
uno de los ejes de la elipse son
donde lk y ek son el par vectorial propio kth de la matriz (1/n)[Sx]. De nuevo, para n
suficientemente grande, la cantidad bajo el radical se aproximaría bien por lk w2K(1 - a). La
ecuación 11.52 indica que las elipses de confianza están centradas en la media de la muestra
observada ¯x, y se extienden más en las direcciones asociadas con los valores propios más
grandes. También se extienden para a más pequeños porque producen mayores probabilidades
acumulativas para los cuantiles de distribución F(1 - a) yw2K(1 - a).
Sería posible, y más sencillo desde el punto de vista computacional, realizar pruebas K univariadas
t y calcular los intervalos de confianza K univariados por separado para la media de cada elemento
de x, en lugar de la prueba T2 que examina la media del vector ¯x. ¿Cuál es la relación entre una
región de confianza multivariada elipsoidal del tipo descrito y una colección de intervalos de
confianza univariados K? Conjuntamente, estos intervalos de confianza univariados definirían una
región hiperrectangular en el espacio K-dimensional de x; pero la probabilidad (o confianza)
asociada con los resultados que encierra será sustancialmente menor.
que 1 - a, si las longitudes de cada uno de sus lados K son los correspondientes (1 - a) intervalos de
confianza escalares del 100%. El problema es la multiplicidad de las pruebas: si las pruebas K en las
que se basan los intervalos de confianza son independientes, la probabilidad conjunta de que
todos los elementos del vector x se encuentren simultáneamente dentro de sus límites de
confianza escalar será (1 - a)K. En la medida en que los cálculos del intervalo de confianza escalar
no son independientes, la probabilidad conjunta será diferente, pero difícil de calcular.
Los intervalos de confianza de Bonferroni y utilizarlos como base para una declaración conjunta de
confianza:
La expresión dentro del corchete define un intervalo de confianza univariable (1 - a/K) del 100%
para la variable kth en x. Cada uno de estos intervalos de confianza se ha expandido en relación
con el valor nominal (1-).
Hay dos problemas con el uso de las regiones de confianza de Bonferroni en este contexto.
Primero, la Ecuación 11.53 es una desigualdad más que una especificación exacta. Es decir, la
probabilidad de que todos los elementos K del vector verdadero hipotético m estén contenidos
simultáneamente en sus respectivos intervalos de confianza unidimensional es al menos 1 - a, no
exactamente 1 - a. Es decir, en general los intervalos de confianza de Bonferroni en la dimensión K
es demasiado grande, pero se desconoce con exactitud cuánta más probabilidad que 1 - a puede
estar encerrada por ella.
El segundo problema es más grave. Como una colección de intervalos de confianza univariados, la
región de confianza hiper-rectangular dimensional K resultante ignora la estructura de covarianza
de los datos. Las declaraciones de confianza de Bonferroni pueden ser razonables si la estructura
de correlación es débil, por ejemplo, en el contexto descrito en el apartado 9.5.6. Pero las
intervalos de confianza de Bonferroni son ineficientes cuando las correlaciones entre los
elementos de x son fuertes, en el sentido de que incluirán grandes regiones con muy baja
plausibilidad. Como consecuencia, son demasiado grandes en un sentido multivariante y pueden
llevar a inferencias tontas.
Supongamos que la matriz de covarianza de la ecuación 10.56, para las temperaturas mínimas de
Ítaca y Canandaigua, se ha calculado a partir de n 100 pares de temperaturas independientes.
Estas muchas observaciones justificarían aproximaciones de muestras grandes para las
distribuciones de muestreo (los cuantiles estándar gaussianos z y w2, en lugar de los cuantiles t y
F) y asumir la independencia evita la necesidad de los ajustes de no independencia en la Ecuación
11.49.
¿Cuál es la mejor región de confianza bidimensional para el vector medio climatológico real, dada
la media de la muestra[13.00, 20.23]T, y asumiendo la matriz de covarianza de la muestra para los
datos de la Ecuación 10.56? Basándose en la normalidad multivariada para la distribución del
muestreo de la media de la muestra implícita en el teorema del límite central, la Ecuación 11.50
define una región elíptica de confianza del 95% cuando el lado derecho es el cuantil w2 w22 (0.95)
5.991. El resultado es la región elíptica mostrada en la Figura 11.6, centrada en la media de la
muestra (). Compare esta elipse con la Figura 11.1, que está centrada en la misma media y basada
en la misma matriz de covarianza (aunque dibujada para encerrar una probabilidad ligeramente
menor). La figura 11.6 tiene exactamente la misma forma y orientación, pero es mucho más
compacta, aunque encierra alguna probabilidad. Ambas elipses tienen los mismos vectores
propios, e1T ¼[0.848, 0.530] y e2T ¼[- 0.530, 0.848], pero los valores propios de la Figura 11.6 son
100 veces más pequeños; es decir, l1 ¼ 2.5476 y l2 ¼ 0.0829. La diferencia es que la Figura 11.1
representa un contorno de la distribución de MVN para los datos, con covarianza[Sx] dada por la
Ecuación 10.56, pero la Figura 11.6 muestra un contorno de MVN con covarianza (1/n)[Sx],
apropiado para la Ecuación 11.50 y relevante para la distribución de muestreo de la media en
lugar de la distribución de los datos. Esta elipse es la región más pequeña que encierra el 95% de la
superficie de la tierra.
FIGURA 11.6 Regiones hipotéticas de confianza conjunta del 95% para las temperaturas mínimas
medias de Ítaca y Canandaigua, suponiendo que en la ecuación 10.56 se habían utilizado 100
observaciones bivariadas independientes para calcular la matriz de covarianza. Ellipse encierra
puntos a una distancia de Mahalanobis de w2 ¼ 5.991 de la media de la muestra (indicada por
þ)[13.00, 20.23]T. Los límites horizontales y verticales del rectángulo discontinuo se definen
mediante dos intervalos de confianza independientes para las dos variables, con T z(0.025) ¼T
1.96. El rectángulo gris indica la región de confianza de Bonferroni correspondiente, calculada con
T z(0.0125) ¼
T 2.24. El punto[15, 19] (punto grande) está cómodamente dentro de ambas regiones
rectangulares de confianza, pero está a la distancia de Mahalanobis.
w2 ¼ 1006 de la media relativa a la estructura de covarianza conjunta de las dos variables, por lo
que es altamente inverosímil.
El rectángulo gris de la figura 11.6 describe la región de confianza de Bonferroni al 95%. Ha sido
calculado usando un 0.05 en la Ecuación 11.53 y por lo tanto está basado en los cuantiles 0.0125 y
0.9875 de la distribución gaussiana estándar, o 2.24. La región rectangular resultante incluye al
menos (1 - a) el 100% del 95% de la probabilidad de la distribución del muestreo conjunto. Ocupa
mucho más área en el plano que la elipse de confianza porque el rectángulo incluye grandes
regiones en la parte superior izquierda e inferior derecha que contienen muy poca probabilidad.
Sin embargo, desde el punto de vista de la inferencia univariada -es decir, los intervalos de
confianza para una ubicación sin tener en cuenta la otra- los límites de Bonferroni son más
estrechos.
La principal dificultad de las regiones de confianza de Bonferroni queda ilustrada por el punto[15,
19]T, situado en el punto grande de la figura 11.6. Se encuentra cómodamente dentro del
rectángulo gris que delimita la región de confianza de Bonferroni, lo que implica que se trata de un
valor plausible para el verdadero vector medio. Sin embargo, una región de confianza de
Bonferroni se define sin tener en cuenta la covarianza multivariante
¿Qué puede decirse de las diferencias de medias multivariadas si se rechaza la hipótesis nula para
una prueba T2, es decir, si se cumplen las ecuaciones 11.34 u 11.41 (o su contraparte de muestra
grande, la ecuación 11.36b)? Esta pregunta se complica por el hecho de que existen muchas
maneras de diferenciar entre sí los medios multivariados, incluyendo, pero no limitándose a una o
más de las diferencias por pares entre los elementos que serían detectados por las pruebas
univariadas correspondientes.
a / ½S]-1ð¯x - m Þ ð11:54aÞ
para pruebas de dos muestras. Como mínimo, entonces, si un cálculo T2 multivariado resulta en
un rechazo de hipótesis nulo, entonces las combinaciones lineales correspondientes a la dirección
K-dimensional definida por el vector a en la Ecuación 11.54 también conducirán a resultados
significativos. Puede ser muy útil interpretar el significado, en el contexto de los datos, de la
dirección definida por la Ecuación 11.54. Por supuesto, dependiendo de la fuerza del resultado
multivariante general, otras combinaciones lineales también pueden conducir a rechazos de
pruebas escalares, y es posible que todas las combinaciones lineales sean significativas. La
dirección también indica la dirección que mejor discrimina entre las poblaciones de las que se
extrajeron x1 y x2 (véase la Sección 14.2.2).
La razón por la que cualquier combinación lineal que satisfaga la Ecuación 12.54 produce el mismo
resultado de la prueba puede ser vista más fácilmente en términos del intervalo de confianza
correspondiente. Considere para simplificar el intervalo de confianza para una prueba T2 de una
muestra, Ecuación 11.50. Usando los resultados de la Ecuación 10.81, este intervalo de confianza
escalar se define por
donde c2 es igual a[K(n - 1)/(n - K)] FK, n-K(1 - a), o w2K, según corresponda. Aunque la longitud
del vector a es arbitraria, de modo que la magnitud de la combinación lineal aTx es también
arbitraria, la cantidad aT m se escala de forma idéntica.
Otra propiedad notable de la prueba T2 es que se pueden hacer inferencias válidas sobre todas y
cada una de las combinaciones lineales, aunque no se hayan especificado a priori. El precio que se
paga por esto
Esta flexibilidad es que las inferencias hechas usando pruebas escalares convencionales para
combinaciones lineales que se especifiquen por adelantado serán más precisas. Este punto puede
apreciarse en el contexto de las regiones de confianza que se muestran en la figura 11.6. Si un
ensayo relativo a la temperatura mínima de Ítaca sólo hubiera sido de inter-est, correspondiente a
la combinación lineal a[1,0]T, el intervalo de confianza apropiado se definiría por la extensión
horizontal del rectángulo discontinuo.
Ejemplo 11.7 Interpretación de las diferencias de temperatura medias de enero en Nueva York y
Boston
Volvamos ahora a las comparaciones hechas en el Ejemplo 11.5, entre los vectores de la media de
las temperaturas máximas y mínimas de enero para la ciudad de Nueva York y Boston. La
diferencia entre las medias de la muestra fue[2,18, 4,02]T, y la hipótesis nula fue que las medias
verdaderas eran iguales, por lo que la diferencia correspondiente d0 0. Incluso suponiendo,
erróneamente, que no existe correlación espacial entre los dos emplazamientos (o, a efectos del
ensayo, que los datos de los dos emplazamientos
en diferentes años), T2 en la Ecuación 11.46 indica que la hipótesis nula debe ser fuertemente
rechazada.
Ambos medios son más cálidos en Nueva York, pero la Ecuación 11.46 no implica necesariamente
diferencias significativas entre los máximos medios o los mínimos medios. La Figura 11.5 muestra
una superposición sustancial entre las dispersiones de datos para temperaturas máximas y
mínimas, con cada media escalar cerca del centro de la distribución de datos correspondiente para
la otra ciudad. Calculando las pruebas univariadas separadas (Ecuación 5.8) se obtiene z
2.18/√1.248 1.95 para los máximos y z 4.02/√1.349 3.46 para los mínimos. Aun dejando de lado el
problema de que se están haciendo dos comparaciones simultáneas, el resultado de la diferencia
de las temperaturas máximas medias no es muy significativo en el nivel del 5%, aunque la
diferencia para los mínimos es mayor.
El resultado significativo en la Ecuación 11.46 asegura que hay al menos una combinación lineal
aT(x1 - x2) (y posiblemente otras, aunque no necesariamente las combinaciones lineales
resultantes de aT[1,0] o[0,1]) para las cuales hay una diferencia significativa. Según la Ecuación
11.54b, los vectores que producen las combinaciones lineales más significativas son
proporcionales a
—1 ¯
aTD¯ ¼ ½ -13:5 1
para esta combinación lineal de las diferencias z 32,5/√32,6 5,69. Esta, no por casualidad, es la raíz
cuadrada de la Ecuación 11.46. El punto de referencia adecuado para comparar la inusualidad de
este resultado en el contexto de la hipótesis nula no es el estándar gaussiano.
o distribuciones t (porque esta combinación lineal se derivó de los datos de la prueba, no a priori),
sino más bien de las raíces cuadradas de los cuantiles w22 o de los cuantiles F2,30 a escala
apropiada. El resultado sigue siendo muy significativo, con p 10-7. La ecuación 11.56 indica que el
aspecto más significativo de la diferencia entre los vectores medios de Nueva York y Boston no son
las temperaturas más cálidas en Nueva York en relación con Boston (que corresponderían a[1,
1]T). Más bien, los elementos de un son de signo opuesto y de magnitud casi igual, y así describen
un contraste. Como -a a, una forma de interpretar este contraste es como la diferencia entre los
máximos y mínimos medios, correspondiente a la elección a[1, -1]T. Es decir, el aspecto más
significativo de la diferencia entre los dos vectores medios está estrechamente relacionado con la
diferencia en el rango medio diurno, siendo el rango para Boston mayor. La hipótesis nula de que
los dos rangos diurnos son iguales puede ser probada específicamente, usando el vector de
contraste a[1, -1]T en la Ecuación 11.57, en lugar de la combinación lineal definida por la Ecuación
11.56. El resultado es z 1.84/√0.121 5.29. Esta estadística de la prueba es negativa porque el rango
diurno en Nueva York es más pequeño que el rango diurno en Boston. Es ligeramente menor en
valor absoluto que el resultado obtenido al usar una [ 13.5, 15.4], porque es la combinación lineal
más significativa, aunque el resultado es casi el mismo porque los dos vectores están alineados en
casi la misma dirección. Comparando el resultado con la distribución w22 se obtiene un resultado
muy significativo p
10–6. Visualmente, la separación entre las dos nubes de puntos en la Figura 11.5 es consistente
con esta diferencia en el rango diurno: Los puntos de Boston tienden a estar más cerca de la parte
superior izquierda, y los de Nueva York están más cerca de la parte inferior derecha. Por otro lado,
la orientación relativa de los dos medios es casi exactamente opuesta, con la media de Nueva York
más cerca de la esquina superior derecha y la media de Boston más cerca de la esquina inferior
izquierda. e
11.6. EJERCICIOS
11.1. Supongamos que las temperaturas máximas de Ítaca y Canandaigua en la Tabla A.1
constituyen una muestra de una distribución MVN, y que su matriz de covarianza[S] tiene valores
propios y vectores propios como se indica en el Ejercicio 10.6. Esquema las elipses de probabilidad
del 50% y 95% de esta distribución.
11.2. Supongamos que las cuatro variables de temperatura de la tabla A.1 están distribuidas por
MVN, siendo el orden de las variables en x[MaxIth, MinIth, MaxCan, MinCan]T. Los medios
respectivos también se dan en la Tabla A.1, y la matriz de covarianza[S] se da en la respuesta al
Ejercicio 10.7a. Suponiendo que la media real y la covarianza son los mismos que los valores de la
muestra,
b. Consideremos las combinaciones lineales b1 ¼[1, 0, -1, 0], que expresan la diferencia entre
las temperaturas máximas, y b2[1, -1 -1, 1], que expresan la diferencia entre los rangos diurnos,
como filas de una matriz de transformación[B]T. Especificar la distribución de las variables
transformadas[B]Tx.
11.3. El vector propio asociado con el menor valor propio de la matriz de covarianza[S] para los
datos de temperatura de enero de 1987 a los que se hace referencia en el Ejercicio 11.2 es e T ¼[-
.665, .014, .738, -.115]. Evaluar el
a. Gráficamente, con un gráfico Q-Q. Para conveniencia computacional, evalúe F(z) usando la
Ecuación 4.29.
b. Formalmente, con la prueba de Filliben (ver Tabla 5.3), asumiendo que no hay
autocorrelación.
11.5. Repita el Ejercicio 11.4, asumiendo independencia espacial (es decir, poniendo a cero
todas las covarianzas cruzadas entre las variables de Ítaca y Canandaigua).
El PCA reduce un conjunto de datos que contiene un gran número de variables a un conjunto de
datos que contiene menos (ojalá muchas menos) nuevas variables. Estas nuevas variables son
combinaciones lineales de las originales, y estas combinaciones lineales se eligen para representar
la máxima fracción posible de la variabilidad contenida en los datos originales. Es decir, dadas las
múltiples observaciones de un vector de datos (K 1) x, la PCA encuentra vectores (M 1) u cuyos
elementos son combinaciones lineales de los elementos de los años x, y que contienen la mayor
parte de la información en la colección original de x0s. La PCA es más efectiva cuando esta
compresión de datos puede lograrse con M <<< K. Esta situación ocurre cuando hay correlaciones
sustanciales entre las variables dentro de x, en cuyo caso x contiene información redundante. Los
elementos de estos nuevos vectores u se denominan componentes principales (PCs).
Los datos para los campos atmosféricos y otros campos geofísicos generalmente muestran muchas
correlaciones grandes entre las variables xk, y un PCA resulta en una representación mucho más
compacta de sus variaciones. Sin embargo, más allá de la mera compresión de datos, un PCA
puede ser una herramienta muy útil para explorar grandes conjuntos de datos multivariados,
incluyendo aquellos que consisten en campos geofísicos. En este caso, la PCA tiene el potencial de
producir una comprensión sustancial de las variaciones espaciales y temporales exhibidas por el
campo o campos que están siendo analizados, y se pueden sugerir nuevas interpretaciones de los
datos originales x debido a la naturaleza de las combinaciones lineales que son más efectivas para
comprimir esos datos.
Normalmente es conveniente calcular los PCs como combinaciones lineales de las anomalías x0 x -
x. El primer PC, u1, es la combinación lineal de x0 que tiene la mayor varianza. El subsiguiente
Componente principal um, m 2, 3, ...., son las combinaciones lineales que tienen las mayores
varianzas posibles, subjeto a la condición de que no estén correlacionados con los componentes
principales que tienen índices más bajos. El resultado es que todos los PCs no están relacionados
entre sí.
Las nuevas variables o PC -es decir, los elementos um de u que darán cuenta sucesivamente de la
cantidad máxima imum de la variabilidad conjunta de x0 (y por lo tanto también de x)- son
definidos de manera única (excepto por el signo) por los vectores propios de la matriz de
covarianza de x,[S]. En particular, el componente principal mth, um, se obtiene como la proyección
del vector de datos x0 sobre el propio mth eigenvector, em,
um ¼ eT x0 ¼
Nótese que cada uno de los vectores propios contiene un elemento perteneciente a cada una de
las variables K, xk. De manera similar, cada realización del componente principal mth en la
Ecuación 12.1 se calcula a partir de un conjunto particular de observaciones de las variables K xk.
Es decir, cada uno de los componentes principales de M es una especie de promedio ponderado
de los valores xk que son los elementos de un vector de datos particular x. Aunque los pesos (los
ek,m's) no suman 1, sus cuadrados sí lo hacen debido a la convención de escalamiento |||em|| ¼
1. (Note que una convención de escalamiento fija para los pesos de las combinaciones lineales en
la Ecuación 12.1 permite que la restricción de varianza máxima que define a los PCs sea
significativa.) Si la muestra de datos contiene n observaciones (y por lo tanto n vectores de datos
x, o n filas en la matriz de datos[X]), habrá n valores para cada uno de los componentes
principales, o nuevas variables, um. Cada uno de ellos constituye un índice de número de pecado
de la semejanza entre el vector propio em y el vector de datos individual x correspondiente.
Geométricamente, el primer vector propio, e1, apunta en la dirección (en el espacio K-dimensional
de x0) en la que los vectores de datos muestran conjuntamente la mayor variabilidad. Este primer
vector propio es el que se asocia con el mayor valor propio, l1. El segundo eigenvector e2,
asociado con el segundo valor propio más grande l2, está restringido a ser perpendicular a e1
(Ecuación 10.48), pero sujeto a esta restricción, será
se alinean en la dirección en la que los vectores x0 muestran sus siguientes variaciones más
fuertes. Los siguientes...
Los vectores em, m 3, 4, ...., M, están numerados de forma similar según las magnitudes
decrecientes de sus valores propios asociados, y a su vez serán perpendiculares a todos los
vectores propios anteriores. Sujeto a esta limitación de ortogonalidad, estos vectores propios
continuarán localizando direcciones en las que los datos originales exhiben conjuntamente la
máxima variabilidad.
Dicho de otro modo, los vectores propios definen un nuevo sistema de coordenadas en el que
visualizar los datos. En particular, la matriz ortogonal[E] cuyas columnas son los vectores propios
(Ecuación 10.49) define la rotación rígida
Es una propiedad notable de los componentes principales que no estén correlacionados. Es decir,
la matriz de correlación para las nuevas variables um es simplemente[I]. Esta propiedad implica
que las covarianzas entre pares de um son todas cero, de modo que la matriz de covarianzas
correspondiente es diagonal. De hecho, la matriz de covarianza para los componentes principales
se obtiene mediante la diagonalización de[Sx] (Ecuación 10.54) y es por lo tanto simplemente la
matriz diagonal[L] de los valores propios de[S]:
Es decir, la desviación del componente principal mth um es el valor propio mth lm. La ecuación
10.52 implica entonces que cada PC representa una parte de la variación total en x que es
proporcional a su propio valor,
Rm ¼
En este caso, R2 se utiliza en el mismo sentido que se conoce de la regresión lineal (véase el
apartado 7.2). La variación total exhibida por los datos originales se representa completamente en
(o se explica por) el conjunto completo de K um's, en el sentido de que la suma de las varianzas de
los datos centrados x0 (y por lo tanto también de las variables no centradas x), Sk sk,k, es igual a la
suma de las varianzas Smlm. de las variables componentes principales u.
x0
x0
pero la aproximación mejora a medida que aumenta el número de M de PCs utilizados (o, más
precisamente, a medida que aumenta la suma de los valores propios correspondientes, debido a la
Ecuación 12.4). Porque[E] en la Ecuación 12.6a tiene
sólo columnas M y funciona en un vector PC truncado u de dimensión (M 1), la Ecuación 12.6 se
llama la fórmula de síntesis truncada. Los datos no centrados originales (en el caso de la Ecuación
12.5) o aproximados (para la Ecuación 12.6) x pueden obtenerse fácilmente añadiendo de nuevo el
vector de los medios de la muestra; es decir, invirtiendo la Ecuación 10.33.
Debido a que cada componente principal um es una combinación lineal de las variables originales
xk (Ecuación 12.1), y viceversa (Ecuación 12.5), los pares de componentes principales y variables
originales se correlacionarán a menos que el elemento ek,m que los relaciona sea cero. A veces
puede ser informativo calcular estas correlaciones, las cuales son dadas por
Lo básico del PCA se aprecia más fácilmente en un ejemplo simple donde la geometría puede ser
visualizada. Si K 2, el espacio de los datos es bidimensional, y puede ser graficado en una página.
La Figura 12.1 muestra una gráfica de dispersión de las temperaturas mínimas de Ítaca (x10) y
Canandaigua (x20) centradas (a cero) de la Tabla A.1. Esta es la misma gráfica de dispersión que
aparece
en el centro de la fila inferior de la figura 3.27. Es evidente que las temperaturas de Ítaca son más
variables que las de Canandaigua, siendo las dos desviaciones estándar √s1,1 13.62○F y √s2,2
8.81○F, respectivamente. Claramente, las dos variables están fuertemente correlacionadas y
tienen una correlación Pearson de 0,924 (ver Tabla 3.5). La matriz de covarianza[S] para estas dos
variables se da de la siguiente manera
A] en la Ecuación 10.56. Los dos vectores propios de esta matriz son e1T[0.848, 0.530] y e2T[-
0.530, 0.848], de modo que la matriz propia[E] es la que se muestra en la Ecuación 10.57. Los
valores propios correspondientes son l1 254,76 y l2 8,29. Estos son los mismos datos utilizados
para ajustar las elipses bivariadas de probabilidad normal mostradas en las Figuras 11.1 y 11.6.
Las orientaciones de los dos vectores propios se muestran en la figura 12.1, aunque sus longitudes
han sido exageradas para mayor claridad. Es evidente que el primer vector propio está alineado en
la dirección en que los datos juntos muestran la máxima variación. Es decir, la nube de puntos se
inclina en el mismo ángulo que la e1, que es 32○ desde la horizontal (es decir, desde el vector[1,
0]), según la Ecuación 10.15. Dado que los datos de este sencillo ejemplo sólo existen en
dimensiones K 2, la restricción de que el segundo vector propio debe ser perpendicular al primero
determina su dirección hasta el signo (es decir, podría ser -e2T [ 0.530, -0.848]). Este último
eigenvector localiza la dirección en la que los datos exhiben conjuntamente sus variaciones más
pequeñas.
Los dos vectores propios determinan un sistema de coordenadas alternativo en el que visualizar
los datos. Este hecho puede hacerse más claro si se gira este libro 32○ en el sentido de las agujas
del reloj mientras se mira la Figura 12.1. Dentro de este sistema de coordenadas giradas, cada
punto está definido por un vector principal uT[u1, u2] de nuevas variables transformadas, cuyos
elementos consisten en las proyecciones de los datos originales sobre los vectores propios, de
acuerdo con el producto de puntos de la Ecuación 12.1. La figura 12.1 ilustra esta proyección para
el punto de datos x0T del 15 de enero ¼[16.0, 17.8], que se indica con el símbolo del cuadrado
grande. Para este dato, u1 ¼ (0,848)(16,0) þ (0,530)(17,8) ¼ 23,0, y u2 ¼ (-0,530)(16,0) þ
(0,848)(17,8) ¼ 6,6.
La varianza de la muestra de la nueva variable u1 es una expresión del grado en que se extiende a
lo largo de su eje (es decir, en la dirección de e1). Esta dispersión es evidentemente mayor que la
dispersión de los datos a lo largo de cualquiera de los ejes originales, y de hecho es mayor que la
dispersión de los datos en cualquier otra dirección en este plano. Esta variación máxima de la
muestra de u1 es igual al valor propio l1 ¼ 254.76○F2 Los puntos en el conjunto de datos tienden a
mostrar valores bastante diferentes de u1, mientras que
tienen valores más similares para u2. Es decir, son mucho menos variables en la dirección e2, y la
muestra
Desde l1 l2 s1,1 s2,2 263.05○F2, las nuevas variables conservan conjuntamente toda la variación
exhibida por las variables originales. Sin embargo, el hecho de que la nube de puntos parece no
mostrar pendiente en el nuevo
El marco de coordenadas definido por los vectores propios indica que u1 y u2 no están
correlacionados. Su falta de correlación puede verificarse transformando los 31 pares de
temperaturas mínimas de la Tabla A.1 en componentes principales y calculando la correlación de
Pearson, que es cero. La matriz de varianza-covarianza para los componentes principales es por lo
tanto[L], mostrada en la Ecuación 10.59.
Las dos variables de temperatura originales están tan fuertemente correlacionadas que una
fracción muy grande de sus
La desviación conjunta, l1/(l1 l2) 0,968, está representada por el primer componente principal. Se
diría que el primer componente principal describe el 96,8% de la varianza total. El primer
componente principal podría interpretarse como un reflejo de la temperatura mínima regional
para el área que incluye estas dos localidades (están a unas 50 millas de distancia), mientras que el
segundo componente principal, que describe las variaciones locales, se aparta del valor regional
global.
Dado que gran parte de la varianza conjunta de las dos series de temperatura es capturada por el
primer componente principal, la resintetización de la serie utilizando sólo el primer componente
principal producirá un buen resultado.
aproximación a los datos originales. Usando la Ecuación de Síntesis 12.6 con sólo el primer (M 1)
rendimiento del componente principal
Los datos de temperatura x son series temporales, y por lo tanto también lo son los componentes
principales u. La dependencia temporal para ambos se ha indicado explícitamente en la Ecuación
12.8. Por otro lado, los eigenvec- tors están fijados por la estructura de covarianza de toda la serie
y no cambian con el tiempo. La figura 12.2 compara la serie original (negra) y las reconstrucciones
usando el primer componente principal u1(t) solamente (gris) para las anomalías de (a) Ítaca y (b)
Canandaigua. Las discrepancias son pequeñas porque R21 96,8%. Las diferencias residuales serían
capturadas por u2. Las dos series grises son exactamente proporcionales entre sí, ya que cada una
de ellas es un múltiplo escalar de la misma serie temporal del primer principio -componente pal-.
Desde Var(u1) l1 254,76, las desviaciones de la serie reconstruida son (0.848)2 254.76 183.2 y
(0.530)2 254.76 71.6○F2, respectivamente, que están cerca, pero son más pequeños que los
elementos diagonales correspondientes de la matriz de covarianza original (Ecuación 10.56). La
mayor variación para las temperaturas de Ítaca también es visualmente evidente en la Figura 12.2.
Usando la Ecuación 12.7, las correlaciones entre la primera serie de componentes principales u1(t)
y las variaciones de temperatura originales son 0.848(254.76/185.47)1/2 0.994 para Ítaca y
0.530(254.76/77.58)1/2 0.960 para Canandaigua. e
FIGURA 12.2 Series temporales de enero de 1987 (a) Ítaca y (b) Anomalías de temperatura mínima
de Canandaigua (negro), y su reconstrucción utilizando sólo el primer componente principal (gris),
mediante la ecuación de síntesis 12.8.
La diferencia entre un PCA realizado usando las matrices de varianza-covarianza y correlación será
de énfasis. Dado que la ACP busca encontrar variables que maximicen sucesivamente la
proporción de la varianza total (Sk sk sk,k) representada, el análisis de la matriz de covarianza[S]
da como resultado componentes principales que enfatizan que los xk0s tienen las mayores
varianzas. Otras cosas iguales, la tendencia será que los primeros vectores propios se alineen cerca
de las direcciones de las variables que tengan las mayores var- iancias. En el Ejemplo 12.1, el
primer vector propio apunta más hacia el eje de temperatura mínima de Ítaca porque la variación
de las temperaturas mínimas de Ítaca es mayor que la variación de las temperaturas mínimas de
Canandaigua. Por el contrario, la PCA aplicada a la matriz de correlación[R] pondera todas las
variables estandarizadas zk por igual, ya que todas tienen la misma varianza (unitaria).
Si la PCA se realiza utilizando la matriz de correlación, la fórmula de análisis, las ecuaciones 12.1 y
12.2, pertenecerán a las variables estandarizadas, zk y z, respectivamente. De manera similar, las
fórmulas de síntesis, las Ecuaciones 12.5 y 12.6, pertenecerán a z y zk en lugar de a x0 y xk0. En
este caso, los datos originales x pueden ser recuperados del resultado de la fórmula de síntesis
invirtiendo la estandarización dada por las Ecuaciones 10.33 y 10.34; es decir,
x ¼ ½ D]z þ x : ð12:9Þ
Aunque z y x0 pueden obtenerse fácilmente entre sí usando la Ecuación 10.34, los pares de auto-
vector propio de[R] y[S] no tienen relaciones simples entre sí. En general, no es posible calcular los
componentes principales de uno conociendo sólo los componentes principales del otro. Este
hecho implica que estas dos alternativas de PCA no producen información equivalente y que se
debe hacer una elección inteligente de una sobre la otra para una aplicación dada. Si un objetivo
importante del análisis es identificar o aislar las variaciones más fuertes en un conjunto de datos,
la mejor alternativa suele ser la PCA utilizando la matriz de covarianza, aunque la elección
dependerá del juicio del analista y del propósito del estudio. Por ejemplo, al analizar los números
reticulados de ciclones extra tropicales, Overland y Preisendorfer (1982) descubrieron que la PCA
en su matriz de covarianza era mejor identificada en las regiones con la mayor variabilidad en los
números de ciclones, y que la PCA basada en la correlación era más efectiva para localizar las vías
primarias de tormenta.
Sin embargo, si el análisis es de variables diferentes -variables no medidas en las mismas unidades-
casi siempre será preferible calcular la PCA usando la matriz de correlación. La medición a
diferencia de las unidades físicas produce escalamientos relativos arbitrarios de las variables, lo
que resulta en magnitudes relativas arbitrarias de las varianzas de estas variables. Para tomar un
ejemplo simple, la varianza de un conjunto de temperaturas medidas en ○F será (1.8)2 3.24 veces
mayor que la varianza de las mismas temperaturas expresada en ○C. Si el PCA se ha hecho usando
la matriz de correlación, la fórmula de análisis, Ecuación 12.2, pertenece al vector z en lugar de x0;
y la síntesis en la Ecuación 12.5 producirá las variables estandarizadas zk (o aproximaciones a ellas
si se usa la Ecuación 12.6 para la reconstrucción). Las sumas en los denominadores de la Ecuación
12.4 serán iguales al número de variables estandarizadas, ya que cada una tiene varianza unitaria.
Ejemplo 12.2. PCA basada en la correlación frente a la covarianza para variables de escala
arbitraria
La importancia de basar un PCA en la matriz de correlación cuando las variables que se analizan no
se miden en escalas comparables se ilustra en la Tabla 12.1. Esta tabla resume los PCAs de los
datos de enero de 1987 en la Tabla A.1 en (a) no estandarizados (matriz de covarianza) y (b)
estandarizados (correlación).
TABLA 12.1 Comparación de la PCA calculada usando (a) la matriz de covarianza, y (b) la matriz de
correlación, de los datos de la Tabla A.1. Se muestran las varianzas de muestra de cada variable,
así como los seis vectores propios dispuestos en orden decreciente de sus valores propios lm. El
porcentaje acumulativo de la varianza representada se calcula de acuerdo con la Ecuación 12.4.
Las variaciones mucho menores de las variables de precipitación en (a) es un artefacto de las
unidades de medida, pero resulta en que la precipitación no es importante en los primeros cuatro
componentes principales calculados a partir de la matriz de covarianza, que en conjunto
representan el 99,9% de la varianza total del conjunto de datos.
El cálculo de los componentes principales de la matriz de correlación asegura que las variaciones
de las variables de temperatura y precipitación se ponderen por igual.
matriz). Se muestran las varianzas de muestra de las variables, así como los seis vectores propios,
los seis valores propios y los porcentajes acumulativos de varianza contabilizados por los
componentes principales. Las (6 6) matrices en la parte superior derecha de las partes (a) y (b) de
esta tabla constituyen las matrices [E] cuyas columnas son los vectores propios.
Debido a las diferentes magnitudes de las variaciones de los datos en relación con sus unidades de
medida, las variaciones de los datos de precipitación no estandarizados son mínimas en
comparación con las variaciones de las variables de temperatura. Esto es puramente un artefacto
de la unidad de medida de la precipitación (pulgadas) que es relativamente grande en
comparación con el rango de variación de los datos (alrededor de 1 pulgada), y la unidad de
medida de la temperatura (○F) que es relativamente pequeña en comparación con el rango de
variación de los datos (alrededor de 40○F). Si las unidades de medida hubieran sido milímetros y
○C, respectivamente, las diferencias en las variaciones habrían sido mucho menores. Si la
precipitación se hubiera medido en micrometros, las variaciones de las variables de precipitación
dominarían las variaciones de las variables de temperatura.
Debido a que las varianzas de las variables de temperatura son mucho mayores que las varianzas
de las variables de precipitación, la PCA calculada a partir de la matriz de covarianza está
dominada por las temperaturas. Los elementos propios del vector propio correspondientes a las
dos variables de precipitación son insignificantemente pequeños en los primeros cuatro vectores
propios, por lo que estas variables hacen contribuciones insignificantes a los primeros cuatro
componentes principales. Sin embargo, estos cuatro primeros componentes principales describen
colectivamente el 99,9% de la varianza conjunta. Una aplicación de la fórmula de síntesis truncada
(Ecuación 12.6) con el vector propio M 4 principal resultaría en datos de precipitación
reconstruidos muy cercanos a sus valores promedio. Es decir, esencialmente ninguna de las
variaciones en la precipitación estaría representada.
Dado que la matriz de correlación es la matriz de covarianza para las variables de escala
comparable zk, cada una tiene la misma varianza. A diferencia del análisis en la matriz de
covarianza, este PCA no ignora las variables de precipitación cuando se analiza la matriz de
correlación. Aquí el primer (y más importante) componente principal representa principalmente
las variables de temperatura estrechamente interrelacionadas, como puede verse en los
elementos relativamente mayores de e1 para las cuatro variables de temperatura. Sin embargo, el
segundo componente principal, que representa el 33,1% de la varianza total en el conjunto de
datos a escala, representa principalmente las variaciones de precipitación. Las variaciones de
precipitación no se perderían en la representación truncada de los datos, incluyendo al menos los
primeros vectores propios de M 2, sino que se reconstruirían casi por completo. e
El tema del ACC se considera a veces difícil y confuso, pero gran parte de esta confusión se deriva
de la proliferación de la terminología asociada, especialmente en los escritos de los analistas de
datos atmosféricos. La Tabla 12.2 organiza los más comunes de ellos de una manera que puede ser
útil para descifrar la literatura de PCA.
Lorenz (1956) introdujo el término función ortogonal empírica (EOF) en la literatura como otro
nombre para los vectores propios de un PCA. Los términos modos de variación y vectores de
patrones también son utilizados principalmente por los analistas de datos geofísicos,
especialmente en relación con el análisis de campos, que se describirán en la Sección 12.2. Los
términos restantes para los vectores propios se derivan de la interceptación geométrica de los
vectores propios como vectores base, o ejes, en el espacio K-dimensional de los datos. Estos
términos se utilizan en la literatura de una gama más amplia de disciplinas.
El nombre más común para los elementos individuales de los vectores propios en la literatura
estadística es
la carga, que connota el peso de la variable kth xk que es soportada por el propio vector mth a
través de
Las nuevas variables definidas con respecto a los vectores propios se denominan casi
universalmente componentes prin- cipales. Sin embargo, a veces se conocen como variables
ortogonales empíricas cuando los autovectores se denominan EOF. Hay más variación en la
terminología para los valores individuales de los componentes principales ui,m correspondientes a
vectores de datos particulares xi0. En la literatura estadística, estos se denominan más
comúnmente "puntuaciones", que tienen una base histórica en el uso temprano y generalizado de
la PCA en la psicometría. En aplicaciones atmosféricas, los principales elementos componentes se
denominan a menudo "amplitudes" por analogía con las amplitudes de una serie de Fourier, que
multiplican las funciones (teóricas ortogonales) del seno y del coseno. Del mismo modo, el
término coeficiente de expansión también se utiliza para este significado. A veces el coeficiente de
expansión se acorta simplemente a "coeficiente", aunque esto puede ser la fuente de cierta
confusión, ya que es más común que el término coeficiente denote un elemento de vector propio.
Sin embargo, a veces es útil expresar y manipular los resultados de la PCA utilizando escalas
alternativas de los autovectores. Cuando esto se hace, cada elemento de un propio vector se
multiplica por el mismo valor, por lo que sus magnitudes y relaciones relativas permanecen
inalteradas. Por lo tanto, los resultados cualitativos de un análisis exploratorio basado en PCA no
dependen de la escala seleccionada, pero si se van a comparar diferentes análisis relacionados, es
importante conocer la convención de escala utilizada en cada uno de ellos. La reescalada de las
longitudes de los vectores propios cambia las magnitudes de los componentes principales por el
mismo factor. Es decir, multiplicar el vector propio por una constante requiere que las
puntuaciones del com-ponente principal se multipliquen por la misma constante para que las
fórmulas de análisis que definen los componentes principales (ecuaciones 12.1 y 12.2) sigan
siendo válidas. Los valores esperados de las puntuaciones del componente principal para los datos
centrados x0 son cero, y multiplicar los componentes principales por una constante producirá
componentes principales reescalonados cuya media también es cero. Sin embargo, sus varianzas
La Tabla 12.3 resume los efectos de tres escalas comunes de los vectores propios sobre las
propiedades de los componentes principales. La primera fila indica sus propiedades bajo la
convención de escalado ||1 adoptado en esta presentación. Bajo esta escala, el valor esperado
(promedio) de cada uno de los componentes principales es cero (porque son las anomalías de
datos x0 las que se han proyectado en los vectores propios), y la varianza de cada uno es igual al
respectivo valor propio, lm. Este resultado es simplemente una expresión de la diagonalización de
la matriz de varianza-covarianza (Ecuación 10.54) producida por la adopción del sistema de
coordenadas geométricas rígidamente giradas definidas por los vectores propios. Cuando se
escalan en esta manera, la correlación entre un componente principal um y una variable xk es
dada por la Ecuación 12.7. La correlación entre um y la variable estandarizada zk viene dada por el
producto del elemento vector propio y la raíz cuadrada del valor propio, ya que la desviación
estándar de una variable estandarizada es una.
Los vectores propios a veces se reescalan multiplicando cada elemento por la raíz cuadrada del
correspondiente valor propio. Este reescalamiento produce vectores de diferentes longitudes,
||em|| (lm)1/2, pero que apuntan exactamente en las mismas direcciones que los vectores
originales de longitud unitaria. La consistencia en la fórmula de análisis implica que los
componentes principales también son cambiados por el factor (lm)1/2, con el resultado de que la
varianza de cada um aumenta a lm2. Sin embargo, una de las principales ventajas de esta
reescalada es que los elementos propios del vector son más directamente interpretables en
términos de la relación entre la
componentes principales y los datos originales. Bajo esta nueva escala, cada elemento ek,m del
eigenvector es numéricamente igual a la ru,z de la correlación entre el componente principal mth
um y la variable normalizada kth zk.
La última escala mostrada en la Tabla 12.3, que resulta en ||em|| (lm)-1/2, se utiliza menos
comúnmente. Esta escala se logra dividiendo cada elemento de los vectores propios de longitud
unitaria originales por la raíz cuadrada del valor propio correspondiente. La expresión resultante
para las correlaciones entre la
Escala del propio vector E[um] Var[um] Corr[um, xk] Corr[um, zk]
Los componentes principales y los datos originales son más incómodos, pero esta escala tiene la
ventaja de que todos los componentes principales tienen la misma varianza unitaria. Esta
propiedad puede ser útil en la detección de valores atípicos.
La distribución de los datos x, cuya matriz de covarianza de la muestra[S] se utiliza para calcular un
PCA, no necesita ser multivariante normal para que el PCA sea válido. Independientemente de la
distribución conjunta de x, los componentes principales resultantes um serán únicamente aquellas
combinaciones lineales no correlacionadas que maximicen sucesivamente las fracciones
representadas de las varianzas en la diagonal de[S]. Sin embargo, si en
La ecuación 12.10 es válida tanto cuando la matriz[E] contiene el número completo M K de los
vectores propios como sus columnas o un número menor 1 M < K. Si los componentes principales
se calculan a partir de los datos centrados x0, entonces mu mx0 0.
Se señaló en la Sección 11.3 que una manera efectiva de buscar valores atípicos multivariados al
evaluar la normalidad multivariada es examinar la distribución de las combinaciones lineales
formadas usando vectores propios asociados con los valores propios más pequeños de[S]
(Ecuación 11.15). Estas combinaciones lineales son, por supuesto, los últimos componentes
principales. La Figura 12.3 ilustra por qué esta idea funciona, en el caso de la
FIGURA 12.3 Identificación de un valor atípico multivariado examinando la des- tribución del
último componente principal. La proyección del valor atípico individual sobre el primer vector
propio produce un valor bastante ordinario para su primer componente principal u1, pero su
proyección sobre el segundo vector propio produce un valor atípico promi- nente en la
distribución de los valores u2.
de esta manera, la correlación entre un componente principal um y una variable xk es dada por la
Ecuación 12.7. La correlación entre um y la variable estandarizada zk viene dada por el producto
del elemento vector propio y la raíz cuadrada del valor propio, ya que la desviación estándar de
una variable estandarizada es una.
Los vectores propios a veces se reescalan multiplicando cada elemento por la raíz cuadrada del
correspondiente valor propio. Este reescalamiento produce vectores de diferentes longitudes,
||em|| (lm)1/2, pero que apuntan exactamente en las mismas direcciones que los vectores
originales de longitud unitaria. La consistencia en la fórmula de análisis implica que los
componentes principales también son cambiados por el factor (lm)1/2, con el resultado de que la
varianza de cada um aumenta a lm2. Sin embargo, una de las principales ventajas de esta
reescalada es que los elementos propios del vector son más directamente interpretables en
términos de la relación entre la
componentes principales y los datos originales. Bajo esta nueva escala, cada elemento ek,m del
eigenvector es numéricamente igual a la ru,z de la correlación entre el componente principal mth
um y la variable normalizada kth zk.
La última escala mostrada en la Tabla 12.3, que resulta en ||em|| (lm)-1/2, se utiliza menos
comúnmente. Esta escala se logra dividiendo cada elemento de los vectores propios de longitud
unitaria originales por la raíz cuadrada del valor propio correspondiente. La expresión resultante
para las correlaciones entre la
Escala del propio vector E[um] Var[um] Corr[um, xk] Corr[um, zk]
Los componentes principales y los datos originales son más incómodos, pero esta escala tiene la
ventaja de que todos los componentes principales tienen la misma varianza unitaria. Esta
propiedad puede ser útil en la detección de valores atípicos.
La distribución de los datos x, cuya matriz de covarianza de la muestra[S] se utiliza para calcular un
PCA, no necesita ser multivariante normal para que el PCA sea válido. Independientemente de la
distribución conjunta de x, los componentes principales resultantes um serán únicamente aquellas
combinaciones lineales no correlacionadas que maximicen sucesivamente las fracciones
representadas de las varianzas en la diagonal de[S]. Sin embargo, si en
La ecuación 12.10 es válida tanto cuando la matriz[E] contiene el número completo M K de los
vectores propios como sus columnas o un número menor 1 M < K. Si los componentes principales
se calculan a partir de los datos centrados x0, entonces mu mx0 0.
rotación rígida a los ejes principales de las elipses de probabilidad de la distribución de x, dando
lugar a las no correlacionadas y mutuamente independientes um. Con este trasfondo no es difícil
entender las ecuaciones 11.5 y 11.31, que dicen que la distribución de las distancias de
Mahalanobis a la media de una distribución normal multivariada sigue la distribución w2K. Una
forma de ver el w2K es como la distri- bución de las variables gaussianas estándar independientes
cuadradas de K z2k (ver Sección 4.4.3). Cálculo de la
Se señaló en la Sección 11.3 que una manera efectiva de buscar valores atípicos multivariados al
evaluar la normalidad multivariada es examinar la distribución de las combinaciones lineales
formadas usando vectores propios asociados con los valores propios más pequeños de[S]
(Ecuación 11.15). Estas combinaciones lineales son, por supuesto, los últimos componentes
principales. La Figura 12.3 ilustra por qué esta idea funciona, en el caso de la
FIGURA 12.3 Identificación de un valor atípico multivariado examinando la des- tribución del
último componente principal. La proyección del valor atípico individual sobre el primer vector
propio produce un valor bastante ordinario para su primer componente principal u1, pero su
proyección sobre el segundo vector propio produce un valor atípico promi- nente en la
distribución de los valores u2.
Los análisis de componentes principales se estructuran con mayor frecuencia como se acaba de
describir, calculando los valores propios y los vectores propios a partir de la matriz de covarianza o
correlación (K K) de la matriz de datos (n K)[X]. Sin embargo, este enfoque habitual, conocido
como PCA en modo S, no es la única posibilidad. Un alter-nativo, conocido como PCA en modo T,
se basa en los valores propios y vectores propios de la matriz de covarianza o correlación (n n) de
la matriz de datos[X]T. Así, en un PCA en modo T, los elementos propios del vector corresponden a
las muestras de datos individuales (que a menudo forman una serie temporal), y los componentes
principales u se relacionan con las variables K (que pueden ser puntos espaciales), de modo que
los dos enfoques muestran diferentes aspectos de un conjunto de datos de manera
complementaria. Compagnucci y Richman (2008) comparan estos dos enfoques para representar
los campos de circulación atmosférica. Los valores propios y los vectores propios de estos dos
enfoques de la PCA están estrechamente relacionados, como se explicará en la Sección 12.6.1.
Independientemente de si el PCA se calculará como modo S o T, el número de valores propios
distintos de cero es el menor de K o n, y estos valores propios min(K, n) son los mismos para un
PCA en modo S o T para un conjunto de datos determinado.
FIGURA 12.4 Despliegues espaciales de los primeros cuatro vectores propios de las alturas
mensuales de invierno cuadriculadas, es decir, 500 mb para el hemisferio norte, 1962-1977. Este
PCA se calculó utilizando la matriz de correlación de los datos de altura, y se escaló de manera que
||¼ DIFUNDE LA PALABRA- Los valores porcentuales debajo y a la derecha de cada mapa son la
proporción de la varianza total × 100% (Ecuación 12.4). Los patrones se asemejan a los patrones
de teleconectividad para los mismos datos (Figura 3.29). De Wallace y Gutzler (1981).
También es posible aplicar PCA a campos valorados por vectores, que son campos con datos para
más de una variable en cada ubicación o punto de cuadrícula. Este tipo de análisis es equivalente a
un PCA simultáneo de dos o más campos. Si hay L tales variables en cada uno de los puntos de la
cuadrícula K, entonces la dimensionalidad del vector de datos x viene dada por el producto KL. Los
primeros elementos K de x son observaciones de la primera variable, los segundos elementos K
son observaciones de la segunda variable, y los últimos elementos K de x serán observaciones de
la variable Lth. Dado que las diferentes variables L generalmente se medirán en unidades distintas,
casi siempre será apropiado basar la PCA de tales datos en la matriz de correlación. La dimensión
de[R], y de la matriz de vectores propios[E], será entonces (KL × KL).
PARTE III Estadísticas multivariadas
La aplicación de PCA a este tipo de matriz de correlación producirá componentes principales que
maximizarán sucesivamente la varianza conjunta de las variables estandarizadas L de manera que
se consideren las correlaciones tanto entre sí como entre ellas en las localizaciones K. Este
procedimiento conjunto de PCA se denomina a veces análisis combinado de PCA, (CPCA) o EOF
extendido (EEOF).
Los elementos propios del vector resultantes de un PCA de un campo vectorial pueden visualizarse
gráficamente de forma similar a los mapas dibujados para los campos escalares ordinarios. Aquí,
cada uno de los grupos L de los elementos del K eigenvector se superpone en el mismo mapa base
o se traza en mapas separados. La figura 12.6, de Kutzbach (1967), ilustra este proceso para el
caso de los valores de datos L 2 en cada ubicación. Las dos variables son la presión superficial
promedio de enero y la temperatura promedio de enero, medidas en localidades de K 23 en
Norteamérica. Las líneas pesadas son un análisis de los (primeros 23) elementos del primer vector
propio que pertenecen a los datos de presión, y las líneas discontinuas con sombreado muestran
un análisis analógico de la temperatura (segundos 23) elementos del mismo vector propio. El
componente principal correspondiente representa el 28,6% de la varianza conjunta de las
variables estandarizadas de KL ¼ 23 × 2 ¼ 46.
Además de condensar eficazmente mucha información, los patrones mostrados en la Figura 12.6
son consistentes con los procesos físicos atmosféricos subyacentes. En particular, los anómalos de
temperatura son consistentes con los patrones de advección térmica implicados por las anomalías
de presión. Si el primer componente principal u1 es positivo para un mes de enero en particular,
los contornos sólidos implican anomalías de presión positiva en el norte y el este, con presiones
inferiores a la media en el suroeste. En la costa oeste, este patrón de presión resultaría en vientos
superficiales más débiles que el promedio del oeste y más fuertes que el promedio de los vientos
superficiales del norte. La resultante advección de aire frío desde el norte produciría temperaturas
más frías, y esta advección fría se refleja en las anomalías de temperatura negativas en esta
región. De manera similar, el patrón de anomalías de presión en el sureste mejoraría el flujo de
aire caliente hacia el sur desde el Golfo de México, resultando en anomalías positivas de
temperatura como se muestra. Por el contrario, si u1 es negativo, la inversión de los signos de los
elementos vectores propios de la presión implica un aumento de las anomalías de los vientos del
oeste en el oeste y del norte en el sureste, que son consistentes con las anomalías positivas y
negativas de la temperatura, respectivamente. Estas anomalías de temperatura se indican por los
contornos discontinuos y el sombreado en la Figura 12.6, cuando sus signos también se invierten.
La Figura 12.6 es un ejemplo simple que involucra variables familiares. Su interpretación es fácil y
obvia si estamos familiarizados con las relaciones climatológicas de los patrones de presión y
temperatura a lo largo del tiempo.
Norteamérica en invierno. Sin embargo, la consistencia física exhibida en este ejemplo (donde la
respuesta "correcta" se conoce de antemano) es indicativa del poder de este tipo de PCA para
descubrir relaciones conjuntas significativas entre los campos atmosféricos (y otros) en un entorno
exploratorio, donde las pistas sobre mecanismos físicos subyacentes posiblemente desconocidos
pueden estar ocultas en las complejas relaciones entre varios campos.
Las regiones que están sobrerrepresentadas en x, en el sentido de que las ubicaciones de los datos
están concentradas en esa región, tenderán a dominar el análisis, mientras que las regiones con
datos dispersos estarán subponderadas. En contraste, el objetivo de la PCA en los campos
geofísicos es generalmente aproximar los EOFs intrínsecos (Baldwin et al., 2009; North et al., 1982;
Stephenson, 1997), que son propiedades de los campos continuos subyacentes reales y son
independientes de cualquier patrón de muestreo espacial.
Los datos disponibles en una cuadrícula regular de latitud y longitud son una causa común de este
problema. En este caso, el número de puntos de cuadrícula por unidad de área aumenta con el
aumento de la latitud porque los meridianos están al borde de los polos, de modo que un PCA
para este tipo de datos de cuadrícula enfatizará las características de latitud alta y minimizará las
características de latitud baja. Un enfoque para igualar geográficamente las varianzas es
multiplicar los datos por √cosf, donde f es la latitud (North et al., 1982). El mismo efecto puede ser
multiplicando cada elemento de la matriz de covarianza o correlación que se está analizando por
√cosfk √cosfℓ, donde k y ℓ son los índices de los dos emplazamientos (o combinaciones de
emplazamiento/variable) correspondientes a ese elemento de la matriz. Baldwin y otros (2009)
formulan este proceso de manera más general mediante la definición de una matriz de
ponderación que puede representar de manera concisa los efectos de diferentes matrices de
muestreo espacial.
Por supuesto, estas reescaladas deben ser compensadas cuando se recuperan los datos originales
de los componentes principales, como en las Ecuaciones 12.5 y 12.6. Un procedimiento alternativo
es interpolar datos distribuidos irregularmente o no uniformemente en una cuadrícula de área
igual (Araneo y Compag- nucci, 2004; Karl et al., 1982). Este último enfoque también es aplicable
cuando los datos se refieren a una red con espaciamiento irreflexivo, como las estaciones de
observación climatológica.
Además de proporcionar una compresión de datos eficiente, los resultados de un PCA a veces se
interpretan en términos de procesos físicos subyacentes. Por ejemplo, los patrones de vectores
propios espaciales de la Figura 12.4 se han interpretado como modos de variabilidad atmosférica
teleconectados, y el vector propio reproducido en la Figura 12.6 refleja la conexión entre los
campos de presión y temperatura que se expresa como advección térmica. La posibilidad de que
puedan resultar interpretaciones informativas o al menos sugerentes puede ser una fuerte
motivación para calcular un PCA.
Un problema que puede surgir al hacer tales interpretaciones de un PCA para los datos de campo
surge cuando la escala espacial de las variaciones de los datos es comparable o mayor que el
dominio espacial en el que se está trabajando.
Capítulo
analizado. En tales casos, las variaciones de espacio/tiempo en los datos siguen siendo
representadas eficientemente por el PCA, y el PCA sigue siendo un enfoque válido para la
compresión de datos. Pero los patrones de vectores propios resultantes adoptan formas
características que son casi independientes de las variaciones espaciales subyacentes en los datos.
Estas formas características se denominan patrones Buell, en honor al autor del documento que
señaló por primera vez su existencia (Buell, 1979).
Considere, como un ejemplo artificial pero simple, una matriz de 5 5 5 de K 25 puntos que
representan un dominio espacial cuadrado. Supongamos que las correlaciones entre los valores de
los datos observados en estos puntos son sólo funciones de su separación espacial d, de acuerdo
con r(d) exp (- d/2). Las separaciones de puntos adyacentes en las direcciones horizontales y
verticales son d 1, y por lo tanto exhibirían correlación r(1) 0.61; puntos adyacentes
diagonalmente exhibirían correlación r(√2/2) 0.49; y así sucesivamente. Esta función de
correlación se muestra en la figura 12.7a. Es inalterable en todo el dominio, y no produce
características espacialmente distintas, o patrones preferidos de variabilidad. Su escala espacial es
comparable al tamaño del dominio, que es de 4 4 unidades de distancia vertical y
horizontalmente, lo que corresponde a r(4) 0,14.
Aunque no hay regiones preferidas de variabilidad dentro del dominio 5 5, los vectores propios de
la matriz de correlación[R] resultante (25 25) parecen indicar que las hay. El primero de estos
autovectores, que representa el 34,3% de la varianza, se muestra en la Figura 12.7b. Parece indicar
generalmente variaciones en fase en todo el dominio, pero con mayor amplitud (mayores
magnitudes de variabilidad) cerca del centro. Esta primera característica del patrón de Buell es un
artefacto de las matemáticas detrás del cálculo del vector propio si todas las correlaciones son
positivas, y no merece la pena
FIGURA 12.7 Ejemplo artificial de patrones Buell. Los datos de una cuadrícula de 5 × 5 cuadrados
con septensiones espaciales verticales y horizontales muestran correlaciones de acuerdo con la
función de sus separaciones espaciales mostrada en el punto (a). Los paneles (b)-(d) muestran los
tres primeros vectores propios de la matriz de correlación resultante, presentados en la misma
disposición espacial de 5 × 5. La única joroba central resultante (b), y el par de patrones dipolares
ortogonales (c) y (d), son artefactos característicos del tamaño del dominio que son comparables o
menores que la escala espacial de los datos subyacentes.
interpretación más allá de su sugerencia de que la escala de variación de los datos es comparable
o mayor que el tamaño del dominio espacial.
Los patrones dipolares de las figuras 12.7c y 12.7d son también patrones característicos de Buell y
son el resultado de la limitación de la ortogonalidad mutua entre los vectores propios. No reflejan
oscilaciones dipolares ni subibajas en los datos subyacentes, cuya estructura de correlación (en
virtud de la forma en que se ha construido este ejemplo artificial) sería homogénea e isotrópica.
Aquí los patrones están orientados diagonalmente porque las esquinas opuestas de este dominio
cuadrado están más separadas que los lados opuestos, pero los pares de dipolos característicos en
el segundo y tercer vector propio podrían haber estado orientados vertical y horizontalmente en
un dominio de forma diferente. Nótese que los segundos y terceros eigenvec- tores representan
proporciones iguales de la varianza y, por lo tanto, están orientados arbitrariamente dentro del
espacio bidimensional que abarcan (véase la Sección 12.4). A veces se ven patrones Buell
adicionales en los vectores propios subsiguientes, el siguiente de los cuales típicamente sugiere
patrones tripolares de la forma - þ - o þ - þ.
Matemáticamente, hay tantos vectores propios de[S] o[R] como elementos del vector de datos x.
Sin embargo, es típico de los datos atmosféricos que existan covarianzas (o correlaciones)
sustanciales entre las variables K originales, y como resultado hay pocos o ningún elemento fuera
de diagonal de[S] (o[R]) que estén cerca de cero. Esta situación implica que hay información
redundante en x y que los primeros vectores propios de su matriz de dispersión localizarán
direcciones en las que la variabilidad conjunta de los datos es mayor que la variabilidad de
cualquier elemento individual de x. De manera similar, los últimos vectores propios apuntarán a
direcciones en el espacio K-dimensional de x en las que los datos en conjunto muestran muy poca
variación. Esta propiedad se ilustró en el Ejemplo 12.1 para valores de temperatura diarios
medidos en lugares cercanos.
En la medida en que existe redundancia en los datos originales x, es posible capturar la mayor
parte de su varianza considerando sólo las direcciones más importantes de sus variaciones
conjuntas. Es decir, la mayor parte del contenido de información de los datos puede representarse
utilizando un número menor M < K de los componentes prin- cipales um. En efecto, el conjunto de
datos original que contiene las variables K xk es aproximado por el conjunto más pequeño de
nuevas variables um. Si M <<< K, retener sólo el primer M de los componentes principales resulta
en un conjunto de datos mucho más pequeño. Esta capacidad de compresión de datos de PCA es a
menudo un motivo principal para su uso.
¿Dónde está el equilibrio adecuado entre la compresión de datos (eligiendo que M sea lo más
pequeño posible) y evitando la pérdida excesiva de información (truncando sólo un pequeño
número, K - M, de los principales componentes)? No existe un criterio claro que se pueda utilizar
para elegir el número de componentes principales que se mantienen mejor en una circunstancia
determinada. La elección del nivel de truncamiento puede verse facilitada por una o más de las
muchas reglas de selección de componentes principales disponibles, pero en última instancia es
una elección subjetiva que dependerá en parte de los datos disponibles y de los objetivos del ACC.
Capítulo
Algunos enfoques para truncar los componentes principales son subjetivos, o casi. Quizás el
criterio más básico es retener suficientes componentes principales para representar una "fracción
suficiente" de las varianzas de la x original. Es decir, se retienen suficientes componentes
principales para que la cantidad total de variabilidad representada sea mayor que algún valor
crítico,
XM
donde R2m se define como en la Ecuación 12.4. Por supuesto, la dificultad viene en determinar
cuán grande debe ser la fracción R2crit para que se considere "suficiente". En última instancia,
ésta será una elección subjetiva, informada por el conocimiento del analista de los datos en
cuestión y de los usos que se les dará. Jolliffe (2002) sugiere que el 70% de R2crit 90% puede ser a
menudo un rango razonable
.
Trazar el espectro de valores propios con una escala vertical lineal produce lo que se conoce como
el gráfico de barras. Cuando se utiliza el gráfico de la gradación cualitativamente, el objetivo es
localizar un punto que separe una parte muy inclinada a la izquierda y una parte poco inclinada a
la derecha. El número del componente principal en el que se produce la separación se toma
entonces como límite de truncamiento, M. No hay garantía de que el espectro de valores propios
para un PCA dado muestre una sola separación de pendiente, o de que sea lo suficientemente
abrupto como para localizar inequívocamente un límite M. A veces este enfoque del truncamiento
de los componentes principales se denomina prueba de gradación, aunque este nombre implica
más objetividad y justificación teórica de lo que se justifica: el criterio de la pendiente de
gradación no implica inferencia estadística cuantitativa. La figura 12.8a muestra el gráfico de la
pantalla (círculos) para el PCA resumido en la Tabla 12.1b. Este es un ejemplo relativamente bien
comportado en el que los últimos tres valores propios son bastante pequeños, lo que lleva a una
curva bastante distinta en K3, y por lo tanto a un truncamiento después de los primeros
componentes principales de M3.
Otra clase de reglas de selección de componentes principales implica centrarse en lo pequeño que
puede ser un valor propio "importante". Este conjunto de reglas de selección puede resumirse
mediante el criterio
Componente principal Número del componente principal Número del componente principal
GRÁFICO 12.8 Visualización gráfica de espectros de valores propios; es decir, magnitudes de
valores propios en función del número del componente principal (líneas más pesadas que
conectan los puntos en círculo), para un análisis dimensional K ¼ 6 (véase la Tabla 12.1b): (a)
Escalado lineal, o gráfico de gradación, (b) escalado logarítmico, o diagrama LEV. Tanto el criterio
de selección como el de LEV conducirían a la retención de los tres primeros componentes
principales de este análisis. Las líneas más claras en ambos paneles muestran los resultados de las
pruebas de remuestreo necesarias para aplicar la Regla N de Priesendorfer et al. La línea
discontinua es la mediana de los valores propios de 1000 (6 × 6) matrices de dispersión de
variables gaussianas independientes, construidas utilizando el mismo tamaño de muestra que los
datos analizados. Las líneas sólidas indican el 5º y el 95º por ciento de estas distribuciones
simuladas de valores propios. La regla N indicaría la retención de sólo los dos primeros
componentes principales, sobre la base de que sólo éstos son significativamente mayores de lo
que cabría esperar de los datos sin estructura de correlación.
T XK
Una simple aplicación de esta idea, conocida como la regla de Kaiser, implica comparar cada valor
propio (y por lo tanto la varianza descrita por su componente principal) con el importe de la
varianza conjunta reflejada en el valor propio medio. Se mantienen los principales componentes
cuyos valores propios superan este umbral. Es decir, la regla de Kaiser usa la Ecuación 12.13 con el
parámetro de umbral T 1. Jolliffe (1972, 2002) ha argumentado que la regla de Kaiser es
demasiado estricta (es decir, típicamente parece descartar demasiados componentes principales).
Sugiere que la alternativa T 0,7 a menudo proporciona un umbral más o menos correcto, que
permite los efectos de las variaciones de muestreo.
Una tercera alternativa en esta clase de reglas de truncamiento es usar el modelo de palo roto,
llamado así porque se basa en la longitud esperada de la pieza más larga de un segmento de línea
de unidad rota al azar. De acuerdo con este criterio, el parámetro de umbral en la Ecuación 12.13
se toma para ser
TðmÞ ¼
Esta regla produce un umbral diferente para cada nivel de truncamiento del candidato -es decir, T
T(m), de modo que el truncamiento se hace en el m más pequeño para el cual no se satisface la
Ecuación 12.13, de acuerdo con el umbral- viejo en la Ecuación 12.14.
Los tres criterios descritos en esta subsección llevarían a elegir M 2 para el espectro de valores
propios en la figura 12.8.
Frente a una elección subjetiva entre criterios de truncamiento a veces vagos, es natural esperar
un enfoque más objetivo basado en las propiedades muestrales de las estadísticas de la ACP. La
Sección 12.4 describe algunos resultados de muestras grandes para las distribuciones de muestreo
de las estimaciones de valores propios y vectores propios que se han calculado a partir de
muestras normales multivariadas. Con base en estos resultados, Mardia et al. (1979) y Jolliffe
(2002) describen pruebas para la hipótesis nula de que los últimos valores propios de K-M son
todos iguales, y por lo tanto corresponden a ruido que debe ser descartado en el truncamiento del
componente principal. Un problema con este enfoque ocurre cuando los datos analizados no
tienen una distri bución normal multivariada, y/o no son independientes, en cuyo caso las
inferencias basadas en esas suposiciones pueden producir errores graves. Pero un problema más
difícil con este enfoque es que normalmente implica examinar secuencias de pruebas que no son
independientes: ¿Son los dos últimos valores propios plausiblemente iguales, y si es así, son los
últimos tres iguales, y si es así, son los últimos cuatro iguales? El verdadero nivel de prueba para
un número aleatorio de pruebas correlacionadas tendrá una relación desconocida con el nivel
nominal en el que se realiza cada prueba en la secuencia. El procedimiento se puede utilizar para
elegir un nivel de truncamiento, pero será tanto una regla general como las otras posibilidades ya
presentadas en esta sección, y no una opción cuantitativa basada en una pequeña probabilidad
conocida de rechazar falsamente una hipótesis nula.
Las contrapartes de remuestreo a las reglas de truncamiento basadas en pruebas se han usado
frecuentemente con datos aeroesféricos, siguiendo a Preisendorfer et al. (1981). La más común de
ellas se conoce como Regla N. La Regla N identifica los componentes principales de M más grandes
que deben conservarse sobre la base de una secuencia de pruebas de remuestreo que implican la
distribución de valores propios de matrices de dispersión generadas aleatoriamente. El
procedimiento consiste en generar repetidamente conjuntos de vectores de números aleatorios
gaussianos independientes con la misma dimensión (K) y tamaño de la muestra (n) que los datos x
que se están analizando, y luego calcular los valores propios de sus matrices de dispersión. Estos
autovalores generados aleatoriamente se escalan en un
de forma que sean comparables a los valores propios lm que se van a probar, por ejemplo,
exigiendo que la suma de cada conjunto de valores propios generados aleatoriamente sea igual a
la suma de los valores propios calculados a partir de los datos. Cada lm de los datos reales se
compara entonces con la distribución empírica de sus contrapartes sintéticas y se retiene si es
superior al 95% de éstas.
Las líneas de luz en los paneles de la Figura 12.8 ilustran el uso de la Regla N para seleccionar un
nivel de truncamiento de componentes principales. Las líneas discontinuas reflejan las medianas
de 1000 conjuntos de valores propios com- puestas de 1000 (6 6) matrices de dispersión de
variables gaussianas independientes, construidas usando el mismo tamaño de muestra que los
datos analizados. Las líneas sólidas muestran los percentiles 95 y 5 de aquellos
distribuciones para cada uno de los seis valores propios. Los dos primeros valores propios l1 y l2
son superiores al 97,5% de sus homólogos sintéticos, por lo que la hipótesis nula de que los
componentes principales correspondientes sólo representan ruido sería rechazada en el nivel del
2,5%. Por consiguiente, la regla N elegiría M 2 para estos datos.
En Overland y Preisendorfer (1982) se presenta una tabla de valores críticos del 95% para la regla
N, para tamaños de muestra seleccionados n y dimensiones K. Las tablas correspondientes de
muestra grande se encuentran en Preisendorfer et al. (1981) y Preisendorfer (1988). Preisendorfer
(1988) señala que si existe una correlación temporal substancial en las variables individuales xk,
puede ser más apropiado construir las distribuciones de remuestreo para la Regla N (o usar las
tablas que se acaban de mencionar) usando el menor tamaño efectivo de la muestra (usando una
ecuación análoga a la Ecuación 5.12, pero apropiada para los valores propios) entre las variables
individuales xk
xk, en lugar de utilizar n vectores independientes de variables gaussianas para construir cada
matriz de dispersión sintética. Otro problema potencial con la Regla N, y otros procedimientos
similares, es que los datos x pueden no ser aproximadamente gaussianos. Por ejemplo, una o más
de las xk0s podrían ser variables de precipitación. En la medida en que los datos originales no son
gaussianos, el procedimiento de generación de números aleatorios no simulará con precisión el
proceso físico subyacente, y los resultados de la prueba pueden ser engañosos. Un posible
remedio para el problema de los datos no gaussianos podría ser utilizar una versión de arranque
de la Regla N, aunque este enfoque no parece haber sido probado en la literatura hasta la fecha.
Las reglas de truncamiento presentadas hasta ahora se refieren a las magnitudes de los valores
propios. La posibilidad de que los componentes principales físicamente importantes no necesiten
tener las mayores variaciones (es decir, valores propios) ha motivado una clase de reglas de
truncamiento basadas en las características esperadas de las series de componentes principales
físicamente importantes (Preisendorfer et al., 1981, Preisendorfer, 1988). Dado que la mayoría de
los datos atmosféricos que se someten a la PCA son series temporales (por ejemplo, secuencias
temporales de campos espaciales registradas en los puntos de cuadrícula K), una hipótesis
plausible podría ser que los componentes principales correspondientes a procesos físicamente
significativos deberían mostrar dependencia temporal porque se espera que los procesos físicos
subyacentes muestren dependencia temporal. Preisendorfer et al (1981) y Preisendorfer (1988)
propusieron varias reglas de truncamiento de este tipo, que prueban hipótesis nulas de que las
series temporales de componentes principales individuales no están correlacionadas, utilizando
sus espectros de potencia o sus funciones de autocorrelación. Los componentes principales
truncados son aquellos para los que no se rechaza esta hipótesis nula. Esta clase de regla de
truncamiento parece haberse utilizado muy poco en la práctica.
Los análisis de componentes principales se calculan a partir de muestras de datos finitos y están
tan sujetos a variaciones de muestreo como cualquier otro procedimiento de estimación
estadística. Es decir, rara vez o nunca conocemos la verdadera matriz de covarianza[S] para la
población o proceso generador subyacente, sino que la estimamos usando la contraparte de la
muestra[S]. Por consiguiente, los valores propios y los vectores propios calculados a partir de[S]
son también estimaciones basadas en la muestra finita y, por lo tanto, están sujetos a variaciones
de muestreo. Comprender la naturaleza de estas variaciones es muy importante para la correcta
interpretación de los resultados de un PCA.
Las ecuaciones presentadas en esta sección deben considerarse aproximadas, ya que son
resultados asintóticos (large-n) y también se basan en la suposición de que los x0s subyacentes
tienen un valor multivariable.
distribución normal. También se supone que ningún par de valores propios de la población es
igual, lo que implica (en el sentido que se explicará en la sección 12.4.2) que todos los vectores
propios de la población están bien definidos. La validez de estos resultados es por lo tanto
aproximada en la mayoría de las circunstancias, pero sin embargo son bastante útiles para
comprender la naturaleza de los efectos del muestreo sobre la incertidumbre acerca de los valores
propios y los vectores propios estimados.
El resultado básico de las propiedades de muestreo de los valores propios estimados es que, en el
límite de un tamaño de muestra muy grande, su distribución muestral es imparcial y multivariada
normal,
Tenga en cuenta, sin embargo, que hay un sesgo en los valores propios de la muestra para el
tamaño de la muestra finito: Las ecuaciones 12.15 y 12.16 son aproximaciones de muestra grande.
En particular, se sobreestimarán los valores propios más grandes (tenderán a ser mayores que los
de la población), y los valores propios más pequeños tenderán a subestimarse; estos efectos
aumentan con la disminución del tamaño de la muestra (Quadrelli et al., 2005; von Storch y
Hannoschock, 1985).
Usando la Ecuación 12.16a para construir una variación gaussiana estándar se obtiene una
expresión para la distribución del error relativo de la estimación del valor propio,
pffinffi.^lk - lkΣ - 0
Los elementos de cada vector propio de la muestra son aproximadamente imparciales, y sus
distribuciones de muestreo son aproximadamente normales multivariadas. Pero las varianzas de
las distribuciones de muestreo normales multivariadas para cada uno de los vectores propios
dependen de todos los demás valores propios y de los vectores propios de una manera algo
complicada. La distribución de muestreo para el kth eigenvector es la siguiente
lk XK
entre esos autovalores y el autovalor que pertenece al vector propio cuya matriz de covarianza se
está calculando. Es decir, los elementos de las matrices en la suma de la Ecuación 12.21 serán
bastante pequeños, excepto los que están emparejados con valores propios li cercanos en
magnitud al valor propio lk, pertenecientes al vector propio cuya distribución de muestreo se está
calculando.
La ecuación 12.21, para la incertidumbre del muestreo de los vectores propios de una matriz de
covarianza, tiene dos implicaciones importantes. Primero, el patrón de incertidumbre en los
vectores propios estimados se asemeja a una combinación de línea de oreja, o suma ponderada,
de todos los demás vectores propios. Segundo, debido a que las magnitudes de las ponderaciones
en esta suma ponderada son inversamente proporcionales a los cuadrados de las diferencias entre
los valores propios correspondientes, un vector propio se estimará con relativa precisión (las
varías de muestreo serán relativamente pequeñas) si su valor propio está bien separado de los
otros valores propios K-1. Por el contrario, los vectores propios cuyos valores propios son similares
en magnitud a uno o más de los otros valores propios mostrarán grandes variaciones de muestreo,
y esas variaciones serán mayores para los elementos propios del vector propio que son grandes en
los vectores propios con valores propios comparables.
El efecto conjunto de estas dos consideraciones es que las distribuciones de muestreo de un par (o
más) de autovectores con valores propios similares estarán estrechamente entrelazadas. Sus
varianzas de muestreo serán grandes, y sus patrones de error de muestreo se parecerán a los
patrones de los vectores propios con los que están enredados. El efecto neto será que la
realización de los correspondientes vectores propios de la muestra será una mezcla casi arbitraria
de los verdaderos homólogos de la población. Representarán conjuntamente la misma cantidad de
varianza (dentro de los límites de muestreo aproximados por la Ecuación 12.16), pero esta
varianza conjunta será arbitrariamente mezclada entre ellos (o entre ellos). Los conjuntos de estos
pares de autovalores se denominan múltiplos degenerados o múltiplos efectivos. Los intentos de
interpretación física de tales muestras de vectores propios serán frustrantes, si no
desesperanzadores.
son casi iguales. La distribución resultante tiene contornos de probabilidad elipsoidal que se
asemejan a los de los pepinos en la Figura 11.2. El vector propio asociado con el único gran valor
propio se alineará con el eje largo del elipsoide. Pero esta distribución normal multivariada no
tiene (esencialmente) ninguna dirección preferida en el plano perpendicular al eje largo (cara
expuesta en el pepino izquierdo en la Fig-urea 11.2b). Cualquier par de vectores perpendiculares
que también sean perpendiculares al eje largo podría representar variaciones en este plano tan
fácilmente como sea posible. El propio vector principal calculado a partir de una matriz de
covarianza de la muestra de esta distribución estaría estrechamente alineado con el vector propio
real (eje largo del pepino) porque sus variaciones de muestreo serán pequeñas. En términos de la
Ecuación 12.21, ambos de los
dos términos en la suma serían pequeños porque l1 >> l2 l3. Por otro lado, cada uno de los otros
dos autovectores estaría sujeto a grandes variaciones de muestreo: el término en la Ecuación
12.21 correspondiente a uno u otro de ellos será grande porque (l2 - l3)-2 será grande. El patrón
de error de muestreo para e2 se parecerá a e3, y viceversa. Es decir, la orientación de los dos
vectores propios de la muestra en este plano será arbitraria, más allá de las restricciones de que
serán perpendiculares entre sí y a e1. Las variaciones representadas por cada uno de estos dos
vectores propios de la muestra serán, por lo tanto, una mezcla arbitraria de las variaciones
representadas por sus dos homólogos de la población.
Las ecuaciones 12.15 y 12.20, para las distribuciones de muestreo de los valores propios y de los
vectores propios, dependen de los valores de sus homólogos verdaderos pero desconocidos. Sin
embargo, las estimaciones de la muestra se aproximan a los valores reales, por lo que se esperan
grandes errores de muestreo para aquellos vectores propios cuyos valores propios de la muestra
se aproximan a otros valores propios de la muestra. La idea de que es posible diagnosticar casos
en los que se espera que las variaciones en el muestreo causen problemas con la interpretación
del vector propio en la ACP fue expresada como regla general por North et al: "La regla es
simplemente que si el error de muestreo de un determinado valor propio l[dl l(2/n)1/2] es
comparable o mayor que el espaciado entre l y un valor propio vecino, el error de muestreo de un
valor propio l[dl l(2/n)1/2] es comparable o mayor que el espaciado entre l y un valor propio
vecino.
entonces los errores de muestreo para el EOF asociados con l serán comparables al tamaño de
North et al (1982) ilustraron su regla empírica con un ejemplo instructivo. Construyeron datos
sintéticos a partir de un conjunto de patrones conocidos del EOF, los cuatro primeros de los cuales
se muestran en la Figura 12.9a, junto con sus respectivos valores propios. Utilizando un conjunto
completo de tales patrones, la matriz de covarianza[S] de la que se podían extraer se ensambló
utilizando la descomposición espectral (Ecuación 10.51). Usando[S]1/2 (ver Sección 10.3.4), se
generaron realizaciones de vectores de datos x a partir de una distribución con covarianza[S] como
en la Sección 11.4. La Figura 12.9b muestra los primeros cuatro pares de vectores propios
calculados a partir de una muestra de n 300 de estos vectores de datos sintéticos, y la Figura 12.9c
muestra una realización de los pares de vectores propios principales para n 1000.
Los primeros cuatro patrones de vectores propios en la Figura 12.9a son visualmente distintos,
pero sus valores propios son relativamente cercanos. Usando la Ecuación 12.16b y n 300, los
intervalos de muestreo del 95% para los cuatro valores propios son 14.02 2.24, 12.61 2.02, 10.67
1.71, y 10.43 1.67 (porque z(0.975) 1.96), todos los cuales incluyen los valores propios adyacentes.
Por lo tanto, se espera, de acuerdo con la regla general, que los vectores propios de la muestra
sean mezclas aleatorias de sus homólogos de la población para este tamaño de muestra. La Figura
12.9b confirma esta expectativa: los patrones en esos cuatro paneles parecen ser mezclas
aleatorias de los cuatro paneles de la Figura 12.9a. Incluso si los verdaderos valores propios fueran
desconocidos, este
FIGURA 12.9 El Norte y otros (1982) ejemplo de degeneración efectiva. (a) Los primeros cuatro
vectores propios de la población de la que se extrajeron los datos sintéticos, con los
correspondientes valores propios. b) Los cuatro primeros vectores propios calculados a partir de
una muestra de n ¼ 300, y los correspondientes valores propios de la muestra. c) Los cuatro
primeros vectores propios calculados a partir de una muestra de n ¼ 1000, y los correspondientes
valores propios de la muestra.
La conclusión sería esperable de la regla empírica de North et al. porque los valores propios de la
muestra adyacente en la Figura 12.9b están dentro de dos errores estándar estimados, o 2 d^l 2^l
2^l(2/n)1/2 uno del otro.
La situación es algo diferente para el tamaño de la muestra más grande (Figura 12.9c). De nuevo
usando
Ecuación 12.16b pero con n 1000, los intervalos de muestreo del 95% para los cuatro valores
propios son
14.02 1.22, 12.61 1.10, 10.67 0.93 y 10.43 0.91. Estos intervalos indican que los dos primeros EOF
de la muestra deben ser razonablemente distintos entre sí y de los otros EOF, pero que el tercer y
cuarto vectores propios probablemente seguirán estando enredados. Aplicando la regla empírica a
los
Los valores propios de la muestra en la Figura 12.9c indican que la separación entre todos los
pares adyacentes es cercana a 2 d^l. La precisión adicional del muestreo proporcionada por el
mayor tamaño de la muestra permite que surja una aproximación a los dos primeros patrones
verdaderos del EOF, aunque todavía se requeriría una muestra aún mayor.
antes de la muestra, los vectores propios corresponderían bien a sus homólogos de la población.
Los valores propios de la muestra serán mayores que 2 lk2/n (como se indica en la Ecuación
12.16). La causa de esta discrepancia es que los valores propios de la muestra son menos
consistentes de lote a lote cuando se calculan a partir de datos autocorrelacionados, por lo que el
efecto cualitativo es el mismo que el descrito para la distribución de la muestra.
de los medios de la muestra, en la sección 5.2.4. Sin embargo, el ajuste efectivo del tamaño de la
muestra en la ecuación 5.12 no es apropiado para la distribución del muestreo de los valores
propios porque son varianzas. Más bien, la contraparte aproximada a la Ecuación 5.12
(suponiendo que la dependencia del tiempo AR(1)) sería n0 = n(1 - r12)/(1 þ r12) (Bretherton et al.,
1999), lo que implica un efecto mucho menos extremo sobre el tamaño efectivo de la muestra que
la Ecuación 5.12. Aquí r1 correspondería a la autocorrelación lag-1 para la serie temporal
correspondiente de componentes principales, para la Ecuación 12.16 ó 12.19; y a la media
geométrica de los coeficientes de autocorrelación para las dos series de componentes principales
correspondientes, para la Ecuación 12.21.
Las condiciones especificadas en la Sección 12.4.1, de gran tamaño de la muestra y/o datos
normales multivariados subyacentes, pueden ser demasiado poco realistas para ser prácticas en
algunas situaciones. En tales casos, es posible construir buenas aproximaciones a las distribuciones
de muestreo de las estadísticas de la muestra usando el bootstrap (ver Sección 5.3.5). Beran y
Srivastava (1985) y Efron y Tibshirani (1993) describen específicamente matrices de covarianza de
muestras de bootstrap para producir distribuciones de muestreo para sus valores propios y
vectores propios. El procedimiento básico es remuestrear repetidamente los vectores de datos
subyacentes x con reemplazo y producir un gran número, nB, de muestras de bootstrap, cada una
de tamaño n. Cada una de las muestras de bootstrap nB produce una realización de bootstrap
de[S], cuyos valores propios y vectores propios pueden ser calculados. Conjuntamente, estas
realizaciones bootstrap de valores propios y vectores propios forman aproximaciones razonables a
las respectivas distribuciones de muestreo, que reflejarán las propiedades de los datos
subyacentes que pueden no ajustarse a las asumidas en la Sección 12.4.1.
Tenga cuidado al interpretar estas distribuciones de bootstrap. Una dificultad (corregible) surge
del hecho de que los vectores propios están determinados a firmar solamente, de modo que en
algunas muestras de bootstrap la contraparte remuestreada de ek puede muy bien ser -ek. Si no
se rectifican estos conmutadores de señal arbitrarios, se producirá una inflación grande e
injustificada de las distribuciones de muestreo para los elementos de los vectores propios.
También pueden surgir dificultades al remuestrear multiplets efectivos, ya que la distribución
aleatoria de la varianza con un multiplet puede ser diferente de remuestreo a remuestreo, por lo
que los vectores propios remuestreados pueden no tener correspondencias uno a uno con sus
contrapartes originales de la muestra. Finalmente, el procedimiento boot- strap destruye
cualquier correlación serial que pueda estar presente en los datos subyacentes, lo que llevaría a
distribuciones de muestreo bootstrap poco realistas. El bootstrap de bloques móviles puede
utilizarse para vectores de datos correlacionados en serie (Wilks, 1997), así como para escalares.
Existe una fuerte tendencia a tratar de atribuir interpretaciones físicas a los propios vectores PCA y
a los componentes principales correspondientes. Los resultados que se muestran en las figuras
12.4 y 12.6 indican que puede ser apropiado e informativo hacerlo. Sin embargo, la limitación de la
ortogonalidad de los propios componentes (ecuación 10.48) puede dar lugar a problemas con
estas interpretaciones, especialmente para el segundo componente principal y los subsiguientes.
Aunque la orientación del primer vector propio viene determinada únicamente por la dirección de
la variación máxima de los datos, los vectores subsiguientes deben ser ortogonales a cada vector
propio de mayor varianza, independientemente de la naturaleza de los procesos físicos que
puedan haber dado lugar a los datos. En la medida en que los procesos físicos subyacentes no son
independientes, la interdependencia de los componentes principales correspondientes como
modos independientes de variabilidad no permitirá
Existen varios procedimientos para rotar los vectores propios originales, pero todos buscan
producir lo que se conoce como estructura simple en el análisis resultante. En términos generales,
se entiende que se ha logrado una estructura simple si una gran fracción de los elementos de los
vectores rotativos resultantes están cerca de cero, y pocos de los elementos restantes
corresponden a (es decir, tienen el mismo índice k que) elementos que no están cerca de cero en
los otros vectores rotativos. El resultado deseado es que cada vector rotado represente
principalmente las pocas variables originales correspondientes a los elementos no cercanos a cero,
y que la representación de las variables originales se divida entre el menor número posible de
componentes principales rotados. Una estructura simple ayuda a la interpretación de un PCA
rotatorio al permitir la asociación de los propios vectores rotatorios con el pequeño número de las
variables K originales cuyos elementos del propio vector propio no son cercanos a cero.
Se paga un precio por la mejor interpretabilidad y la mejor estabilidad de muestreo de los vectores
propios rotados. Un costo es que se pierde la propiedad de la variedad dominante de PCA. El
primer componente principal girado ya no es la combinación lineal de los datos originales con la
mayor varianza. La varianza representada por los vectores propios originales no girados se
distribuye de manera más uniforme entre los vectores propios girados, de modo que el espectro
de valores propios correspondiente es más plano. También se pierde la ortogonalidad de los
vectores propios o la falta de correlación de los componentes principales resultantes, o ambos.
Los vectores propios rotados se producen como una transformación lineal de un subconjunto de
M del K
vectores propios,
E~
donde[T] es la matriz de rotación y la matriz de los vectores propios rotados se denomina tilde.
Si[T] es ortogonal, es decir, si[T][T]T[I], entonces la Ecuación de transformación 12.22 se denomina
rotación ortogonal. De lo contrario, la rotación se denomina oblicua.
Richman (1986) enumera 19 enfoques para definir la matriz de rotación[T] a fin de lograr una
estructura simple, aunque su lista no es exhaustiva. Sin embargo, el método más comúnmente
utilizado es la rotación ortogonal llamada varimax (Kaiser, 1958). Una rotación varimax se
determina eligiendo los elementos de[T] para maximizar
dónde
m¼1
son versiones a escala de los elementos del propio vector rotativo. Juntas, las ecuaciones 12.23a y
12.23b definen el "varimax normal", mientras que la ecuación 12.23a sola, usando los elementos
e~k, m del propio vector sin escala, se conoce como el "varimax crudo". En cualquier caso, se
busca la transformación que maximice la suma de las varianzas de los elementos del propio vector
rotativo cuadrado (en escala o en bruto), que tiende a moverlos hacia sus valores máximos o
mínimos (absolutos) (que son 0 y 1), y por lo tanto tiende a
hacia una estructura simple. La solución es iterativa y es una característica estándar de muchos
paquetes de software estadístico.
Los resultados de la rotación de los vectores propios pueden depender de cuántos de los vectores
propios originales se seleccionen para la rotación. Es decir, algunos o todos los autovectores
rotativos principales pueden ser diferentes si, por ejemplo, se rotan M 1 en lugar de M (por
ejemplo, O'Lenic y Livezey, 1988). Desafortunadamente, a menudo no hay una respuesta clara a la
pregunta de cuál podría ser la mejor opción para M, y típicamente se hace una elección
esencialmente subjetiva. En la Sección 12.3 se ofrece alguna orientación a partir de las diversas
críticas de truncamiento, aunque es posible que éstas no den una respuesta única. A veces se
utiliza un método de prueba y error, en el que se aumenta lentamente la M hasta que los propios
vectores rotativos principales se estabilizan, es decir, insensibles a nuevos aumentos de la M. En
cualquier caso, sin embargo, tiene sentido incluir todos o ninguno de los vectores propios que
constituyen un múltiplo efectivo, ya que juntos transportan información que ha sido
arbitrariamente mezclada. Jolliffe (1987, 1989) sugiere que puede ser útil rotar por separado los
grupos de vectores propios dentro de múltiplos efectivos para interpretar más fácilmente la
información que representan conjuntamente.
La Figura 12.10, de Horel (1981), muestra la visualización espacial de los dos primeros vectores
propios rotatorios de las alturas de 500 mb de invierno hemisférico promediadas mensualmente.
Utilizando el criterio de truncamiento de la ecuación 12.13 con T 1, se rotaron los primeros 19
vectores propios de la matriz de correlación para estos datos. Los dos patrones de la figura 12.10
son similares a los dos primeros vectores propios no rotatorios derivados de los mismos datos
(véase la figura 12.4a y b), aunque los signos se han invertido (arbitrariamente). Sin embargo, los
vectores rotativos se ajustan más a la idea de una estructura simple en el sentido de que la
mayoría de los campos hemisféricos son bastante planos (cerca de cero) en la Figura 12.10, y cada
panel enfatiza de manera más exclusiva una característica particular de la variabilidad de las
alturas de 500-mbos correspondientes a los patrones de teleconexión en la Figura 3.29. El vector
rotatorio en la Figura 12.10a se enfoca principalmente en las diferencias de altura en el Pacífico
tropical noroccidental y occidental, llamado el patrón de teleconexión del Pacífico occidental. Por
lo tanto, representa variaciones en el chorro de 500 mb en estas longitudes, con valores positivos
del componente principal girado correspondiente que indican un comportamiento más débil que
el promedio del oeste y valores negativos que indican lo contrario. Del mismo modo
FIGURA 12.10 Despliegues espaciales de los dos primeros vectores propios rotatorios de alturas
hemisféricas medias mensuales de invierno de 500 mb. Los datos son los mismos que los de la
Figura 12.4, pero la rotación ha aislado mejor los patrones de variabilidad, permitiendo una
interpretación más clara en términos de los patrones de teleconexión de la Figura 3.29. De Horel
(1981).
b) c)
FIGURA 12.11 Comparación esquemática de (a) vectores propios no girados, (b) girados
ortogonalmente y (c) girados oblicuamente de longitud unitaria en K ¼ 2 dimensiones. Los paneles
superiores muestran los vectores propios en relación con los gráficos de dispersión de los datos,
que muestran dos grupos o modos. Los paneles inferiores muestran mapas esquemáticos de dos
puntos de los dos vectores propios en cada caso. Después de Karl y Koscielny (1982).
el patrón PNA se destaca con excepcional claridad en la figura 12.10b, donde la rotación lo ha
separado del patrón del hemisferio oriental evidente en la figura 12.4b.
La figura 12.11 muestra representaciones esquemáticas de la rotación del vector propio en dos
dimensiones. Los diagramas superiores de cada sección representan los vectores propios en el
plano bidimensional definido por las variables subyacentes x1 y x2, y los diagramas inferiores
representan "mapas" de los elementos propios del vector trazados en las dos "ubicaciones" x1 y
x2 (correspondientes a mapas del mundo real como los que se muestran en las figuras 12.4 y
12.10). La figura 12.11a ilustra el caso de los propios vectores no giratorios originales. El vector
propio líder e1 se define como la dirección en la que una proyección de los puntos de datos
(es decir, los componentes principales) tiene la mayor varianza, lo que ubica un compromiso entre
los dos grupos de puntos (modos). Es decir, localiza gran parte de la varianza de ambos grupos sin
realmente caracterizarlos. El vector propio líder e1 apunta en la dirección positiva tanto para x1
como para x2, pero está más fuertemente alineado hacia x2, por lo que el mapa e1
correspondiente a continuación muestra un "þ" positivo grande para x2 y un "þ" más pequeño
para x1. El segundo eigenvector está restringido a ser ortogonal al primero y por lo tanto
corresponde a un gran negativo x1, y ligeramente positivo x2, como se indica en el
correspondiente "mapa" a continuación.
La figura 12.11b representa los vectores propios girados ortogonalmente. Dentro de la limitación
de la ortogonalidad, localizan aproximadamente los dos cúmulos de puntos, aunque la varianza
del primer componente principal girado ya no es máxima ya que las proyecciones sobre ~e1 de los
tres puntos con x1 < 0 son bastante pequeñas. Sin embargo, la interpretación de las dos
características se mejora en los mapas de los dos vectores propios de la derecha, donde ~e1 indica
un gran positivo x1 junto con un modesto pero positivo x2, mientras que ~e2 muestra un gran
positivo x2 junto con un modesto negativo x1. Las idealizaciones de las figuras 12.11a y 12.11b
corresponden a los mapas del mundo real de las figuras 12.4 y 12.10, respectivamente.
Finalmente, la Figura 12.11c ilustra una rotación oblicua, donde los vectores propios resultantes ya
no están restringidos a ser ortogonales. Por consiguiente, tienen más flexibilidad en sus
orientaciones y pueden acomodar mejor las características de los datos que no son ortogonales.
12.5.3. Sensibilidad de la rotación ortogonal a la escala del propio vector propio inicial
una rotación ortogonal produce tanto vectores propios ortogonales como componentes
principales no correlacionados. Como máximo, uno de estos dos resultados se obtiene mediante
una rotación ortogonal, pero ninguno de ellos se producirá a menos que los vectores propios se
escalen correctamente antes de aplicar la matriz de rotación. Debido a la confusión sobre el tema,
vale la pena hacer un análisis explícito de este fenómeno contrario a la intuición.
Denota como[E] la matriz posiblemente truncada (K M) de los vectores propios de[S]. Debido a
que estos vectores propios son ortogonales (Ecuación 10.48) y están originalmente escalados a
longitud unitaria, la matriz[E] es ortogonal, y así satisface la Ecuación 10.42b. Los componentes
principales resultantes se pueden ordenar en la matriz
½U] ¼
cada una de las n filas de las cuales contiene valores para los componentes principales retenidos
por M, umT. Como antes,
X] es la matriz de datos original cuyas columnas K corresponden a las n observaciones de cada una
de las variables K originales. La falta de correlación de los componentes principales no girados se
puede diagnosticar calculando su matriz de covarianza,
Considere ahora los efectos de las tres escalas de vectores propios enumeradas en la Tabla 12.3
sobre los resultados de una rotación ortogonal. En el primer caso, los vectores propios originales
no se reescalan desde la longitud de la unidad, por lo que la matriz de los vectores propios rotados
es simplemente hE~i ¼
El hecho de que estos autovectores rotatorios sigan siendo ortogonales, como se esperaba, se
puede diagnosticar mediante el cálculo de
½T DIFUNDE LA PALABRA-]
Es decir, los propios vectores rotativos resultantes siguen siendo mutuamente perpendiculares y
de longitud unitaria. Los componentes principales girados correspondientes son
y su matriz de covarianza es
Esta matriz no es diagonal, lo que refleja el hecho de que los componentes principales rotados ya
no están desvinculados. Este resultado es fácil de apreciar geométricamente, observando gráficas
de dispersión como la Figura 12.1 o la Figura 12.3. En cada uno de estos casos la nube de puntos
se inclina con respecto a los ejes originales (x1, x2), y el ángulo de inclinación del eje largo de la
nube se localiza por el primer vector propio. La nube de puntos no está inclinada en el sistema de
coordenadas (e1, e2) definido por los dos vectores propios, reflejando la falta de correlación de los
componentes principales no girados (Ecuación 12.25). Pero en relación a cualquier otro par de ejes
mutuamente ortogonales en el plano, los puntos mostrarían alguna inclinación, y por lo tanto las
proyecciones de los datos sobre estos ejes mostrarían alguna correlación distinta de cero.
La segunda escala propia en la Tabla 12.3, ||em|| (lm)1/2, se utiliza comúnmente, y de hecho es
la escala por defecto en muchos paquetes de software estadístico para componentes principales
rotados. En la nota de esta sección, el empleo de esta escala equivale a girar la matriz del propio
vector escalonado[E].
La ortogonalidad de los vectores propios rotados en esta matriz se puede comprobar calculando
La tercera escala propia en la Tabla 12.3, ||em||| ¼ (lm)-1/2, se utiliza relativamente raramente,
aunque puede ser conveniente en el sentido de que produce variación unitaria para todos los
componentes principales um. Los vectores propios rotativos resultantes no son ortogonales, de
modo que el producto de la matriz
]½
es diagonal y también refleja las variaciones unitarias de todos los componentes principales
rotados.
Con mayor frecuencia en meteorología y climatología, los vectores propios en un PCA describen
patrones espaciales, y los componentes principales son series temporales que reflejan la
importancia de los patrones espaciales correspondientes en los datos originales. Al calcular
componentes principales girados ortogonalmente en este contexto, podemos elegir entre
patrones espaciales girados ortogonalmente pero girados correlativamente.
por separado, porque sus valores propios serán necesariamente similares en magnitud, lo que
resultará en longitudes similares para los vectores propios escalados.
La matriz de covarianza de la muestra[S] es real y simétrica, por lo que siempre tendrá valores
propios reales y no negativos. Existen algoritmos estándar y estables para extraer los valores
propios y los vectores propios de matrices reales y simétricas (por ejemplo, Press et al., 1986), y
este enfoque puede ser muy bueno para calcular un PCA. Como se señaló anteriormente, a veces
es preferible calcular la PCA utilizando la matriz de correlación[R], que es también la matriz de
covarianza para las variables estandarizadas. Las consideraciones computacionales presentadas en
esta sección son igualmente apropiadas para la PCA basada en la matriz de correlación. Una
dificultad práctica que puede surgir es que el tiempo de cálculo requerido aumenta muy
rápidamente a medida que aumenta la dimensión de la matriz de covarianza. Una aplicación típica
de PCA en meteo rología o climatología involucra un campo observado en la cuadrícula K u otros
puntos espaciales, en una secuencia de n veces, donde K >> n. La conceptualización típica es en
términos de la matriz de covarianza (K K), la cual es muy grande - no es inusual que K incluya miles
de puntos de cuadrícula. Utilizando las estaciones de trabajo rápidas disponibles actualmente
(2010), el tiempo de computadora requerido para extraer estos pares de vectores propios puede
ser de muchas horas. Sin embargo, dado que K > n la matriz de covarianza de la muestra es
singular, lo que implica que el último K - n de sus valores propios es cero. No tiene sentido calcular
aproximaciones numéricas a estos cero.
½Sm]
Tanto[S] como[S*] tienen los mismos valores propios mín(n, K) que no son cero, lk l*k, por lo que
el tiempo de cálculo requerido puede ser mucho menor si se extraen de la matriz más
pequeña[S*]. Es decir, los valores propios de un PCA en modo S en la matriz de covarianza de la
muestra (K K)[S] pueden ser calculados a través de un PCA en modo T en la matriz de covarianza
de la muestra (n n n)[S*], y este último cálculo será mucho más rápido en la situación habitual en
la que K >> n.
Los vectores propios de[S] y[S*] son diferentes, pero los n principales (es decir, los significativos)
de[S] pueden calcularse a partir de los vectores propios ek* de[S*] usando
ΣX0 ΣT ΣT em
1), y la función del denominador es asegurar que el ek resultante tenga una longitud de unidad.
Los valores propios y los vectores propios en un PCA también pueden calcularse utilizando el
algoritmo SVD (singular value descomposition) (Sección 10.3.5), de dos maneras. Primero, como se
ilustra en el Ejemplo 10.5, los valores propios y los vectores propios de una matriz de covarianza[S]
pueden calcularse a través de la SVD de la matriz (n - 1)-1/2[X0], donde la matriz de datos
centrada (n K)[X0] se relaciona con la matriz de covarianza[S] mediante la Ecuación 10.30. En este
caso, los valores propios de[S] son los cuadrados de los valores singulares de (n - 1)-1/2[X0]-es
decir, lk ok2-y los vectores propios de[S] son los mismos que los vectores singulares derechos de
(n - 1)-1/2[X0]-es decir,[E][R], o ek rk.
Una ventaja de usar la SVD para calcular un PCA de esta manera es que los vectores singulares
izquierdos (los colectores de la matriz (n K)[L] en la Ecuación 10.68) son proporcionales a los
componentes principales (es decir, a las proyecciones de los vectores de datos centrados x0i sobre
los vectores propios ek). En particular,
ki
Aquí se utiliza la matriz[U] en el mismo sentido que en la Sección 12.5.3; es decir, cada una de sus
columnas K contiene la serie de componentes principales uk correspondiente a la secuencia de n
valores de datos xi, i
1, .. ., n.
El algoritmo SVD también puede utilizarse para calcular un PCA operando directamente sobre la
matriz de covarianza. Comparando la descomposición espectral de una matriz cuadrada y
simétrica (Ecuación 10.50a) con su SVD (Ecuación 10.68), es claro que estas descomposiciones
únicas son una y la misma. En particular, dado que una matriz de covarianza[S] es cuadrada y
simétrica, tanto la matriz izquierda como la derecha de su SVD son iguales y contienen los vectores
propios; es decir,[E] ¼[L] ¼[R]. Además, la matriz diagonal de valores singulares es exactamente la
matriz diagonal de valores propios,[L] ¼[O].
SSA es más fácil de entender en términos de una serie temporal escalar xt, t ¼ 1, ...., n; aunque la
generali- zación a una serie temporal multivariada de un vector xt es razonablemente sencilla.
Como una variante del PCA,
SSA implica la extracción de valores propios y vectores propios de una matriz de covarianza. Esta
matriz de covarianza se calcula a partir de una serie temporal escalar pasando por una ventana de
retardo, o imponiendo una dimensión de incrustación, de longitud M en la serie temporal. El
proceso se ilustra en la figura 12.12. Para M ¼ 3, el primer vector de datos M-dimensional, x(1) se
compone de los tres primeros miembros de la serie temporal escalar, x(2) se compone de los tres
segundos miembros de la serie temporal escalar, y así sucesivamente, dando un total de n - M þ 1
vectores de datos superpuestos.
igual a g1, lo que refleja el hecho de que, por ejemplo, la covarianza entre el primer y el segundo
elemento del
los vectores x(t) en la Figura 12.12 son los mismos que la covarianza entre el segundo y el tercer
elemento. Los elementos separados de la diagonal principal por una posición son todos iguales a
g2, y así sucesivamente. Debido a los efectos de borde al principio y al final de las series de tiempo
de la muestra, la matriz de covarianza de la muestra puede ser sólo aproximadamente Toeplitz,
aunque la estructura de Toeplitz con bandas diagonales a veces se aplica antes del cálculo de la
SSA (Allen y Smith, 1996; Elsner y Tsonis, 1996).
Dado que el SSA es un PCA, se aplican las mismas consideraciones matemáticas. En particular, los
principales componentes son combinaciones lineales de los datos según los vectores propios
(ecuaciones 12.1 y 12.2). La operación de análisis puede invertirse para sintetizar o aproximar los
datos de todos (ecuación 12.15) o algunos (ecuación 12.16) de los componentes principales. Lo
que hace que la AAE sea diferente se deriva de la diferente naturaleza de los datos y de las
implicaciones de esa diferente naturaleza en la interpretación de los vectores propios y de los
componentes principales. En particular, los vectores de datos son fragmentos de series temporales
en lugar de la distribución espacial más habitual de los valores en un solo momento, de modo que
los vectores propios en el África Subsahariana representan patrones temporales característicos
exhibidos por los datos, en lugar de patrones espaciales característicos. Por consiguiente, los
vectores propios en el SSA a veces se denominan T-EOF. Puesto que los fragmentos de series
temporales solapados xt se producen en una secuencia de tiempo, los componentes principales
también tienen una
x1, x2, x3, x4, x5, .... xn-4, xn-3, xn-2, xn-1, xn
La analogía entre el análisis SSA y Fourier de las series temporales es especialmente fuerte, con los
T-EOFs correspondientes a las funciones seno y coseno, y los T-PCs correspondientes a las
amplitudes. Sin embargo, hay dos grandes diferencias. En primer lugar, las funciones de base
ortogonal en una descomposición de Fourier son las funciones armónicas fijas, mientras que las
funciones de base en SSA son los T-EOFs adaptables a los datos. Por lo tanto, un AAE puede ser
más eficiente que un análisis de Fourier, en el sentido de que requiere menos funciones básicas
para representar una fracción dada de la varianza de una serie temporal. Del mismo modo, los
ampli- tudes de Fourier son constantes independientes del tiempo, pero sus contrapartes, los T-
PCs, son en sí mismos funciones del tiempo. Por lo tanto, el ASS puede representar variaciones de
tiempo que pueden ser localizadas en el tiempo, y por lo tanto no necesariamente recurrentes a lo
largo de la serie de tiempo.
En común con el análisis de Fourier, el SSA puede detectar y representar las características
oscilatorias o cuasi-oscilatorias en las series temporales subyacentes. Una característica periódica
o cuasiperiódica de una serie temporal se representa en el SSA mediante pares de T-PC y sus
correspondientes vectores propios. Estos pares tienen valores propios que son iguales o casi
iguales. Los patrones de tiempo característicos representados por estos pares de vectores propios
tienen la misma (o muy similar) forma, pero son compensados en el tiempo por un cuarto de ciclo
(como lo son un par de funciones seno y coseno). Pero a diferencia de las funciones seno y coseno,
estos pares de T-EOFs toman formas determinadas por los patrones de tiempo en los datos
subyacentes. Una motivación común para el uso de SSA es buscar, de forma exploratoria, posibles
periodicidades en series de tiempo, que periodicidades pueden ser intermitentes y/o no
sinusoidales en forma. Los rasgos de este tipo son identificados por un ASS, pero también pueden
aparecer fácilmente en el análisis periodicidades falsas que surgen sólo de las variaciones del
muestreo (Allen y Robertson, 1996; Allen y Smith, 1996).
La Figura 12.13 muestra una realización de 100 puntos del proceso AR(2) (Ecuación 9.27) con
parametros f1 0.9, f2 -0.6, m 0, y se 1. Esta es una serie puramente aleatoria, pero los parámetros
f1 y f2 han sido elegidos de tal manera que permiten que el proceso muestre
pseudoperiodicidades. Es decir, existe una tendencia a que la serie oscile, aunque las oscilaciones
son irregulares con respecto a su frecuencia y fase. La función de densidad espectral para este
proceso AR(2), incluida en la Figura 9.21, muestra
un máximo centrado cerca de f 0.15, correspondiente a un período típico cerca de t 1/f 6.7 pasos
de tiempo.
El análisis de la serie utilizando SSA requiere elegir una longitud de ventana de retardo, M, que
debe ser larga.
suficiente para capturar la característica de interés, pero lo suficientemente corto para calcular
estimaciones de covarianza razonablemente estables. Combinando las reglas generales para la
longitud de la ventana, M/5 < t < M < n/3, una opción plausible es M ¼ 10. Esta opción produce n -
M þ 1 ¼ 91 fragmentos de series temporales superpuestos xt de longitud M ¼ 10.
FIGURA 12.13 Un n ¼ Realización de 100 puntos a partir de un proceso AR(2) con f1 ¼ 0.9 y f2 ¼ -
0.6.
2 1:792 3
Para mayor claridad, sólo se han impreso los elementos del triángulo inferior de esta matriz
simétrica. Debido a los efectos de borde en la muestra finita, esta matriz de covarianza es
aproximadamente, pero no exactamente, Toeplitz. Los 10 elementos de la diagonal principal son
sólo aproximadamente iguales, y cada uno está estimando
La Figura 12.14 muestra los cuatro vectores propios principales de la matriz de covarianza en la
Ecuación 12.38 y sus valores propios asociados. Los dos primeros de estos vectores propios (Figura
12.14a), que están asociados con valores propios casi iguales, tienen una forma muy similar y
están separados por aproximadamente un cuarto del período t correspondiente a la mitad del pico
espectral de la Figura 9.21. En conjunto, representan la característica dominante de la serie de
datos de la Figura 12.13, es decir, el comportamiento pseudoperiódico, con picos y crestas
sucesivos que tienden a estar separados por seis o siete unidades de tiempo.
El tercer y cuarto T-EOF de la figura 12.14b representan otros aspectos no periódicos de las series
temporales de la figura 12.13. A diferencia de los principales T-EOFs de la Figura 12.14a, no son
imágenes desplazadas entre sí y no tienen valores propios casi iguales. En conjunto, los cuatro
patrones de la Figura 12.14 representan el 83,5% de la varianza dentro de los fragmentos de series
temporales de 10 elementos (pero sin incluir la varianza asociada con escalas temporales más
largas).
Ghil et al. (2002) presentan un ejemplo extendido similar de SSA, usando una serie de tiempo del
índice de oscilación del sur (Figura 3.14). e
(a) (b)
FIGURA 12.14 (a) Los dos primeros vectores propios de la matriz de covarianza en la Ecuación
12.38, y (b) el tercero y cuarto vectores propios.
Desde el punto de vista conceptual, es sencillo ampliar la SSA al análisis simultáneo de múltiples
series temporales (es decir, vectoriales), lo que se denomina SSA multicanal, o MSSA (Ghil et al.,
2002; Plaut y Vautard, 1994; Vautard, 1995). La relación entre SSA y MSSA es paralela a la
existente entre un PCA ordinario para un solo campo y un PCA simultáneo para múltiples campos,
como se describe en la Sección 12.2.2. Los múltiples canales de una MSSA pueden ser los puntos
de cuadrícula K que representan un campo espacial en el tiempo t, en cuyo caso los fragmentos de
series temporales correspondientes a la longitud de la ventana de retardo M se codificarían en un
vector xt (KM × 1), lo que daría lugar a una matriz de covarianza (KM KM) de la que se extraerían
los valores propios del espacio y los vectores propios del espacio y del tiempo (ST-EOF). La
dimensión de dicha matriz puede llegar a ser inmanejable. Una solución (Plaut y Vautard, 1994)
puede ser calcular primero un PCA ordinario para los campos espaciales y luego subdividir los
primeros componentes principales del MSSA. En este caso, cada canal corresponde a uno de los
componentes espaciales principales calculados en el paso inicial de compresión de datos. Vautard
(1995) y Vautard et al. (1996, 1999) describen pronósticos basados en MSSA de campos
construidos pronosticando los componentes principales del espacio-tiempo, y luego
reconstituyendo los campos de pronóstico a través de una síntesis truncada.
Una patología que puede ocurrir en la regresión lineal múltiple (ver Sección 7.2.8) es que un
conjunto de variables predictoras con fuertes correlaciones mutuas puede resultar en el cálculo de
una relación de regresión inestable, en el sentido de que las distribuciones de muestreo de los
parámetros de regresión estimados pueden tener varianzas muy altas. El problema se puede
apreciar en el contexto de la Ecuación 10.40, para la matriz covari- ance de la distribución del
muestreo conjunto de los parámetros de regresión estimados. Esta ecuación depende del inverso
de la matriz[X]T[X], que es proporcional a la matriz de covarianza[Sx] de los predictores. Las
intercorrelaciones muy fuertes entre los predictores llevan a que su matriz de covarianza (y por lo
tanto también[X]T[X]) sea casi singular, o pequeña en el sentido de que su determinante es
cercano a cero.
Un enfoque para remediar este problema es transformar primero los predictores en sus
principales componentes, cuyas correlaciones son cero. La regresión del principal-componente
resultante es conveniente trabajar con ella, ya que los predictores no correlacionados pueden ser
agregados o retirados de una ecuación de regresión tentativa a voluntad sin afectar las
contribuciones de los otros pre-dictores del principal-componente. Si todos los componentes
principales se mantienen en una regresión principal-componente, entonces no se gana nada con
respecto a los mínimos cuadrados convencionales que encajan en el conjunto completo de
predictores. Sin embargo, Jolliffe (2002) muestra que las multicolineidades, si están presentes,
están asociadas con los componentes principales que tienen los valores propios más pequeños. En
consecuencia, los efectos de las multicolineidades, y en particular la matriz de covarianza inflada
para los parámetros estimados, pueden en principio eliminarse truncando los últimos
componentes principales asociados con los valores propios muy pequeños.
Ciertos problemas pueden estar asociados con la regresión de componentes principales. A menos
que los principales componentes que se mantienen como predictores sean interpretables en el
contexto del problema que se está analizando, la comprensión que se puede obtener de la
regresión puede ser limitada. Es posible reexpresar la regresión prin- cipal-componente en
términos de los predictores originales usando la ecuación de síntesis (Ecuación 12.6), pero el
resultado en general involucrará todas las variables predictoras originales aunque sólo se haya
usado uno o unos pocos predictores componentes principales. Esta regresión reconstituida estará
sesgada, aunque a menudo la varianza es mucho menor, lo que resulta en un MSE más pequeño
en general.
12.7.3. El Biplot
En la Sección 3.6 se señaló que la AED gráfica para datos de alta dimensión es especialmente
difícil. Dado que el análisis de componentes principales destaca en la compresión de datos
utilizando el número mínimo de dimensiones, es natural pensar en aplicar PCA a EDA. El biplot,
originado por Gabriel (1971), es una herramienta de este tipo. El "bi-" en biplot se refiere a la
representación simultánea de las n filas (las observaciones) y las columnas K (las variables) de una
matriz de datos,[X].
El biplot es un gráfico bidimensional cuyos ejes son los dos primeros vectores propios de[Sx]. El
biplot representa las n observaciones como sus proyecciones en el plano definido por estos dos
vectores propios; es decir, como la gráfica de dispersión de los dos primeros componentes
principales. En la medida en que (l1 l2)/Sklk 1, esta gráfica de dispersión será una aproximación
cercana a sus relaciones, en un espacio bidimensional graficable. La inspección exploratoria de los
datos trazados de esta manera puede revelar aspectos de los datos tales como los puntos
El otro elemento del biplot es la representación simultánea de las variables K. Cada uno de los ejes
de coordenadas del espacio de datos K-dimensional definido por las variables puede ser
considerado como una unidad
vector base que indica la dirección de la variable correspondiente; es decir, b1 ¼[1, 0, 0, 0, .... 0],
b2T[0, 1, 0, ...., 0], ...., bKT[0, 0, 0, 0, ..., 1]. Estos vectores base también pueden ser proyectados
sobre los dos vectores propios que definen el plano del biplot; es decir,
XK
Puesto que cada uno de los elementos de cada uno de los vectores base bk es cero
excepto el kth, estos productos de puntos son simplemente los elementos kth de los dos vectores
propios. Por lo tanto, cada uno de los vectores de la base K bk está localizado en el biplot por
coordenadas dadas por los elementos vectores propios correspondientes. Debido a que los valores
de los datos y sus ejes de coordenadas originales se proyectan de la misma manera, el biplot
equivale a una proyección de la gráfica de dispersión K-dimensional completa de los datos,
incluyendo los ejes de coordenadas, en el plano definido por los dos autovectores principales.
En la Figura 12.15 se muestra un biplot para los datos dimensionales de enero de 1987 en la Tabla
A.1, después de la normalización a media cero y varianza unitaria, de modo que la PCA
corresponde a su matriz de correlación,[R]. En el cuadro 12.1b se indica el ACC correspondiente a
estos datos. Las proyecciones de los seis vectores base originales (más largas que las proyecciones
reales de la Ecuación 12.39 para mayor claridad, pero con las mag nitudes relativas correctas)
están indicadas por los segmentos de línea que divergen del origen. "P," "N," y "X" indican
precipitación, temperatura mínima y temperatura máxima, respectivamente, y los subíndices "I" y
"C" indican Ítaca y Canandaigua. Es inmediatamente evidente que los pares de líneas
correspondientes a variables similares en los dos lugares están orientados casi en las mismas
direcciones y que las variables de temperatura están orientadas casi perpendicularmente a las
variables de precipitación. Aproximadamente (debido a que la varianza descrita es de 92% en lugar
de 100%), las correlaciones entre estas seis variables son iguales a los cosenos de los ángulos entre
las líneas correspondientes en el biplot (ver Tabla 3.5), por lo que las variables orientadas en
direcciones muy similares forman agrupaciones naturales.
FIGURA 12.15 Biplot de los datos de enero de 1987 en la Tabla A.1, después de la estandarización.
P ¼ precipitación, X ¼ temperatura máxima
inclinación que se encuentra aproximadamente a mitad de camino entre los ángulos de las
variaciones de temperatura mínima y máxima, y perpendicular a las variables de precipitación. Son
los días correspondientes a precipitaciones pequeñas o nulas, cuyas principales características de
variabilidad están relacionadas con las diferencias de temperatura. Se ubican principalmente por
debajo del origen porque la precipitación media está un poco por encima de cero, y las variables
de precipitación están orientadas casi verticalmente (es decir, se corresponden estrechamente
con el segundo componente principal). Los puntos hacia la derecha del diagrama, que están
orientados de manera similar a las variables de temperatura, representan días relativamente
cálidos (con poca o ninguna precipitación), mientras que los puntos hacia la izquierda son los días
fríos. Centrándonos en las fechas de los días más fríos, podemos ver que se produjeron en una
sola corrida, hacia finales de mes. Finalmente, la dispersión de los puntos de datos indica que los
pocos valores en la parte superior del biplot son diferentes de las observaciones restantes, pero es
la visualización simultánea de las variables lo que nos permite ver que éstas resultan de grandes
valores positivos para la precipitación.
12.8. EJERCICIOS
a. Calcule los valores del primer componente principal para el 1 de enero y para el 2 de
enero.
12.2. Un análisis de los componentes principales de los datos de la Tabla A.3 arroja los tres
vectores propios e1T ¼
[.593, .552, -.587], e2T [.332, -.831, -.446], y e3T [.734, -.069, .676], donde los tres
Los elementos en cada vector pertenecen a los datos de temperatura, precipitación y presión,
respectivamente. Los tres valores propios correspondientes son l1 2.476, l2 0.356 y l3 0.169.
¿decírselo?
c. Reconstruir los datos de 1951, utilizando una síntesis truncada después de los dos
primeros componentes principales.
a. Calcular intervalos de confianza del 95% para los valores propios, asumiendo muestras
grandes y datos multi-normales.
12.4. Utilizando la información del Ejercicio 12.2, calcule la matriz vectorial propia[E] a rotar
ortogonalmente si
12.5. Usar la SVD en la Ecuación 10.70 para encontrar los primeros tres valores del primer
componente principal de los datos de temperatura mínima en la Tabla A.1.
12.6. Construir un biplot para los datos de la Tabla A.3, usando la información del Ejercicio 12.2.