Sei sulla pagina 1di 101

Álgebra matricial y las matrices aleatorias

10,1 ANTECEDENTES DE ESTADÍSTICAS MULTIVARIADAS

10.1.1 Contrastes entre las estadísticas multivariadas y invariadas

Gran parte del material de los primeros nueve capítulos de este libro corresponden al análisis
unidimensional o invariados de datos. Es decir los métodos de análisis presentados fueron
orientados principalmente hacia los valores de datos escalares y sus distribuciones. Sin embargo,
en muchas situaciones prácticas, los conjuntos de datos se componen de observaciones
vectoriales. En dichos casos, cada registro de datos consta de observaciones simultáneas de
variadas cantidades. Estos conjuntos de datos se conocen como multivariadas. Algunos ejemplos
de datos atmosféricos multivariados incluyen observaciones simultáneas de múltiples variables en
una ubicación, o un campo atmosférico representado por un conjunto de valores de punto de
cuadrícula en un momento determinado.

Los métodos univariantes pueden aplicarse, y son aplicados, a los elementos escalares individuales
de las observaciones a los datos multivariantes. El atributo diferenciador de los métodos
multivariados, es que se consideran tanto el comportamiento articular de las observaciones
simultáneas múltiples, como las variaciones de los elementos de datos individuales. Los capítulos
restantes de este libro presentan introducciones a algunos de los métodos multivariados que se
utilizan con mayor frecuencia con los datos atmosféricos. en esto se incluye los enfoques para la
reducción de datos, la simplificación estructural, caracterización y resumenes de múltiples
dependencias, predicción de subconjuntos de las variables de las restantes, agrupación y
clasificación de las observaciones multivariadas.

Los métodos multivariados presentan una dificultad mayor al momento de entender e


implementar a diferencia de los métodos univariados. Notacionalmente, se requiere el uso de
álgebra matricial para hacer la presentación manejable. dichos elementos de álgebra matricial que
son necesarios para entender el material subsiguiente son explicados brevemente en la sección
10,3. Debido a la complejidad de los datos multivariados y los métodos que se han ideado para
tratarlos, es necesario que todos los análisis multivariados, excepto los más simples, se
implementen por medio del uso de una computadora. Para la comodidad de los lectores se han
incluido suficientes detalles respecto a los métodos numéricos para así poder implementar sus
propios análisis. A pesar de esto, es probable que muchos lectores elijan utilizar un software
estadístico para este proyecto, y es por eso que el material en estos capítulos finales ayudará a
entender el propósito y funcionamiento de estos programas de computadora,

10.1.2 Organización de datos y notación básica

En las estadísticas univariadas convencionales, cada dato u observación es un solo número o


escalar. Cada dato en las Estadísticas multivariadas, es una colección de observaciones
simultáneas de valores escalares de K 2. Tanto para la conveniencia notacional como
computacional, estas observaciones multivariadas se organizan en una lista ordenada conocida
como vector, con un símbolo único en negrita que se utiliza para representar toda la colección, por
ejemplo,

Parte III estadisticas multivariadas

El superíndice T en la parte izquierda tiene un significado específico que se explicará en la sección


10,3, pero por ahora sin riesgo alguno podemos ignorarlo. Debido a que los valores individuales K
se organizan horizontalmente, la ecuación 10,1 se denomina vector de fila, y cada una de las
posiciones dentro de ella corresponde a uno de los escalares K cuyas relaciones simultáneas serán
consideradas. Suele ser conveniente visualizar (para K 2 o 3) o imaginar en caso de dimensiones
superiores; un vector de datos geométricamente, como un punto en un espacio dimensional-K, o
como una flecha cuya posición de punta está definida por los escalares de la lista, y cuya base está
en el origen. En base al origen de los datos, este espacio geométrico abstracto puede
corresponder a un espacio de fase o estado (puede consultar la sección 7.6.2), o a algún
subconjunto de las dimensiones (subespacio) de dicho espacio.

Un conjunto de datos univariados consiste en una colección de observaciones n escalares xi,i1/4


Del mismo modo, un conjunto de datos multivariado consta de una colección de n vectores de
datos XI, i Nuevamente, como para la conveniencia notacional y computacional, esta colección de
vectores de datos se puede organizar en una matriz rectangular de números, que tiene n filas,
cada una correspondiente a una observación multivariada, y con cada una de las columnas K que
contiene todas las observaciones n de una de las variables. Se denomina matriz de datos a esta
disposición de los números n K en el conjunto de datos multivariado.

Tal como se representan las observaciones n en la fila del vector en la ecuación 10,1, se han
apilado verticalmente para producir una matriz rectangular. De manera convencional, el primero
de los dos sub números de los elementos escalares de una matriz denota el número de fila, y el
segundo indica el número de columna, por ejemplo, x3, 2 es el tercero de las observaciones n de la
segunda de las Variables K. Las matrices en este libro, tal como [X], serán denotadas por el uso de
corchetes, como un recordatorio ilustrado de que el símbolo dentro de este representa una matriz
rectangular.

La matriz de datos [X] en la ecuación 10,2 corresponde exactamente a una tabla de datos
convencional o a una pantalla de hoja de cálculo, en la que cada columna pertenece a una de las
variables consideradas y cada fila representa una de las n observaciones. El contenido también se
puede visualizar o imaginar de manera geométrica dentro de un espacio abstracto en el
dimensional K, con cada una de las n filas definiendo un solo punto. un ejemplo sencillo es una
matriz de datos para datos bivariados, que tiene n filas y columnas K 2. Dentro del plano
cartesiano el par de números de cada una de las filas se localiza en un punto de este. El conjunto
de estos n puntos en el plano define una gráfica de dispersión de los datos bivariados.

10.1.3 Extensiones multivariadas de estadísticas univariadas comunes

Al igual que el vector de datos de la ecuación 10,1 es la extensión multivariada de un dato escalar,
las estadísticas de muestra multivariada se pueden expresar mediante la notación de vectores y
matrices. La más común de estas es la media muestral multivariada, la cual es sólo un vector de los
medios de una muestra escalar individual K (ecuación 3,2), dispuestas en el mismo orden que los
elementos de los vectores de datos subyacentes,

Tal como se ha mencionado anteriormente, el símbolo en negrita en el lado izquierdo de la


ecuación 10,3, indica una cantidad vectorial, y el doble de subíndice variables, en la primera
igualdad se indexan de acuerdo con la misma convención que en la ecuación 10,2.

Las extensiones multivariadas de la desviación estándar de la muestra (ecuación 3,6), o (mucho


más común, su cuadrado) la varianza de la muestra, son un poco más complicadas porque todas
las conexiones paralelas entre las variables K necesitan ser consideradas. Cabe recalcar que, la
extensión multivariada de la varianza de la muestra es la colección de covarianzas entre todos los
pares posibles de las variables K, lo que equivale al numerador de la ecuación 3,22. En el caso de
que las dos variables sean las mismas, es decir, k ¼ ℓ, entonces la ecuación 10,4 define la varianza
de la muestra, sk2 ¼ sk,k,, o el cuadrado de la ecuación 3.6. Aunque la notación sk,k para la varianza
de la muestra de la variable kth puede parecer un poco extraña al principio, es convencional en las
Estadísticas multivariadas; también es conveniente desde el punto de vista de la organización de
las covarianzas calculadas según la ecuación 10,4 en una matriz cuadrada llamada matriz de
covarianza de muestra,

Es decir, la covarianza sk,ℓ se muestra en la fila kth y la columna ℓth de la matriz de covarianza. La
matriz de covarianza de muestra, o también denominada como matriz de varianza-covarianza de
muestra, es directamente análoga a la matriz de correlación de muestra (Pearson) (véase la figura
3,26), con la relación entre los elementos correspondientes de las dos matrices dadas por la
ecuación 3,24; es decir, rk,ℓ sk,ℓ/[(sk,k)(sℓ,ℓ)]1/2. Las covarianzas K, sk,k en las posiciones diagonales,
entre las esquinas superior izquierda e inferior derecha de la matriz de covarianza de muestra son
simplemente las variantes de la muestra K. Los elementos restantes, fuera de la diagonal, son
covarianzas entre variables a diferencia, y los valores de abajo y a la izquierda de las posiciones
diagonales duplican los valores de arriba y a la derecha.

La matriz de varianza-covarianza también se conoce como la matriz de dispersión porque describe


cómo las observaciones se dispersan alrededor de su media (vector) en el espacio dimensional K
definido por las variables K. Los elementos diagonales son varianzas individuales, que indexan el
grado en que los datos se extienden en direcciones paralelas a los ejes de coordenadas K para este
espacio, y las covarianzas en las posiciones fuera de la diagonal describen la medida en que la
nube de datos puntos se orienta en ángulos a estos ejes. La matriz [S] es la estimación de la
muestra de la matriz de dispersión de la población [S], que aparece en la función de densidad de
probabilidad para la distribución normal multivariada (ecuación 11,1).

10.2 DISTANCIA DE LA MULTIVARIANTE

Tal como se señaló en la sección anterior que un vector de datos puede ser considerado como un
punto en el espacio geométrico de dimensión K , cuyos ejes de coordenadas corresponden a las
variables K que se representan simultáneamente. Muchos enfoques estadísticos multivariados se
basan o pueden interpretarse en términos de distancias.

PARTE III estadística multivariada

dentro de este espacio K-dimensional. Se puede definir cualquier cantidad de medidas de distancia
(véase la sección 15.1.2), pero dos de ellas son de particular importancia.

10.2.1 Distancia euclidiana

Tal vez la medida de distancia más fácil e intuitiva es la distancia


euclidiana convencional≤ porque corresponde a una experiencia
personal, común en el mundo tridimensional. La distancia euclidiana
es más sencilla de visualizar en dos dimensiones, donde se puede ver
fácilmente como una consecuencia del teorema de Pitágoras, tal como
se ilustra en la figura 10,1. Aquí dos puntos, x e y, situados por los
puntos, definen la hipotenusa de un triángulo derecho cuyas otras dos
caras son paralelas a los dos ejes de datos. La distancia euclidiana ||y –
x|| ||x – y||se obtiene tomando la raíz cuadrada de la suma de las
longitudes cuadradas de los otros dos lados. La distancia euclidiana se
generaliza directamente a K 3 dimensiones, a pesar de que el espacio
geométrico correspondiente puede ser difícil o imposible de imaginar.
En particular
La distancia entre un punto x y el origen también se puede calcular utilizando la ecuación 10,6 sustituyendo
un vector de ceros K (que localiza el origen en el espacio dimensional K correspondiente) para el vector y.

Puede ser matemáticamente conveniente para trabajar en términos de distancias cuadradas. No se pierde
información al hacerlo porque la distancia normalmente se considera necesariamente no negativa, por lo que
la distancia cuadrada es una transformación monótona e invertible de la distancia dimensional ordinaria (por
ejemplo, la ecuación 10,6). En adición, se evita la operación de la raíz cuadrada. Puntos a una distancia
cuadrada constante C2 ¼ ||x – y|| , definir un círculo en el plano con el radio C para las dimensiones K 2, una
esfera en un volumen con el radio C para las dimensiones K 3 y una hiperesfera con radio C dentro de un
hipervolumen dimensional K para las dimensiones K > 3.

10.2.2 Distancia de Mahalanobis (Estadisticas)


La distancia euclidiana es la encargada de la separación de pares de puntos en un espacio
dimensional k por igual, independientemente de su orientación relativa. Pero será muy útil para
interpretar las distancias entre puntos en términos estadísticos de disimilitud o inusuales, y en
este sentido las separaciones en algunas direcciones más peculiares que otras. En Este contexto lo
inusual, se establece mediante una distribución de probabilidad para los puntos de datos, que
puede caracterizarse utilizando la dispersión de una muestra finita, o utilizando una función de
densidad de probabilidad paramétrica.

La figura 10,2 ilustra los problemas de las dimensiones de K 2. La figura 10.2 a muestra un
contexto estadístico establecido por la dispersión de los puntos x ¼ [x1, x2]. La distribución se
centra en el origen, y la desviación estándar de x1 es aproximadamente tres veces la de x2, es
decir, , s1 = 3 s2. La orientación de la nube de puntos a lo largo de uno de los ejes refleja el hecho
de que las dos variables x1 y x2 son esencialmente no correlacionadas (los puntos de hecho se han
extraído de una distribución gaussiana bivariada; ver sección 4.4.2). A causa de esta diferencia en
la dispersión, una separación dada entre un par de puntos en el horizontal es menos extraña que
en el vertical, con relación a esta dispersión de datos. Aunque el punto a está más cerca del centro
de la distribución según la distancia euclidiana, es más inusual que el punto B en el contexto
establecido por la nube de puntos, por lo que estadísticamente está más lejos del origen.

Dado que los puntos de la figura 10.2 a no están correlacionados, una medida de distancia que
refleje lo inusual en el contexto de la dispersión de datos se puede definir simplemente como

que es un caso especial de la distancia de Mahalanobis entre el punto xT [x1, x2] y el origen
(porque las dos medias de muestra son cero) cuando las variaciones en las dimensiones de K 2 no
están correlacionadas. Para mayor conveniencia, la ecuación 10,7 se expresa como una distancia
cuadrada, y es equivalente a la distancia euclidiana cuadrada ordinaria después de la
transformación que divide cada elemento del vector de datos por su respectiva desviación
estándar (recordemos que, por ejemplo, s1,1 es la varianza de la muestra de x1). Otra
interpretación de la ecuación 10,7 es como la suma de las dos anomalías estandarizadas
cuadradas, o las puntuaciones z (ecuación 3,23). En cualquier caso, la importancia atribuida a una
distancia a lo largo de uno de los ejes es inversamente proporcional a la dispersión de datos, o
incertidumbre, en esa dirección. En consecuencia, el punto A está más lejos del origen que el
punto B de la figura 10.2 a cuando se mide de acuerdo con la distancia de Mahalanobis.

Para una distancia fija de Mahalanobis de D2, la ecuación 10,7 define una elipse de distancia
estadística constante en el plano, y esa elipse también es un círculo si s1,1 ¼ s2,2. Generalizando la
ecuación 10,7 a tres

La FIGURA 10.2 La distancia en el contexto de dispersiones de datos se centró en el origen. (a) La


desviación estándar de x1 es aproximadamente tres veces más grande que la desviación estándar
de x2. El punto a está más cerca del origen en términos de distancia euclidiana, pero el punto B es
menos inusual en relación con la dispersión de datos, por lo que está más cerca de la distancia
estadística. (b) los mismos puntos giran a través de un ángulo y ¼ 40○.

PARTE III estadística multivariada


dimensiones añadiendo un tercer término para x3, el conjunto de puntos a una distancia fija D2
constituye un elipsoide que será de forma esférica si las tres varianzas son iguales, como en forma
de dirigible si dos varianzas son casi iguales, pero más pequeñas que la tercera, y como disco si dos
varianzas son casi igual y mayor que la tercera.

En general, las variables dentro de un vector de datos multivariado x no estarán no


correlacionadas, y estas correlaciones también deben tenerse en cuenta al definir las distancias en
términos de dispersión de datos o densidad de probabilidad. La figura 10.2 b ilustra la situación en
dos dimensiones, en las que los puntos de la figura 10.2 a se han girado alrededor del origen a
través de un ángulo y 40○, lo que da como resultado que las dos variables estén relativamente
fuertemente correlacionadas positivamente. De nuevo el punto B está más cerca del origen en un
sentido estadístico, aunque para calcular las distancias actuales de Mahalanobis en términos de las
variables x1 y x2 sería necesario utilizar una ecuación de la forma

Las expresiones análogas de esta clase para la distancia de Mahalanobis en dimensiones K


implicarían el termino K(K 1)/2. Incluso en dos dimensiones, los coeficientes a1,1, a1,2, y a2,2, son
funciones bastante complicadas del ángulo de rotación y las tres covarianzas s1,1, s1,2, y s2,2. Por
ejemplo,
No estudie esta ecuación de manera intensa. Está aquí para ayudarle a convencerle, en el caso que sea
necesario, que la notación escalar convencional es irremediablemente poco práctica para expresar las ideas
matemáticas necesarias para las Estadísticas multivariadas La notación matricial y el álgebra matricial, que se
revisarán en la siguiente sección, son necesidades prácticas para llevar el desarrollo aún más lejos. La sección
10,4 reanudará el desarrollo estadístico usando la notación de álgebra matricial, incluyendo un repaso de la
distancia de Mahalanobis en la sección 10.4.4.

10,3 Resumen sobre el álgebra matricial

La mecánica matemática de tratar simultáneamente con múltiples


variables y sus correlaciones mutuas se simplifica en gran medida
mediante el uso de la notación matricial y un conjunto de reglas
computacionales denominadas álgebra matricial, o álgebra lineal. La
notación para vectores y matrices se introdujo brevemente en la
sección 10.1.2. El álgebra de matrices es el conjunto de herramientas
utilizado para manipular matemáticamente estos objetos
notacionales. En esta sección se presenta un breve repaso de este
tema, suficiente para las técnicas multivariadas descritas en los
capítulos siguientes. Las introducciones más completas están
disponibles en otros lugares de manera sencilla de encontrar. (e.g.,
Golub y van Loan, 1996; Lipschutz, 1968; Strang, 1988).

El vector es un componente fundamental de la notación de álgebra matricial. Esencialmente, no es


más que una lista ordenada de variables escalares, o números ordinarios, que se denominan
elementos del vector. El número de elementos, también llamado dimensión del vector, dependerá
de la situación en cuestión. Un ejemplo meteorológico común es el vector de viento horizontal
bidimensional, cuyos dos elementos son la velocidad del viento hacia el este u, y la velocidad del
viento hacia el norte v.

Los Vectores ya han sido introducidos en la ecuación 10.1 y como se ha señalado anteriormente
serán indicado con negrita. Un vector con solo el elemento K 1 es solo un número ordinario o
escalar. A menos que se indique lo contrario, los vectores se considerarán como vectores de
columna, lo que significa que sus elementos se organizan verticalmente. Por ejemplo, el vector de
la columna x consistiría en los elementos x1, x2, x3, . . ., xK; organizados como.

Estos mismos elementos se pueden organizar horizontalmente, como en la ecuación 10,1, que es un vector de
fila. Los vectores de columna se transforman en vectores de fila, y viceversa, a través de una operación
denominada transposición del vector. La operación de transposición se denota por el superíndice T, por lo que
podemos escribir el vector x en la ecuación 10,10 como el vector de fila xT en la ecuación 10,1, el cual se
pronuncia "x-TRANSPOSE." En español transpuesta de x. La transposición de un vector de columna es útil
para la coherencia notacional, dentro de ciertas operaciones de matriz. También es útil con objetivos
tipográficos, ya que permite que un vector sea escrito en una línea horizontal del texto

La adición de dos o más vectores con la misma dimensión es sencilla. La adición de vectores se logra
agregando los elementos correspondientes de los dos vectores, por ejemplo.

La sustracción se realiza de forma análoga. Esta operación reduce a adición escalar ordinaria

o substracción cuando los dos vectores tienen la dimensión K 1. No se definen la suma y resta de
vectores con diferentes dimensiones.

Multiplicar un vector por un escalar da como resultado un nuevo vector cuyos elementos son
simplemente los elementos correspondientes del vector original multiplicado por ese escalar. Por
ejemplo, multiplicar el vector x en la ecuación 10,10 por un constante escalar c

Aquí dos puntos, x e y, situados por los puntos, definen la hipotenusa de un triángulo rectangular
cuyas otras dos caras son paralelas a los dos ejes de datos.

Dos vectores de la misma dimensión se pueden multiplicar mediante una operación denominada
producto de punto o producto interno. Esta operación consiste en multiplicar juntos cada uno de
los pares de K como elementos vectoriales y luego sumar estos productos K. Es decir,

Esta multiplicación vectorial se ha interpretado como el producto de un vector de fila a la


izquierda y de un vector de columna a la derecha para que sea coherente con el funcionamiento
de la multiplicación matricial, que se presentará en la Sección 10.3.2. Como se verá, el producto de
puntos es de hecho un caso especial de multiplicación matricial, y el orden de multiplicación
vectorial y matricial es importante: en general, las multiplicaciones xT y e y xT producen
resultados completamente diferentes. La ecuación 10.13 también muestra que la multiplicación
vectorial puede expresarse en forma de componente usando la notación de suma. La expansión de
operaciones vectoriales y matriciales en forma de componentes puede ser útil en el caso de que el
cálculo deba programarse para un computador y dependiendo del lenguaje de programación.
Como se mencionó anteriormente, un vector puede ser visualizado como un punto en el espacio
dimensional k. La longitud Euclídea de un vector en ese espacio es la distancia ordinaria entre el
punto y el origen. La longitud es una cantidad escalar que puede ser calculada usando el producto
de puntos, ya que

La ecuación 10.14 es a veces conocida como la norma euclídea del vector x. La figura 10.1, con y
0como origen, ilustra que esta longitud es simplemente una aplicación del teorema de Pitágoras.
Una aplicación común de la longitud euclídea es el cálculo de la velocidad total del viento
horizontal a partir de la velocidad horizontal del viento.

vector de velocidad vT[u, v], según vH (u2 v2)1/2. Sin embargo, la Ecuación 10.14 también se
generaliza a K arbi- trarily alto.

El ángulo y entre dos vectores también se calcula utilizando el producto de puntos,

Esta relación implica que dos vectores son perpendiculares en el caso de que el producto de punto
es cero, ya que cos-1[0] 90○ Los vectores perpendiculares mutuos también se denominan
ortogonales.

La magnitud de la proyección (o "longitud de la sombra") de un vector x sobre un vector y es


también una función del producto de puntos, dada por

Las interpretaciones geométricas de estos tres cálculos de longitud, ángulo y proyección están
ilustardos en la Figura 10.3 para los vectores T[1, 1] y T[2, 0.8]. La longitud de es simplemente

FIGURA 10.3 Ilustración de los conceptos de longitud del vector (Ecuación 10.14), el ángulo entre
dos vectores (Ecuación 10.15), y la proyección de un vector sobre otro (Ecuación 10.16); para los
dos vectores xT ¼[1, 1] e yT ¼[2, 0.8].

The geometric interpretations of these three computations of length, angle, and projection are
T T
illu- strated in Figure 10.3 for
x the
¼ vectors y ¼ [1, 1] and [2, 0.8].
x The lengthx ¼of is simply
|| ||
þ (12 ¼ 12)1/2 p2, and theylength
y ¼of is ¼2
þ || || (2 0.82)1/2 2.154. Since the dot product of
the two

vectors is x·Ty ¼ 1· 2 þ 1 0.8 ¼ 2.8, the angle between them is y ¼ cos—1


· [2.8/(p2 2.154)] ¼ 23○, and
the length of the projection of x onto y is 2.8/2.154 ¼ 1.302.

10.3.2. Matrices

Se denomina matriz como una matriz rectangular bidimensional de números que tiene filas I y
columnas J. La dimensión de una matriz se especifica por el número de filas y columnas. Se escribe
una dimensión matricial (I J) y se pronuncia "I por J." Las matrices se indican aquí con letras
mayúsculas rodeadas de corchetes. A veces, para mayor claridad, una expresión paréntesis para la
dimensión de una matriz se escribirá directamente debajo de ella. Los elementos de una matriz
son las variables individuales o valores numéricos que ocupan las filas y columnas. Los elementos
de matriz se identifican de manera noticional por dos subíndices; el primero de éstos identifica el
número de línea, y el segundo identifica el número de columna. La Ecuación 10.2 muestra una
matriz de datos (n K), y la Ecuación 10.5 muestra una matriz de covarianza (K K), con la convención
de subíndices ilustrada.

Un vector es un caso especial de una matriz, y las operaciones de la matriz son aplicables también
a los vectores. Un vector de fila K-dimensional es una matriz (1 K), y un vector de columna es una
matriz (K 1). Así como un vector K unidimensional es también un escalar, así también lo es una (1
1) matriz.

Una matriz con el mismo número de filas y columnas, como[S] en la Ecuación 10.5, se llama matriz
cuadrada. Los elementos de una matriz cuadrada para los cuales i j están dispuestos en diagonal
entre las esquinas superior izquierda e inferior derecha y se denominan elementos diagonales. Las
matrices de correlación[R] (véase la figura 3.26) son matrices cuadradas que tienen todos los 1
sobre la diagonal. Una matriz cuadrada para la cual ai,j aj,i para todos los valores de i y j se llama
simétrica. Las matrices de correlación y covarianza son simétricas porque la correlación entre la
variable i y la variable j es idéntica a la correlación entre la variable j y la variable i. Otra matriz
cuadrada y simétrica importante es la matriz de identidad[I], que consiste en 1 en la diagonal y
ceros en todas partes,

Se puede construir una matriz de identidad para cualquier dimensión (cuadrada). Cuando la matriz
de identidad aparece en una ecuación, se puede suponer que tiene la dimensión adecuada para
las operaciones de la matriz pertinente.

definido. La matriz de identidad es un caso especial de una matriz diagonal, cuyos elementos fuera
de la diagonal son todos ceros.

La operación de transposición se define para cualquier matriz, incluyendo el caso especial de los
vectores. La transposición de una matriz se obtiene en general mediante el intercambio de índices
de filas y columnas, no mediante una rotación como se podría haber anticipado de una
comparación de las ecuaciones 10.1 y 10.10. Geométricamente, la operación transposición es
como un reflejo a través de la diagonal de la matriz que se extiende hacia abajo y a la derecha
desde el elemento superior izquierdo. Por ejemplo, la relación entre la matriz (3 × 4)[B] y su
transposición, la matriz (4 × 3)[B]T, se ilustra comparando

La ecuación 10.18 también ilustra la convención de indicar la dimensión de la matriz de manera


paréntesis,

debajo del símbolo de matriz. Si una matriz cuadrada[A] es simétrica, entonces[A] ¼[A] .

La multiplicación de una matriz por un escalar es la misma que para los vectores y se logra
multiplicando cada elemento de la matriz por el escalar,

Del mismo modo, la suma y la resta de matrices se definen sólo para matrices de dimensiones
idénticas y se realizan mediante la realización de estas operaciones en los elementos de las
correspondientes posiciones de filas y columnas. Por ejemplo, la suma de dos matrices (2 × 2) se
calcularía de la siguiente manera

La multiplicación de matriz se define entre dos matrices si el número de columnas en la matriz


izquierda es igual al número de filas en la matriz derecha. Por lo tanto, no sólo la multiplicación de
matrices no es conmutiva (es decir,[A][B][B][B][A]), sino que la multiplicación de dos matrices en
orden inverso ni siquiera se define a menos que las dos tengan dimensiones complementarias de
fila y columna. El producto de una multiplicación de matriz es otra matriz, cuya dimensión de fila
es la misma que la dimensión de fila de la matriz izquierda y cuya dimensión de columna es la
misma que la dimensión de columna de la matriz derecha. Es decir, multiplicando una matriz (I
J)[A] (a la izquierda) y una matriz (J K)[B] (a la derecha) se obtiene una matriz (I K)[C]. En efecto, la
dimensión media J se "multiplica".

Considere el caso en el que I ¼ 2, J ¼ 3, y K ¼ 2. En términos de los elementos individuales de la


matriz, la multiplicación de la matriz[A] [B] ¼ [C] se expande a

Los componentes individuales de[C] tal como están escritos en la Ecuación 10.21b pueden parecer
confusos al principio. Para entender la multiplicación de la matriz, es útil darse cuenta de que cada
elemento de la matriz del producto[C] es simplemente el producto punteado, tal como se define
en la Ecuación 10.13, de una de las filas de la matriz izquierda [A] y una de las columnas de la
matriz derecha[B]. En particular, el número que ocupa la fila i y la columna k de la matriz[C] es
exactamente el producto punteado entre el vector de la fila que comprende la fila i de[A] y el
vector de la columna que comprende la columna k de[B]. Equivalentemente, la multiplicación de
matrices se puede escribir en términos de los elementos individuales de la matriz utilizando la
notación de suma,

La matriz de identidad (Ecuación 10.17) se denomina así porque funciona como la identidad
multiplicativa es decir, [A][I][A][A], y[I][A][A] independientemente de la dimensión de[A]- aunque
en el primer caso[I] es una matriz cuadrada con el mismo número de columnas que[A], y en el
segundo su dimensión es la misma que el número de filas de[A].

El producto de puntos, o producto interno (Ecuación 10.13), es una aplicación de la multiplicación


de matrices a los vectores. Pero las reglas de la multiplicación matricial también permiten la
multiplicación de dos vectores en el orden opuesto, que se llama el producto exterior. A diferencia
del producto interno, que es una multiplicación de matriz (1 × K) × (K × 1) que produce un escalar
(1 × 1); el producto externo de dos vectores de la misma dimensión K es una multiplicación de
matriz (K × 1) × (1 × K) que produce una matriz cuadrada (K × K). Por ejemplo, para K ¼ 3,

Es innecesario que dos vectores que forman un producto exterior posean la misma dimensión
porque como vectores tienen una dimensión común ("interior") 1. El producto exterior se conoce
a veces como el producto díádico, o producto tensor, y la operación se indica a veces utilizando
una "x" marcada con un círculo, es decir,

El trazo de una matriz cuadrada es simplemente la suma de sus elementos diagonales, es decir,

para la matriz (K K)[A]. Para la matriz de identidad (K K), tr[I] K. El determinante de una matriz
cuadrada es una cantidad escalar definida como
donde[A1,k] es la matriz (K - 1 K - 1) formada por la eliminación de la primera fila y la columna kth
de[A]. La notación de valor absoluto para el determinante de la matriz sugiere que esta operación
produce un escalar que es en cierto sentido una medida de la magnitud de la matriz. La definición
en la Ecuación 10.25 es recursiva, así que, por ejemplo, calcular el determinante de una matriz (K ×
K) requiere que los determinantes de K de matrices reducidas (K - 1 K - 1) sean calculados primero,
y así sucesivamente hasta llegar a |A| a1,1 para K 1. Por consiguiente, el proceso es bastante
tedioso y generalmente es mejor dejarlo en manos de una computadora. Sin embargo, en el caso
(2x2)

La generalización de la matriz de la división aritmética existe para las matrices cuadradas que
tienen una propiedad conocida como rango completo, o no singularidad. Esta condición puede
interpretarse en el sentido de que la matriz no contiene información redundante en el sentido de
que ninguna de las filas puede construirse a partir de combinaciones lineales de las otras filas.
Considerando cada fila de una matriz no singular como vector, es imposible construir sumas
vectoriales de filas multiplicadas por constantes escalares que sean iguales a cualquiera de las
otras filas. Estas mismas condiciones aplicadas a las columnas también implican que la matriz no
esingular. Las matrices no singulares tienen un factor determinante distinto de cero.

Las matrices cuadradas no singulares son invertibles. Que una matriz[A] sea invertible significa que
existe otra matriz[B] tal que

Se dice entonces que[B] es el inverso de[A], o[B][A]-1; y que[A] es el inverso de[B], o[A][B]-1. En
términos generales,[A][A]-1 indica la división de la matriz[A] por sí misma y así produce la
identidad (matriz)[I]. Las inversiones de matrices (2 × 2) son fáciles de calcular a mano, utilizando

Esta matriz se reconoce como "A la inversa". También existen fórmulas explícitas para invertir
matrices de dimensiones superiores, pero rápidamente se vuelven muy engorrosas a medida que
las dimensiones aumentan. Los algoritmos informáticos para la inversión de matrices están
ampliamente disponibles y, en consecuencia, las matrices con dimensiones superiores a dos o tres
raras veces se invierten a mano. Una excepción importante es la inversa de una matriz diagonal,
que es simplemente otra matriz diagonal cuyos elementos distintos de cero son los recíprocos de
la matriz diagonal.

de la matriz original. Si[A] es simétrico (frecuentemente en estadística, las matrices simétricas


están invertidas), entonces[A]-1 también es simétrico.

En la tabla 10.1 se enumeran algunas propiedades adicionales de las operaciones aritméticas con
matrices que no se han mencionado específicamente en el cuadro anterior.

Ejemplo 10.1. Cálculo de las matrices de covarianza y correlación

La matriz de covarianza[S] fue introducida en la Ecuación 10.5, y la matriz de correlación[R] fue


introducida en la Figura 3.26 como un dispositivo para representar de manera compacta las
correlaciones mutuas entre las variables K. La matriz de correlación para los datos de enero de
1987 de la Tabla A.1 (con los elementos diagonales unitarios y la simetría implícita) se muestra en
la Tabla 3.5. El cálculo de las covarianzas en la ecuación 10.4 y de las correlaciones en la ecuación
3.25 también puede expresarse en notación de álgebra de matriz. Una forma de comenzar el
cálculo es con la matriz de datos (n K)[X] (Ecuación 10.2). Cada fila de esta matriz es un vector, que
consiste en una observación para cada una de las variables K. El número de estas filas es el mismo
que el tamaño de la muestra, n, por lo que[X] es sólo una tabla de datos ordinaria como la Tabla
A.1. En la Tabla A.1 se encuentran K ¼ 6 variables (excluyendo la columna que contiene las fechas),
cada una de las cuales se observan simultáneamente en 31 ocasiones. Un elemento de datos
individual xi,k es la observación ith de la variable kth. Por ejemplo, en la Tabla A.1, x4,6 sería
la temperatura mínima de Canandaigua (19°F) observada el 4 de enero.

Definir la matriz (n n)[1], cuyos elementos son todos iguales a 1. La matriz (n K) de anomalías (en el
sentido meteorológico de las variables con su media sustraída), o datos centrados[Xt] es entonces

(Note que algunos autores usan la notación principal en este contexto para indicar la transposición
de la matriz, pero el superíndice T ha sido usado para indicar la transposición a lo largo de este
libro, para evitar confusión.) El término segundario en la Ecuación 10.29 es una matriz (n K) que
contiene los medios de la muestra. Cada una de sus n filas es la misma y consiste en el medio de la
muestra K en el mismo orden en que aparecen las variables correspondientes en cada fila de[X].

Multiplicando[X] por la transposición de sí mismo, y dividiendo por n - 1, se obtiene la matriz de


covarianza de la muestra,

Esta es la misma matriz simétrica (K K) que en la Ecuación 10.5, cuyos elementos diagonales son
las variaciones de las variables K, y cuyos otros elementos son las covarianzas entre todos los
pares posibles de las variables K. La operación en la Ecuación 10.30 corresponde a la suma en el
numerador de la Ecuación 3.24.

Ahora se define la matriz diagonal (K K)[D], cuyos elementos diagonales son las desviaciones
estándar de la muestra de las variables K. Es decir, [D] consiste en todos los ceros excepto los
elementos diagonales, cuyos valores son las raíces cuadradas de los elementos correspondientes
de[S]: ]: dk,k sk,k,k 1, . . ., K.. La matriz de correlación de puede ser calculada a partir de la matriz
de covarianza usando

Puesto que[D] es diagonal, su inverso es la matriz diagonal cuyos elementos son los recíprocos de
las desviaciones estándar de la muestra en la diagonal de[D]. La multiplicación de la matriz en la
Ecuación 10.31 corresponde a la división por las desviaciones estándar en la Ecuación 3.25.

Nótese que la matriz de correlación[R] es equivalentemente la matriz de covarianza de la matriz


estandarizada

(o anomalías estandarizadas) zk (Ecuación 3.23). Es decir, dividir las anomalías xk0 por sus
desviaciones estándar sk,k no dimensionaliza las variables y resulta en que tengan varianza
unitaria.

(1 en la diagonal de[R]) y covarianzas iguales a sus correlaciones. En notación matricial esto puede
verse sustituyendo la Ecuación 10.30 por la Ecuación 10.31 para obtener donde[Z] es la matriz (n
K) cuyas filas son los vectores de las variables estandarizadas z, análogamente a la matriz[X0] de
las anomalías. La primera línea de la Ecuación 10.32 convierte la matriz[X0] a la matriz

Z] dividiendo cada elemento por su desviación estándar, dk,k. La comparación de las ecuaciones
10.32 y 10.30 muestra que[R] es en realidad la matriz de covarianza para las variables
estandarizadas z.

También es posible formular el cálculo de las matrices de covarianza y correlación en términos de


productos externos de vectores. Definir el ith de n (columna) vectores de anomalías

donde la media del vector (muestra) es la transposición de cualquiera de las filas de la matriz que
se sustrae del lado derecho de la ecuación 10.29 o, de manera equivalente, la transposición de la
ecuación 10.3. También que las correspondientes anomalías estandarizadas (la contraparte
vectorial de la Ecuación 3.23) sean

donde[D] es de nuevo la matriz diagonal de las desviaciones estándar. La ecuación 10.34 se llama
transformación de escala y simplemente indica la división de todos los valores en un vector de
datos por sus respectivas desviaciones estándar. La matriz de covarianza puede entonces ser
calculada de una manera que es notationalmente análoga al cálculo usual de la varianza escalar
(Ecuación 3.6, al cuadrado),

y, de manera similar, la matriz de correlación es

Ejemplo 10.2. Regresión lineal múltiple expresada en notación matricial

La discusión de la regresión lineal múltiple en la Sección 7.2.8 indicó que las matemáticas
relevantes se expresan y resuelven más fácilmente usando álgebra de matriz. En esta notación, la
expresión para el predictado y, como una función de las variables predictoras xi (Ecuación 7.24) se
convierte en.

Aquí y es una (n 1) matriz (es decir, un vector) de las n observaciones del predictor, [X] isa (n K 1)
matriz de datos que contiene los valores de las variables predictoras, y bT[b0, b1,b2,.... .,bK] isa (K
1 1) vector de los parámetros de regresión. La matriz de datos en el contexto de regresión es
similar a la de la ecuación 10.2, excepto que tiene columnas K 1 en lugar de K. Esta columna extra
es la columna más a la izquierda de[X] en la ecuación 10.37, y consta enteramente de 10. Así, la
Ecuación 10.37 es una ecuación vectorial, con dimensión (n 1) a cada lado. En realidad, son n
repeticiones de la Ecuación 7.24, una vez cada una para los n registros de datos.

Las ecuaciones normales (presentadas en la Ecuación 7.6 para el caso simple de K 1) se obtienen
multiplicando a la izquierda cada lado de la Ecuación 10.37 por[X]T,

donde todas las sumas están por encima de los n puntos de datos. La matriz[X]T[X] tiene una
dimensión (K þ 1 × K þ 1). Cada lado de la Ecuación 10.38 tiene dimensión (K þ 1 × 1), y esta
ecuación realmente representa K þ 1 ecuaciones simultáneas que implican los coeficientes de
regresión desconocidos de K þ 1. Álgebra de matrices
PARTE III Estadísticas multivariadas

se utiliza muy comúnmente para resolver conjuntos de ecuaciones lineales simultáneas como
éstas. Una manera de obtener la solución es multiplicar a la izquierda ambos lados de la Ecuación
10.38 por el inverso de la matriz[X]T[X]. Esta operación es análoga a la división de ambos lados
entre esta cantidad y rendimientos.

Lo cual es la solución para el vector de los parámetros de regresión. Si no hay dependencias


lineales entre las variables predictoras, entonces la matriz[X]T[X] es insingular, y su inversa
existirá. De lo contrario, el software de regresión no podrá calcular la Ecuación 10.39, y se debe
reportar un mensaje de error adecuado.

Las varianzas y covarianzas para la distribución conjunta del muestreo de los parámetros de
regresión K 1 bT, correspondientes a las ecuaciones 7.17b y 7.18b, también pueden calcularse
utilizando el álgebra de matriz. La matriz de covarianza (K þ 1 × K þ 1), conjuntamente para los
coeficientes de interceptación y regresión K, es la siguiente

Como antes, se2 es la varianza residual estimada, o MSE (ver Tabla 7.3). Los elementos diagonales
de

La ecuación 10.40 son las varianzas estimadas de las distribuciones de muestreo de cada elemento
del vector paramétrico b; y los elementos fuera de diagonal son las covarianzas entre ellos,
correspondientes a (para covarianzas que involucran la intercepción, b0), la correlación en la
ecuación 7.19. Para tamaños de muestra suficientemente grandes, la distribución del muestreo
conjunto es multivariada normal (ver Capítulo 11), por lo que la Ecuación 10.40 define
completamente su dispersión.

Como antes, esta cantidad depende de los valores de los predictores para los que se evalúa la
función de regresión, x0T ¼[1, x1, x2, .... , xK]. e

Una matriz cuadrada se llama ortogonal si los vectores definidos por sus columnas tienen
longitudes unitarias y son mutuamente perpendiculares (es decir, y 90○ según la Ecuación 10.15),
y las mismas condiciones se mantienen para los vectores definidos por sus columnas. En ese caso,

lo que implica que

Las matrices ortogonales también se denominan unitarias, y este último término abarca también
las matrices que pueden tener elementos complejos.

Una transformación ortogonal se logra multiplicando un vector por una matriz ortogonal.
Considerando que un vector para definir un punto en el espacio K-dimensional, corresponde una
transformación ortogonal

a una rotación rígida de los ejes de coordenadas (y también a una reflexión, si el determinante es
negativo), resultando en una nueva base (nuevo conjunto de ejes de coordenadas) para el espacio.
Por ejemplo, considere las dimensiones K 2, y la matriz ortogonal
Las longitudes de ambas filas y ambas columnas de esta matriz son sin2(y) cos2(y) 1 (Ecuación
10.14), y los ángulos entre los dos pares de vectores son ambos 90○ (Ecuación 10.15), así que[T] es
una matriz ortogonal.

La multiplicación de un vector x por la transposición de esta matriz corresponde a una rotación


rígida en sentido antihorario de los ejes de coordenadas a través de un ángulo y. Considere el
punto xT ¼ (1, 1) en la Figura 10.5. Izquierda - multiplicándolo por[T]T, con y ¼ 72○, se obtiene el
punto en un nuevo sistema de coordenadas (punteado).

Debido a que las filas y columnas de una matriz ortogonal tienen longitud unitaria, transformación
ortogonal-de la longitud de conservación de la información. Es decir, no comprimen ni expanden
los ejes de coordenadas (girados). En términos de longitud euclídea (cuadrada) (Ecuación 10.14)

El resultado para la transposición de un producto matriz de la Tabla 10.1 se ha utilizado en la


segunda línea, y la Ecuación 10.42 se ha utilizado en la tercera.

FIGURA 10.5 El punto xT ¼ (1, 1), cuando está sujeto a una rotación ortogonal de los ejes de
coordenadas a través de un ángulo de y 72○, se transforma

al punto ex ¼ (1.26, -0.64) en la nueva base (ejes de coordenadas discontinuas).

10.3.3. Valores propios y vectores propios de una matriz cuadrada

Un valor propio l, y un vector propio, e de una matriz cuadrada[A] son un vector escalar y no nulo,
respectivamente, que complementan la ecuación

o equivalente

debido 0 es un vector formado enteramente por ceros. Por cada par de autovalores y
autovectores que se pueda encontrar para complementar la Ecuación 10.46, cualquier múltiplo
escalar del autovector, ce, también complementará la ecuación junto con ese autovalor. Por lo
tanto, para la definición es habitual exigir que tengan una longitud unitaria,

kek ¼ 1: ð10:47Þ

Esta restricción sólo elimina la ambigüedad hasta un cambio de signo, ya que si un vector
complementa la ecuación 10.46, entonces también lo hará su negativo, -e.

Si[A] no es singular, habrá pares de valores propios K y ek con valores propios distintos de cero,
donde K es el número de filas y columnas en[A]. Cada vector propio será dimensionado (K x 1).
Si[A] es singular, al menos uno de sus valores propios será cero, siendo los correspondientes
vectores propios arbitrarios. La terminología sinónima que a veces también se utiliza para valores
propios y vectores propios incluye valores característicos y vectores característicos, valores
latentes y vectores latentes, y valores propios y vectores propios. Debido a que cada vector propio
está definido para tener una longitud unitaria, el producto de puntos de cualquier vector propio
con sí mismo es uno. Si, además, la matriz[A] es simétrica, entonces sus propios vectores son
mutuamente ortogonales, de modo que
Se dice que los vectores ortogonales de longitud unitaria son ortonormales. (Esta terminología no
tiene nada que ver con la distribución gaussiana o "normal".) La propiedad de ortonormalidad es
análoga a la Ecuación 9.66, expresando la ortogonalidad de las funciones seno y coseno.

Para muchas aplicaciones estadísticas, los valores propios y los vectores propios se calculan para
matrices simétricas reales (no para números complejos o imaginarios), como las matrices de
covarianza o correlación. Los valores propios y los vectores propios de dichas matrices tienen una
serie de propiedades importantes y notables. La primera de estas propiedades es que sus valores
propios y vectores propios son de valor real. También, como se acaba de señalar, los vectores
propios de las matrices simétricas son ortogonales. Es decir, sus productos de puntos entre sí son
cero, de modo que son mutuamente perpendiculares en el espacio dimensional k.

A menudo se forma la matriz (K × K)[E], cuyas columnas K son los vectores propios ek. Eso es,

½E] ¼ ½ e1, e2, e3, -- -, eK ]: ð10:49Þ

Debido a la ortogonalidad y longitud unitaria de los vectores propios de las matrices simétricas, la
matriz[E] es ortogonal y tiene las propiedades expresadas en la Ecuación 10.42. La transformación
ortogonal[E]Tx define una rotación rígida de los ejes de coordenadas dimensionales K de x,
llamados un espacio propio. Este espacio cubre el mismo "territorio" que las coordenadas
originales, pero utilizando los diferentes conjuntos de ejes definidos por las soluciones de la
ecuación 10.46.

Los pares de valores propios K contienen la misma información que la matriz[A] a partir de la cual
se calcularon, por lo que pueden considerarse como una transformación de[A]. Esta equivalencia
puede expresarse, de nuevo para[A] simétrica, como la descomposición espectral o la
descomposición jordana,

½A] ¼ ½A ½L]½L]½A] ð10:50aÞ

de modo que[L] denota una matriz diagonal cuyos elementos distintos de cero son los valores K
de[A]. Es ilegal considerar también el equivalente de la Ecuación 10.50 en notación de suma,

El producto exterior de cada vector propio con sí mismo en la Ecuación 10.51a define una
matriz[Ek]. La ecuación 10.51b muestra que la matriz original[A] puede ser recuperada como una
suma ponderada de estas matrices[Ek], donde los pesos son los valores propios correspondientes.
Por lo tanto, la descomposición espectral de una matriz es análoga a la descomposición de Fourier
de una función o serie de datos (Ecuación 9.62a), con los valores propios desempeñando el papel
de las amplitudes de Fourier y las matrices[Ek] correspondientes a las funciones del coseno.

Otras consecuencias de la equivalencia de la información en los dos lados de la ecuación 10.50 por
cada uno de los valores propios. El primero de ellos es

Esta relación es particularmente importante cuando[A] es una matriz de covarianza, en cuyo caso
sus elementos diagonales ak,k son las varianzas K. La ecuación 10.52 dice que la suma de estas
varianzas está dada por la suma de los valores propios de la matriz de covarianza.

La segunda consecuencia de la Ecuación 10.50 para los valores propios es

YK
que es consistente con la propiedad de que al menos uno de los valores propios de una matriz
singular (con cero determinantes) será cero. Una matriz simétrica real con todos los valores
propios positivos se denomina positiva definida.

La matriz de vectores propios[E] tiene la propiedad de diagonalizar la matriz simétrica original.

A] a partir del cual se calcularon los vectores propios y los valores propios. La ecuación de
multiplicación a la izquierda 10.50a por[E]T, la de multiplicación a la derecha por[E], y usando la
ortogonalidad de[E] da como resultado

½E] ½A]½E] ¼ ½L]: ð10:54Þ

La multiplicación de[A] a la izquierda por[E]T y a la derecha por[E] produce la matriz diagonal de


valores propios[L].

Existe también una fuerte conexión entre los valores propios lk y vectores propios ek de una
matriz simétrica no singular, y las cantidades correspondientes l*k y e*k de su inversa. Los
vectores propios de los pares matriz-inverso son los mismos -es decir, e*k ek para cada k- y los
correspondientes valores propios son recíprocos, l*k lk-1. Por lo tanto, el propio vector de[A]
asociado con su mayor valor propio es el mismo que el del[A]-1 asociado con su menor valor
propio, y viceversa.

La extracción de pares de vectores propios a partir de matrices es una tarea que requiere un gran
esfuerzo de cálculo, especialmente a medida que aumenta la dimensión del problema. Es posible
pero muy tedioso hacer los cálculos a mano si K ¼ 2, 3, o 4, usando la ecuación

detð½A] - l½I]Þ ¼ 0: ð10:55Þ

Este cálculo requiere primero resolver un polinomio de orden K para los valores propios de K y
luego resolver conjuntos K de ecuaciones simultáneas de K para obtener los vectores propios. En
general, sin embargo, se utilizan algoritmos informáticos ampliamente disponibles para calcular
aproximaciones numéricas a valores propios y vectores propios. Estos cálculos también pueden
realizarse en el marco de la descomposición del valor singular (ver Sección 10.3.5).

Ejemplo 10.3. Valores propios y vectores propios de una matriz simétrica (2 × 2)

La matriz simétrica

A 185:47 110:84 10:56

tiene como valores propios l1 ¼ 254,76 y l2 ¼ 8,29, con sus correspondientes vectores propios e1
¼[0,848, 0.530] y e2T [ 0,530, 0.848]. Es fácil verificar que ambos vectores propios son de longitud
unitaria. Su producto de puntos es cero, lo que indica que los dos vectores son perpendiculares u
ortogonales.

La matriz de los vectores propios es por lo tanto

E 0:848 0:530 , 10:57


y la matriz original puede ser recuperada usando los valores propios y los vectores propios
(Ecuaciones 10.50 y 10.51) como

½A] ¼ Σ 185:47 110:84 Σ Σ :848 -:530 ΣΣ 254:76 0 ΣΣ :848 :530 Σ ð10:58aÞ

La ecuación 10.58a expresa la descomposición espectral de[A] en la forma de la ecuación 10.50, y


las ecuaciones 10.58b y 10.58c muestran la misma descomposición en la forma de la ecuación
10.51.

La matriz de los vectores propios diagonaliza la matriz original[A] según

Finalmente, la suma de los valores propios, 254,76 þ 8,29 ¼ 263,05, es igual a la suma de los
elementos diagonales de la matriz original[A], 185,47 þ 77,58 ¼ 263,05. e

10.3.4. Raíces cuadradas de una matriz simétrica

Consideremos dos matrices cuadradas del mismo orden,[A] y[B]. Si la condición

½A] ¼ ½B]½B] ð10:60Þ

entonces[B] multiplicado por sí mismo produce[A], por lo que[B] se dice que es una "raíz
cuadrada" de[A], o[B][A]1/2. A diferencia de las raíces cuadradas de los escalares, la raíz cuadrada
de una matriz simétrica no está definida de manera única. Es decir, hay cualquier número de
matrices[B] que puedan complementar la Ecuación 10.60, aunque dos algoritmos son usados con
mayor frecuencia para encontrar soluciones para esta.

Si[A] es de rango completo, se puede encontrar una matriz triangular inferior[B] que complementa
la Ecuación 10.60 usando la descomposición de Cholesky de[A]. (Una matriz triangular inferior
tiene ceros arriba y a la derecha de la diagonal principal, es decir, bi,j ¼ 0 para i < j.) Comenzando
con

b1, 1 ¼ pffiaffiffi1ffiffi,ffi1ffiffi

ð10:61Þ

como único elemento distinto de cero en la primera fila de[B], la descomposición de Cholesky
procede iterativamente, calculando los elementos distintos de cero de cada una de las filas
subsiguientes, i, de[B] a su vez según

Es una buena idea hacer estos cálculos con doble precisión para minimizar los errores de
redondeo de acumulación que pueden llevar a una división por cero en la ecuación 10.62a para la
dimensión de matriz grande K, incluso si[A] es de rango completo.
El segundo método comúnmente utilizado para encontrar una raíz cuadrada de[A] es utilizar sus
valores propios y sus propios vectores, y es computable incluso si la matriz simétrica[A] no es de
rango completo. Usando la posición espectral de descompresión (Ecuación 10.50) para[B],

½B] ¼ ½A]1=2 ¼ ½E]½L]1=2½E]T , ð10:63Þ

La ecuación 10.63 puede ser extendida para encontrar la raíz cuadrada de una matriz inversa, [A]-
1/2, si[A] es simétrica y de rango completo. Debido a que una matriz tiene los mismos vectores
propios que su inversa, también tendrá los mismos vectores propios que la raíz cuadrada de su
inversa. En consecuencia,

½A]—1=2 ¼ ½E]½L]—1=2½E]T , ð10:64Þ

donde[L]-1/2 es la matriz diagonal con los elementos l-1/2 , los recíprocos de las raíces cuadradas
de los valores propios de[A]. Las implicaciones de la Ecuación 10.64 son las que cabría esperar; es
decir,[A]-1/2 ([A]-1/2)T ¼[A]-1, y[A]-1/2 ([A]1/2)T ¼[I].

Ejemplo 10.4. Raíces cuadradas de una matriz y su inversa

La matriz simétrica[A] en la Ecuación 10.56 es de rango completo, ya que ambos de sus valores
propios son positivos. Por lo tanto, se puede calcular una matriz de raíz cuadrada triangular más
baja[B] ¼[A]1/2 usando la descomposición de Cholesky. La ecuación 10.61 produce b1,1 ¼
(a1,1)1/2 ¼ 185.471/2 ¼ 13.619 como el único elemento no nulo de la primera fila (i ¼ 1) de[B].
Debido a que[B] tiene sólo una fila adicional, las Ecuaciones 10.62 necesitan ser aplicadas sólo una
vez cada una. La ecuación 10.62a produce b2,1 ¼ (a1,1-0)/b1,1 ¼ 110.84/13.619 ¼ 8.139. El cero
se resta en el numerador de la Ecuación 10.62a para b2,1 porque no hay términos en la suma.
(Si[A] hubiera sido una matriz (3 × 3), la Ecuación 10.62a se aplicaría dos veces para la tercera fila (i
¼ 3): la primera de estas aplicaciones, para b3,1, tampoco tendría términos en la suma, pero al
calcular b3,2 habría un término correspondiente a k ¼ 1.) Finalmente, el cálculo indicado por la
ecuación 10.62b is b2,2 ¼ (a2,2–b2 )1/2 ¼ (77.58–8.1392)1/2 ¼ 3.367. La matriz de raíz cuadrada
inferior triangular de Cholesky para[A] es así

que puede ser verificada como una raíz cuadrada válida de[A] a través de la multiplicación de la
matriz[B][B]T.

Una matriz simétrica de raíz cuadrada para[A] puede ser calculada usando sus valores propios y
vectores propios del Ejemplo 10.3 y la Ecuación 10.63:

Esta matriz también puede ser verificada como una raíz cuadrada válida de[A] calculando[B][B]T.
La ecuación 10.64 permite el cálculo de una matriz de raíz cuadrada para el inverso de[A],

Esta es también una matriz simétrica. El producto matriz[A]-1/2 ([A]-1/2)T[A]-1/2[A]-1/2[A]-


1/2[A]-1. La validez de la ecuación 10.67 puede comprobarse comparando el producto[A]-1/2[A]-
1/2[A]-1/2 con[A]-1 con[A]-1 como se calculó utilizando la ecuación 10.28, o verificando[A]-1/2[A]-
1/2[A]-1/2 ¼[A]-[A]-1/2[A]-[A]-[A]-1]-1[A]-1[A]-1]-1

10.3.5. Descomposición de valor singular (SVD)

La ecuación 10.50 expresa la descomposición espectral de una matriz cuadrada simétrica. Esta
descomposición puede extenderse a cualquier (n m) matriz rectangular[A] con al menos tantas
filas como columnas (n m) utilizando la descomposición de valor singular (SVD),

Las columnas m de[L] se denominan vectores singulares izquierdos, y las columnas m de[R] se
denominan vectores singulares derechos. (Nótese que, en el contexto de la SVD,[R] no denota una
matriz de correlación.) Ambos conjuntos de vectores son mutuamente ortonormales, por lo
que[L]T[L][R]T[R][R][R]T[I], con dimensión (m m). La matriz[O] es diagonal, con elementos
diagonales no negativos que se denominan los valores singulares de[A]. La ecuación 10.68 es a
veces llamada la SVD "delgada", en contraste con una expresión equivalente en la que la
dimensión de[L] es (n n n), y la dimensión de[O] (n m), pero con las últimas n - m filas contienen
todos los ceros de modo que las últimas n - m columnas de[L] son arbitrarias.

Si[A] es cuadrada y simétrica, entonces la Ecuación 10.68 se reduce a la Ecuación 10.50,


con[L][R][E], y[O][L]. Por lo tanto, es posible calcular valores propios y vectores propios para
matrices simétricas utilizando un algoritmo SVD de un paquete de rutinas informáticas de álgebra
matricial, que están ampliamente disponibles (por ejemplo, Press et al., 1986). Análogamente a la
Ecuación 10.51 para la descomposición espectral de una matriz cuadrada simétrica, la Ecuación
10.68 puede expresarse como una suma de productos externos ponderados de los vectores
singulares izquierdo y derecho,

Aunque[A] no sea simétrica, existe una conexión entre la SVD y los valores propios y los vectores
propios de ambos[A]T[A] y[A][A]T, ambos productos matriciales son cuadrados (con dimensiones
(m × m) y (n × n), respectivamente) y simétricos. Específicamente, las columnas de[R] son los (m ×
1) vectores propios de[A]T[A], y las columnas de[L] son los (n × 1) vectores propios de[A][A]T. Los
valores singulares respectivos son las raíces cuadradas de los valores propios correspondientes, es
decir, o2i ¼ li.

Ejemplo 10.5. Valores propios y vectores propios de una matriz de covarianza utilizando la SVD

Consideremos la matriz (31 2) (30)-1/2[X0], donde[X0] es la matriz de anomalías (Ecuación 10.29)


para los datos de temperatura mínima en la Tabla A.1. La SVD de esta matriz puede utilizarse para
obtener el valor propio y los vectores propios de la matriz de covarianza de la muestra para estos
datos, sin necesidad de que primero se especifique explícitamente

calculando[S] (si[S] ya se conoce, la SVD también puede ser usada para calcular los valores propios
y los vectores propios, a través de la equivalencia de las Ecuaciones 10.68 y 10.50).

La SVD de (30)-1/2[X0], en la forma de la Ecuación 10.68, es

La razón para multiplicar la matriz de anomalías[X0] por 30-1/2 debería ser evidente a partir de la
Ecuación 10.30: el producto (30-1/2[X0]T) (30-1/2[X0]) (n - 1)-1[X0]T[X0] produce la matriz de
covarianza[S] para estos datos, que es la misma que la matriz[A] en la Ecuación 10.56. Porque la
matriz de vectores singulares derechos [R] contiene los vectores propios para el producto de la
matriz a la izquierda de la Ecuación 10.70, multiplicados a la izquierda por su transposición, la
matriz[R]T en el extremo derecho de la Ecuación 10.70 es la misma que la (transposición de) la
matriz[E] en la Ecuación 10.57. De manera similar, los cuadrados de los valores singulares en la
matriz diagonal[O] en la Ecuación 10.70 son los valores propios correspondientes; por ejemplo,
o21 15.9612 l1 254.7.

Los vectores singulares derechos de (n - 1)1/2[X0][S] son los vectores propios de la matriz de
covarianza (2 2).

S] (n - 1)-1[X0]T[X0]. Los vectores singulares izquierdos en la matriz[L] son vectores propios de la


matriz (n - 1)-1[X0][X0]T. Esta matriz en realidad tiene 31 vectores propios, pero sólo dos de ellos
(los dos mostrados en la Ecuación 10.70) están asociados con valores propios distintos de cero. Es
en este sentido, de truncar los valores propios cero y sus vectores propios irrelevantes asociados
que la Ecuación 10.70 es un ejemplo de una SVD delgada. e

La SVD es una herramienta versátil con una gran variedad de aplicaciones. Uno de ellos es el
análisis de covarianza máxima (MCA), que se describirá en la sección 13.4. A veces la MCA se llama
confusamente análisis SVD, aunque la SVD es simplemente la herramienta computacional utilizada
para calcular una MCA.

10.4. VECTORES Y MATRICES ALEATORIOS

10.4.1. Expectativas y otras extensiones de conceptos univariados

Así como las variables aleatorias ordinarias son cantidades escalares, un vector aleatorio (o matriz
aleatoria) es un vector (o matriz) cuyas entradas son variables aleatorias. El propósito de esta
sección es ampliar los rudimentos del álgebra de matrices presentados en la Sección 10.3 para
incluir ideas estadísticas.

Un vector x cuyos elementos K son las variables aleatorias xk es un vector aleatorio. El valor
esperado de este vector aleatorio es también un vector, llamado media vectorial, cuyos elementos
K son los valores esperados individuales (es decir, promedios ponderados por probabilidad) de las
variables aleatorias correspondientes. Si todos los xk son variables continuas,

Si algunas o todas las variables K en x son discretas, los elementos correspondientes de m serán
sumas en la forma de la Ecuación 4.12.

Las propiedades de las expectativas enumeradas en la Ecuación 4.14 se extienden también a


vectores y matrices en formas que son consistentes con las reglas del álgebra de matrices. Si c es
una constante escalar,[X] e[Y] son matrices aleatorias con las mismas dimensiones (y pueden ser
vectores aleatorios si una de sus dimensiones es 1), y[A] y[B] son matrices constantes (no
aleatorias),

Eðc½X]Þ ¼ c Eð½X]Þ, ð10:72aÞ


La matriz de covarianza (de población), correspondiente a la estimación de la muestra[S] en la
ecuación 10.5, es el valor esperado de la matriz

½S]

Los elementos diagonales de la Ecuación 10.73 son las varianzas escalares (de población), que se
calcularían (para variables continuas) usando la Ecuación 4.20 con g(xk) ( xk - mk)2 o, en forma
equivalente, la Ecuación 4.21. Los elementos fuera de diagonal son las covarianzas, que se
calcularían utilizando las integrales dobles

s ¼ ð1

cada uno de los cuales es análogo a la suma en la Ecuación 10.4 para las covarianzas de la muestra.
Aquí fk,ℓ(xk, xℓ) es el PDF conjunto (bivariable) para xk y xℓ Análogamente a la Ecuación 4.21b
para la varianza escalar, una expresión equivalente para la matriz de covarianza (de población) es

½S] ¼ E.x xTΣ - m mT : ð10:75Þ

10.4.2. Partición de vectores y matrices

En algunos entornos, es natural definir colecciones de variables que se segregan en dos o más
grupos. Ejemplos simples son un conjunto de predictores L junto con un conjunto diferente de
predictores K - L, o dos o más conjuntos de variables, cada una observada simultáneamente en un
gran número de lugares o puntos de cuadrícula. En tales casos, a menudo es conveniente y útil
mantener estas distinciones de forma notacional mediante la partición de los vectores y matrices
correspondientes.

Las particiones están indicadas por líneas finas en la representación expandida de vectores y
matrices. Estos indicadores de particiones son líneas imaginarias, en el sentido de que no tienen
ningún efecto en el álgebra de la matriz aplicada a los vectores o matrices más grandes. Por
ejemplo, considere un vector aleatorio (K 1) x que consiste en un grupo de variables L y otro grupo
de variables K - L,

xT ¼ ½ x1 x2 ·· · xL j xLþ1 xLþ2 ··· xK ], ð10:76aÞ

lo que tendría que haber previsto

E xT ¼ mT ¼ ½ m1 m2 ··· mL j mLþ1 mLþ2 ··· mK ], ð10:76bÞ

exactamente como la Ecuación 10.71, excepto que tanto x como m están divididos (es decir,
compuestos de una concatenación de) un vector (L 1) y un vector (K-L 1).

La matriz de covarianza de x en la Ecuación 10.76 se calcularía exactamente de la misma manera


que en la Ecuación 10.73, con las particiones siendo llevadas adelante: ½S] ¼ E.½x — m]½x — m]T
Σ ð10:77aÞ
La covarianza [S] para un vector de datos x que está dividido en dos segmentos como en la
Ecuación 10.76 está a su vez particionado en cuatro submatrices. La matriz (L × L)[S1,1] es la matriz
de covarianza para las primeras variables L,[x1, x2,.... xL]T, y la matriz (K - L × K - L)[S2,2] es la
matriz de covarianza para las últimas variables K - L,[xLþ1, xLþ2,... ., xK]T. Ambas matrices tienen
variaciones en la diagonal principal y covarianzas entre las variables de su respectivo grupo en las
otras posiciones.

La matriz (K - L L)[S2,1] contiene las covarianzas entre todos los pares de variables posibles, con un
miembro en el segundo grupo y el otro miembro en el primer grupo. Debido a que no es una
matriz de covarianza completa, no contiene variaciones a lo largo de la diagonal principal, incluso
si es cuadrada, y en general no es simétrica. La matriz (L K - L)[S1,2] contiene las mismas
covarianzas entre todos los pares de variables posibles, con un miembro en el primer grupo y el
otro en el segundo grupo. Porque la matriz de covarianza completa[S] es simétrica,[S1,2]T ¼[S2,1].

10.4.3. Combinaciones lineales

Una combinación lineal es esencialmente una suma ponderada de dos o más variables x1, x2, .... .,
xK. Por ejemplo, la regresión lineal múltiple de la ecuación 7.24 es una combinación lineal de los
predictores de regresión K que produce una nueva variable, que en este caso es la predicción de
regresión. Para simplificar, considera que el parámetro b0 ¼ 0 en la Ecuación 7.24. Entonces la
Ecuación 7.24 puede ser expresada en notación matricial como

y ¼ bT x, ð10:78Þ

donde bT[b1, b2, . . ., bK] es el vector de los parámetros que son las ponderaciones en la suma
ponderada.

Generalmente en regresión, los predictores x se consideran constantes fijas en lugar de variables


aleatorias. Pero consideremos ahora el caso donde x es un vector aleatorio con media mx y
covarianza[Sx]. La combinación lineal en la Ecuación 10.78 también será entonces una variable
aleatoria. Extensión de la ecuación 4.14c

para el vector x, con gj (x) ¼ bj xj, la media de y será

XK

donde mk E(xk). La varianza de la combinación lineal es más complicada, tanto notacionalmente


como computacionalmente, e implica las covarianzas entre todos los pares de los años x0s. Para
simplificar, supongamos que K ¼ 2. Entonces,

s2 ¼ Varðb1x1 þ b2x2Þ ¼ En½ðb1x1 þ b2x2Þ- ðb1m þ b2m Þ]2o

Este resultado escalar es bastante engorroso, aunque la combinación lineal es de sólo dos
variables aleatorias, y la extensión general a las combinaciones lineales de variables aleatorias K
implica términos K(K 1)/2. De manera más general, y mucho más compacta, en notación matricial
las ecuaciones 10.79 y 10.80 se convierten en
my ¼ b m ð10:81aÞ

Las cantidades en el lado izquierdo de la Ecuación 10.81 son escalares porque el resultado de la
combinación lineal simple en la Ecuación 10.78 es escalar. Pero considere la posibilidad de formar
simultáneamente L combi- naciones lineales de las variables aleatorias K x,

y1 ¼ b1, 1x1 þ b1, 2x2 þ --- þ b1,

Aquí cada fila de[B]T define una sola combinación lineal como en la Ecuación 10.78, y
colectivamente estas combinaciones lineales L definen el vector aleatorio y. Extendiendo las
Ecuaciones 10.81 al vector medio y a la matriz de covarianza de esta colección de combinaciones
lineales L de x,

mi ¼

Nótese que al usar las ecuaciones 10.83, no es necesario calcular explícitamente las variables
transformadas en la ecuación 10.82 para encontrar su media y covarianza, si se conocen el vector
medio y la matriz covariante de .

Ejemplo 10.6. Vector medio y matriz de covarianza para un par de combinaciones lineales

El Ejemplo 10.5 mostró que la matriz de la Ecuación 10.56 es la matriz de covarianza para los datos
de temperatura mínima de Ítaca y Canandaigua en la Tabla A.1. El vector medio de estos datos es
mT [mIth, mCan] [13.0, 20.2]. Considere ahora dos combinaciones lineales de estos datos de
temperatura mínima en la forma de la Ecuación 10.43, con y 32○. Es decir, cada una de las dos filas
de[T]T define una combinación lineal (Ecuación 10.78), que puede ser expresada conjuntamente
como en la Ecuación 10.82b. Juntas, estas dos combinaciones de línea y oreja equivalen a una
transformación que corresponde a una rotación en sentido contrario a las agujas del reloj de los
ejes de coordenadas a través del ángulo y. Es decir, cada vector y[T]T x ubicaría el mismo punto,
pero en el marco del sistema de coordenadas girado.

Una forma de encontrar la media y la covarianza de los puntos transformados, my y[Sy], sería
llevar a cabo la transformación para todos los pares de n 31 puntos, y luego calcular el vector
medio y la matriz de covarianza para el conjunto de datos transformado. Sin embargo, conociendo
la media y la covarianza de la

subyacente x0 s, es sencillo y mucho más fácil usar la Ecuación 10.83 para obtener

m¼Σ

El ángulo de rotación y32○ es evidentemente especial para estos datos, ya que produce un par de
variables transformadas y que no están correlacionadas. De hecho, esta transformación es
exactamente la misma que en la ecuación 10.59, que se expresó en términos de los vectores
propios de[Sx]. e

Así como la media y la varianza de una combinación lineal pueden expresarse y calcularse sin
calcular realmente las combinaciones lineales, la covarianza de dos combinaciones lineales puede
calcularse de forma similar, utilizando

Cov.½A]T x1, ½B]T x2Σ ½A ½A]T S1, 2 ½B]: ð10:85Þ

Aquí[S1,2] es la matriz de covarianzas entre los vectores x1 y x2, que es el cuadrante superior
derecho de la ecuación 10.77. Si[A]T y[B]T son vectores (y así dimensionados (1 L) y (1 K - L),
respectivamente), la Ecuación 10.85 producirá la covarianza escalar entre el par simple de
combinaciones lineales.

10.4.4. Mahalanobis Distance, Revisitado

La Sección 10.2.2 introdujo la distancia Mahalanobis, o distancia estadística, como una forma de
medir las diferencias o inusualidades dentro del contexto establecido por una dispersión de datos
empíricos o una densidad de probabilidad multivariada subyacente. Si las variables K en el vector
de datos x no están correlacionadas entre sí, la distancia (cuadrada) de Mahalanobis toma la
forma simple de la suma de las anomalías estandarizadas cuadradas zk, como se indica en la
Ecuación 10.7 para las variables K2. Cuando algunas o todas las variables están correlacionadas, la
distancia de Mahalanobis también explica las correlaciones, aunque, como se señaló en la Sección
10.2.2, la notación es prohibitivamente complicada en forma escalar. En notación matricial, la
distancia de Mahalanobis entre los puntos x e y en su espacio K-dimensional es

D2 ¼ ½x - y]T ½S]-1 ½x - y], ð10:86Þ

donde[S] es la matriz de covarianza en cuyo contexto se calcula la distancia.

Si la dispersión definida por[S] implica correlación cero entre las variables K, no es difícil ver que la
Ecuación 10.86 se reduce a la Ecuación 10.7 (en dos dimensiones, con obvia extensión a
dimensiones superiores). En ese caso, [S] es diagonal, y su inverso es también diagonal con los
elementos (sk,k)-1, así que la Ecuación 10.86 se reduciría a D2 Sk (xk - yk)2/sk,k. Esta observación
subraya una propiedad importante de la distancia de Mahalanobis, a saber, que las diferentes
escalas intrínsecas de variabilidad para las variables K en el vector de datos no confunden a D2
porque cada una se divide por su desviación estándar antes de la cuadratura. Si[S] es diagonal, la
distancia de Mahalanobis es la misma que la distancia euclídea después de dividir cada variable
por su desviación estándar.

La segunda propiedad destacada de la distancia Mahalanobis es que explica la redundancia en el


contenido de la información entre variables correlacionadas, en el cálculo de distancias
estadísticas. Una vez más, este concepto es más fácil de ver en dos dimensiones. Dos variables
fuertemente correlacionadas proporcionan casi la misma información y, ignorando fuertes
correlaciones al calcular la distancia estadística (es decir, usando la Ecuación 10.7 cuando la
correlación no es cero), efectivamente cuenta doblemente la contribución de la (casi) redundante
segunda variable. La situación se ilustra en la Figura 10.6, que muestra la situación del punto
estandarizado z ¼ (1, 1) en el contexto de tres nubes de puntos muy diferentes. En la figura 10.6a
se muestra la correlación reflejada por la nube de puntos circular la cual es cero, por lo que
equivale a utilizar la Ecuación 10.7 para calcular la distancia de Mahalanobis al origen (que es
también la media vectorial de la nube de puntos), después de haber considerado posibles
diferentes escalas de variación para las dos variables dividiendo por las respectivas desviaciones
estándar. Esa distancia es 2 2 (correspondiente a una distancia euclídea ordinaria de p2 ¼ 1.414).
La correlación entre las dos variables de la figura 10.6b es de 0,99, de modo que una u otra de las
dos variables proporciona casi la misma información que ambas juntas: z1 y z2

PARTE III Estadísticas multivariadas

(a) = 0.00 (b) = 0.99 (c) = -0.99 D2 = 2 D2 = 0.99 (c)

FIGURA 10.6 El punto zT ¼ (1, 1) (punto grande) en los contextos de dispersión de datos con (a)
correlación cero, (b) correlación 0.99, y (c) correlación - 0.99. Las distancias de Mahalanobis, D2, al
origen son drásticamente diferentes en estos tres casos.

son casi la misma variable. Usando la Ecuación 10.86, la distancia de Mahalanobis al origen es D2
1.005, que es sólo ligeramente mayor que si sólo una de las dos variables casi redundantes
hubiera sido considerada sola y sustancialmente menor que la distancia apropiada para el
contexto de la dispersión en la Figura 10.6a. Finalmente, la Figura 10.6c muestra una situación
muy diferente en la que la correlación es de 0.99. Aquí el punto (1, 1) es extremadamente inusual
en el contexto de la dispersión de datos, y usando la Ecuación 10.86 encontramos que D ¼ 200. Es
decir, está extremadamente lejos del origen relativo a la dispersión de la nube de puntos, y esta
inusualidad se refleja en la gran distancia de Mahalanobis. El punto (1, 1) de la figura 10.6c es un
valor atípico multivariado. Visualmente, está bien alejado del punto de dispersión en dos
dimensiones. Pero en relación con cualquiera de las dos distribuciones univariadas, se trata de un
punto bastante ordinario que está relativamente cerca de (una desviación estándar de) cada
media escalar, de modo que no se destacaría como inusual cuando se aplican métodos estándar
de EDA a las dos variables individualmente. Es un valor atípico en el sentido de que no se
comporta como la dispersión de la nube de puntos negativamente correlacionada, en la que
grandes valores de x1/s1 se asocian con pequeños valores de x2/s2, y viceversa. La gran distancia
de Mahalanobis al centro (media vectorial) de la nube de puntos la identifica como un valor atípico
multivariado.

La ecuación 10.86 es un ejemplo de lo que se llama una forma cuadrática. Es cuadrática en el


vector x-y, en el sentido de que este vector se multiplica por sí mismo, junto con las constantes de
escala en la matriz simétrica[S]-1. En las dimensiones K 2, una forma cuadrática escrita en notación
escalar es de la forma de Equa- tion 10.7 si la matriz simétrica de las constantes de escala es
diagonal, y es de la forma de Equa- tion 10.80 si no lo es. La ecuación 10.86 enfatiza que las formas
cuadráticas pueden ser interpretadas como distancias cuadradas, y como tales es generalmente
deseable que no sean negativas, y además estrictamente positivas si el vector que está siendo
cuadrado no es cero. Esta condición se cumple si la matriz simétrica de las constantes de escala es
positiva definida, de modo que todos sus valores propios son positivos.
Finalmente, se observó en la Sección 10.2.2 que la Ecuación 10.7 describe elipses de distancia
constante D2. Estas elipses, que corresponden a covarianzas de desplazamiento de cero en la
matriz[S] de la ecuación 10.86, tienen sus ejes alineados con los ejes de coordenadas. La ecuación
10.86 también describe elipses de la distancia constante de Mahalanobis D2, cuyos ejes se giran
lejos de las direcciones de los ejes de coordenadas hasta el punto de que algunas o todas las
covarianzas fuera de la diagonal en[S] no son cero. En estos casos los ejes de las elipses de la
constante D2 se alinean en las direcciones de los vectores propios de[S], como se verá en el
apartado 11.1.

10.5. EJERCICIOS

10.1. Calcular el producto de la matriz[A][E], utilizando los valores de las ecuaciones 10.56 y
10.57.

10.2. Derivar la ecuación de regresión producida en el Ejemplo 7.1, usando notación matricial.

10.3. Calcular el ángulo entre los dos vectores propios de la matriz[A] en la Ecuación 10.56.

10.4. Verificar a través de la multiplicación de matrices que tanto la[T] de la Ecuación 10.43
como su transposición son matrices ortogonales.

10.5. Demuestra que la Ecuación 10.63 produce una raíz cuadrada válida.

10.6. Los valores propios y los vectores propios de la matriz de covarianza de Ítaca y
Canandaigua

Las temperaturas máximas en la Tabla A.1 son l1 ¼ 118.8 y l2 ¼ 2.60, y e1 ¼ [ .700, .714]

y e2T [.714, .700], donde el primer elemento de cada vector corresponde a la temperatura de
Ítaca.

a. Encontrar la matriz de covarianza[S], utilizando su descomposición espectral.

b. Encuentra[S]-1 usando sus valores propios y sus vectores propios.

c. Halla[S]-1 usando el resultado de la parte (a), y la Ecuación 10.28.

d. Encuentra un[S]1/2 simétrico.

e. Encuentra la distancia de Mahalanobis entre las observaciones del 1 y 2 de enero.

10.7. a. Utilizar las correlaciones de Pearson de la Tabla 3.5 y las desviaciones estándar de la Tabla
A.1 para describir la matriz de covarianza[S] para las cuatro variables de temperatura de la Tabla
A.1.

b. Considere las temperaturas medias diarias definidas por las dos combinaciones lineales: y1 ¼
0.5 (Ithaca Max) þ 0.5 (Ithaca Min)

y2 ¼ 0,5 (Canandaigua Max) þ 0,5 (Canandaigua Min)


Encuentra my y[Sy] sin calcular realmente los valores individuales de y.

11.1. DEFINICIÓN DEL MVN

La distribución normal multivariada (MVN) es la generalización natural de la distribución gaussiana


o normal (Sección 4.4.2) a datos multivariados o vectoriales. El MVN no es de ninguna manera la
única distribución multivariada paramétrica continua conocida (por ejemplo, Johnson, 1987;
Johnson y Kotz, 1972), pero en su inmensa mayoría es la más comúnmente utilizada. Parte de la
popularidad del MVN se debe a su relación con el Teorema del Límite Central multivariado,
aunque también se utiliza en otros entornos sin una fuerte justificación teórica debido a una serie
de propiedades convenientes que se expondrán en esta sección. Esta conveniencia es a menudo lo
suficientemente convincente como para emprender la transformación de datos multivariados no
gausianos para aproximar la multinormalidad antes de trabajar con ellos, lo que ha sido una fuerte
motivación para el desarrollo de los métodos descritos en la Sección 3.4.1.

El PDF gaussiano univariado (Ecuación 4.23) describe la distribución individual, o marginal, de la


densidad de probabilidad para una variable gaussiana escalar. El MVN describe la distribución
conjunta de la densidad de probidad para las variables K en un vector x. El PDF univariante
gaussiano se visualiza como la curva de campana definida en la línea real (es decir, en un espacio
unidimensional). El MVN PDF se define en el espacio K cuyos ejes de coordenadas corresponden a
los elementos de x, en los que se calcularon distancias multivariadas en las secciones 10.2 y 10.4.4.

La función de densidad de probabilidad para el MVN es

donde m es el vector medio dimensional k y[S] es la matriz de covarianza (K x K) para las variables
K en el vector x. En la dimensión K 1, la Ecuación 11.1 se reduce a la Ecuación 4.23, y para K 2 se
reduce a PDF para la distribución normal bivariada (Ecuación 4.33). La parte clave del PDF MVN es
el argumento de la función exponencial, e independientemente de la dimensión de x, este
argumento es una distancia cuadrada y estandarizada (es decir, la diferencia entre x y su media,
estandarizada por la (co)varianza). En la forma multivariante general de la Ecuación 11.1 esta
distancia es la distancia de Mahalanobis, que es una forma cuadrática positiva-definida cuando[S]
es de rango completo, y no se define de otra manera porque en ese caso[S]-1 no existe. Las
constantes fuera de la exponencial en la Ecuación 11.1 sirven sólo para asegurar que la integral
sobre todo el espacio dimensional k es 1,

la cual es la extensión multivariante de la Ecuación 4.17.

Si cada una de las variables K en x se estandariza por separado de acuerdo con 4.25, el resultado
es la densidad MVN estandarizada,

1 " zT½R]-1z#

donde[R] es la matriz de correlación (Pearson) (por ejemplo, la Figura 3.26) para las variables K. La
Ecuación 11.3 es la generalización multivariante de la Ecuación 4.24. La notación casi universal
para indicar que un vector aleatorio x sigue a una MVN K-dimensional con matriz de covarianza[S]
es

x ~ NKðm, ½S]Þ ð11:4aÞ

o, para variables estandarizadas,

z ~ NKð0, ½R]Þ, ð11:4bÞ

donde 0 es el vector medio de la dimensión K cuyos elementos son todos cero.

Porque la única dependencia de la Ecuación 11.1 del vector aleatorio x es a través del Mahalanobis
dentro del exponencial, los contornos de igual densidad de probabilidad son elipsoides de la
constante D2 de m. Estos contornos elipsoidales centrados en la media encierran las regiones más
pequeñas en el espacio dimensional k, que contienen una porción dada de la masa de
probabilidad, y el vínculo entre el tamaño de estos elipsoides y la probabilidad encerrada es la
distribución w2:

PrfD2 ¼ ðx - mÞT ½S]-1ðx - mÞ ≤ w2 ðaÞg ¼ a: ð11:5Þ

Aquí wK2(a) denota el cuantillo de la distribución w2 con K grados de libertad, asociado con la
probabilidad acumulativa a (Tabla B.3). Es decir, la probabilidad de que una x esté dentro de una
determinada distancia de Mahalanobis D2 de la media es el área a la izquierda de D2 bajo la
distribución w2 con grados de libertad n K. Como se indica al final de la Sección 10.4.4, las
orientaciones de estos elipsoides están dadas por los vectores propios de[S], que son también los
vectores propios de[S]-1. Además, la elongación de los elipsoides en las direcciones de cada uno
de estos vectores propios viene dada por la raíz cuadrada del producto del respectivo valor propio
de[S] multiplicado por el correspondiente cuantillo w2. Para un D2 dado, el (hiper-) volumen
encerrado por uno de estos elipsoides es proporcional a la raíz cuadrada del determinante de[S],

2 K=2

donde G() denota la función gamma (Ecuación 4.7). Aquí el determinante de[S] funciona como una
medida escalar de la magnitud de la matriz, en términos del volumen ocupado por la dispersión de
probabilidad que describe. Por consiguiente, a veces se denomina det[S] la varianza generalizada.
El determinante, y por lo tanto también los volúmenes encerrados por los elipsoides D2
constantes, aumenta a medida que las varianzas K sk,k aumentan; pero también estos volúmenes
disminuyen a medida que las correlaciones entre las variables K aumentan, porque las
correlaciones mayores resultan en que los elipsoides sean menos esféricos y más alargados.

Temperatura mínima de Ítaca, °F

FIGURA 11.1 El 90% de la elipse de probabilidad para la distribución normal bivariada representa
los datos de temperatura mínima en la Tabla A.1, centrada en la media de la muestra vectorial. Sus
ejes mayor y menor están orientados en las direcciones de los vectores propios (grises) de la
matriz de covarianza en la Ecuación 10.56 y estirados en estas direcciones en proporción a las
raíces cuadradas de los respectivos valores propios. La constante de proporcionalidad es la raíz
cuadrada del cuantillo w2 apropiado. Los vectores propios se dibujan 10 veces más grandes que la
longitud de la unidad para mayor claridad.
Ejemplo 11.1 Las elipses de probabilidad para la distribución normal bivariada

Es más fácil visualizar ideas multivariadas en dos dimensiones. Considere que la distribución de
MVN se ajusta a los datos de temperatura mínima de Ítaca y Canandaigua en la Tabla A.1. Aquí K
2, es una distribución normal bivariada con vector medio de la muestra [13.0, 20.2]T y matriz de
covarianza (2 x 2) como se muestra en la Ecuación 10.56. El ejemplo 10.3 muestra que esta matriz
de covarianza tiene valores propios l1 254.76 y l2 8.29, con los correspondientes vectores propios
e1T[0.848, 0.530] y e2T [ 0.530, 0.848].

La Figura 11.1 muestra la elipse de probabilidad del 90% para esta distribución. Todas las elipses
de probabilidad para esta distribución están orientadas 32° a partir de los ejes de datos, como se
muestra en el Ejemplo 10.6. (Este ángulo entre e1 y el vector de la unidad horizontal[1, 0]T
también puede calcularse usando la Ecuación 10.15.) La extensión de esta elipse con un 90% de
probabilidad en las direcciones de sus dos ejes está determinada por el 90% del cuantillo de la
distribución w2 con n K 2 grados de libertad, que es w 2(0.90) 4.605 de la Tabla B.3. Por lo tanto, la
elipse se extiende hasta (w22(0.90)lk)1/2 en las direcciones de cada uno de los dos vectores
propios ek; o las distancias (4.605 254.67)1/2 34.2 en la dirección e1, y (4.605 8.29)1/2 6.2 en la
dirección e2.

El volumen que encierra esta elipse es en realidad un área en dos dimensiones. De la Ecuación
11.6 esta área es V ¼ 2(p 4.605)1 √2103.26/(2-1) ¼ 663.5, ya que det[S] ¼ 2103.26. e

11.2. CUATRO PRÁCTICAS PROPIEDADES DEL MVN

1. Todos los subconjuntos de variables de una distribución MVN son a su vez MVN
distribuidos. Consideremos la partición de un vector aleatorio MVN x (K × 1) en los vectores x1 ¼
(x1, x2, ., ., xL), y x2 ¼ (xLþ1, xLþ2, , xK), como en la Ecuación 10.76a. Entonces, cada uno de estos
dos subvectores sigue a las distribuciones MVN, con x1 NL (m1,[S1,1]) y x2 NK-L (m2,[S2,2]). Aquí
los dos vectores medios componen la partición correspondiente del vector medio original como en
la Ecuación 10.76b, y las matrices de covarianza son las submatrices indicadas en la Ecuación
10.77b y 10.77c. Tenga en cuenta que el orden original de los elementos de x es inmaterial y que
una partición MVN puede construirse a partir de cualquier subconjunto. Si un subconjunto de
MVN x contiene sólo un elemento (por ejemplo, el escalar x1), su distribución es univariante
gaussiana: x1 N1 (m1, s1,1). Es decir, esta primera propiedad práctica implica que todas las
distribuciones marginales para los elementos K de un MVN x son univariantes gausianos. Lo
contrario puede no ser cierto: no es necesariamente el caso que la distribución conjunta de un
conjunto arbitrariamente seleccionado de variables K gaussianas siga a un MVN.

2. Las combinaciones lineales de un MVN x son gaussianas. Si x es un vector aleatorio MVN,


entonces una sola combinación lineal en la forma de la Ecuación 10.78 será univariante gaussiana
con media y varianza dada por las Ecuaciones 10.81a y 10.81b, respectivamente. Este hecho es
consecuencia de la propiedad de que las sumas de las variables gaussianas son en sí mismas
gaussianas, como se ha señalado en relación con el bosquejo del Teorema del Límite Central en la
Sección 4.4.2. De manera similar, el resultado de las transformaciones lineales simultáneas L,
como en la Ecuación 10.82, tendrá una distribución L-dimensional MVN, con vector medio y matriz
de covarianza dada por las Ecuaciones 10.83a y 10.83b, respectivamente, siempre que la matriz de
covarianza[Sy] sea invertible. Esta condición se mantendrá si L K, y si ninguna de las variables
transformadas y' puede expresarse como una combinación lineal exacta de las otras. Además, la
media de una distribución MVN puede desplazarse sin cambiar la matriz de covarianza. Si c es un
vector (K x 1) de constantes entonces

x ~ NKðmx, ½Sx]Þ ) x þ c ~ NKðmx þ c, ½Sx]Þ: ð11:7Þ

3. La independencia implica una correlación nula, y viceversa, para las distribuciones


gaussianas. De nuevo considera la partición de un MVN x como en la Ecuación 10.76a. Si x1 y x2
son independientes entonces las matrices fuera de diagonal de las covarianzas cruzadas en la
Ecuación 10.77 contienen sólo ceros: [S1,2][S2,1]T[0]. Por el contrario, si[S1,2][S2,1]T[0] entonces
el PDF MVN puede ser factorizado como f(x) f(x1)f(x1)f(x2), lo que implica independencia (cf.
Ecuación 2.12), porque el argumento dentro de la exponencial en la Ecuación 11.1 se divide
entonces limpiamente en dos factores.

4. Las distribuciones condicionales de subconjuntos de un MVN x, dados los valores fijos para
otros subconjuntos, también son MVN. Esta es la generalización multivariante de las Ecuaciones
4.37, que se ilustra en el Ejemplo 4.7, expresan esta idea para la distribución normal bivariada.
Consideremos nuevamente la partición x[x1 , x2]T tal como se define en la Ecuación 10.76b y
utilizada para ilustrar las propiedades (1) y (3). La media condicional de un subconjunto de las
variables x1 dados valores particulares para el resto de las variables X2 ¼ x2 es la siguiente

m1jx2 ¼ m1 þ þ ½S12]½S22]-1ðx2 - m2Þ, ð11:8aÞ

y la matriz de covarianza condicional es

½S11jx2]¼ ½S11]- ½S12]½S22]-1½S21], ð11:8bÞ

donde las submatrices de[S] son nuevamente como se definen en la Ecuación 10.77. Al igual que
en el caso de la distribución normal de los bivar-iate, el desplazamiento medio condicional en la
Ecuación 11.8a depende del valor particular de la variable condicionante x2, mientras que la
matriz de covarianza condicional en la Ecuación 11.8b no lo hace. Si x1 y x2 son independientes,
entonces el conocimiento de uno no proporciona información adicional sobre el otro.
Matemáticamente, si[S1,2] ¼[S2,1]T ¼[0] entonces la Ecuación 11.8a se reduce a m1|x2 ¼ m1, y la
Ecuación 11.8b se reduce a[S1|x2] ¼[S1].

Capítulo

11 La distribución normal multivariada (MVN)

Ejemplo 11.2 Distribuciones MVN tridimensionales como pepinos

Imagine un PDF tridimensional de MVN como un pepino, que es un ovoide sólido y tridimensional.
Dado que el pepino tiene un borde distinto, sería más correcto imaginar que representa la parte
de un PDF MVN encerrada dentro de una superficie elipsoidal D2 fija. El pepino sería una metáfora
aún mejor si su densidad aumentara hacia el centro y disminuyera hacia la piel.
La figura 11.2a ilustra la propiedad (1), que es que todos los subconjuntos de una distribución
MVN son a su vez MVN. Aquí hay tres hipotéticos pepinos flotando sobre una tabla de cocina en
diferentes orientaciones e iluminados desde arriba. Sus sombras representan la distribución
conjunta de las dos variables cuyos ejes están alineados con los bordes del tablero.
Independientemente de la orientación del pepino en relación con el tablero (es decir,
independientemente de la estructura de covarianza de la distribución tridimensional), cada una de
estas distribuciones de sombra conjunta bidimensional para x1 y x2 es bivariable normal, con
probabilidad de con- tours dentro de las distancias fijas de Mahalanobis de los medios de los
óvalos en el plano del tablero.

La Figura 11.2b ilustra la propiedad (4), que las distribuciones condicionales de subconjuntos a los
que se les han dado valores particulares para las variables restantes en una distribución MVN son
a su vez MVN. Aquí hay porciones de dos pepinos en la tabla de corte, con el eje largo del pepino
izquierdo (indicado por la dirección de la flecha, o el correspondiente vector propio) orientado
paralelamente al eje x1 de la tabla, y el eje largo del pepino derecho ha sido colocado
diagonalmente a los bordes de la tabla. Las tres variables representadas por el pepino izquierdo
son, por lo tanto, mutuamente independientes, mientras que las dos variables horizontales (x1 y
x2) para el pepino derecho están correlacionadas positivamente. Cada pepino ha sido cortado
perpendicularmente al eje x1 de la tabla de corte, y las caras expuestas representan las
distribuciones condicionales conjuntas de las dos variables restantes (x2 y x3). Ambas caras son
ovaladas, lo que ilustra que ambas distribuciones condicionales resultantes son normales
bivariadas. Porque el pepino

FIGURA 11.2 Distribuciones tridimensionales de MVN como pepinos en una tabla de cocina. (a)
Tres pepinos flotando ligeramente por encima de la tabla de corte e iluminados desde arriba, lo
que ilustra que sus sombras (las distribuciones normales bivariadas que representan los
subconjuntos bidimensionales de las tres variables originales en el plano de la tabla de corte) son
ovales, independientemente de la orientación (estructura de covarianza) del pepino. (b) Dos
pepinos apoyados en la tabla de corte, con las caras expuestas por cortes hechos
perpendicularmente al eje de coordenadas x1; ilustrando la normalidad bivariada en las otras dos
dimensiones (x2, x3), dada la ubicación izquierda-derecha del corte. Las flechas indican las
direcciones de los vectores propios del pepino de eje largo.

PARTE III Estadísticas multivariadas

a la izquierda está orientada paralelamente a los bordes de la tabla de corte (ejes de


coordenadas), representa variables independientes y el óvalo expuesto es un círculo.

Si se hubieran hecho cortes paralelos en otra parte de estos pepinos, las formas de las caras
expuestas habrían sido las mismas, ilustrando (como en la Ecuación 11.8b) que la covarianza
condicional (forma de la cara expuesta del pepino) no depende del valor de la variable
condicionante (ubicación a la izquierda o a la derecha a lo largo del eje x1 en el que se hace el
corte). Por otro lado, los medios condicionales (los centros de las caras expuestas proyectadas en
el plano x2 - x3, Ecuación 11.8a) dependen del valor de la variable condicionante (x1), pero sólo si
las variables están correlacionadas como en el pepino derecho. Haciendo el corte más a la derecha
se desplaza la ubicación del centro de la cara expuesta hacia la parte posterior de la placa (el com-
ponente x2 de la media del vector bivariante condicional es mayor). Por otro lado, debido a que
los ejes del elipsoide izquierdo del pepino están alineados con los ejes de coordenadas, la
ubicación del centro de la cara expuesta en el plano x2 - x3 es la misma independientemente de
dónde se haya realizado el corte en el eje x1. e

11.3. EVALUACIÓN DE LA MULTINORMALIDAD

Se señaló en la Sección 3.4.1 que una fuerte motivación para transformar los datos para
aproximarlos a la normalidad es la capacidad de utilizar el MVN para describir las variaciones
conjuntas de un conjunto de datos multivariados. Normalmente se utilizan las transformaciones
de potencia de Box-Cox (Ecuación 3.19) o la generalización de Yeo y Johnson (2000) a datos
posiblemente no positivos. La estadística de Hinkley (Ecuación 3.20), que refleja el grado de
simetría en una distribución univariada transformada, es la forma más sencilla de decidir entre las
transformaciones de poder. Sin embargo, cuando la meta es específicamente aproximar una
distribución gaussiana, como es el caso cuando esperamos que cada una de las distribuciones
transformadas forme una de las distribuciones marginales de un MVN, probablemente sea mejor
elegir exponentes de transformación que maximicen la función de probabilidad gaussiana
(Ecuación 3.21). También es posible elegir exponentes de transformación simultáneamente para
múltiples elementos de x eligiendo el vector correspondiente de exponentes que maximizan la
función de verosimilitud de MVN (Andrews et al., 1972), aunque este enfoque requiere una
computación sustancialmente mayor que el ajuste de los exponentes individuales de forma
independiente, y en la mayoría de los casos probablemente no vale la pena el esfuerzo adicional.

Otras opciones además de las transformaciones de potencia también son posibles y a veces
pueden ser más apropiadas. Por ejemplo, los datos bimodales y/o estrictamente limitados, tales
como los que podrían estar bien descritos por una distribución beta (ver Sección 4.4.4) con ambos
parámetros por debajo de 1, no se transformarán para aproximarse a la normalidad. Sin embargo,
si tales datos son descritos adecuadamente por un CDF paramétrico F(x), pueden ser
transformados para aproximarse a la normalidad al igualar las probabilidades acumulativas; es
decir,

zi ¼ F-1½FðxiÞ]: ð11:9Þ

Aquí F-1[ ] es la función de cuantiles para la distribución gaussiana estándar, por lo que la Ecuación
11.9 trans- forma un valor de datos xi para el zi gaussiano estándar que tiene la misma
probabilidad acumulativa que el del xi dentro de su CDF.

Los métodos para evaluar la normalidad son necesarios tanto para evaluar la necesidad de
transformaciones como para evaluar la eficacia de las transformaciones de los candidatos. No
existe un enfoque único para la evaluación de la multinormalidad y, en la práctica, solemos
considerar múltiples indicadores, que pueden incluir tanto pruebas formales cuantitativas como
herramientas gráficas cualitativas.
Dado que todas las distribuciones marginales de un MVN son univariantes gaussianas, las pruebas
de bondad de ajuste se calculan a menudo para las distribuciones univariantes correspondientes a
cada uno de los elementos de la x cuya multi-normalidad se está evaluando. Una buena opción
para el propósito específico de probar la distribución gaussiana es la prueba de Filliben para la
correlación de la gráfica Q-Q gaussiana (Tabla 5.3). Distribuciones marginales gaussianas

Capítulo

11 La distribución normal multivariada (MVN)

Las distribuciones marginales gaussianas son una consecuencia necesaria de la multinormalidad


conjunta, pero no son suficientes para garantizarla. En particular, si se observan sólo las
distribuciones marginales no se identificará la presencia de valores atípicos multivariados (por
ejemplo, la Figura 10.6c), que son puntos que no son extremos con respecto a ninguna de las
variables individuales, pero que son inusuales en el contexto de la estructura general de la
covarianza.

Existen dos pruebas para determinar la multinormalidad (es decir, conjuntamente para todas las
dimensiones K de x) con respecto a la asimetría multivariante y la curtosis (Mardia, 1970; Mardia
et al., 1979). Ambos se basan en la función del par de puntos xi y xj dada por

gi, j ¼ ðxi - ¯xÞT ½S]-1ðxj - ¯xÞ, ð11:10Þ

donde[S] es la matriz de covarianza de la muestra. Esta función se utiliza para calcular la medida
de asimetría multivariante

b1:K ¼

que refleja una simetría de alta dimensión y será cercana a cero para los datos de MVN. Esta
estadística de prueba puede ser evaluada usando

nb1, K 2

donde el parámetro de grados de libertad es

6 ~ wv , ð11:12aÞ

y la hipótesis nula de multinormalidad, con respecto a su simetría, se rechaza para valores


suficientemente grandes de b1,K.
La curtosis multivariada (colas apropiadamente pesadas para el MVN en relación con la densidad
de probabilidad cerca del centro de la distribución) puede ser probada usando la estadística

1 Xn

que es equivalente al promedio de (D2)2 porque para esta estadística i j en la Ecuación 11.10. Bajo
la hipótesis nula de la multinormalidad,

b2, K - KðK þ 2Þ 1=2

Los diagramas de dispersión de pares de variables son valiosos indicadores cualitativos de la


multinormalidad, ya que todos los subconjuntos de variables de una distribución MVN también
son conjuntamente normales, y los gráficos bidimensionales son fáciles de trazar y comprender.
Por lo tanto, el examen de una matriz de diagrama de dispersión (véase la Sección 3.6.5) suele ser
una herramienta valiosa para evaluar la multinormalidad. Las nubes de puntos que son elípticas o
circulares son indicativas de multinormalidad. Los valores atípicos alejados de la dispersión
principal en una o más de las parcelas pueden ser valores atípicos multivariados, como en la Figura
10.6c. De manera similar, puede ser valioso observar gráficas de dispersión rotativas de varios
subconjuntos tridimensionales de x.

La ausencia de pruebas de valores atípicos multivariados en todas las posibles gráficas de


dispersión por pares no garantizan que no exista ninguna en combinaciones de dimensiones
superiores. Un enfoque para exponer la posible

PARTE III Estadísticas multivariadas

existencia de valores atípicos multivariados de alta dimensión, así como la detección de otros
posibles problemas, es utilizar la Ecuación 11.5. Esta ecuación implica que si los datos x son MVN,
la distribución (univariante) para D 2, i ¼ 1, ...., n, es w 2. Es decir, la distancia D 2 de Mahalanobis
de la media de la muestra para cada x puede ser

y se puede evaluar la proximidad de esta distribución de los valores D 2 a la distribución w2 con


grados K de libertad. El método de evaluación más sencillo y habitual es inspeccionar visualmente
el gráfico Q-Q. También sería posible derivar valores críticos para probar la hipótesis nula de
multinormalidad según el coeficiente de correlación para este tipo de parcela, utilizando el
método esbozado en la sección 5.2.5.

Debido a que cualquier combinación lineal de variables que sean conjuntamente multinormales
será univariante de Gauss- ian, también puede ser informativo mirar y probar formalmente
combinaciones lineales para la distribución gaussiana. A menudo es útil observar específicamente
las combinaciones lineales dadas por los vectores propios de[S],

yi ¼ ek xi: ð11:15Þ

Resulta que las combinaciones lineales definidas por los elementos de los vectores propios
asociados con los valores propios más pequeños pueden ser particularmente útiles para identificar
valores atípicos multivariados, ya sea mediante la inspección de las gráficas Q-Q o mediante
pruebas formales de las correlaciones Q-Q. (La razón detrás de las combinaciones lineales
asociadas con los valores propios más pequeños que son especialmente poderosos en la
exposición de los valores atípicos se relaciona con el análisis de los componentes principales, como
se explica en la Sección 12.1.5). La inspección de los diagramas de dispersión por pares de
combinaciones lineales en los espacios bidimensionales rotados definidos por los vectores propios
de[S] también puede ser reveladora.

Ejemplo 11.3 Evaluación de la normalidad bivariada para los datos de temperatura de


Canandaigua

¿Son los datos de temperatura máxima y mínima de Canandaigua de enero de 1987 en la Tabla A.1
consistentes con la propuesta de que fueron extraídos de una distribución normal bivariada? En la
Figura 11.3 se presentan cuatro gráficos que indican que este supuesto no es irrazonable,
teniendo en cuenta que

un tamaño de muestra bastante pequeño. Las figuras 11.3a y 11.3b son diagramas de Q-Q
gaussianos para las temperaturas máxima y mínima,

respectivamente. Las temperaturas se grafican como funciones de las variables gaussianas


estándar con la misma probabilidad acumulativa, que se ha estimado utilizando una posición
media de graficación (Tabla 3.2). Ambas parcelas son casi lineales, lo que apoya la idea de que
cada uno de los dos lotes de datos se extrajo de una distribución univariante gaussiana. Algo más
cuantitativamente, las correlaciones de los puntos en estos dos paneles son 0,984 para las
temperaturas máximas y 0,978 para las mínimas. Si estos datos fueran independientes en serie,
podríamos referirnos a la Tabla 5.3 y encontrar que ambos son mayores que 0.970, que es el valor
crítico del 10% para n 30. Dado que estos datos están correlacionados en serie, las correlaciones
Q-Q proporcionan evidencia aún más débil contra las hipótesis nulas de que estas dos
distribuciones marginales son gaussianas.

La figura 11.3c muestra la gráfica de dispersión para las dos variables conjuntamente. La
distribución de los puntos parece ser razonablemente elíptica, con mayor densidad cerca de la
media de la muestra, [31.77, 20.23]T, y menor densidad en los extremos. Esta evaluación se apoya
en la figura 11.3d, que es el diagrama Q-Q de las distancias de Maha- lanobis de cada uno de los
puntos con respecto a la media de la muestra. Si los datos son bivariables normales, la distribución
de estos valores D2i será w2, con dos grados de libertad, que es una distribución exponencial
(Ecuaciones 4.46 y 4.47), con b2. Los valores de su función cuantitativa en el eje horizontal de la
figura 11.3d se han calculado utilizando la ecuación 4.83. Los puntos en este gráfico Q-Q también
son razonablemente rectos, con el mayor valor atípico bivariado (D2 7.23) obtenido el 25 de
enero. Este es el punto más a la izquierda de la figura 11.3c, correspondiente a la temperatura
máxima más fría. El segundo D2 más grande de 6.00 resulta de los datos del 15 de enero, que es el
día más cálido en los datos de temperatura máxima y mínima.

Capítulo
11 La distribución normal multivariada (MVN)

a) b)

Max. Temperatura, °F F1 (p)

FIGURA 11.3 Evaluaciones gráficas de la normalidad bivariante para los datos de temperatura
máxima y mínima de Canandaigua.

(a) Gráfica de Q-Q de Gauss para las temperaturas máximas, (b) Gráfica de Q-Q de Gauss para las
temperaturas mínimas, (c) Gráfica de dispersión para los datos de temperatura bivariados, y (d)
Gráfica de Q-Q para las distancias de Mahalanobis relativas a la distribución w2.

La correlación de los puntos de la Figura 11.3d es de 0.989, pero sería inapropiado utilizar la Tabla
5.3 para juzgar su inusualidad en relación con la hipótesis nula de que los datos fueron extraídos
de una distribución normal bivariada, por dos razones. Primero, la Tabla 5.3 fue derivada para las
correlaciones de la gráfica Q-Q de Gauss, y la distribución nula (bajo la hipótesis de los datos MVN)
para la distancia de Mahalanobis es w2. Además, estos datos no son independientes. Sin embargo,
sería posible derivar valores críticos análogos a los de la Tabla 5.3 generando sintéticamente un
gran número de muestras a partir de una distribución normal bivariada con correlaciones
temporales (bivariadas) que simulan las de las temperaturas de Canandaigua, calculando el gráfico
D2 Q-Q para cada una de estas muestras y tabulando la distribución de las correlaciones
resultantes. Los métodos apropiados para construir tales simulaciones se describen en la siguiente
sección. e

11.4. SIMULACIÓN A PARTIR DE LA DISTRIBUCIÓN NORMAL MULTIVARIADA

11.4.1. Simulación de Variables MVN Independientes

La simulación estadística de las variantes MVN se realiza a través de una extensión de las ideas
univariadas presentadas en la Sección 4.7. La generación de valores MVN sintéticos aprovecha la
propiedad (2) de la sección 11.2, según la cual las combinaciones lineales de valores MVN son en sí
mismas MVN. En particular, las realizaciones

PARTE III Estadísticas multivariadas


de vectores MVN K-dimensionales x ~ NK ( m,[S] )se generan como combinaciones lineales de
vectores MVN estándar K-dimensionales z NK ( 0,[I]), cada uno de cuyos elementos K es
univariante gaussiano estándar independiente. Estas realizaciones MVN estándar se generan a su
vez sobre la base de variantes uniformes (véase el apartado 4.7.1) transformadas según un
algoritmo como el descrito en el apartado 4.7.4.

Específicamente, las combinaciones lineales utilizadas para generar MVN varían con un vector
medio y una matriz de covarianza dados están dadas por las filas de una matriz de raíz cuadrada
(véase el apartado 10.3.4) para[S], con el elemento apropiado del vector medio añadido:

xi ¼ ½S]1=2zi þ m: ð11:16Þ

Como una combinación lineal de los valores estándar gaussianos K en el vector z, los vectores
generados x tendrán una distribución MVN. Es fácil ver que también tendrán el vector medio y la
matriz de covarianza correctos:

porque E(z) ¼ 0, y

Diferentes opciones para la matriz no única[S]1/2 producirán diferentes vectores x simulados para
una entrada z dada, pero la Ecuación 11.17 muestra que, colectivamente, el x NK resultante (m,[S])
es tan largo como[S]1/ 2 ([S]1/2)T[S].

Es interesante notar que la transformación en la Ecuación 11.16 puede ser invertida para producir
vectores MVN estándar z NK (0,[I]) correspondientes a vectores MVN x de distribuciones
conocidas. Usualmente, esta manipulación se realiza para transformar una muestra de vectores x
al estándar MVN de acuerdo a su media estimada y covarianza de x, análogamente a la anomalía
estandarizada (Ecuación 3.23),

zi ¼ ½S]-1=2ðxi - ¯xÞ ¼ ½S]-1=2x0 : ð11:18Þ

Esta relación se llama la transformación de Mahalanobis. Es distinto de la transformación de escala


(Ecuación 10.34), que produce un vector de variantes gaussianas estándar que no tiene una
estructura de relación de transmisión modificada. Es sencillo mostrar que la Ecuación 11.18
produce valores zk no correlacionados, cada uno con varianza unitaria:

11.4.2. Simulación de series cronológicas multivariadas

Los procesos autorregresivos para series temporales escalares descritos en las Secciones 9.3.1 y
9.3.2 pueden generalizarse a series temporales multivariadas estacionarias o vectoriales. En este
caso, la variable x es una cantidad vectorial observada a intervalos de tiempo discretos y
regularmente espaciados. La generalización multivariada del proceso AR(p) en la Ecuación 9.23 es

Aquí los elementos del vector x consisten en un conjunto de series temporales correlacionadas
con K, m contiene el vector medio correspondiente, y los elementos del vector " son variables
aleatorias mutuamente independientes (y generalmente gaussianas) con una varianza media y
unitaria nula. Las matrices de los parámetros autorregresivos[Fi] corresponden a los parámetros
autorregresivos escalares fk de la ecuación 9.23. La matriz[B], que opera sobre el vector "tþ1,
permite que los componentes aleatorios de la ecuación 11.20 tengan diferentes varianzas y se
correlacionen mutuamente en cada paso temporal (aunque no estén correlacionados en el
tiempo). Nótese que el orden, p, de la autorregresión fue denotado como K en el Capítulo 9 y no
indica la dimensión de un vector allí. También se pueden definir modelos medios multivariantes
autorregresivos en movimiento, extendiendo los modelos escalares de la Sección 9.3.6 a los datos
vectoriales.

El caso especial más común de la Ecuación 11.20 es el proceso AR(1) multivariado,

xtþ1 - m ¼ ½F]ðxt - mÞ þ ½B]"tþ1, ð11:21Þ

que se obtiene de la Ecuación 11.20 para la orden autorregresiva p 1. Es la generalización


multivariante de la Ecuación 9.16 y describirá un proceso estacionario si todos los valores propios
de[F] están entre 1 y 1. Matalas (1967) y Bras y Rodr´ıguez-Iturbe (1985) describen el uso de la
Ecuación 11.21 en hidrología, donde los elementos de x son típicamente medidos
simultáneamente (posiblemente transformados) en diferentes lugares. Esta ecuación también se
utiliza a menudo como parte de una formulación común de generador sintético de tiempo
(Richardson, 1981). En esta segunda aplicación x suele tener tres elementos, correspondientes a la
temperatura máxima diaria, la temperatura mínima y la radiación solar en un lugar determinado.

Las dos matrices de parámetros de la Ecuación 11.21 se estiman más fácilmente usando las
covarianzas simultáneas y retardadas entre los elementos de x. Las covarianzas simultáneas están
contenidas en la matriz de covarianzas usual[S], y las covarianzas retardadas están contenidas en
la matriz

1 Xn-1 0 0T

Esta ecuación es similar a la Ecuación 10.35 para[S], excepto que los pares de vectores cuyos
productos externos se suman son datos (anomalías) en pares de puntos temporales sucesivos. Los
elementos diagonales de[S1] son las autocovarianzas lag-1 (las autocorrelaciones retardadas en la
Ecuación 3.32 multiplicadas por las respectivas varianzas, como en la Ecuación 3.35) para cada uno
de los elementos K de x. Los elementos fuera de la diagonal de[S1] son las covarianzas retardadas
entre los elementos contrarios de x. La anotación en flecha en esta ecuación indica la secuencia de
tiempo del retardado de las variables. Por ejemplo, s1(1!2) denota la correlación entre x1 en el
tiempo t, y x2 en el tiempo t þ 1, y s1 (2!1) denota la correlación entre x2 en el tiempo t, y x1 en el
tiempo t 1. Observe que la matriz[S] es simétrica, pero que en general[S1] no lo es.

La matriz de parámetros autorregresivos[F] en la Ecuación 11.21 se obtiene a partir de las matrices


de covarianza retardada y no retardada usando

½S] ¼ ½S1]¼]-1:

La obtención de la matriz[B] requiere encontrar una raíz cuadrada de la matriz (Sección 10.3.4) de

½B]½B] ¼ ½S] - ½F]½S1] : ð11:24Þ

Habiendo definido un modelo autorregresivo multivariado, es sencillo simular a partir de él


usando la ecuación definitoria (por ejemplo, la ecuación 11.21), junto con un generador de
números aleatorios apropiado para proporcionar series temporales de realizaciones para el vector
de fuerza aleatoria ". Por lo general, se considera que son gausianos estándar, en cuyo caso
pueden generarse utilizando el algoritmo descrito en la Sección 4.7.4. En cualquier caso, los
elementos K de " tendrán una media cero y una varianza unitaria, no estarán correlacionados
entre sí en un momento dado t, y no estarán correlacionados con otros vectores de fuerza en
diferentes momentos t þ i:

E½"t] ¼ 0 ð11:25aÞ

Si los " vectores contienen realizaciones de variantes gaussianas independientes, entonces los x
vectores resultantes tendrán una distribución MVN porque son combinaciones lineales de
vectores MVN (estándar) ". Si los datos originales que las series simuladas deben emular son
claramente no gausianos, pueden transformarse antes de ajustar el modelo de series temporales.

Ejemplo 11.4 Montaje y simulación a partir de una autorregresión bivariada

En el Ejemplo 11.3 se examinaron los datos de temperatura máxima y mínima de Canandaigua en


la Tabla A.1 y se concluyó que la distribución de MVN es un modelo razonable para sus variaciones
conjuntas. La autorregresión de primer orden (Ecuación 11.21) es un modelo razonable para su
dependencia temporal, y el ajuste de las matrices de parámetros[F] y[B] permitirá la simulación de
series bivariadas sintéticas que se asemejen estadísticamente a estos datos. Este proceso puede
ser considerado como una extensión del Ejemplo 9.3, que ilustra el modelo univariante AR(1) para
las series temporales de las temperaturas mínimas de Canandaigua solamente.

Las estadísticas de muestra necesarias para ajustar la Ecuación 11.21 se calculan fácilmente a
partir de los datos de temperatura de Canandaigua en la Tabla A.1 como

La matriz de covarianzas simultáneas es la matriz de covarianzas ordinarias[S], que por supuesto


es simétrica. La matriz de covarianzas retardadas (Ecuación 11.26c) no es simétrica. Usando la
Ecuación 11.23, la matriz estimada de parámetros autorregresivos es.

La matriz[B] puede ser cualquier cosa satisfactoria (cf. Ecuación 11.24)

½B]½B]T ¼ Σ 61:85 56:12 Σ - Σ :241 :399 ΣΣ 37:32 42:11 Σ ¼ Σ 35:10 25:49 Σ, ð11:28Þ

con una solución dada por la factorización de Cholesky (Ecuaciones 10.61 y 10.62),

B 5:92 0

Utilizando los valores estimados en las ecuaciones 11.27 y 11.29, y sustituyendo la media de la
muestra de la ecuación 11.26a por el vector medio, la ecuación 11.21 se convierte en un algoritmo
para simular series de xt bivariados con las mismas estadísticas del primer y segundo momento
(de la muestra) que las temperaturas de Canandaigua en la Tabla A.1. El algoritmo Box-Muller (ver
Sección 4.7.4) es especialmente conveniente para generar los vectores "t en este caso porque los
produce en pares. La figura 11.4a muestra una realización de 100 puntos de una serie temporal
bivariada generada de esta manera. Aquí las líneas verticales conectan las temperaturas máximas
y mínimas simuladas para un día dado, y las líneas horizontales de luz ubican los dos valores
medios (Ecuación 11.26a). Estas dos series de tiempo se asemejan estadísticamente a los datos de
temperatura de Canandaigua de enero de 1987 en la medida en que la Ecuación 11.21 es capaz de
hacerlo. Son poco realistas en el sentido de que las estadísticas de población no cambian a lo largo
de los 100 días simulados, ya que el modelo generador subyacente es la covarianza estacionaria.
Es decir, las medias, las varianzas y las covarianzas son constantes a lo largo de los 100 puntos
temporales, mientras que en la naturaleza estas estadísticas cambiarían en el curso de un invierno.
Además, la serie temporal es potencialmente irrealista en el sentido de que es posible (aunque
raro) simular estadísticamente temperaturas máximas que son más frías que la temperatura
mínima simulada para el día. Recalcular la simulación, pero partiendo de una semilla de número
aleatorio diferente, produciría una serie diferente, pero con las mismas características estadísticas.

FIGURA 11.4 (a) Una realización de 100 puntos desde el proceso bivariable AR(1) ajustado a las
temperaturas máximas y mínimas diarias de Canandaigua de enero de 1987. Las líneas verticales
conectan el máximo y el mínimo simulado para cada día, y las líneas horizontales ligeras localizan
los dos medios. b) Diagrama de dispersión de los 100 puntos bivariables. Los segmentos de línea
gris claro conectan los primeros 10 pares de valores.

PARTE III Estadísticas multivariadas

La figura 11.4b muestra una gráfica de dispersión para los pares de 100 puntos, correspondiente a
la gráfica de dispersión de los datos reales en el panel inferior derecho de la figura 3.27. Dado que
los puntos se generaron al forzar la Equa-ción 11.21 con variantes gaussianas sintéticas para los
elementos de ", la distribución resultante para x es bivariable normal por construcción. Sin
embargo, los puntos no son independientes y muestran una correlación temporal similar a la
encontrada en la serie de datos original. El resultado es que los puntos sucesivos no aparecen al
azar dentro de la gráfica de dispersión, sino que tienden a agruparse. La línea gris claro ilustra esta
dependencia temporal trazando una trayectoria desde el primer punto (marcado con un círculo)
hasta el décimo punto (indicado por la punta de la flecha).

Dado que las estadísticas subyacentes a la Figura 11.4a permanecieron constantes a lo largo de la
simulación, se trata de la realización de una serie temporal estacionaria, en este caso un enero
perpetuo. Las simulaciones de este tipo pueden hacerse más realistas permitiendo que los
parámetros, basados en las estadísticas de la Ecuación 11.26, varíen periódicamente a lo largo de
un ciclo anual. El resultado sería una autorregresión ciclostacionaria cuyas estadísticas son
diferentes para diferentes fechas, pero la misma en la misma fecha en diferentes años.

Las autoregresiones ciclostacionales se describen en Richardson (1981), von Storch y Zwiers


(1999), y Wilks y Wilby (1999), entre otros.

11.5. INFERENCIAS SOBRE UN VECTOR MEDIO MULTINORMAL


En esta sección se describen las pruebas de hipótesis multivariadas paramétricas relativas a los
vectores medios, basadas en la distribución MVN. Hay muchos casos en los que los enfoques
multivariantes no paramétricos son más apropiados. Algunas de estas pruebas no paramétricas
multivariadas han sido descritas, como extensiones de sus contrapartes univariadas, en las
Secciones 5.3 y 5.4. Las pruebas paramétricas descritas en esta sección requieren la invertibilidad
de la matriz de covarianza de la muestra de x,[Sx] y por lo tanto serán inviables si n ≤ K. En ese
caso se indicarán pruebas no paramétricas. Incluso si[Sx] es invertible, la prueba paramétrica
resultante puede tener una potencia decepcionante a menos que n >> K; esta limitación puede ser
otra razón para elegir una alternativa no paramétrica.

11.5.1. Teorema del límite central multivariado

El Teorema del Límite Central para datos univariados se describió brevemente en la Sección 4.4.2 y
de nuevo más cuantitativamente en la Sección 5.2.1. Establece que la distribución de muestreo del
promedio de un número suficientemente grande de variables aleatorias será gaussiana y que si las
variables promediadas son mutuamente independientes, la varianza de esa distribución de
muestreo será menor que la varianza de las variables originales por el factor 1/n. La generalización
multivariante del Teorema del Límite Central establece que la distribución del muestreo de la
media de n vectores aleatorios independientes (K x 1) x con la media mx y la matriz de
covarianza[Sx] será MVN con la misma matriz de covarianza, nuevamente escalada por el factor
1/n. Eso es,

¯x ~ N

o, de forma equivalente

Kxnx

pnð¯x - mxÞ ~ NKð0, ½Sx]Þ: ð11:30bÞ

Si los vectores aleatorios x que se están promediando son en sí mismos MVN, entonces las
distribuciones indicadas en las ecuaciones 11.30 son exactas porque entonces el vector medio de
la muestra es una combinación lineal de los vectores MVN

x. De lo contrario, la multinormalidad de la media de la muestra es aproximada, y esa


aproximación mejora a medida que aumenta el tamaño de la muestra n.

La multidimensionalidad para la distribución del muestreo del vector medio de la muestra implica
que la distribución del muestreo para la distancia de Mahalanobis entre la muestra y la población
media será w2. Es decir, asumiendo que[Sx] es conocido, la Ecuación 11.5 implica que

Por lo general, las inferencias sobre las medias deben hacerse sin conocer la varianza de la
población, y esto es cierto tanto en entornos univariados como multivariados. Sustituyendo la
matriz de covarianza estimada por la Ecuación 11.31 se obtiene la estadística de una muestra de
Hotelling T2,

T2 ¼ ð¯x - m ÞT .1

Aquí m0 indica la media de la población desconocida acerca de qué inferencias se harán. La


ecuación 11.32 es la generalización multivariada de (el cuadrado de) la estadística univariada t de
una muestra que se obtiene combinando las ecuaciones 5.3 y 5.4. La t univariada se recupera de la
raíz cuadrada de la Ecuación 11.32 para datos escalares (es decir, K ¼ 1). Tanto t como T2 expresan
diferencias entre la media de la muestra que se está probando y su valor verdadero hipotético
bajo H0, "dividido por" una caracterización apropiada de la dispersión de la distribución nula. T2 es
una cantidad cuadrática (y por lo tanto no negativa) porque el orden inequívoco de magnitudes
univariadas en la línea real que se expresa mediante la estadística t univariada no se generaliza a
dimensiones superiores. Es decir, el orden de magnitud escalar es inequívoco (por ejemplo, es
claro que 5 > 3), mientras que el orden de los vectores no lo es (por ejemplo, es[3, 5]T mayor o
menor que [ 5, 3]T?).

La T2 de una muestra es simplemente la distancia de Mahalanobis entre los vectores x y m0,


dentro del contexto establecido por la matriz de covarianza estimada para la distribución del
muestreo del vector medio, (1/n)[Sx]. Dado que x¯ está sujeto a variaciones de muestreo, es
posible un continuo de valores T2, y las probabilidades de estos resultados se describen en un
PDF. Bajo la hipótesis nula H0: E(x) m0, una versión adecuadamente escalada de T2 sigue lo que se
conoce como la distribución F,

ðn - KÞ T2 F

La distribución F es una distribución de dos parámetros cuyos cuantiles se tabulan en la mayoría


de los libros de texto de estadística inicial. Ambos parámetros son referidos como parámetros de
grados de libertad, y en el contexto de la Ecuación 11.33 son n1 ¼ K y n2 ¼ n - K, como lo indican
los subíndices de la Ecuación 11.33. Por consiguiente, una hipótesis nula de que E(x) ¼ m0 sería
rechazada en el nivel a si

T2 > ðn — 1ÞK F

donde FK,n-K(1 - a) es el 1 - un cuantillo de la distribución F con K y n - K grados de libertad.

PARTE III Estadísticas multivariadas

Una forma de ver la distribución F es como la generalización multivariante de la distribución t, que


es la distribución nula para la estadística t en la Ecuación 5.3. La distribución muestral de la Equa-
tión 5.3 es t en lugar de univariante estándar gaussiano, y la distribución de la T2 es F en lugar de
w2 (como podría esperarse de la Ecuación 11.31), porque los correspondientes valores de
dispersión (s2 y[S], respectivamente) son estimaciones muestrales en lugar de valores de
población conocidos. Así como la distribución univariante t converge hacia el estándar univariante
gaussiano a medida que aumenta su parámetro de grados de libertad (y la varianza s2 se estima
cada vez con mayor precisión), la distribución F se aproxima a la proporcionalidad de w2 con n1 K
grados de libertad a medida que el tamaño de la muestra (y por lo tanto también n2) se hace
grande porque[S] se estima con mayor precisión:

w2 ð1 - aÞ ¼ KFK, 1ð1 - aÞ: ð11:35Þ

Es decir, el (1 - a) cuantillo de la distribución w2 con K grados de libertad es exactamente un factor


de K mayor que el (1 - a) cuantillo de la distribución F con n1 K y n2 grados de libertad. Puesto que
(n - 1) (n - K) para n suficientemente grande, las contrapartes de muestra grande de las ecuaciones
11.33 y 11.34 son

T2 ~ w2

si la hipótesis nula es cierta, lo que lleva al rechazo en el nivel a si

Las diferencias entre los cuantiles w2 y F (a escala) son de aproximadamente 5% para n - K 100, de
modo que esta es una regla empírica válida para la idoneidad de las ecuaciones 11.36 como
aproximaciones de muestra grande a las ecuaciones 11.33 y 11.34.

La estadística de la prueba t de dos muestras (Ecuación 5.5) también se extiende de manera


directa a las inferencias con respecto a la diferencia de dos vectores medios de la muestra
independientes:

T2 ¼¯x1 - ¯x2Þ- d0]T ½SDx¯¯]-1½ð¯x1 - ¯x2Þ- d0], ð11:37Þ

dónde

d0 ¼ E½¯x1 - ¯x2] ð11:38Þ

es la diferencia de los dos vectores medios de la muestra bajo H0, correspondiente al segundo
término en el numerador de la ecuación 5.5. Si, como ocurre a menudo, la hipótesis nula es que
las dos medias subyacentes son iguales, entonces d0 0 (correspondiente a la Ecuación 5.6). El
Hotelling T2 de dos muestras de la ecuación 11.37 es una distancia de Mahalanobis entre la
diferencia de los vectores medios de dos muestras que se están probando y los

diferencia correspondiente de sus valores esperados bajo la hipótesis nula. Si la hipótesis nula es

d0 0, la Ecuación 11.37 se reduce a una distancia de Mahalanobis entre los dos vectores medios de
la muestra.

La matriz de covarianza para la distribución de muestreo (MVN) de la diferencia de las dos ve-villas
medias.

se estima de manera diferente, dependiendo de si las matrices de covarianza para las dos
muestras,[S1] y[S2], pueden ser asumidas de manera plausible como iguales. Si es así, esta matriz
se estima utilizando una estimación combinada de esa covarianza común,

½S ] ¼ . 1 þ 1 ΣΣS

dónde

ΣS Σ ¼ n1 - 1 ½S ] ] þ n2 - 1 ½S ] ð11:39bÞ

es un promedio ponderado de las dos matrices de covarianza de la muestra para los datos
subyacentes. Si no es posible suponer que estas dos matrices son iguales, y si además los tamaños
de la muestra son relativamente grandes, entonces la matriz de dispersión para la distribución del
muestreo de la diferencia de los vectores medios de la muestra puede estimarse como

a la Ecuación 11.39 para n1 n2.


Si los tamaños de la muestra no son grandes, la hipótesis de dos muestras nulas se rechaza en el
nivel a si

T2 > ðn1 þ n2 - 2ÞK F

Es decir, los valores críticos son proporcionales a los cuantiles de la distribución F con n1 K y n2 n1
n2 n2 - K -1 grados de libertad. Para n2 suficientemente grande (>100, quizás), se puede usar la
Ecuación 11.36b, como antes.

Por último, si n1 n2 y las observaciones correspondientes de x1 y x2 están vinculadas físicamente -


y correlacionadas en consecuencia-, es conveniente tener en cuenta las correlaciones entre los
pares de observaciones calculando una prueba de una muestra que abarque sus diferencias.
Definiendo Di como la diferencia entre las observaciones número i de los vectores x1 y x2,
análogamente a la Ecuación 5.10, la estadística de la prueba de Hotelling T2 de una muestra,
correspondiente a la Ecuación 5.11 y de exactamente la misma forma que la Ecuación 11.32, es la
siguiente

Aquí n ¼ n1 ¼ n2 es el tamaño de la muestra común, y[SD] es la matriz de covarianza de la


muestra para los vec- tores de las diferencias Di. La inusualidad de la Ecuación 11.42 en el
contexto de la hipótesis nula de que la verdadera diferencia de medias es mD se evalúa usando la
distribución F (Ecuación 11.34) para muestras relativamente pequeñas, y la distribución w2
(Ecuación 11.36b) para muestras grandes.

Ejemplo 11.5 Pruebas T2 de dos muestras y de una muestra emparejadas

La Tabla 11.1 muestra los promedios de enero de las temperaturas máximas y mínimas diarias en
la ciudad de Nueva York y Boston para los 30 años de 1971 al 2000. Debido a que estos son valores
anuales, sus correlaciones en serie son bastante pequeñas. Como promedio de 31 valores diarios
cada uno, se espera que las distribuciones univariadas de estos valores mensuales se aproximen
mucho al gaussiano. La figura 11.5 muestra gráficas de dispersión de los valores en cada ubicación.

Las dispersiones elipsoidales de las dos nubes de puntos sugieren una normalidad bivariada para
ambos pares de temperaturas máxima y mínima. Los dos diagramas de dispersión se superponen
un poco, pero la separación visual es lo suficientemente distinta como para sospechar
fuertemente que sus distribuciones generadoras son diferentes.

Las medias de los dos vectores y su vector de diferencia son

x¯N

TABLA 11.1 Temperaturas máximas y mínimas promedio de enero para la ciudad de Nueva York y
Boston, 1971-2000, y las diferencias anuales correspondientes.

Como cabía esperar de su menor latitud, las temperaturas medias en Nueva York son más cálidas.
La matriz de covarianza de la muestra para las cuatro variables conjuntamente es la siguiente

ð11:44Þ
Dado que los dos lugares están relativamente cerca uno del otro y que los datos se tomaron en los
mismos años, es apropiado tratarlos como valores emparejados. Esta afirmación se apoya en las
grandes covarianzas cruzadas en las submatrices[SB-N][SN-B]T, correspondientes a correlaciones
que van de 0,89 a 0,94: es evidente que los datos de las dos ubicaciones no son independientes
entre sí. Sin embargo, es instructivo realizar primero cálculos T2 para diferencias de vectores
medios como una prueba de dos muestras, ignorando por el momento estas grandes covarianzas
cruzadas.

Con respecto a las temperaturas de Boston y Nueva York como mutuamente independientes, la
estadística de prueba apropiada sería la Ecuación 11.37. Si la hipótesis nula es que las medias
vectoriales subyacentes de las dos distribuciones de las que se extrajeron estos datos son iguales,
d0 ¼ 0. Tanto las impresiones visuales de las dos dispersiones de datos de la figura 11.5 como la
similitud de las matrices de covarianza[SN] y[SB] en

La ecuación 11.44 sugiere que asumir la igualdad de las matrices de covarianza sería razonable. La
covarianza apropiada para la distribución del muestreo de la diferencia de medias se calcularía
usando la Ecuación 11.39, aunque debido a que los tamaños de la muestra son iguales, el mismo
resultado numérico se obtiene con la Ecuación 11.40:

½S ] ¼ . 1 þ 1 Σ. 29 ½

El estadístico de la prueba (Ecuación 11.37) puede ahora calcularse como

Σ 1:248 1:238 Σ-1Σ 2:18 1Σ

El cuantillo 1 - a.9999 de la distribución F con n1 2 y n2 57 grados de libertad es 10.9, por lo que la


hipótesis nula es rechazada en el nivel a.0001 porque [(30 30 - 2)(2)/(30 30- 2 - 1)]10.9 22.2 << T2
32.34 (cf. Ecuación 11.41). El valor p real es inferior a 0,0001, pero los cuantiles de distribución F
más extremos no se tabulan comúnmente. Usando la distribución w2 sólo proporcionará una
aproximación moderadamente cercana (Ecuación 11.35) porque n2 57, pero la probabilidad
acumulada correspondiente a w22 32.34 puede ser calculada usando la Ecuación 4.47 (porque
w22 es la distribución exponencial con b 2) para ser 0.9999999991, correspondiente a
0.0000000001.

(Ecuación 11.36b).

Aunque la prueba T2 de dos muestras proporciona un rechazo definitivo de la hipótesis nula,


infravalora la significación estadística, ya que no tiene en cuenta las covarianzas positivas entre las
temperaturas de Nueva York y Boston que son evidentes en las submatrices[SN-B] y[SB-N] en la
ecuación 11.44. En efecto, la estimación en la Ecuación 11.45 ha asumido[SN-B][SB-N][0]. Una
manera de tener en cuenta estas correlaciones es calcular las diferencias entre las temperaturas
máximas como la combinación lineal b1T[1, 0, -1, 0]; calcular las diferencias entre las
temperaturas mínimas como la combinación lineal b2T[0, 1, 0, -1]; y luego usar estos dos vectores
como las filas de la matriz de transformación[B]T en la ecuación 10.83b para calcular la
covarianza[SD] de las diferencias de los vectores n 30, a partir de la matriz de covarianza
completa[S] en la ecuación 11.44. Equivalentemente, podríamos calcular esta matriz de covarianza
a partir de los 30 pares de datos de las dos últimas columnas de la Tabla 11.1. En cualquier caso, el
resultado es
S 3:133 2:623 : 11:47

La hipótesis nula de vectores medios iguales para Nueva York y Boston implica mD 0 en la
Ecuación 11.42, dando como resultado la estadística de prueba

T2 ¼ 30½ 2:18 4:02 ]

Debido a que estos datos de temperatura están espacialmente correlacionados, gran parte de la
variabilidad que se atribuyó a la incertidumbre del muestreo para los vectores medios por
separado en la prueba de dos muestras se comparte y no contribuye a la incertidumbre del
muestreo sobre las diferencias de temperatura.

La consecuencia numérica es que las varianzas en la matriz (1/30)[SD] son mucho menores que sus
contrapartes en la Ecuación 11.45 para la prueba de dos muestras. Por consiguiente, T2 para la
prueba emparejada en la Ecuación 11.48 es mucho más grande que para la prueba de dos
muestras en la Ecuación 11.46. De hecho, es enorme, lo que lleva a la estimación aproximada
(porque los tamaños de la muestra son sólo moderados), a través de la Ecuación 4.47, de 2 x 10-
65.

Tanto la prueba de dos muestras (incorrecta) como la prueba emparejada (apropiada) producen
fuertes rechazos de la hipótesis nula de que los vectores medios de Nueva York y Boston son
iguales. Pero, ¿qué se puede concluir sobre la(s) forma(s) en que son diferentes? Esta pregunta se
retomará en el ejemplo 11.7. e

Las pruebas T2 descritas hasta ahora se basan en el supuesto de que los vectores de datos no
están relacionados entre sí. Es decir, aunque los elementos K de x pueden tener correlaciones
distintas de cero, se ha asumido que cada una de las observaciones vectoriales, xi, i 1, .... n, son
mutuamente independientes. Como se indica en la Sección 5.2.4, ignorar la correlación en serie
puede conducir a grandes errores en la inferencia estadística, típicamente porque las
distribuciones de las estadísticas de la prueba tienen mayor dispersión (las estadísticas de la
prueba son más variables de un lote a otro de datos) que si los datos subyacentes fueran
independientes.

Un ajuste simple (Ecuación 5.13) está disponible para las pruebas escalares t si la correlación serial
en los datos es consistente con una autoregresión de primer orden (Ecuación 9.16). La situación es
más complicada para la prueba T2 multivariada porque, incluso si la dependencia del tiempo para
cada uno de los elementos K de x es razonadamente representada por un proceso AR(1), sus
parámetros autorregresivos f pueden no ser los mismos, y las correlaciones retardadas entre los
diferentes elementos de x también deben ser tenidas en cuenta. Sin embargo, si se puede suponer
que el proceso AR(1) multivariado (ecuación 11.21) representa razonablemente la dependencia en
serie de los datos, y si el tamaño de la muestra es lo suficientemente grande como para producir
multinormalidad como consecuencia del Teorema del Límite Central, la distribución del muestreo
del vector medio de la muestra es la siguiente

¯x ~ N

dónde

Kxnf
La ecuación 11.49 corresponde a la ecuación 11.30a para datos independientes, y[SF] se reduce
a[Sx] si[F]. ¼[0] (es decir, si las x son independientes en serie). Para n grandes, las contrapartes de
muestra de las cantidades de la ecuación 11.49 pueden ser sustituidas, y la matriz[SF] utilizada en
lugar de[Sx] en el cálculo de las estadísticas de la prueba T2.

11.5.3. Declaraciones de confianza simultáneas

Como se indica en la Sección 5.1.7, un intervalo de confianza es una región alrededor de una
muestra estadística que contiene valores que no serían rechazados por un ensayo cuya hipótesis
nula es que el valor observado de la muestra es el valor verdadero. En efecto, los intervalos de
confianza se construyen mediante pruebas de hipótesis de trabajo a la inversa. La diferencia en los
ajustes multivariados es que un intervalo de confianza define una región en el espacio K-
dimensional del vector de datos x en lugar de un intervalo en el espacio unidimensional (la línea
real) del x escalar.

Considere la prueba de una muestra 2, ecuación 11.32. Una vez observados los datos , 1, , , y
calculada la matriz de covarianza de la muestra[Sx], una (1 - a) región de confianza del 100% para
la media vectorial real consiste en el conjunto de puntos que satisfacen los siguientes criterios

porque estas son las x que no desencadenarían un rechazo de la hipótesis nula de que la media
verdadera es la media de la muestra observada. Para n - K suficientemente grande, el lado
derecho de la ecuación 11.50 sería

estar bien aproximado por w2K(1 - a). Del mismo modo, para la prueba T2 de dos muestras
(ecuación 11.37) a (1 - a) La región de confianza del 100% para la diferencia de las dos medias
consiste en que los puntos d satisfacen

½d - ð¯x

donde de nuevo el lado derecho es aproximadamente igual a w2K(1 - a) para muestras grandes.

Los puntos x que satisfacen la Ecuación 11.50 son aquellos cuya distancia de Mahalanobis desde ¯x
no es mayor que el cuantillo escalado (1 - a) de la distribución de F (o w2, según corresponda) en
el lado derecho, y de manera similar para los puntos d que satisfacen la Ecuación 11.51. Por lo
tanto, las regiones de confianza definidas por estas ecuaciones están delimitadas por
(hiper)elipsoides cuyas características están definidas por la covarianza

para la distribución del muestreo del estadístico de prueba respectivo, por ejemplo, por (1/n)[Sx]
para la Ecuación 11.50. Debido a que la distribución de muestreo de ¯x se aproxima a la
distribución de MVN en la fuerza del Teorema del Límite Central, las regiones de confianza
definidas por la Ecuación 11.50 son elipsoides de confianza para la distribución de MVN con media
¯x y covarianza (1/n)[Sx] (cf. Ecuación 11.5). De manera similar, las regiones de confianza definidas
por la Ecuación 11.51 son hiper-elipsoides centradas en la diferencia de medias del vector entre
las dos medias de la muestra.

Como se ilustra en el Ejemplo 11.1, las propiedades de estas elipses de confianza, aparte de su
centro, están definidas por los valores propios y los vectores propios de la matriz de covarianza
para la distribución de muestreo en cuestión. En particular, cada eje de una de estas elipses se
alineará en la dirección de uno de los vectores propios, y cada uno se alargará en proporción a la
raíz cuadrada del correspondiente valor propio. En el caso de la región de confianza de una
muestra, por ejemplo, los límites de x satisfaciendo la Ecuación 11.50 en las direcciones de cada
uno de los ejes de la elipse son

donde lk y ek son el par vectorial propio kth de la matriz (1/n)[Sx]. De nuevo, para n
suficientemente grande, la cantidad bajo el radical se aproximaría bien por lk w2K(1 - a). La
ecuación 11.52 indica que las elipses de confianza están centradas en la media de la muestra
observada ¯x, y se extienden más en las direcciones asociadas con los valores propios más
grandes. También se extienden para a más pequeños porque producen mayores probabilidades
acumulativas para los cuantiles de distribución F(1 - a) yw2K(1 - a).

Sería posible, y más sencillo desde el punto de vista computacional, realizar pruebas K univariadas
t y calcular los intervalos de confianza K univariados por separado para la media de cada elemento
de x, en lugar de la prueba T2 que examina la media del vector ¯x. ¿Cuál es la relación entre una
región de confianza multivariada elipsoidal del tipo descrito y una colección de intervalos de
confianza univariados K? Conjuntamente, estos intervalos de confianza univariados definirían una
región hiperrectangular en el espacio K-dimensional de x; pero la probabilidad (o confianza)
asociada con los resultados que encierra será sustancialmente menor.

que 1 - a, si las longitudes de cada uno de sus lados K son los correspondientes (1 - a) intervalos de
confianza escalares del 100%. El problema es la multiplicidad de las pruebas: si las pruebas K en las
que se basan los intervalos de confianza son independientes, la probabilidad conjunta de que
todos los elementos del vector x se encuentren simultáneamente dentro de sus límites de
confianza escalar será (1 - a)K. En la medida en que los cálculos del intervalo de confianza escalar
no son independientes, la probabilidad conjunta será diferente, pero difícil de calcular.

Una solución conveniente para este problema de multiplicidad es calcular la K unidimensional

Los intervalos de confianza de Bonferroni y utilizarlos como base para una declaración conjunta de
confianza:

La expresión dentro del corchete define un intervalo de confianza univariable (1 - a/K) del 100%
para la variable kth en x. Cada uno de estos intervalos de confianza se ha expandido en relación
con el valor nominal (1-).

a) Intervalo de confianza del 100% para compensar la multiplicidad en dimensiones K simulta-


neamente. Por conveniencia, en la Ecuación 11.53 se ha asumido que el tamaño de la muestra es
adecuado para que los cuantiles gaussianos estándar sean apropiados, aunque los cuantiles de la
distribución t con n - 1 grados de libertad generalmente se usarían para n menores de unos 30
años.

Hay dos problemas con el uso de las regiones de confianza de Bonferroni en este contexto.
Primero, la Ecuación 11.53 es una desigualdad más que una especificación exacta. Es decir, la
probabilidad de que todos los elementos K del vector verdadero hipotético m estén contenidos
simultáneamente en sus respectivos intervalos de confianza unidimensional es al menos 1 - a, no
exactamente 1 - a. Es decir, en general los intervalos de confianza de Bonferroni en la dimensión K
es demasiado grande, pero se desconoce con exactitud cuánta más probabilidad que 1 - a puede
estar encerrada por ella.

El segundo problema es más grave. Como una colección de intervalos de confianza univariados, la
región de confianza hiper-rectangular dimensional K resultante ignora la estructura de covarianza
de los datos. Las declaraciones de confianza de Bonferroni pueden ser razonables si la estructura
de correlación es débil, por ejemplo, en el contexto descrito en el apartado 9.5.6. Pero las
intervalos de confianza de Bonferroni son ineficientes cuando las correlaciones entre los
elementos de x son fuertes, en el sentido de que incluirán grandes regiones con muy baja
plausibilidad. Como consecuencia, son demasiado grandes en un sentido multivariante y pueden
llevar a inferencias tontas.

Ejemplo 11.6 Comparación de las regiones de confianza no ajustadas de Univariante, Bonferroni y


MVN

Supongamos que la matriz de covarianza de la ecuación 10.56, para las temperaturas mínimas de
Ítaca y Canandaigua, se ha calculado a partir de n 100 pares de temperaturas independientes.
Estas muchas observaciones justificarían aproximaciones de muestras grandes para las
distribuciones de muestreo (los cuantiles estándar gaussianos z y w2, en lugar de los cuantiles t y
F) y asumir la independencia evita la necesidad de los ajustes de no independencia en la Ecuación
11.49.

¿Cuál es la mejor región de confianza bidimensional para el vector medio climatológico real, dada
la media de la muestra[13.00, 20.23]T, y asumiendo la matriz de covarianza de la muestra para los
datos de la Ecuación 10.56? Basándose en la normalidad multivariada para la distribución del
muestreo de la media de la muestra implícita en el teorema del límite central, la Ecuación 11.50
define una región elíptica de confianza del 95% cuando el lado derecho es el cuantil w2 w22 (0.95)
5.991. El resultado es la región elíptica mostrada en la Figura 11.6, centrada en la media de la
muestra (). Compare esta elipse con la Figura 11.1, que está centrada en la misma media y basada
en la misma matriz de covarianza (aunque dibujada para encerrar una probabilidad ligeramente
menor). La figura 11.6 tiene exactamente la misma forma y orientación, pero es mucho más
compacta, aunque encierra alguna probabilidad. Ambas elipses tienen los mismos vectores
propios, e1T ¼[0.848, 0.530] y e2T ¼[- 0.530, 0.848], pero los valores propios de la Figura 11.6 son
100 veces más pequeños; es decir, l1 ¼ 2.5476 y l2 ¼ 0.0829. La diferencia es que la Figura 11.1
representa un contorno de la distribución de MVN para los datos, con covarianza[Sx] dada por la
Ecuación 10.56, pero la Figura 11.6 muestra un contorno de MVN con covarianza (1/n)[Sx],
apropiado para la Ecuación 11.50 y relevante para la distribución de muestreo de la media en
lugar de la distribución de los datos. Esta elipse es la región más pequeña que encierra el 95% de la
superficie de la tierra.

FIGURA 11.6 Regiones hipotéticas de confianza conjunta del 95% para las temperaturas mínimas
medias de Ítaca y Canandaigua, suponiendo que en la ecuación 10.56 se habían utilizado 100
observaciones bivariadas independientes para calcular la matriz de covarianza. Ellipse encierra
puntos a una distancia de Mahalanobis de w2 ¼ 5.991 de la media de la muestra (indicada por
þ)[13.00, 20.23]T. Los límites horizontales y verticales del rectángulo discontinuo se definen
mediante dos intervalos de confianza independientes para las dos variables, con T z(0.025) ¼T
1.96. El rectángulo gris indica la región de confianza de Bonferroni correspondiente, calculada con
T z(0.0125) ¼

T 2.24. El punto[15, 19] (punto grande) está cómodamente dentro de ambas regiones
rectangulares de confianza, pero está a la distancia de Mahalanobis.

w2 ¼ 1006 de la media relativa a la estructura de covarianza conjunta de las dos variables, por lo
que es altamente inverosímil.

probabilidad de esta distribución para las variaciones de muestreo de la media de la muestra. Su


elongación refleja la fuerte correlación entre las temperaturas mínimas en los dos lugares, de
modo que las diferencias entre la muestra y los medios verdaderos debido a las variaciones del
muestreo son mucho más propensas a implicar diferencias del mismo signo tanto para los medios
de Ítaca como de Canandaigua.

El rectángulo gris de la figura 11.6 describe la región de confianza de Bonferroni al 95%. Ha sido
calculado usando un 0.05 en la Ecuación 11.53 y por lo tanto está basado en los cuantiles 0.0125 y
0.9875 de la distribución gaussiana estándar, o 2.24. La región rectangular resultante incluye al
menos (1 - a) el 100% del 95% de la probabilidad de la distribución del muestreo conjunto. Ocupa
mucho más área en el plano que la elipse de confianza porque el rectángulo incluye grandes
regiones en la parte superior izquierda e inferior derecha que contienen muy poca probabilidad.
Sin embargo, desde el punto de vista de la inferencia univariada -es decir, los intervalos de
confianza para una ubicación sin tener en cuenta la otra- los límites de Bonferroni son más
estrechos.

La región rectangular discontinua resulta conjuntamente de los dos intervalos de confianza


estándar del 95%. La longitud de cada lado se ha calculado utilizando los cuantiles 0,025 y 0,975 de
la distribución gaussiana estándar, que son z 1,96. Son, por supuesto, más estrechos que los
correspondientes intervalos de Bonferroni, y de acuerdo con la Ecuación 11.53 el rectángulo
resultante incluye al menos el 90% de la probidad de esta distribución de muestreo. Al igual que la
región de confianza de Bonferroni, presenta como plausible grandes áreas con probabilidades muy
bajas.

La principal dificultad de las regiones de confianza de Bonferroni queda ilustrada por el punto[15,
19]T, situado en el punto grande de la figura 11.6. Se encuentra cómodamente dentro del
rectángulo gris que delimita la región de confianza de Bonferroni, lo que implica que se trata de un
valor plausible para el verdadero vector medio. Sin embargo, una región de confianza de
Bonferroni se define sin tener en cuenta la covarianza multivariante

estructura de la distribución que pretende representar. En el caso de la figura 11.6, la región de


confianza de Bonferroni ignora el hecho de que es mucho más probable que las variaciones de
muestreo para estas dos variables positivamente correlacionadas produzcan diferencias entre las
dos muestras y los medios reales que son del mismo signo. La distancia de Mahalanobis entre los
puntos[15, 19]T y[13.00, 20.23]T, según la matriz de covarianza (1/n)[Sx], es de 1006, lo que
implica una probabilidad astronómicamente pequeña para una separación tan grande y de esta
orientación para estos dos vectores (cf. Ecuación 11.31a). El vector[15, 19]T es un candidato
extremadamente inverosímil para la verdadera media mx. e
11.5.4. Interpretación de la significación estadística multivariante

¿Qué puede decirse de las diferencias de medias multivariadas si se rechaza la hipótesis nula para
una prueba T2, es decir, si se cumplen las ecuaciones 11.34 u 11.41 (o su contraparte de muestra
grande, la ecuación 11.36b)? Esta pregunta se complica por el hecho de que existen muchas
maneras de diferenciar entre sí los medios multivariados, incluyendo, pero no limitándose a una o
más de las diferencias por pares entre los elementos que serían detectados por las pruebas
univariadas correspondientes.

Si una prueba T2 resulta en el rechazo de su hipótesis nula multivariada, la implicación es que al


menos una prueba escalar para una combinación lineal aTx o aT(x1 - x2), para pruebas de una y
dos muestras, respectivamente, será estadísticamente significativa. En cualquier caso, la
combinación lineal escalar que proporciona la evidencia más convincente contra la hipótesis nula
(independientemente de si es o no suficientemente convincente para rechazar a un nivel de
prueba dado) satisfará

para pruebas de una muestra, o

a / ½S]-1ð¯x - m Þ ð11:54aÞ

para pruebas de dos muestras. Como mínimo, entonces, si un cálculo T2 multivariado resulta en
un rechazo de hipótesis nulo, entonces las combinaciones lineales correspondientes a la dirección
K-dimensional definida por el vector a en la Ecuación 11.54 también conducirán a resultados
significativos. Puede ser muy útil interpretar el significado, en el contexto de los datos, de la
dirección definida por la Ecuación 11.54. Por supuesto, dependiendo de la fuerza del resultado
multivariante general, otras combinaciones lineales también pueden conducir a rechazos de
pruebas escalares, y es posible que todas las combinaciones lineales sean significativas. La
dirección también indica la dirección que mejor discrimina entre las poblaciones de las que se
extrajeron x1 y x2 (véase la Sección 14.2.2).

La razón por la que cualquier combinación lineal que satisfaga la Ecuación 12.54 produce el mismo
resultado de la prueba puede ser vista más fácilmente en términos del intervalo de confianza
correspondiente. Considere para simplificar el intervalo de confianza para una prueba T2 de una
muestra, Ecuación 11.50. Usando los resultados de la Ecuación 10.81, este intervalo de confianza
escalar se define por

donde c2 es igual a[K(n - 1)/(n - K)] FK, n-K(1 - a), o w2K, según corresponda. Aunque la longitud
del vector a es arbitraria, de modo que la magnitud de la combinación lineal aTx es también
arbitraria, la cantidad aT m se escala de forma idéntica.

Otra propiedad notable de la prueba T2 es que se pueden hacer inferencias válidas sobre todas y
cada una de las combinaciones lineales, aunque no se hayan especificado a priori. El precio que se
paga por esto
Esta flexibilidad es que las inferencias hechas usando pruebas escalares convencionales para
combinaciones lineales que se especifiquen por adelantado serán más precisas. Este punto puede
apreciarse en el contexto de las regiones de confianza que se muestran en la figura 11.6. Si un
ensayo relativo a la temperatura mínima de Ítaca sólo hubiera sido de inter-est, correspondiente a
la combinación lineal a[1,0]T, el intervalo de confianza apropiado se definiría por la extensión
horizontal del rectángulo discontinuo.

El intervalo correspondiente para esta combinación lineal a partir de la prueba T2 completa es


sustancialmente más amplio, estando definido por la proyección, o sombra, de la elipse sobre el
eje horizontal. Pero lo que se obtiene de la prueba multivariante es la capacidad de hacer
declaraciones de probabilidad simultáneas válidas con respecto a tantas combinaciones lineales
como puedan ser de interés.

Ejemplo 11.7 Interpretación de las diferencias de temperatura medias de enero en Nueva York y
Boston

Volvamos ahora a las comparaciones hechas en el Ejemplo 11.5, entre los vectores de la media de
las temperaturas máximas y mínimas de enero para la ciudad de Nueva York y Boston. La
diferencia entre las medias de la muestra fue[2,18, 4,02]T, y la hipótesis nula fue que las medias
verdaderas eran iguales, por lo que la diferencia correspondiente d0 0. Incluso suponiendo,
erróneamente, que no existe correlación espacial entre los dos emplazamientos (o, a efectos del
ensayo, que los datos de los dos emplazamientos

en diferentes años), T2 en la Ecuación 11.46 indica que la hipótesis nula debe ser fuertemente
rechazada.

Ambos medios son más cálidos en Nueva York, pero la Ecuación 11.46 no implica necesariamente
diferencias significativas entre los máximos medios o los mínimos medios. La Figura 11.5 muestra
una superposición sustancial entre las dispersiones de datos para temperaturas máximas y
mínimas, con cada media escalar cerca del centro de la distribución de datos correspondiente para
la otra ciudad. Calculando las pruebas univariadas separadas (Ecuación 5.8) se obtiene z
2.18/√1.248 1.95 para los máximos y z 4.02/√1.349 3.46 para los mínimos. Aun dejando de lado el
problema de que se están haciendo dos comparaciones simultáneas, el resultado de la diferencia
de las temperaturas máximas medias no es muy significativo en el nivel del 5%, aunque la
diferencia para los mínimos es mayor.

El resultado significativo en la Ecuación 11.46 asegura que hay al menos una combinación lineal
aT(x1 - x2) (y posiblemente otras, aunque no necesariamente las combinaciones lineales
resultantes de aT[1,0] o[0,1]) para las cuales hay una diferencia significativa. Según la Ecuación
11.54b, los vectores que producen las combinaciones lineales más significativas son
proporcionales a

—1 ¯

Esta combinación lineal de las diferencias de medias, y la varianza estimada de su distribución de


muestreo, son
y

aTD¯ ¼ ½ -13:5 1

5:4 ]Σ 2:18 Σ ¼ 32:5, ð11:57aÞ

para esta combinación lineal de las diferencias z 32,5/√32,6 5,69. Esta, no por casualidad, es la raíz
cuadrada de la Ecuación 11.46. El punto de referencia adecuado para comparar la inusualidad de
este resultado en el contexto de la hipótesis nula no es el estándar gaussiano.

o distribuciones t (porque esta combinación lineal se derivó de los datos de la prueba, no a priori),
sino más bien de las raíces cuadradas de los cuantiles w22 o de los cuantiles F2,30 a escala
apropiada. El resultado sigue siendo muy significativo, con p 10-7. La ecuación 11.56 indica que el
aspecto más significativo de la diferencia entre los vectores medios de Nueva York y Boston no son
las temperaturas más cálidas en Nueva York en relación con Boston (que corresponderían a[1,
1]T). Más bien, los elementos de un son de signo opuesto y de magnitud casi igual, y así describen
un contraste. Como -a a, una forma de interpretar este contraste es como la diferencia entre los
máximos y mínimos medios, correspondiente a la elección a[1, -1]T. Es decir, el aspecto más
significativo de la diferencia entre los dos vectores medios está estrechamente relacionado con la
diferencia en el rango medio diurno, siendo el rango para Boston mayor. La hipótesis nula de que
los dos rangos diurnos son iguales puede ser probada específicamente, usando el vector de
contraste a[1, -1]T en la Ecuación 11.57, en lugar de la combinación lineal definida por la Ecuación
11.56. El resultado es z 1.84/√0.121 5.29. Esta estadística de la prueba es negativa porque el rango
diurno en Nueva York es más pequeño que el rango diurno en Boston. Es ligeramente menor en
valor absoluto que el resultado obtenido al usar una [ 13.5, 15.4], porque es la combinación lineal
más significativa, aunque el resultado es casi el mismo porque los dos vectores están alineados en
casi la misma dirección. Comparando el resultado con la distribución w22 se obtiene un resultado
muy significativo p

10–6. Visualmente, la separación entre las dos nubes de puntos en la Figura 11.5 es consistente
con esta diferencia en el rango diurno: Los puntos de Boston tienden a estar más cerca de la parte
superior izquierda, y los de Nueva York están más cerca de la parte inferior derecha. Por otro lado,
la orientación relativa de los dos medios es casi exactamente opuesta, con la media de Nueva York
más cerca de la esquina superior derecha y la media de Boston más cerca de la esquina inferior
izquierda. e

11.6. EJERCICIOS

11.1. Supongamos que las temperaturas máximas de Ítaca y Canandaigua en la Tabla A.1
constituyen una muestra de una distribución MVN, y que su matriz de covarianza[S] tiene valores
propios y vectores propios como se indica en el Ejercicio 10.6. Esquema las elipses de probabilidad
del 50% y 95% de esta distribución.

11.2. Supongamos que las cuatro variables de temperatura de la tabla A.1 están distribuidas por
MVN, siendo el orden de las variables en x[MaxIth, MinIth, MaxCan, MinCan]T. Los medios
respectivos también se dan en la Tabla A.1, y la matriz de covarianza[S] se da en la respuesta al
Ejercicio 10.7a. Suponiendo que la media real y la covarianza son los mismos que los valores de la
muestra,

a. Especificar la distribución condicional de[MaxIth, MinIth]T, dado que[MaxCan,


MinCan]T[31.77, 20.23]T (es decir, los valores promedio para Canandaigua).

b. Consideremos las combinaciones lineales b1 ¼[1, 0, -1, 0], que expresan la diferencia entre
las temperaturas máximas, y b2[1, -1 -1, 1], que expresan la diferencia entre los rangos diurnos,
como filas de una matriz de transformación[B]T. Especificar la distribución de las variables
transformadas[B]Tx.

11.3. El vector propio asociado con el menor valor propio de la matriz de covarianza[S] para los
datos de temperatura de enero de 1987 a los que se hace referencia en el Ejercicio 11.2 es e T ¼[-
.665, .014, .738, -.115]. Evaluar el

normalidad de la combinación lineal e Tx,

a. Gráficamente, con un gráfico Q-Q. Para conveniencia computacional, evalúe F(z) usando la
Ecuación 4.29.

b. Formalmente, con la prueba de Filliben (ver Tabla 5.3), asumiendo que no hay
autocorrelación.

PART III Multivariate Statistics

11.4. a. Calcular la prueba T2 de 1 muestra probando las combinaciones lineales[B]T ¯x con


respecto a H0: m0 0, donde x y[B]T se definen como en el Ejercicio 11.2. Ignorando la correlación
serial, evaluar la plausibilidad de H0, asumiendo que la distribución w2 es una aproximación
adecuada a la distribución de muestreo de la estadística de ensayo.

b. Calcule la combinación lineal más significativa para esta prueba.

11.5. Repita el Ejercicio 11.4, asumiendo independencia espacial (es decir, poniendo a cero
todas las covarianzas cruzadas entre las variables de Ítaca y Canandaigua).

Análisis de Componentes Principales (EOF)

12.1. FUNDAMENTOS DEL ANÁLISIS DE COMPONENTES PRINCIPALES

Posiblemente la técnica estadística multivariada más utilizada en las ciencias atmosféricas es el


análisis de componentes principales, a menudo denominado PCA. La técnica fue introducida en la
literatura de ciencias atmosféricas por Obukhov (1947), y se hizo popular para el análisis de datos
atmosféricos después de los trabajos de Lorenz (1956), quien llamó a la técnica análisis de función
ortogonal empírica (EOF), y Davis (1976). Tanto los nombres de análisis PCA como EOF se utilizan
comúnmente y se refieren al mismo conjunto de procedimientos. A veces se hace referencia
incorrecta al método como análisis factorial, que es un método estadístico multivariado
relacionado pero distinto. Este capítulo pretende proporcionar una introducción básica a lo que se
ha convertido en un tema muy amplio. Los tratamientos de longitud de libro de la PCA se dan en
Preisendorfer (1988), que se orienta específicamente hacia los datos geofísicos; y en Jolliffe
(2002), que describe la PCA de manera más general. Hannachi et al (2007) ofrecen una revisión
exhaustiva reciente. Además, la mayoría de los libros de texto sobre análisis estadístico
multivariado contienen capítulos sobre la PCA.

12.1.1. Definición de PCA

El PCA reduce un conjunto de datos que contiene un gran número de variables a un conjunto de
datos que contiene menos (ojalá muchas menos) nuevas variables. Estas nuevas variables son
combinaciones lineales de las originales, y estas combinaciones lineales se eligen para representar
la máxima fracción posible de la variabilidad contenida en los datos originales. Es decir, dadas las
múltiples observaciones de un vector de datos (K 1) x, la PCA encuentra vectores (M 1) u cuyos
elementos son combinaciones lineales de los elementos de los años x, y que contienen la mayor
parte de la información en la colección original de x0s. La PCA es más efectiva cuando esta
compresión de datos puede lograrse con M <<< K. Esta situación ocurre cuando hay correlaciones
sustanciales entre las variables dentro de x, en cuyo caso x contiene información redundante. Los
elementos de estos nuevos vectores u se denominan componentes principales (PCs).

Los datos para los campos atmosféricos y otros campos geofísicos generalmente muestran muchas
correlaciones grandes entre las variables xk, y un PCA resulta en una representación mucho más
compacta de sus variaciones. Sin embargo, más allá de la mera compresión de datos, un PCA
puede ser una herramienta muy útil para explorar grandes conjuntos de datos multivariados,
incluyendo aquellos que consisten en campos geofísicos. En este caso, la PCA tiene el potencial de
producir una comprensión sustancial de las variaciones espaciales y temporales exhibidas por el
campo o campos que están siendo analizados, y se pueden sugerir nuevas interpretaciones de los
datos originales x debido a la naturaleza de las combinaciones lineales que son más efectivas para
comprimir esos datos.

Normalmente es conveniente calcular los PCs como combinaciones lineales de las anomalías x0 x -
x. El primer PC, u1, es la combinación lineal de x0 que tiene la mayor varianza. El subsiguiente

Métodos estadísticos en las ciencias atmosféricas. DOI: 10.1016/B978-0-12-385022-5.00012-9

Copyright # 2011 Elsevier Inc. Todos los derechos reservados.

Componente principal um, m 2, 3, ...., son las combinaciones lineales que tienen las mayores
varianzas posibles, subjeto a la condición de que no estén correlacionados con los componentes
principales que tienen índices más bajos. El resultado es que todos los PCs no están relacionados
entre sí.

Las nuevas variables o PC -es decir, los elementos um de u que darán cuenta sucesivamente de la
cantidad máxima imum de la variabilidad conjunta de x0 (y por lo tanto también de x)- son
definidos de manera única (excepto por el signo) por los vectores propios de la matriz de
covarianza de x,[S]. En particular, el componente principal mth, um, se obtiene como la proyección
del vector de datos x0 sobre el propio mth eigenvector, em,
um ¼ eT x0 ¼

Nótese que cada uno de los vectores propios contiene un elemento perteneciente a cada una de
las variables K, xk. De manera similar, cada realización del componente principal mth en la
Ecuación 12.1 se calcula a partir de un conjunto particular de observaciones de las variables K xk.
Es decir, cada uno de los componentes principales de M es una especie de promedio ponderado
de los valores xk que son los elementos de un vector de datos particular x. Aunque los pesos (los
ek,m's) no suman 1, sus cuadrados sí lo hacen debido a la convención de escalamiento |||em|| ¼
1. (Note que una convención de escalamiento fija para los pesos de las combinaciones lineales en
la Ecuación 12.1 permite que la restricción de varianza máxima que define a los PCs sea
significativa.) Si la muestra de datos contiene n observaciones (y por lo tanto n vectores de datos
x, o n filas en la matriz de datos[X]), habrá n valores para cada uno de los componentes
principales, o nuevas variables, um. Cada uno de ellos constituye un índice de número de pecado
de la semejanza entre el vector propio em y el vector de datos individual x correspondiente.

Geométricamente, el primer vector propio, e1, apunta en la dirección (en el espacio K-dimensional
de x0) en la que los vectores de datos muestran conjuntamente la mayor variabilidad. Este primer
vector propio es el que se asocia con el mayor valor propio, l1. El segundo eigenvector e2,
asociado con el segundo valor propio más grande l2, está restringido a ser perpendicular a e1
(Ecuación 10.48), pero sujeto a esta restricción, será

se alinean en la dirección en la que los vectores x0 muestran sus siguientes variaciones más
fuertes. Los siguientes...

Los vectores em, m 3, 4, ...., M, están numerados de forma similar según las magnitudes
decrecientes de sus valores propios asociados, y a su vez serán perpendiculares a todos los
vectores propios anteriores. Sujeto a esta limitación de ortogonalidad, estos vectores propios
continuarán localizando direcciones en las que los datos originales exhiben conjuntamente la
máxima variabilidad.

Dicho de otro modo, los vectores propios definen un nuevo sistema de coordenadas en el que
visualizar los datos. En particular, la matriz ortogonal[E] cuyas columnas son los vectores propios
(Ecuación 10.49) define la rotación rígida

u ¼ ½ E]T x0, ð12:2Þ

que es la representación matricial-notativa simultánea de las combinaciones lineales M K de la


forma de la Ecuación 12.1 (es decir, aquí la matriz[E] es cuadrada, con columnas K. Este nuevo
sistema de coordenadas está orientado de forma que cada uno de los ejes numerados
consecutivamente está alineado en la dirección de la máxima variabilidad de las juntas de los
datos, consistente con que dicho eje sea ortogonal a los anteriores. Estos ejes resultarán ser
diferentes para diferentes conjuntos de datos, porque se extraen de la matriz de covarianza de la
muestra[Sx] particular a un conjunto de datos dado. Es decir, son funciones ortogonales, pero se
definen empíricamente de acuerdo con el conjunto de datos en cuestión. Esta observación es la
base para que los vectores propios se conozcan en este contexto como funciones ortogonales
empíricas (EOF). La distinción implícita es con las funciones ortogonales teóricas, tales como los
armónicos de Fourier o los
polinomios de Tschebyschev, que también se pueden utilizar para definir sistemas de coordenadas
alternativos en los que visualizar un conjunto de datos.

Es una propiedad notable de los componentes principales que no estén correlacionados. Es decir,
la matriz de correlación para las nuevas variables um es simplemente[I]. Esta propiedad implica
que las covarianzas entre pares de um son todas cero, de modo que la matriz de covarianzas
correspondiente es diagonal. De hecho, la matriz de covarianza para los componentes principales
se obtiene mediante la diagonalización de[Sx] (Ecuación 10.54) y es por lo tanto simplemente la
matriz diagonal[L] de los valores propios de[S]:

½ Su ] ¼ Varð½ Varð½ E ]T xÞ¼ ½ E ]T ½ Sx ]½ E ]¼½ E ]-1½ Sx ]½ E ]¼½ L ]: ð12:3Þ

Es decir, la desviación del componente principal mth um es el valor propio mth lm. La ecuación
10.52 implica entonces que cada PC representa una parte de la variación total en x que es
proporcional a su propio valor,

Rm ¼

En este caso, R2 se utiliza en el mismo sentido que se conoce de la regresión lineal (véase el
apartado 7.2). La variación total exhibida por los datos originales se representa completamente en
(o se explica por) el conjunto completo de K um's, en el sentido de que la suma de las varianzas de
los datos centrados x0 (y por lo tanto también de las variables no centradas x), Sk sk,k, es igual a la
suma de las varianzas Smlm. de las variables componentes principales u.

La ecuación 12.2 expresa la transformación de un vector de datos (K × 1) x0 en un vector u de PCs.


Si[E] contiene todos los K vectores propios de[Sx] (asumiendo que no singular) como sus
columnas, el vector u resultante también tendrá dimensión (K 1). La ecuación 12.2 a veces se
llama la fórmula de análisis para x0, expresando que los datos pueden ser analizados, o resumidos
en términos de los componentes principales. Revertiendo la transformación en la Ecuación 12.2,
los datos x0 pueden ser reconstruidos a partir de los componentes principales de acuerdo con la
siguiente tabla

x0

que se obtiene de la ecuación 12.2 multiplicando a la izquierda por[E] y usando la propiedad de


ortogonalidad de esta matriz (ecuación 10.42). La reconstrucción de x0 expresada por la Ecuación
12.5 es algunas veces llamada la fórmula de síntesis. Si se utiliza el conjunto completo de PCs M K
en la síntesis, la reconstrucción es completa y exacta, desde Sm R2m 1 (cf. Ecuación 12.4). Si se
utilizan PCs M < K (normalmente los correspondientes a los valores propios M más grandes), la
reconstrucción es aproximada,

x0

pero la aproximación mejora a medida que aumenta el número de M de PCs utilizados (o, más
precisamente, a medida que aumenta la suma de los valores propios correspondientes, debido a la
Ecuación 12.4). Porque[E] en la Ecuación 12.6a tiene
sólo columnas M y funciona en un vector PC truncado u de dimensión (M 1), la Ecuación 12.6 se
llama la fórmula de síntesis truncada. Los datos no centrados originales (en el caso de la Ecuación
12.5) o aproximados (para la Ecuación 12.6) x pueden obtenerse fácilmente añadiendo de nuevo el
vector de los medios de la muestra; es decir, invirtiendo la Ecuación 10.33.

Debido a que cada componente principal um es una combinación lineal de las variables originales
xk (Ecuación 12.1), y viceversa (Ecuación 12.5), los pares de componentes principales y variables
originales se correlacionarán a menos que el elemento ek,m que los relaciona sea cero. A veces
puede ser informativo calcular estas correlaciones, las cuales son dadas por

ru, x ¼ corrðum, xkÞ ¼ ek, msffilffiffiffimffiffiffi : ð12:7Þ

Ejemplo 12.1. PCA en dos dimensiones

Lo básico del PCA se aprecia más fácilmente en un ejemplo simple donde la geometría puede ser
visualizada. Si K 2, el espacio de los datos es bidimensional, y puede ser graficado en una página.
La Figura 12.1 muestra una gráfica de dispersión de las temperaturas mínimas de Ítaca (x10) y
Canandaigua (x20) centradas (a cero) de la Tabla A.1. Esta es la misma gráfica de dispersión que
aparece

FIGURA 12.1 Diagrama de dispersión de las temperaturas mínimas de Ítaca y Canandaigua de


enero de 1987 (convertidas en anomalías), ilustrando la geometría del PCA en dos dimensiones.
Los vectores propios e1 y e2 de la matriz de covarianza[S] para estas dos variables, calculados en
el ejemplo 10.3, han sido trazados con longitudes exageradas para mayor claridad. Los datos se
extienden en la dirección de e1 hasta el punto de que el 96,8% de la varianza conjunta de estas
dos variables se produce a lo largo de este eje. Las coordenadas u1 y u2, correspondientes al
punto de datos x0T[16.0, 17.8], registradas el 15 de enero e indicadas por el símbolo del cuadrado
grande, se muestran por longitudes en las direcciones del nuevo sistema de coordenadas definido
por los vectores propios. Es decir, el vector uT ¼[23.0, 6.6] localiza el mismo punto que x0T ¼[16.0,
17.8].

en el centro de la fila inferior de la figura 3.27. Es evidente que las temperaturas de Ítaca son más
variables que las de Canandaigua, siendo las dos desviaciones estándar √s1,1 13.62○F y √s2,2
8.81○F, respectivamente. Claramente, las dos variables están fuertemente correlacionadas y
tienen una correlación Pearson de 0,924 (ver Tabla 3.5). La matriz de covarianza[S] para estas dos
variables se da de la siguiente manera

A] en la Ecuación 10.56. Los dos vectores propios de esta matriz son e1T[0.848, 0.530] y e2T[-
0.530, 0.848], de modo que la matriz propia[E] es la que se muestra en la Ecuación 10.57. Los
valores propios correspondientes son l1 254,76 y l2 8,29. Estos son los mismos datos utilizados
para ajustar las elipses bivariadas de probabilidad normal mostradas en las Figuras 11.1 y 11.6.

Las orientaciones de los dos vectores propios se muestran en la figura 12.1, aunque sus longitudes
han sido exageradas para mayor claridad. Es evidente que el primer vector propio está alineado en
la dirección en que los datos juntos muestran la máxima variación. Es decir, la nube de puntos se
inclina en el mismo ángulo que la e1, que es 32○ desde la horizontal (es decir, desde el vector[1,
0]), según la Ecuación 10.15. Dado que los datos de este sencillo ejemplo sólo existen en
dimensiones K 2, la restricción de que el segundo vector propio debe ser perpendicular al primero
determina su dirección hasta el signo (es decir, podría ser -e2T [ 0.530, -0.848]). Este último
eigenvector localiza la dirección en la que los datos exhiben conjuntamente sus variaciones más
pequeñas.

Los dos vectores propios determinan un sistema de coordenadas alternativo en el que visualizar
los datos. Este hecho puede hacerse más claro si se gira este libro 32○ en el sentido de las agujas
del reloj mientras se mira la Figura 12.1. Dentro de este sistema de coordenadas giradas, cada
punto está definido por un vector principal uT[u1, u2] de nuevas variables transformadas, cuyos
elementos consisten en las proyecciones de los datos originales sobre los vectores propios, de
acuerdo con el producto de puntos de la Ecuación 12.1. La figura 12.1 ilustra esta proyección para
el punto de datos x0T del 15 de enero ¼[16.0, 17.8], que se indica con el símbolo del cuadrado
grande. Para este dato, u1 ¼ (0,848)(16,0) þ (0,530)(17,8) ¼ 23,0, y u2 ¼ (-0,530)(16,0) þ
(0,848)(17,8) ¼ 6,6.

La varianza de la muestra de la nueva variable u1 es una expresión del grado en que se extiende a
lo largo de su eje (es decir, en la dirección de e1). Esta dispersión es evidentemente mayor que la
dispersión de los datos a lo largo de cualquiera de los ejes originales, y de hecho es mayor que la
dispersión de los datos en cualquier otra dirección en este plano. Esta variación máxima de la
muestra de u1 es igual al valor propio l1 ¼ 254.76○F2 Los puntos en el conjunto de datos tienden a
mostrar valores bastante diferentes de u1, mientras que

tienen valores más similares para u2. Es decir, son mucho menos variables en la dirección e2, y la
muestra

la varianza de u2 es sólo l2 8.29○F2.

Desde l1 l2 s1,1 s2,2 263.05○F2, las nuevas variables conservan conjuntamente toda la variación
exhibida por las variables originales. Sin embargo, el hecho de que la nube de puntos parece no
mostrar pendiente en el nuevo

El marco de coordenadas definido por los vectores propios indica que u1 y u2 no están
correlacionados. Su falta de correlación puede verificarse transformando los 31 pares de
temperaturas mínimas de la Tabla A.1 en componentes principales y calculando la correlación de
Pearson, que es cero. La matriz de varianza-covarianza para los componentes principales es por lo
tanto[L], mostrada en la Ecuación 10.59.

Las dos variables de temperatura originales están tan fuertemente correlacionadas que una
fracción muy grande de sus

La desviación conjunta, l1/(l1 l2) 0,968, está representada por el primer componente principal. Se
diría que el primer componente principal describe el 96,8% de la varianza total. El primer
componente principal podría interpretarse como un reflejo de la temperatura mínima regional
para el área que incluye estas dos localidades (están a unas 50 millas de distancia), mientras que el
segundo componente principal, que describe las variaciones locales, se aparta del valor regional
global.
Dado que gran parte de la varianza conjunta de las dos series de temperatura es capturada por el
primer componente principal, la resintetización de la serie utilizando sólo el primer componente
principal producirá un buen resultado.

PARTE III Estadísticas multivariadas

aproximación a los datos originales. Usando la Ecuación de Síntesis 12.6 con sólo el primer (M 1)
rendimiento del componente principal

x0 ðtÞ ¼ Σ x0 ðtÞ Σ = e u ðtÞ ¼ Σ :848 Σ u ðtÞ: ð12:8Þ

Los datos de temperatura x son series temporales, y por lo tanto también lo son los componentes
principales u. La dependencia temporal para ambos se ha indicado explícitamente en la Ecuación
12.8. Por otro lado, los eigenvec- tors están fijados por la estructura de covarianza de toda la serie
y no cambian con el tiempo. La figura 12.2 compara la serie original (negra) y las reconstrucciones
usando el primer componente principal u1(t) solamente (gris) para las anomalías de (a) Ítaca y (b)
Canandaigua. Las discrepancias son pequeñas porque R21 96,8%. Las diferencias residuales serían
capturadas por u2. Las dos series grises son exactamente proporcionales entre sí, ya que cada una
de ellas es un múltiplo escalar de la misma serie temporal del primer principio -componente pal-.
Desde Var(u1) l1 254,76, las desviaciones de la serie reconstruida son (0.848)2 254.76 183.2 y
(0.530)2 254.76 71.6○F2, respectivamente, que están cerca, pero son más pequeños que los
elementos diagonales correspondientes de la matriz de covarianza original (Ecuación 10.56). La
mayor variación para las temperaturas de Ítaca también es visualmente evidente en la Figura 12.2.
Usando la Ecuación 12.7, las correlaciones entre la primera serie de componentes principales u1(t)
y las variaciones de temperatura originales son 0.848(254.76/185.47)1/2 0.994 para Ítaca y
0.530(254.76/77.58)1/2 0.960 para Canandaigua. e

FIGURA 12.2 Series temporales de enero de 1987 (a) Ítaca y (b) Anomalías de temperatura mínima
de Canandaigua (negro), y su reconstrucción utilizando sólo el primer componente principal (gris),
mediante la ecuación de síntesis 12.8.

12.1.2. PCA basado en la Matriz de Covarianza versus la Matriz de Correlación

La PCA se puede realizar tan fácilmente en la matriz de correlación[R] como en la matriz de


covarianza[S]. La matriz de correlación es la matriz de varianza-covarianza del vector de las
variables estandarizadas z (Ecuación 10.32). El vector de las variables estandarizadas z está
relacionado con los vectores de las variables originales x y sus contrapartes centradas x0 de
acuerdo con la transformación de la escala (Ecuación 10.34). Por lo tanto, la PCA en la matriz de
correlación equivale al análisis de la estructura de varianza conjunta de las variables
estandarizadas zk, tal como se calcula usando la Ecuación 10.34 o (en forma escalar) la Ecuación
3.23.

La diferencia entre un PCA realizado usando las matrices de varianza-covarianza y correlación será
de énfasis. Dado que la ACP busca encontrar variables que maximicen sucesivamente la
proporción de la varianza total (Sk sk sk,k) representada, el análisis de la matriz de covarianza[S]
da como resultado componentes principales que enfatizan que los xk0s tienen las mayores
varianzas. Otras cosas iguales, la tendencia será que los primeros vectores propios se alineen cerca
de las direcciones de las variables que tengan las mayores var- iancias. En el Ejemplo 12.1, el
primer vector propio apunta más hacia el eje de temperatura mínima de Ítaca porque la variación
de las temperaturas mínimas de Ítaca es mayor que la variación de las temperaturas mínimas de
Canandaigua. Por el contrario, la PCA aplicada a la matriz de correlación[R] pondera todas las
variables estandarizadas zk por igual, ya que todas tienen la misma varianza (unitaria).

Si la PCA se realiza utilizando la matriz de correlación, la fórmula de análisis, las ecuaciones 12.1 y
12.2, pertenecerán a las variables estandarizadas, zk y z, respectivamente. De manera similar, las
fórmulas de síntesis, las Ecuaciones 12.5 y 12.6, pertenecerán a z y zk en lugar de a x0 y xk0. En
este caso, los datos originales x pueden ser recuperados del resultado de la fórmula de síntesis
invirtiendo la estandarización dada por las Ecuaciones 10.33 y 10.34; es decir,

x ¼ ½ D]z þ x : ð12:9Þ

Aunque z y x0 pueden obtenerse fácilmente entre sí usando la Ecuación 10.34, los pares de auto-
vector propio de[R] y[S] no tienen relaciones simples entre sí. En general, no es posible calcular los
componentes principales de uno conociendo sólo los componentes principales del otro. Este
hecho implica que estas dos alternativas de PCA no producen información equivalente y que se
debe hacer una elección inteligente de una sobre la otra para una aplicación dada. Si un objetivo
importante del análisis es identificar o aislar las variaciones más fuertes en un conjunto de datos,
la mejor alternativa suele ser la PCA utilizando la matriz de covarianza, aunque la elección
dependerá del juicio del analista y del propósito del estudio. Por ejemplo, al analizar los números
reticulados de ciclones extra tropicales, Overland y Preisendorfer (1982) descubrieron que la PCA
en su matriz de covarianza era mejor identificada en las regiones con la mayor variabilidad en los
números de ciclones, y que la PCA basada en la correlación era más efectiva para localizar las vías
primarias de tormenta.

Sin embargo, si el análisis es de variables diferentes -variables no medidas en las mismas unidades-
casi siempre será preferible calcular la PCA usando la matriz de correlación. La medición a
diferencia de las unidades físicas produce escalamientos relativos arbitrarios de las variables, lo
que resulta en magnitudes relativas arbitrarias de las varianzas de estas variables. Para tomar un
ejemplo simple, la varianza de un conjunto de temperaturas medidas en ○F será (1.8)2 3.24 veces
mayor que la varianza de las mismas temperaturas expresada en ○C. Si el PCA se ha hecho usando
la matriz de correlación, la fórmula de análisis, Ecuación 12.2, pertenece al vector z en lugar de x0;
y la síntesis en la Ecuación 12.5 producirá las variables estandarizadas zk (o aproximaciones a ellas
si se usa la Ecuación 12.6 para la reconstrucción). Las sumas en los denominadores de la Ecuación
12.4 serán iguales al número de variables estandarizadas, ya que cada una tiene varianza unitaria.

Ejemplo 12.2. PCA basada en la correlación frente a la covarianza para variables de escala
arbitraria

La importancia de basar un PCA en la matriz de correlación cuando las variables que se analizan no
se miden en escalas comparables se ilustra en la Tabla 12.1. Esta tabla resume los PCAs de los
datos de enero de 1987 en la Tabla A.1 en (a) no estandarizados (matriz de covarianza) y (b)
estandarizados (correlación).
TABLA 12.1 Comparación de la PCA calculada usando (a) la matriz de covarianza, y (b) la matriz de
correlación, de los datos de la Tabla A.1. Se muestran las varianzas de muestra de cada variable,
así como los seis vectores propios dispuestos en orden decreciente de sus valores propios lm. El
porcentaje acumulativo de la varianza representada se calcula de acuerdo con la Ecuación 12.4.
Las variaciones mucho menores de las variables de precipitación en (a) es un artefacto de las
unidades de medida, pero resulta en que la precipitación no es importante en los primeros cuatro
componentes principales calculados a partir de la matriz de covarianza, que en conjunto
representan el 99,9% de la varianza total del conjunto de datos.

El cálculo de los componentes principales de la matriz de correlación asegura que las variaciones
de las variables de temperatura y precipitación se ponderen por igual.

(a) Resultados de la covarianza:

matriz). Se muestran las varianzas de muestra de las variables, así como los seis vectores propios,
los seis valores propios y los porcentajes acumulativos de varianza contabilizados por los
componentes principales. Las (6 6) matrices en la parte superior derecha de las partes (a) y (b) de
esta tabla constituyen las matrices [E] cuyas columnas son los vectores propios.

Debido a las diferentes magnitudes de las variaciones de los datos en relación con sus unidades de
medida, las variaciones de los datos de precipitación no estandarizados son mínimas en
comparación con las variaciones de las variables de temperatura. Esto es puramente un artefacto
de la unidad de medida de la precipitación (pulgadas) que es relativamente grande en
comparación con el rango de variación de los datos (alrededor de 1 pulgada), y la unidad de
medida de la temperatura (○F) que es relativamente pequeña en comparación con el rango de
variación de los datos (alrededor de 40○F). Si las unidades de medida hubieran sido milímetros y
○C, respectivamente, las diferencias en las variaciones habrían sido mucho menores. Si la
precipitación se hubiera medido en micrometros, las variaciones de las variables de precipitación
dominarían las variaciones de las variables de temperatura.

Debido a que las varianzas de las variables de temperatura son mucho mayores que las varianzas
de las variables de precipitación, la PCA calculada a partir de la matriz de covarianza está
dominada por las temperaturas. Los elementos propios del vector propio correspondientes a las
dos variables de precipitación son insignificantemente pequeños en los primeros cuatro vectores
propios, por lo que estas variables hacen contribuciones insignificantes a los primeros cuatro
componentes principales. Sin embargo, estos cuatro primeros componentes principales describen
colectivamente el 99,9% de la varianza conjunta. Una aplicación de la fórmula de síntesis truncada
(Ecuación 12.6) con el vector propio M 4 principal resultaría en datos de precipitación
reconstruidos muy cercanos a sus valores promedio. Es decir, esencialmente ninguna de las
variaciones en la precipitación estaría representada.

Dado que la matriz de correlación es la matriz de covarianza para las variables de escala
comparable zk, cada una tiene la misma varianza. A diferencia del análisis en la matriz de
covarianza, este PCA no ignora las variables de precipitación cuando se analiza la matriz de
correlación. Aquí el primer (y más importante) componente principal representa principalmente
las variables de temperatura estrechamente interrelacionadas, como puede verse en los
elementos relativamente mayores de e1 para las cuatro variables de temperatura. Sin embargo, el
segundo componente principal, que representa el 33,1% de la varianza total en el conjunto de
datos a escala, representa principalmente las variaciones de precipitación. Las variaciones de
precipitación no se perderían en la representación truncada de los datos, incluyendo al menos los
primeros vectores propios de M 2, sino que se reconstruirían casi por completo. e

12.1.3. La terminología variada de la PCA

El tema del ACC se considera a veces difícil y confuso, pero gran parte de esta confusión se deriva
de la proliferación de la terminología asociada, especialmente en los escritos de los analistas de
datos atmosféricos. La Tabla 12.2 organiza los más comunes de ellos de una manera que puede ser
útil para descifrar la literatura de PCA.

Lorenz (1956) introdujo el término función ortogonal empírica (EOF) en la literatura como otro
nombre para los vectores propios de un PCA. Los términos modos de variación y vectores de
patrones también son utilizados principalmente por los analistas de datos geofísicos,
especialmente en relación con el análisis de campos, que se describirán en la Sección 12.2. Los
términos restantes para los vectores propios se derivan de la interceptación geométrica de los
vectores propios como vectores base, o ejes, en el espacio K-dimensional de los datos. Estos
términos se utilizan en la literatura de una gama más amplia de disciplinas.

El nombre más común para los elementos individuales de los vectores propios en la literatura
estadística es

la carga, que connota el peso de la variable kth xk que es soportada por el propio vector mth a
través de

PARTE III Estadísticas multivariadas

el elemento individual ek,m. El término coeficiente también es habitual en la literatura estadística.


El término coeficiente de patrón se utiliza principalmente en relación con el PCA de los datos de
campo, donde los patrones espaciales exhibidos por los elementos del propio vector pueden ser
iluminadores. Pesas ortogonales empíricas es un término que a veces se utiliza para ser coherente
con la denominación de los vectores propios como EOFs.

Las nuevas variables definidas con respecto a los vectores propios se denominan casi
universalmente componentes prin- cipales. Sin embargo, a veces se conocen como variables
ortogonales empíricas cuando los autovectores se denominan EOF. Hay más variación en la
terminología para los valores individuales de los componentes principales ui,m correspondientes a
vectores de datos particulares xi0. En la literatura estadística, estos se denominan más
comúnmente "puntuaciones", que tienen una base histórica en el uso temprano y generalizado de
la PCA en la psicometría. En aplicaciones atmosféricas, los principales elementos componentes se
denominan a menudo "amplitudes" por analogía con las amplitudes de una serie de Fourier, que
multiplican las funciones (teóricas ortogonales) del seno y del coseno. Del mismo modo, el
término coeficiente de expansión también se utiliza para este significado. A veces el coeficiente de
expansión se acorta simplemente a "coeficiente", aunque esto puede ser la fuente de cierta
confusión, ya que es más común que el término coeficiente denote un elemento de vector propio.

12.1.4. Convenciones de escalamiento en PCA

Otra contribución a la confusión en la literatura de PCA es la existencia de convenciones


alternativas de escala para los autovectores. La presentación en este capítulo asume que los
vectores propios están escalados a la longitud de la unidad; es decir, ||em||| 1. Recuerde que los
vectores de cualquier longitud satisfarán la Ecuación 10.46 si apuntan en la dirección apropiada, y
como consecuencia es común que la salida de los cálculos del propio vector se exprese con esta
escala.

Sin embargo, a veces es útil expresar y manipular los resultados de la PCA utilizando escalas
alternativas de los autovectores. Cuando esto se hace, cada elemento de un propio vector se
multiplica por el mismo valor, por lo que sus magnitudes y relaciones relativas permanecen
inalteradas. Por lo tanto, los resultados cualitativos de un análisis exploratorio basado en PCA no
dependen de la escala seleccionada, pero si se van a comparar diferentes análisis relacionados, es
importante conocer la convención de escala utilizada en cada uno de ellos. La reescalada de las
longitudes de los vectores propios cambia las magnitudes de los componentes principales por el
mismo factor. Es decir, multiplicar el vector propio por una constante requiere que las
puntuaciones del com-ponente principal se multipliquen por la misma constante para que las
fórmulas de análisis que definen los componentes principales (ecuaciones 12.1 y 12.2) sigan
siendo válidas. Los valores esperados de las puntuaciones del componente principal para los datos
centrados x0 son cero, y multiplicar los componentes principales por una constante producirá
componentes principales reescalonados cuya media también es cero. Sin embargo, sus varianzas

cambiará por un factor del cuadrado de la constante de escala.

La Tabla 12.3 resume los efectos de tres escalas comunes de los vectores propios sobre las
propiedades de los componentes principales. La primera fila indica sus propiedades bajo la
convención de escalado ||1 adoptado en esta presentación. Bajo esta escala, el valor esperado
(promedio) de cada uno de los componentes principales es cero (porque son las anomalías de
datos x0 las que se han proyectado en los vectores propios), y la varianza de cada uno es igual al
respectivo valor propio, lm. Este resultado es simplemente una expresión de la diagonalización de
la matriz de varianza-covarianza (Ecuación 10.54) producida por la adopción del sistema de
coordenadas geométricas rígidamente giradas definidas por los vectores propios. Cuando se
escalan en esta manera, la correlación entre un componente principal um y una variable xk es
dada por la Ecuación 12.7. La correlación entre um y la variable estandarizada zk viene dada por el
producto del elemento vector propio y la raíz cuadrada del valor propio, ya que la desviación
estándar de una variable estandarizada es una.
Los vectores propios a veces se reescalan multiplicando cada elemento por la raíz cuadrada del
correspondiente valor propio. Este reescalamiento produce vectores de diferentes longitudes,
||em|| (lm)1/2, pero que apuntan exactamente en las mismas direcciones que los vectores
originales de longitud unitaria. La consistencia en la fórmula de análisis implica que los
componentes principales también son cambiados por el factor (lm)1/2, con el resultado de que la
varianza de cada um aumenta a lm2. Sin embargo, una de las principales ventajas de esta
reescalada es que los elementos propios del vector son más directamente interpretables en
términos de la relación entre la

componentes principales y los datos originales. Bajo esta nueva escala, cada elemento ek,m del
eigenvector es numéricamente igual a la ru,z de la correlación entre el componente principal mth
um y la variable normalizada kth zk.

La última escala mostrada en la Tabla 12.3, que resulta en ||em|| (lm)-1/2, se utiliza menos
comúnmente. Esta escala se logra dividiendo cada elemento de los vectores propios de longitud
unitaria originales por la raíz cuadrada del valor propio correspondiente. La expresión resultante
para las correlaciones entre la

Escala del propio vector E[um] Var[um] Corr[um, xk] Corr[um, zk]

Los componentes principales y los datos originales son más incómodos, pero esta escala tiene la
ventaja de que todos los componentes principales tienen la misma varianza unitaria. Esta
propiedad puede ser útil en la detección de valores atípicos.

12.1.5. Conexiones a la distribución normal multivariada

La distribución de los datos x, cuya matriz de covarianza de la muestra[S] se utiliza para calcular un
PCA, no necesita ser multivariante normal para que el PCA sea válido. Independientemente de la
distribución conjunta de x, los componentes principales resultantes um serán únicamente aquellas
combinaciones lineales no correlacionadas que maximicen sucesivamente las fracciones
representadas de las varianzas en la diagonal de[S]. Sin embargo, si en

adición x NK(mx,[Sx]), entonces como combinaciones lineales de las x0s multinormales, la


distribución conjunta de los componentes principales también tendrá una distribución normal
multivariada,

u ~ NM.½ E]T m, ½L]Σ : ð12:10Þ

La ecuación 12.10 es válida tanto cuando la matriz[E] contiene el número completo M K de los
vectores propios como sus columnas o un número menor 1 M < K. Si los componentes principales
se calculan a partir de los datos centrados x0, entonces mu mx0 0.

Si la distribución conjunta de x es multivariada normal, entonces la transformación de la Ecuación


12.2 es una rotación rígida a los ejes principales de las elipses de probabilidad de la distribución de
x, dando lugar a las no correlacionadas y mutuamente independientes um. Con este trasfondo no
es difícil entender las ecuaciones 11.5 y 11.31, que dicen que la distribución de las distancias de
Mahalanobis a la media de una distribución normal multivariada sigue la distribución w2K. Una
forma de ver el w2K es como la distri- bución de las variables gaussianas estándar independientes
cuadradas de K z2k (ver Sección 4.4.3). Cálculo de la

La distancia de Mahalanobis (o, equivalente, la transformación de Mahalanobis, Ecuación 11.18)


produce valores no correlacionados con una media cero y una varianza unitaria, y una distancia
(cuadrada) que los involucra es entonces simplemente la suma de los valores cuadrados.

Se señaló en la Sección 11.3 que una manera efectiva de buscar valores atípicos multivariados al
evaluar la normalidad multivariada es examinar la distribución de las combinaciones lineales
formadas usando vectores propios asociados con los valores propios más pequeños de[S]
(Ecuación 11.15). Estas combinaciones lineales son, por supuesto, los últimos componentes
principales. La Figura 12.3 ilustra por qué esta idea funciona, en el caso de la

FIGURA 12.3 Identificación de un valor atípico multivariado examinando la des- tribución del
último componente principal. La proyección del valor atípico individual sobre el primer vector
propio produce un valor bastante ordinario para su primer componente principal u1, pero su
proyección sobre el segundo vector propio produce un valor atípico promi- nente en la
distribución de los valores u2.

visualizó la situación de K2. La dispersión de puntos muestra un par fuertemente correlacionado


de variables gaussianas, con un valor atípico multivariado. El valor atípico no es especialmente
inusual dentro de ninguna de las dos distribuciones univariadas, pero se destaca en dos
dimensiones porque es inconsistente con la fuerte relación positiva entre los puntos restantes.

de esta manera, la correlación entre un componente principal um y una variable xk es dada por la
Ecuación 12.7. La correlación entre um y la variable estandarizada zk viene dada por el producto
del elemento vector propio y la raíz cuadrada del valor propio, ya que la desviación estándar de
una variable estandarizada es una.

Los vectores propios a veces se reescalan multiplicando cada elemento por la raíz cuadrada del
correspondiente valor propio. Este reescalamiento produce vectores de diferentes longitudes,
||em|| (lm)1/2, pero que apuntan exactamente en las mismas direcciones que los vectores
originales de longitud unitaria. La consistencia en la fórmula de análisis implica que los
componentes principales también son cambiados por el factor (lm)1/2, con el resultado de que la
varianza de cada um aumenta a lm2. Sin embargo, una de las principales ventajas de esta
reescalada es que los elementos propios del vector son más directamente interpretables en
términos de la relación entre la

componentes principales y los datos originales. Bajo esta nueva escala, cada elemento ek,m del
eigenvector es numéricamente igual a la ru,z de la correlación entre el componente principal mth
um y la variable normalizada kth zk.

La última escala mostrada en la Tabla 12.3, que resulta en ||em|| (lm)-1/2, se utiliza menos
comúnmente. Esta escala se logra dividiendo cada elemento de los vectores propios de longitud
unitaria originales por la raíz cuadrada del valor propio correspondiente. La expresión resultante
para las correlaciones entre la
Escala del propio vector E[um] Var[um] Corr[um, xk] Corr[um, zk]

Los componentes principales y los datos originales son más incómodos, pero esta escala tiene la
ventaja de que todos los componentes principales tienen la misma varianza unitaria. Esta
propiedad puede ser útil en la detección de valores atípicos.

12.1.5. Conexiones a la distribución normal multivariada

La distribución de los datos x, cuya matriz de covarianza de la muestra[S] se utiliza para calcular un
PCA, no necesita ser multivariante normal para que el PCA sea válido. Independientemente de la
distribución conjunta de x, los componentes principales resultantes um serán únicamente aquellas
combinaciones lineales no correlacionadas que maximicen sucesivamente las fracciones
representadas de las varianzas en la diagonal de[S]. Sin embargo, si en

adición x NK(mx,[Sx]), entonces como combinaciones lineales de las x0s multinormales, la


distribución conjunta de los componentes principales también tendrá una distribución normal
multivariada,

u ~ NM.½ E]T m, ½L]Σ : ð12:10Þ

La ecuación 12.10 es válida tanto cuando la matriz[E] contiene el número completo M K de los
vectores propios como sus columnas o un número menor 1 M < K. Si los componentes principales
se calculan a partir de los datos centrados x0, entonces mu mx0 0.

Si la distribución conjunta de x es multivariada normal, entonces la transformación de la Ecuación


12.2 es una

rotación rígida a los ejes principales de las elipses de probabilidad de la distribución de x, dando
lugar a las no correlacionadas y mutuamente independientes um. Con este trasfondo no es difícil
entender las ecuaciones 11.5 y 11.31, que dicen que la distribución de las distancias de
Mahalanobis a la media de una distribución normal multivariada sigue la distribución w2K. Una
forma de ver el w2K es como la distri- bución de las variables gaussianas estándar independientes
cuadradas de K z2k (ver Sección 4.4.3). Cálculo de la

La distancia de Mahalanobis (o, equivalente, la transformación de Mahalanobis, Ecuación 11.18)


produce valores no correlacionados con una media cero y una varianza unitaria, y una distancia
(cuadrada) que los involucra es entonces simplemente la suma de los valores cuadrados.

Se señaló en la Sección 11.3 que una manera efectiva de buscar valores atípicos multivariados al
evaluar la normalidad multivariada es examinar la distribución de las combinaciones lineales
formadas usando vectores propios asociados con los valores propios más pequeños de[S]
(Ecuación 11.15). Estas combinaciones lineales son, por supuesto, los últimos componentes
principales. La Figura 12.3 ilustra por qué esta idea funciona, en el caso de la

FIGURA 12.3 Identificación de un valor atípico multivariado examinando la des- tribución del
último componente principal. La proyección del valor atípico individual sobre el primer vector
propio produce un valor bastante ordinario para su primer componente principal u1, pero su
proyección sobre el segundo vector propio produce un valor atípico promi- nente en la
distribución de los valores u2.

visualizó la situación de K2. La dispersión de puntos muestra un par fuertemente correlacionado


de variables gaussianas, con un valor atípico multivariado. El valor atípico no es especialmente
inusual dentro de ninguna de las dos distribuciones univariadas, pero se destaca en dos
dimensiones porque es inconsistente con la fuerte relación positiva entre los puntos restantes.

Los análisis de componentes principales se estructuran con mayor frecuencia como se acaba de
describir, calculando los valores propios y los vectores propios a partir de la matriz de covarianza o
correlación (K K) de la matriz de datos (n K)[X]. Sin embargo, este enfoque habitual, conocido
como PCA en modo S, no es la única posibilidad. Un alter-nativo, conocido como PCA en modo T,
se basa en los valores propios y vectores propios de la matriz de covarianza o correlación (n n) de
la matriz de datos[X]T. Así, en un PCA en modo T, los elementos propios del vector corresponden a
las muestras de datos individuales (que a menudo forman una serie temporal), y los componentes
principales u se relacionan con las variables K (que pueden ser puntos espaciales), de modo que
los dos enfoques muestran diferentes aspectos de un conjunto de datos de manera
complementaria. Compagnucci y Richman (2008) comparan estos dos enfoques para representar
los campos de circulación atmosférica. Los valores propios y los vectores propios de estos dos
enfoques de la PCA están estrechamente relacionados, como se explicará en la Sección 12.6.1.
Independientemente de si el PCA se calculará como modo S o T, el número de valores propios
distintos de cero es el menor de K o n, y estos valores propios min(K, n) son los mismos para un
PCA en modo S o T para un conjunto de datos determinado.

FIGURA 12.4 Despliegues espaciales de los primeros cuatro vectores propios de las alturas
mensuales de invierno cuadriculadas, es decir, 500 mb para el hemisferio norte, 1962-1977. Este
PCA se calculó utilizando la matriz de correlación de los datos de altura, y se escaló de manera que

||¼ DIFUNDE LA PALABRA- Los valores porcentuales debajo y a la derecha de cada mapa son la
proporción de la varianza total × 100% (Ecuación 12.4). Los patrones se asemejan a los patrones
de teleconectividad para los mismos datos (Figura 3.29). De Wallace y Gutzler (1981).

12.2.2. PCA simultáneo para múltiples campos

También es posible aplicar PCA a campos valorados por vectores, que son campos con datos para
más de una variable en cada ubicación o punto de cuadrícula. Este tipo de análisis es equivalente a
un PCA simultáneo de dos o más campos. Si hay L tales variables en cada uno de los puntos de la
cuadrícula K, entonces la dimensionalidad del vector de datos x viene dada por el producto KL. Los
primeros elementos K de x son observaciones de la primera variable, los segundos elementos K
son observaciones de la segunda variable, y los últimos elementos K de x serán observaciones de
la variable Lth. Dado que las diferentes variables L generalmente se medirán en unidades distintas,
casi siempre será apropiado basar la PCA de tales datos en la matriz de correlación. La dimensión
de[R], y de la matriz de vectores propios[E], será entonces (KL × KL).
PARTE III Estadísticas multivariadas

La aplicación de PCA a este tipo de matriz de correlación producirá componentes principales que
maximizarán sucesivamente la varianza conjunta de las variables estandarizadas L de manera que
se consideren las correlaciones tanto entre sí como entre ellas en las localizaciones K. Este
procedimiento conjunto de PCA se denomina a veces análisis combinado de PCA, (CPCA) o EOF
extendido (EEOF).

La figura 12.5 ilustra la estructura de la matriz de correlación (izquierda) y la matriz de vectores


propios (derecha) para la PCA de los datos de campo vectorial. Las primeras filas K de[R] contienen
las correlaciones entre la primera de las variables L en estos lugares y todas las variables KL. Las
filas K 1 a 2K contienen de manera similar las correlaciones entre la segunda de las variables L y
todas las variables KL, y así sucesivamente. Otra forma de ver la matriz de correlación es como una
colección de submatrices L2, cada una dimensionada (K K), que contienen las correlaciones entre
los conjuntos de las variables L conjuntamente en las ubicaciones de K. Las submatrices situadas
en la diagonal de[R] contienen, por tanto, matrices de correlación ordinarias para cada una de las
variables L. Las submatrices fuera de diagonal contienen coeficientes de correlación, pero no son
simétricas y no contendrán 10s en sus diagonales. Sin embargo, la simetría general de[R] implica
que[Ri,j][Rj,i]T. Del mismo modo, cada columna de[E] consta de segmentos L, y cada uno de estos
segmentos contiene los elementos K correspondientes a cada una de las ubicaciones individuales.

Los elementos propios del vector resultantes de un PCA de un campo vectorial pueden visualizarse
gráficamente de forma similar a los mapas dibujados para los campos escalares ordinarios. Aquí,
cada uno de los grupos L de los elementos del K eigenvector se superpone en el mismo mapa base
o se traza en mapas separados. La figura 12.6, de Kutzbach (1967), ilustra este proceso para el
caso de los valores de datos L 2 en cada ubicación. Las dos variables son la presión superficial
promedio de enero y la temperatura promedio de enero, medidas en localidades de K 23 en
Norteamérica. Las líneas pesadas son un análisis de los (primeros 23) elementos del primer vector
propio que pertenecen a los datos de presión, y las líneas discontinuas con sombreado muestran
un análisis analógico de la temperatura (segundos 23) elementos del mismo vector propio. El
componente principal correspondiente representa el 28,6% de la varianza conjunta de las
variables estandarizadas de KL ¼ 23 × 2 ¼ 46.

FIGURA 12.5 Ilustración de las estructuras de la matriz de correlación y de la matriz de vectores


propios para PCA de datos de campo vectorial. Los datos básicos consisten en múltiples
observaciones de variables L en cada una de las ubicaciones de K, por lo que las dimensiones de[R]
y[E] son (KL × KL). La matriz de correlación consiste en submatrices (K × K) que contienen las
correlaciones entre los conjuntos de las variables L conjuntamente en los puntos K. Las
submatrices situadas en la diagonal de[R] son las matrices de correlación ordinarias para cada una
de las variables L. Las submatrices fuera de diagonal contienen coeficientes de correlación, pero
no son simétricas y no contendrán 10s en las diagonales. Cada columna propia del vector propio
de[E] consta de forma similar de segmentos L, cada uno de los cuales contiene elementos K que
pertenecen a las ubicaciones individuales.
FIGURA 12.6 Representación espacial de los elementos del primer vector propio de la matriz de
correlación (46 × 46) de las presiones y temperaturas medias del nivel del mar de enero en 23
lugares de América del Norte (puntos). El primer componente principal de esta matriz de
correlación representa el 28,6% de la varianza conjunta (estandarizada) de las presiones y
temperaturas. Las líneas pesadas son un análisis manual de los elementos de presión a nivel del
mar del primer vector propio, y las líneas discontinuas con sombreado son un análisis manual de
los elementos de temperatura del mismo vector propio. Las variaciones conjuntas de presión y
temperatura representadas son físicamente consistentes con la advección de la temperatura en
respuesta a las anomalías de presión. De Kutzbach (1967).

Además de condensar eficazmente mucha información, los patrones mostrados en la Figura 12.6
son consistentes con los procesos físicos atmosféricos subyacentes. En particular, los anómalos de
temperatura son consistentes con los patrones de advección térmica implicados por las anomalías
de presión. Si el primer componente principal u1 es positivo para un mes de enero en particular,
los contornos sólidos implican anomalías de presión positiva en el norte y el este, con presiones
inferiores a la media en el suroeste. En la costa oeste, este patrón de presión resultaría en vientos
superficiales más débiles que el promedio del oeste y más fuertes que el promedio de los vientos
superficiales del norte. La resultante advección de aire frío desde el norte produciría temperaturas
más frías, y esta advección fría se refleja en las anomalías de temperatura negativas en esta
región. De manera similar, el patrón de anomalías de presión en el sureste mejoraría el flujo de
aire caliente hacia el sur desde el Golfo de México, resultando en anomalías positivas de
temperatura como se muestra. Por el contrario, si u1 es negativo, la inversión de los signos de los
elementos vectores propios de la presión implica un aumento de las anomalías de los vientos del
oeste en el oeste y del norte en el sureste, que son consistentes con las anomalías positivas y
negativas de la temperatura, respectivamente. Estas anomalías de temperatura se indican por los
contornos discontinuos y el sombreado en la Figura 12.6, cuando sus signos también se invierten.

La Figura 12.6 es un ejemplo simple que involucra variables familiares. Su interpretación es fácil y
obvia si estamos familiarizados con las relaciones climatológicas de los patrones de presión y
temperatura a lo largo del tiempo.

PARTE III Estadísticas multivariadas

Norteamérica en invierno. Sin embargo, la consistencia física exhibida en este ejemplo (donde la
respuesta "correcta" se conoce de antemano) es indicativa del poder de este tipo de PCA para
descubrir relaciones conjuntas significativas entre los campos atmosféricos (y otros) en un entorno
exploratorio, donde las pistas sobre mecanismos físicos subyacentes posiblemente desconocidos
pueden estar ocultas en las complejas relaciones entre varios campos.

12.2.3. Consideraciones de escalamiento e igualación de la varianza


Surge una complicación en la PCA de campos en los que la distribución geográfica de las
ubicaciones de los datos no es uniforme (Baldwin et al., 2009; Karl et al., 1982; North et al., 1982).
El problema es que el PCA no tiene información sobre las distribuciones espaciales de las
ubicaciones, o incluso sabe que los elementos del vector de datos x pueden pertenecer a
ubicaciones diferentes, pero sin embargo encuentra combinaciones lineales que maximizan la
varianza conjunta.

Las regiones que están sobrerrepresentadas en x, en el sentido de que las ubicaciones de los datos
están concentradas en esa región, tenderán a dominar el análisis, mientras que las regiones con
datos dispersos estarán subponderadas. En contraste, el objetivo de la PCA en los campos
geofísicos es generalmente aproximar los EOFs intrínsecos (Baldwin et al., 2009; North et al., 1982;
Stephenson, 1997), que son propiedades de los campos continuos subyacentes reales y son
independientes de cualquier patrón de muestreo espacial.

Los datos disponibles en una cuadrícula regular de latitud y longitud son una causa común de este
problema. En este caso, el número de puntos de cuadrícula por unidad de área aumenta con el
aumento de la latitud porque los meridianos están al borde de los polos, de modo que un PCA
para este tipo de datos de cuadrícula enfatizará las características de latitud alta y minimizará las
características de latitud baja. Un enfoque para igualar geográficamente las varianzas es
multiplicar los datos por √cosf, donde f es la latitud (North et al., 1982). El mismo efecto puede ser

multiplicando cada elemento de la matriz de covarianza o correlación que se está analizando por

√cosfk √cosfℓ, donde k y ℓ son los índices de los dos emplazamientos (o combinaciones de
emplazamiento/variable) correspondientes a ese elemento de la matriz. Baldwin y otros (2009)
formulan este proceso de manera más general mediante la definición de una matriz de
ponderación que puede representar de manera concisa los efectos de diferentes matrices de
muestreo espacial.

Por supuesto, estas reescaladas deben ser compensadas cuando se recuperan los datos originales
de los componentes principales, como en las Ecuaciones 12.5 y 12.6. Un procedimiento alternativo
es interpolar datos distribuidos irregularmente o no uniformemente en una cuadrícula de área
igual (Araneo y Compag- nucci, 2004; Karl et al., 1982). Este último enfoque también es aplicable
cuando los datos se refieren a una red con espaciamiento irreflexivo, como las estaciones de
observación climatológica.

Un problema un poco más complicado surge cuando se analizan simultáneamente múltiples


campos con diferentes resoluciones espaciales o extensiones espaciales con PCA. Aquí se necesita
una nueva escala adicional para igualar las sumas de las desviaciones en cada campo. De lo
contrario, los campos con más puntos de cuadrícula dominarán el PCA, incluso si todos los campos
pertenecen a la misma área geográfica.

12.2.4. Efectos de tamaño de dominio: Patrones Buell

Además de proporcionar una compresión de datos eficiente, los resultados de un PCA a veces se
interpretan en términos de procesos físicos subyacentes. Por ejemplo, los patrones de vectores
propios espaciales de la Figura 12.4 se han interpretado como modos de variabilidad atmosférica
teleconectados, y el vector propio reproducido en la Figura 12.6 refleja la conexión entre los
campos de presión y temperatura que se expresa como advección térmica. La posibilidad de que
puedan resultar interpretaciones informativas o al menos sugerentes puede ser una fuerte
motivación para calcular un PCA.

Un problema que puede surgir al hacer tales interpretaciones de un PCA para los datos de campo
surge cuando la escala espacial de las variaciones de los datos es comparable o mayor que el
dominio espacial en el que se está trabajando.

Capítulo

12 Análisis de componentes principales (EOF)

analizado. En tales casos, las variaciones de espacio/tiempo en los datos siguen siendo
representadas eficientemente por el PCA, y el PCA sigue siendo un enfoque válido para la
compresión de datos. Pero los patrones de vectores propios resultantes adoptan formas
características que son casi independientes de las variaciones espaciales subyacentes en los datos.
Estas formas características se denominan patrones Buell, en honor al autor del documento que
señaló por primera vez su existencia (Buell, 1979).

Considere, como un ejemplo artificial pero simple, una matriz de 5 5 5 de K 25 puntos que
representan un dominio espacial cuadrado. Supongamos que las correlaciones entre los valores de
los datos observados en estos puntos son sólo funciones de su separación espacial d, de acuerdo
con r(d) exp (- d/2). Las separaciones de puntos adyacentes en las direcciones horizontales y
verticales son d 1, y por lo tanto exhibirían correlación r(1) 0.61; puntos adyacentes
diagonalmente exhibirían correlación r(√2/2) 0.49; y así sucesivamente. Esta función de
correlación se muestra en la figura 12.7a. Es inalterable en todo el dominio, y no produce
características espacialmente distintas, o patrones preferidos de variabilidad. Su escala espacial es
comparable al tamaño del dominio, que es de 4 4 unidades de distancia vertical y
horizontalmente, lo que corresponde a r(4) 0,14.

Aunque no hay regiones preferidas de variabilidad dentro del dominio 5 5, los vectores propios de
la matriz de correlación[R] resultante (25 25) parecen indicar que las hay. El primero de estos
autovectores, que representa el 34,3% de la varianza, se muestra en la Figura 12.7b. Parece indicar
generalmente variaciones en fase en todo el dominio, pero con mayor amplitud (mayores
magnitudes de variabilidad) cerca del centro. Esta primera característica del patrón de Buell es un
artefacto de las matemáticas detrás del cálculo del vector propio si todas las correlaciones son
positivas, y no merece la pena
FIGURA 12.7 Ejemplo artificial de patrones Buell. Los datos de una cuadrícula de 5 × 5 cuadrados
con septensiones espaciales verticales y horizontales muestran correlaciones de acuerdo con la
función de sus separaciones espaciales mostrada en el punto (a). Los paneles (b)-(d) muestran los
tres primeros vectores propios de la matriz de correlación resultante, presentados en la misma
disposición espacial de 5 × 5. La única joroba central resultante (b), y el par de patrones dipolares
ortogonales (c) y (d), son artefactos característicos del tamaño del dominio que son comparables o
menores que la escala espacial de los datos subyacentes.

PARTE III Estadísticas multivariadas

interpretación más allá de su sugerencia de que la escala de variación de los datos es comparable
o mayor que el tamaño del dominio espacial.

Los patrones dipolares de las figuras 12.7c y 12.7d son también patrones característicos de Buell y
son el resultado de la limitación de la ortogonalidad mutua entre los vectores propios. No reflejan
oscilaciones dipolares ni subibajas en los datos subyacentes, cuya estructura de correlación (en
virtud de la forma en que se ha construido este ejemplo artificial) sería homogénea e isotrópica.
Aquí los patrones están orientados diagonalmente porque las esquinas opuestas de este dominio
cuadrado están más separadas que los lados opuestos, pero los pares de dipolos característicos en
el segundo y tercer vector propio podrían haber estado orientados vertical y horizontalmente en
un dominio de forma diferente. Nótese que los segundos y terceros eigenvec- tores representan
proporciones iguales de la varianza y, por lo tanto, están orientados arbitrariamente dentro del
espacio bidimensional que abarcan (véase la Sección 12.4). A veces se ven patrones Buell
adicionales en los vectores propios subsiguientes, el siguiente de los cuales típicamente sugiere
patrones tripolares de la forma - þ - o þ - þ.

12.3. TRUNCAMIENTO DE LOS COMPONENTES PRINCIPALES

12.3.1. ¿Por qué truncar los componentes principales?

Matemáticamente, hay tantos vectores propios de[S] o[R] como elementos del vector de datos x.
Sin embargo, es típico de los datos atmosféricos que existan covarianzas (o correlaciones)
sustanciales entre las variables K originales, y como resultado hay pocos o ningún elemento fuera
de diagonal de[S] (o[R]) que estén cerca de cero. Esta situación implica que hay información
redundante en x y que los primeros vectores propios de su matriz de dispersión localizarán
direcciones en las que la variabilidad conjunta de los datos es mayor que la variabilidad de
cualquier elemento individual de x. De manera similar, los últimos vectores propios apuntarán a
direcciones en el espacio K-dimensional de x en las que los datos en conjunto muestran muy poca
variación. Esta propiedad se ilustró en el Ejemplo 12.1 para valores de temperatura diarios
medidos en lugares cercanos.

En la medida en que existe redundancia en los datos originales x, es posible capturar la mayor
parte de su varianza considerando sólo las direcciones más importantes de sus variaciones
conjuntas. Es decir, la mayor parte del contenido de información de los datos puede representarse
utilizando un número menor M < K de los componentes prin- cipales um. En efecto, el conjunto de
datos original que contiene las variables K xk es aproximado por el conjunto más pequeño de
nuevas variables um. Si M <<< K, retener sólo el primer M de los componentes principales resulta
en un conjunto de datos mucho más pequeño. Esta capacidad de compresión de datos de PCA es a
menudo un motivo principal para su uso.

La representación truncada de los datos originales puede expresarse matemáticamente mediante


una versión truncada de la fórmula de análisis, Ecuación 12.2, en la que la dimensión de la u
truncada es (M 1), y[E] es la matriz (no cuadrada, K M) cuyas columnas consisten únicamente en
los primeros vectores M (es decir, los asociados con los valores propios M más grandes) de[S]. La
fórmula de síntesis correspondiente, la Ecuación 12.6, es entonces sólo aproximadamente
verdadera porque los datos originales no pueden ser exactamente resintetizados sin usar todos los
K eigenvectores.

¿Dónde está el equilibrio adecuado entre la compresión de datos (eligiendo que M sea lo más
pequeño posible) y evitando la pérdida excesiva de información (truncando sólo un pequeño
número, K - M, de los principales componentes)? No existe un criterio claro que se pueda utilizar
para elegir el número de componentes principales que se mantienen mejor en una circunstancia
determinada. La elección del nivel de truncamiento puede verse facilitada por una o más de las
muchas reglas de selección de componentes principales disponibles, pero en última instancia es
una elección subjetiva que dependerá en parte de los datos disponibles y de los objetivos del ACC.

Capítulo

12 Análisis de componentes principales (EOF)

12.3.2. Criterios de Truncamiento Subjetivo

Algunos enfoques para truncar los componentes principales son subjetivos, o casi. Quizás el
criterio más básico es retener suficientes componentes principales para representar una "fracción
suficiente" de las varianzas de la x original. Es decir, se retienen suficientes componentes
principales para que la cantidad total de variabilidad representada sea mayor que algún valor
crítico,

XM

donde R2m se define como en la Ecuación 12.4. Por supuesto, la dificultad viene en determinar
cuán grande debe ser la fracción R2crit para que se considere "suficiente". En última instancia,
ésta será una elección subjetiva, informada por el conocimiento del analista de los datos en
cuestión y de los usos que se les dará. Jolliffe (2002) sugiere que el 70% de R2crit 90% puede ser a
menudo un rango razonable
.

Otro enfoque esencialmente subjetivo del truncamiento de componentes principales se basa en la


forma del gráfico de los valores propios lm en orden decreciente en función de su índice m 1, ....,
K, conocido como el espectro del valor propio. Dado que cada valor propio mide la varianza
representada en su componente principal correspondiente, este gráfico es análogo al espectro de
potencia (véase la Sección 9.5.2), extendiendo aún más los paralelismos entre los análisis EOF y
Fourier.

Trazar el espectro de valores propios con una escala vertical lineal produce lo que se conoce como
el gráfico de barras. Cuando se utiliza el gráfico de la gradación cualitativamente, el objetivo es
localizar un punto que separe una parte muy inclinada a la izquierda y una parte poco inclinada a
la derecha. El número del componente principal en el que se produce la separación se toma
entonces como límite de truncamiento, M. No hay garantía de que el espectro de valores propios
para un PCA dado muestre una sola separación de pendiente, o de que sea lo suficientemente
abrupto como para localizar inequívocamente un límite M. A veces este enfoque del truncamiento
de los componentes principales se denomina prueba de gradación, aunque este nombre implica
más objetividad y justificación teórica de lo que se justifica: el criterio de la pendiente de
gradación no implica inferencia estadística cuantitativa. La figura 12.8a muestra el gráfico de la
pantalla (círculos) para el PCA resumido en la Tabla 12.1b. Este es un ejemplo relativamente bien
comportado en el que los últimos tres valores propios son bastante pequeños, lo que lleva a una
curva bastante distinta en K3, y por lo tanto a un truncamiento después de los primeros
componentes principales de M3.

Un enfoque alternativo pero similar se basa en el espectro de logo-valor-igualdad, o diagrama de


logo-valor-igualdad (LEV). La elección de un truncamiento de componentes principales basado en
el diagrama LEV está motivada por la idea de que, si los últimos componentes principales de K-M
representan ruido no correlacionado, entonces las magnitudes de sus valores propios deberían
decaer exponencialmente con el aumento del número de componentes principales. Este
comportamiento debe ser identificable en el diagrama LEV como una porción aproximadamente
recta en su lado derecho. Los componentes principales retenidos por M serían entonces aquellos
cuyos valores logarítmicos se encuentran por encima de la extrapolación hacia la izquierda de esta
línea. Como antes, dependiendo del conjunto de datos, puede no haber, o más de una, porciones
cuasi-lineales, y sus límites pueden no estar claramente definidos. La Figura 12.8b muestra el
diagrama LEV para la PCA resumido en la Tabla 12.1b. Aquí la mayoría de los espectadores de este
diagrama LEV probablemente elegirían M ¼ 3, aunque la elección no es inequívoca.

12.3.3. Reglas basadas en el tamaño del último valor propio retenido

Otra clase de reglas de selección de componentes principales implica centrarse en lo pequeño que
puede ser un valor propio "importante". Este conjunto de reglas de selección puede resumirse
mediante el criterio

Componente principal Número del componente principal Número del componente principal
GRÁFICO 12.8 Visualización gráfica de espectros de valores propios; es decir, magnitudes de
valores propios en función del número del componente principal (líneas más pesadas que
conectan los puntos en círculo), para un análisis dimensional K ¼ 6 (véase la Tabla 12.1b): (a)
Escalado lineal, o gráfico de gradación, (b) escalado logarítmico, o diagrama LEV. Tanto el criterio
de selección como el de LEV conducirían a la retención de los tres primeros componentes
principales de este análisis. Las líneas más claras en ambos paneles muestran los resultados de las
pruebas de remuestreo necesarias para aplicar la Regla N de Priesendorfer et al. La línea
discontinua es la mediana de los valores propios de 1000 (6 × 6) matrices de dispersión de
variables gaussianas independientes, construidas utilizando el mismo tamaño de muestra que los
datos analizados. Las líneas sólidas indican el 5º y el 95º por ciento de estas distribuciones
simuladas de valores propios. La regla N indicaría la retención de sólo los dos primeros
componentes principales, sobre la base de que sólo éstos son significativamente mayores de lo
que cabría esperar de los datos sin estructura de correlación.

T XK

donde sk,k es la varianza de la muestra del elemento kth de x y T es un parámetro de umbral.

Una simple aplicación de esta idea, conocida como la regla de Kaiser, implica comparar cada valor
propio (y por lo tanto la varianza descrita por su componente principal) con el importe de la
varianza conjunta reflejada en el valor propio medio. Se mantienen los principales componentes
cuyos valores propios superan este umbral. Es decir, la regla de Kaiser usa la Ecuación 12.13 con el
parámetro de umbral T 1. Jolliffe (1972, 2002) ha argumentado que la regla de Kaiser es
demasiado estricta (es decir, típicamente parece descartar demasiados componentes principales).
Sugiere que la alternativa T 0,7 a menudo proporciona un umbral más o menos correcto, que
permite los efectos de las variaciones de muestreo.

Una tercera alternativa en esta clase de reglas de truncamiento es usar el modelo de palo roto,
llamado así porque se basa en la longitud esperada de la pieza más larga de un segmento de línea
de unidad rota al azar. De acuerdo con este criterio, el parámetro de umbral en la Ecuación 12.13
se toma para ser

TðmÞ ¼

Esta regla produce un umbral diferente para cada nivel de truncamiento del candidato -es decir, T
T(m), de modo que el truncamiento se hace en el m más pequeño para el cual no se satisface la
Ecuación 12.13, de acuerdo con el umbral- viejo en la Ecuación 12.14.

Los tres criterios descritos en esta subsección llevarían a elegir M 2 para el espectro de valores
propios en la figura 12.8.

12.3.4. Reglas basadas en hipótesis-prueba de ideas

Frente a una elección subjetiva entre criterios de truncamiento a veces vagos, es natural esperar
un enfoque más objetivo basado en las propiedades muestrales de las estadísticas de la ACP. La
Sección 12.4 describe algunos resultados de muestras grandes para las distribuciones de muestreo
de las estimaciones de valores propios y vectores propios que se han calculado a partir de
muestras normales multivariadas. Con base en estos resultados, Mardia et al. (1979) y Jolliffe
(2002) describen pruebas para la hipótesis nula de que los últimos valores propios de K-M son
todos iguales, y por lo tanto corresponden a ruido que debe ser descartado en el truncamiento del
componente principal. Un problema con este enfoque ocurre cuando los datos analizados no
tienen una distri bución normal multivariada, y/o no son independientes, en cuyo caso las
inferencias basadas en esas suposiciones pueden producir errores graves. Pero un problema más
difícil con este enfoque es que normalmente implica examinar secuencias de pruebas que no son
independientes: ¿Son los dos últimos valores propios plausiblemente iguales, y si es así, son los
últimos tres iguales, y si es así, son los últimos cuatro iguales? El verdadero nivel de prueba para
un número aleatorio de pruebas correlacionadas tendrá una relación desconocida con el nivel
nominal en el que se realiza cada prueba en la secuencia. El procedimiento se puede utilizar para
elegir un nivel de truncamiento, pero será tanto una regla general como las otras posibilidades ya
presentadas en esta sección, y no una opción cuantitativa basada en una pequeña probabilidad
conocida de rechazar falsamente una hipótesis nula.

Las contrapartes de remuestreo a las reglas de truncamiento basadas en pruebas se han usado
frecuentemente con datos aeroesféricos, siguiendo a Preisendorfer et al. (1981). La más común de
ellas se conoce como Regla N. La Regla N identifica los componentes principales de M más grandes
que deben conservarse sobre la base de una secuencia de pruebas de remuestreo que implican la
distribución de valores propios de matrices de dispersión generadas aleatoriamente. El
procedimiento consiste en generar repetidamente conjuntos de vectores de números aleatorios
gaussianos independientes con la misma dimensión (K) y tamaño de la muestra (n) que los datos x
que se están analizando, y luego calcular los valores propios de sus matrices de dispersión. Estos
autovalores generados aleatoriamente se escalan en un

de forma que sean comparables a los valores propios lm que se van a probar, por ejemplo,
exigiendo que la suma de cada conjunto de valores propios generados aleatoriamente sea igual a
la suma de los valores propios calculados a partir de los datos. Cada lm de los datos reales se
compara entonces con la distribución empírica de sus contrapartes sintéticas y se retiene si es
superior al 95% de éstas.

Las líneas de luz en los paneles de la Figura 12.8 ilustran el uso de la Regla N para seleccionar un
nivel de truncamiento de componentes principales. Las líneas discontinuas reflejan las medianas
de 1000 conjuntos de valores propios com- puestas de 1000 (6 6) matrices de dispersión de
variables gaussianas independientes, construidas usando el mismo tamaño de muestra que los
datos analizados. Las líneas sólidas muestran los percentiles 95 y 5 de aquellos

distribuciones para cada uno de los seis valores propios. Los dos primeros valores propios l1 y l2
son superiores al 97,5% de sus homólogos sintéticos, por lo que la hipótesis nula de que los
componentes principales correspondientes sólo representan ruido sería rechazada en el nivel del
2,5%. Por consiguiente, la regla N elegiría M 2 para estos datos.

En Overland y Preisendorfer (1982) se presenta una tabla de valores críticos del 95% para la regla
N, para tamaños de muestra seleccionados n y dimensiones K. Las tablas correspondientes de
muestra grande se encuentran en Preisendorfer et al. (1981) y Preisendorfer (1988). Preisendorfer
(1988) señala que si existe una correlación temporal substancial en las variables individuales xk,
puede ser más apropiado construir las distribuciones de remuestreo para la Regla N (o usar las
tablas que se acaban de mencionar) usando el menor tamaño efectivo de la muestra (usando una
ecuación análoga a la Ecuación 5.12, pero apropiada para los valores propios) entre las variables
individuales xk

PARTE III Estadísticas multivariadas

xk, en lugar de utilizar n vectores independientes de variables gaussianas para construir cada
matriz de dispersión sintética. Otro problema potencial con la Regla N, y otros procedimientos
similares, es que los datos x pueden no ser aproximadamente gaussianos. Por ejemplo, una o más
de las xk0s podrían ser variables de precipitación. En la medida en que los datos originales no son
gaussianos, el procedimiento de generación de números aleatorios no simulará con precisión el
proceso físico subyacente, y los resultados de la prueba pueden ser engañosos. Un posible
remedio para el problema de los datos no gaussianos podría ser utilizar una versión de arranque
de la Regla N, aunque este enfoque no parece haber sido probado en la literatura hasta la fecha.

En última instancia, la regla N y otros procedimientos de truncamiento similares tienen el mismo


problema que sus contrapartes paramétricas, a saber, que debe examinarse una secuencia de
pruebas correlacionadas. Por ejemplo, un primer valor propio suficientemente grande sería un
motivo razonable para rechazar una hipótesis nula de que todos los elementos K de x no están
correlacionados, pero examinar posteriormente el segundo valor propio de la misma manera no
sería una prueba apropiada para la segunda hipótesis nula, que el último valor K - 1

os valores propios corresponden a ruido no correlacionado. Habiendo rechazado la proposición de


que l1 no es diferente de los otros, las distribuciones de muestreo de Monte Carlo para los valores
propios restantes ya no son significativas porque están condicionadas a que todos los valores
propios K reflejen el ruido. Es decir, estas distribuciones de muestreo sintético implicarán
demasiada varianza si l1 tiene más de una parte aleatoria, y la suma de los valores propios está
limitada a igualar la varianza total. Priesendorfer (1988) observa que la Regla N tiende a retener
muy pocos componentes principales.

12.3.5. Reglas basadas en la estructura de los componentes principales retenidos

Las reglas de truncamiento presentadas hasta ahora se refieren a las magnitudes de los valores
propios. La posibilidad de que los componentes principales físicamente importantes no necesiten
tener las mayores variaciones (es decir, valores propios) ha motivado una clase de reglas de
truncamiento basadas en las características esperadas de las series de componentes principales
físicamente importantes (Preisendorfer et al., 1981, Preisendorfer, 1988). Dado que la mayoría de
los datos atmosféricos que se someten a la PCA son series temporales (por ejemplo, secuencias
temporales de campos espaciales registradas en los puntos de cuadrícula K), una hipótesis
plausible podría ser que los componentes principales correspondientes a procesos físicamente
significativos deberían mostrar dependencia temporal porque se espera que los procesos físicos
subyacentes muestren dependencia temporal. Preisendorfer et al (1981) y Preisendorfer (1988)
propusieron varias reglas de truncamiento de este tipo, que prueban hipótesis nulas de que las
series temporales de componentes principales individuales no están correlacionadas, utilizando
sus espectros de potencia o sus funciones de autocorrelación. Los componentes principales
truncados son aquellos para los que no se rechaza esta hipótesis nula. Esta clase de regla de
truncamiento parece haberse utilizado muy poco en la práctica.

12.4. PROPIEDADES DE MUESTREO DE LOS VALORES PROPIOS Y DE LOS VECTORES PROPIOS

12.4.1. Resultados del muestreo asintótico para datos normales multivariados

Los análisis de componentes principales se calculan a partir de muestras de datos finitos y están
tan sujetos a variaciones de muestreo como cualquier otro procedimiento de estimación
estadística. Es decir, rara vez o nunca conocemos la verdadera matriz de covarianza[S] para la
población o proceso generador subyacente, sino que la estimamos usando la contraparte de la
muestra[S]. Por consiguiente, los valores propios y los vectores propios calculados a partir de[S]
son también estimaciones basadas en la muestra finita y, por lo tanto, están sujetos a variaciones
de muestreo. Comprender la naturaleza de estas variaciones es muy importante para la correcta
interpretación de los resultados de un PCA.

Las ecuaciones presentadas en esta sección deben considerarse aproximadas, ya que son
resultados asintóticos (large-n) y también se basan en la suposición de que los x0s subyacentes
tienen un valor multivariable.

distribución normal. También se supone que ningún par de valores propios de la población es
igual, lo que implica (en el sentido que se explicará en la sección 12.4.2) que todos los vectores
propios de la población están bien definidos. La validez de estos resultados es por lo tanto
aproximada en la mayoría de las circunstancias, pero sin embargo son bastante útiles para
comprender la naturaleza de los efectos del muestreo sobre la incertidumbre acerca de los valores
propios y los vectores propios estimados.

El resultado básico de las propiedades de muestreo de los valores propios estimados es que, en el
límite de un tamaño de muestra muy grande, su distribución muestral es imparcial y multivariada
normal,

pffinffiðl^ - lÞ ~ NK.0, 2½L]2Σ , ð12:15aÞ

Aquí l^ es el vector (K 1) de los valores propios estimados, l es su valor verdadero; y la matriz (K


K)[L]2 es el cuadrado de la matriz diagonal de valores propios de la población, con los elementos
lk2. Dado que[L]2 es diagonal, las distribuciones de muestreo para cada uno de los valores propios
K estimados son distribuciones univariadas gaussianas (aproximadamente) independientes,

pffinffi.^lk - lkΣ ~ N.0, 2l2Σ , ð12:16aÞ

Tenga en cuenta, sin embargo, que hay un sesgo en los valores propios de la muestra para el
tamaño de la muestra finito: Las ecuaciones 12.15 y 12.16 son aproximaciones de muestra grande.
En particular, se sobreestimarán los valores propios más grandes (tenderán a ser mayores que los
de la población), y los valores propios más pequeños tenderán a subestimarse; estos efectos
aumentan con la disminución del tamaño de la muestra (Quadrelli et al., 2005; von Storch y
Hannoschock, 1985).
Usando la Ecuación 12.16a para construir una variación gaussiana estándar se obtiene una
expresión para la distribución del error relativo de la estimación del valor propio,

pffinffi.^lk - lkΣ - 0

que conduce al intervalo de confianza (1 - a)-100% para el valor propio kth,

Los elementos de cada vector propio de la muestra son aproximadamente imparciales, y sus
distribuciones de muestreo son aproximadamente normales multivariadas. Pero las varianzas de
las distribuciones de muestreo normales multivariadas para cada uno de los vectores propios
dependen de todos los demás valores propios y de los vectores propios de una manera algo
complicada. La distribución de muestreo para el kth eigenvector es la siguiente

^ek ~ NKðek, ½Vek ]Þ , ð12:20Þ

donde la matriz de covarianza para esta distribución es

lk XK

La suma en la Ecuación 12.21 involucra a todos los pares de K valores propios-igenvectores,


indexados aquí por i, excepto el par kth, para el cual se está calculando la matriz de covarianza. Es
una suma de productos externos ponderados de estos vectores propios, y por lo tanto se asemeja
a la descomposición espectral de la verdadera matriz de covarianza[S] (cf. Ecuación 10.51). Pero
en lugar de ser ponderados sólo por los valores propios correspondientes, como en la Ecuación
10.51, son ponderados también por los recíprocos de los cuadrados de las diferencias

entre esos autovalores y el autovalor que pertenece al vector propio cuya matriz de covarianza se
está calculando. Es decir, los elementos de las matrices en la suma de la Ecuación 12.21 serán

bastante pequeños, excepto los que están emparejados con valores propios li cercanos en
magnitud al valor propio lk, pertenecientes al vector propio cuya distribución de muestreo se está
calculando.

12.4.2. Múltiplos E2efectivos

La ecuación 12.21, para la incertidumbre del muestreo de los vectores propios de una matriz de
covarianza, tiene dos implicaciones importantes. Primero, el patrón de incertidumbre en los
vectores propios estimados se asemeja a una combinación de línea de oreja, o suma ponderada,
de todos los demás vectores propios. Segundo, debido a que las magnitudes de las ponderaciones
en esta suma ponderada son inversamente proporcionales a los cuadrados de las diferencias entre
los valores propios correspondientes, un vector propio se estimará con relativa precisión (las
varías de muestreo serán relativamente pequeñas) si su valor propio está bien separado de los
otros valores propios K-1. Por el contrario, los vectores propios cuyos valores propios son similares
en magnitud a uno o más de los otros valores propios mostrarán grandes variaciones de muestreo,
y esas variaciones serán mayores para los elementos propios del vector propio que son grandes en
los vectores propios con valores propios comparables.
El efecto conjunto de estas dos consideraciones es que las distribuciones de muestreo de un par (o
más) de autovectores con valores propios similares estarán estrechamente entrelazadas. Sus
varianzas de muestreo serán grandes, y sus patrones de error de muestreo se parecerán a los
patrones de los vectores propios con los que están enredados. El efecto neto será que la
realización de los correspondientes vectores propios de la muestra será una mezcla casi arbitraria
de los verdaderos homólogos de la población. Representarán conjuntamente la misma cantidad de
varianza (dentro de los límites de muestreo aproximados por la Ecuación 12.16), pero esta
varianza conjunta será arbitrariamente mezclada entre ellos (o entre ellos). Los conjuntos de estos
pares de autovalores se denominan múltiplos degenerados o múltiplos efectivos. Los intentos de
interpretación física de tales muestras de vectores propios serán frustrantes, si no
desesperanzadores.

La fuente de este problema puede apreciarse en el contexto de una distribución normal


tridimensional multivariada, en la que uno de los vectores propios es relativamente grande y los
dos más pequeños son los siguientes

son casi iguales. La distribución resultante tiene contornos de probabilidad elipsoidal que se
asemejan a los de los pepinos en la Figura 11.2. El vector propio asociado con el único gran valor
propio se alineará con el eje largo del elipsoide. Pero esta distribución normal multivariada no
tiene (esencialmente) ninguna dirección preferida en el plano perpendicular al eje largo (cara
expuesta en el pepino izquierdo en la Fig-urea 11.2b). Cualquier par de vectores perpendiculares
que también sean perpendiculares al eje largo podría representar variaciones en este plano tan
fácilmente como sea posible. El propio vector principal calculado a partir de una matriz de
covarianza de la muestra de esta distribución estaría estrechamente alineado con el vector propio
real (eje largo del pepino) porque sus variaciones de muestreo serán pequeñas. En términos de la
Ecuación 12.21, ambos de los

dos términos en la suma serían pequeños porque l1 >> l2 l3. Por otro lado, cada uno de los otros
dos autovectores estaría sujeto a grandes variaciones de muestreo: el término en la Ecuación
12.21 correspondiente a uno u otro de ellos será grande porque (l2 - l3)-2 será grande. El patrón
de error de muestreo para e2 se parecerá a e3, y viceversa. Es decir, la orientación de los dos
vectores propios de la muestra en este plano será arbitraria, más allá de las restricciones de que
serán perpendiculares entre sí y a e1. Las variaciones representadas por cada uno de estos dos
vectores propios de la muestra serán, por lo tanto, una mezcla arbitraria de las variaciones
representadas por sus dos homólogos de la población.

12.4.3. El Norte y otros Regla empírica

Las ecuaciones 12.15 y 12.20, para las distribuciones de muestreo de los valores propios y de los
vectores propios, dependen de los valores de sus homólogos verdaderos pero desconocidos. Sin
embargo, las estimaciones de la muestra se aproximan a los valores reales, por lo que se esperan
grandes errores de muestreo para aquellos vectores propios cuyos valores propios de la muestra
se aproximan a otros valores propios de la muestra. La idea de que es posible diagnosticar casos
en los que se espera que las variaciones en el muestreo causen problemas con la interpretación
del vector propio en la ACP fue expresada como regla general por North et al: "La regla es
simplemente que si el error de muestreo de un determinado valor propio l[dl l(2/n)1/2] es
comparable o mayor que el espaciado entre l y un valor propio vecino, el error de muestreo de un
valor propio l[dl l(2/n)1/2] es comparable o mayor que el espaciado entre l y un valor propio
vecino.

entonces los errores de muestreo para el EOF asociados con l serán comparables al tamaño de

el EOF vecino. La interpretación es que si un grupo de valores propios verdaderos se encuentran


dentro de uno o dos dl uno del otro, entonces forman un'múltiplo efectivamente degenerado', y
los vectores propios de la muestra son una mezcla aleatoria de los vectores propios verdaderos".
Sin embargo, se debe tener precaución al interpretar cuantitativamente el grado de

de superposición de los intervalos de confianza implícitos en la regla empírica de North y otros


(véase la Sección 5.2.2).

North et al (1982) ilustraron su regla empírica con un ejemplo instructivo. Construyeron datos
sintéticos a partir de un conjunto de patrones conocidos del EOF, los cuatro primeros de los cuales
se muestran en la Figura 12.9a, junto con sus respectivos valores propios. Utilizando un conjunto
completo de tales patrones, la matriz de covarianza[S] de la que se podían extraer se ensambló
utilizando la descomposición espectral (Ecuación 10.51). Usando[S]1/2 (ver Sección 10.3.4), se
generaron realizaciones de vectores de datos x a partir de una distribución con covarianza[S] como
en la Sección 11.4. La Figura 12.9b muestra los primeros cuatro pares de vectores propios
calculados a partir de una muestra de n 300 de estos vectores de datos sintéticos, y la Figura 12.9c
muestra una realización de los pares de vectores propios principales para n 1000.

Los primeros cuatro patrones de vectores propios en la Figura 12.9a son visualmente distintos,
pero sus valores propios son relativamente cercanos. Usando la Ecuación 12.16b y n 300, los
intervalos de muestreo del 95% para los cuatro valores propios son 14.02 2.24, 12.61 2.02, 10.67
1.71, y 10.43 1.67 (porque z(0.975) 1.96), todos los cuales incluyen los valores propios adyacentes.
Por lo tanto, se espera, de acuerdo con la regla general, que los vectores propios de la muestra
sean mezclas aleatorias de sus homólogos de la población para este tamaño de muestra. La Figura
12.9b confirma esta expectativa: los patrones en esos cuatro paneles parecen ser mezclas
aleatorias de los cuatro paneles de la Figura 12.9a. Incluso si los verdaderos valores propios fueran
desconocidos, este

FIGURA 12.9 El Norte y otros (1982) ejemplo de degeneración efectiva. (a) Los primeros cuatro
vectores propios de la población de la que se extrajeron los datos sintéticos, con los
correspondientes valores propios. b) Los cuatro primeros vectores propios calculados a partir de
una muestra de n ¼ 300, y los correspondientes valores propios de la muestra. c) Los cuatro
primeros vectores propios calculados a partir de una muestra de n ¼ 1000, y los correspondientes
valores propios de la muestra.

La conclusión sería esperable de la regla empírica de North et al. porque los valores propios de la
muestra adyacente en la Figura 12.9b están dentro de dos errores estándar estimados, o 2 d^l 2^l
2^l(2/n)1/2 uno del otro.

La situación es algo diferente para el tamaño de la muestra más grande (Figura 12.9c). De nuevo
usando
Ecuación 12.16b pero con n 1000, los intervalos de muestreo del 95% para los cuatro valores
propios son

14.02 1.22, 12.61 1.10, 10.67 0.93 y 10.43 0.91. Estos intervalos indican que los dos primeros EOF
de la muestra deben ser razonablemente distintos entre sí y de los otros EOF, pero que el tercer y
cuarto vectores propios probablemente seguirán estando enredados. Aplicando la regla empírica a
los

Los valores propios de la muestra en la Figura 12.9c indican que la separación entre todos los
pares adyacentes es cercana a 2 d^l. La precisión adicional del muestreo proporcionada por el
mayor tamaño de la muestra permite que surja una aproximación a los dos primeros patrones
verdaderos del EOF, aunque todavía se requeriría una muestra aún mayor.

antes de la muestra, los vectores propios corresponderían bien a sus homólogos de la población.

Las realizaciones de datos sintéticos x en este ejemplo artificial fueron escogidas


independientemente unas de otras. Si los datos analizados están correlacionados en serie, la regla
empírica no ajustada implicará una mejor separación de valores propios de lo que es en realidad el
caso, porque la varianza de la distribución del muestreo de la variable

Los valores propios de la muestra serán mayores que 2 lk2/n (como se indica en la Ecuación
12.16). La causa de esta discrepancia es que los valores propios de la muestra son menos
consistentes de lote a lote cuando se calculan a partir de datos autocorrelacionados, por lo que el
efecto cualitativo es el mismo que el descrito para la distribución de la muestra.

de los medios de la muestra, en la sección 5.2.4. Sin embargo, el ajuste efectivo del tamaño de la
muestra en la ecuación 5.12 no es apropiado para la distribución del muestreo de los valores
propios porque son varianzas. Más bien, la contraparte aproximada a la Ecuación 5.12
(suponiendo que la dependencia del tiempo AR(1)) sería n0 = n(1 - r12)/(1 þ r12) (Bretherton et al.,
1999), lo que implica un efecto mucho menos extremo sobre el tamaño efectivo de la muestra que
la Ecuación 5.12. Aquí r1 correspondería a la autocorrelación lag-1 para la serie temporal
correspondiente de componentes principales, para la Ecuación 12.16 ó 12.19; y a la media
geométrica de los coeficientes de autocorrelación para las dos series de componentes principales
correspondientes, para la Ecuación 12.21.

12.4.4. Aproximaciones de Bootstrap a las Distribuciones de Muestreo

Las condiciones especificadas en la Sección 12.4.1, de gran tamaño de la muestra y/o datos
normales multivariados subyacentes, pueden ser demasiado poco realistas para ser prácticas en
algunas situaciones. En tales casos, es posible construir buenas aproximaciones a las distribuciones
de muestreo de las estadísticas de la muestra usando el bootstrap (ver Sección 5.3.5). Beran y
Srivastava (1985) y Efron y Tibshirani (1993) describen específicamente matrices de covarianza de
muestras de bootstrap para producir distribuciones de muestreo para sus valores propios y
vectores propios. El procedimiento básico es remuestrear repetidamente los vectores de datos
subyacentes x con reemplazo y producir un gran número, nB, de muestras de bootstrap, cada una
de tamaño n. Cada una de las muestras de bootstrap nB produce una realización de bootstrap
de[S], cuyos valores propios y vectores propios pueden ser calculados. Conjuntamente, estas
realizaciones bootstrap de valores propios y vectores propios forman aproximaciones razonables a
las respectivas distribuciones de muestreo, que reflejarán las propiedades de los datos
subyacentes que pueden no ajustarse a las asumidas en la Sección 12.4.1.

Tenga cuidado al interpretar estas distribuciones de bootstrap. Una dificultad (corregible) surge
del hecho de que los vectores propios están determinados a firmar solamente, de modo que en
algunas muestras de bootstrap la contraparte remuestreada de ek puede muy bien ser -ek. Si no
se rectifican estos conmutadores de señal arbitrarios, se producirá una inflación grande e
injustificada de las distribuciones de muestreo para los elementos de los vectores propios.
También pueden surgir dificultades al remuestrear multiplets efectivos, ya que la distribución
aleatoria de la varianza con un multiplet puede ser diferente de remuestreo a remuestreo, por lo
que los vectores propios remuestreados pueden no tener correspondencias uno a uno con sus
contrapartes originales de la muestra. Finalmente, el procedimiento boot- strap destruye
cualquier correlación serial que pueda estar presente en los datos subyacentes, lo que llevaría a
distribuciones de muestreo bootstrap poco realistas. El bootstrap de bloques móviles puede
utilizarse para vectores de datos correlacionados en serie (Wilks, 1997), así como para escalares.

12.5. ROTACIÓN DE LOS VECTORES PROPIOS

12.5.1. ¿Por qué girar los vectores propios?

Existe una fuerte tendencia a tratar de atribuir interpretaciones físicas a los propios vectores PCA y
a los componentes principales correspondientes. Los resultados que se muestran en las figuras
12.4 y 12.6 indican que puede ser apropiado e informativo hacerlo. Sin embargo, la limitación de la
ortogonalidad de los propios componentes (ecuación 10.48) puede dar lugar a problemas con
estas interpretaciones, especialmente para el segundo componente principal y los subsiguientes.
Aunque la orientación del primer vector propio viene determinada únicamente por la dirección de
la variación máxima de los datos, los vectores subsiguientes deben ser ortogonales a cada vector
propio de mayor varianza, independientemente de la naturaleza de los procesos físicos que
puedan haber dado lugar a los datos. En la medida en que los procesos físicos subyacentes no son
independientes, la interdependencia de los componentes principales correspondientes como
modos independientes de variabilidad no permitirá

PARTE III Estadísticas multivariadas

(North, 1984). El primer componente principal puede representar un modo importante de


variabilidad o proceso físico, pero también puede incluir aspectos de otros modos o procesos
correlacionados. Por lo tanto, la limitación de la ortogonalidad de los vectores propios puede dar
lugar a que las influencias de varios procesos físicos distintos se mezclen en un solo componente
principal.
Cuando la interpretación física en lugar de la compresión de datos es un objetivo principal de PCA,
a menudo es deseable - capaz de rotar un subconjunto de los vectores propios iniciales a un
segundo conjunto de nuevos vectores de coordenadas. Usualmente es un número M de los
autovectores principales (es decir, autovectores con los valores propios correspondientes más
grandes) del PCA original los que se rotan, con M escogida usando un criterio de truncamiento
como la Ecuación 12.13. Los autovectores rotatorios pueden ser menos propensos a los rasgos
artificiales resultantes de la limitación de la ortogonalidad de los autovectores no rotatorios, como
los patrones Buell (Richman, 1986). También parecen exhibir mejores propiedades de muestreo
(Cheng et al., 1995; Richman, 1986) que sus contrapartes no rotadas. Una gran parte de la revisión
de la PCA realizada por Hannachi et al (2007) está dedicada a la rotación.

Existen varios procedimientos para rotar los vectores propios originales, pero todos buscan
producir lo que se conoce como estructura simple en el análisis resultante. En términos generales,
se entiende que se ha logrado una estructura simple si una gran fracción de los elementos de los
vectores rotativos resultantes están cerca de cero, y pocos de los elementos restantes
corresponden a (es decir, tienen el mismo índice k que) elementos que no están cerca de cero en
los otros vectores rotativos. El resultado deseado es que cada vector rotado represente
principalmente las pocas variables originales correspondientes a los elementos no cercanos a cero,
y que la representación de las variables originales se divida entre el menor número posible de
componentes principales rotados. Una estructura simple ayuda a la interpretación de un PCA
rotatorio al permitir la asociación de los propios vectores rotatorios con el pequeño número de las
variables K originales cuyos elementos del propio vector propio no son cercanos a cero.

Después de la rotación de los vectores propios, se define un segundo conjunto de nuevas


variables, denominadas com- ponentes principales rotados. Los componentes principales rotados
se obtienen a partir de los datos originales de forma análoga a las ecuaciones 12.1 y 12.2, como los
productos de puntos de los vectores de datos y los vectores propios rotados. Pueden interpretarse
como resúmenes de un solo número de la similitud entre su propio vector rotatorio
correspondiente y un vector de datos x. Dependiendo del método utilizado para rotar los vectores
propios, los componentes principales rotatorios resultantes pueden o no estar mutuamente no
correlacionados.

Se paga un precio por la mejor interpretabilidad y la mejor estabilidad de muestreo de los vectores
propios rotados. Un costo es que se pierde la propiedad de la variedad dominante de PCA. El
primer componente principal girado ya no es la combinación lineal de los datos originales con la
mayor varianza. La varianza representada por los vectores propios originales no girados se
distribuye de manera más uniforme entre los vectores propios girados, de modo que el espectro
de valores propios correspondiente es más plano. También se pierde la ortogonalidad de los
vectores propios o la falta de correlación de los componentes principales resultantes, o ambos.

12.5.2. Mecánica de rotación

Los vectores propios rotados se producen como una transformación lineal de un subconjunto de
M del K

vectores propios,

E~
donde[T] es la matriz de rotación y la matriz de los vectores propios rotados se denomina tilde.
Si[T] es ortogonal, es decir, si[T][T]T[I], entonces la Ecuación de transformación 12.22 se denomina
rotación ortogonal. De lo contrario, la rotación se denomina oblicua.

Richman (1986) enumera 19 enfoques para definir la matriz de rotación[T] a fin de lograr una
estructura simple, aunque su lista no es exhaustiva. Sin embargo, el método más comúnmente
utilizado es la rotación ortogonal llamada varimax (Kaiser, 1958). Una rotación varimax se
determina eligiendo los elementos de[T] para maximizar

dónde

m¼1

son versiones a escala de los elementos del propio vector rotativo. Juntas, las ecuaciones 12.23a y
12.23b definen el "varimax normal", mientras que la ecuación 12.23a sola, usando los elementos
e~k, m del propio vector sin escala, se conoce como el "varimax crudo". En cualquier caso, se
busca la transformación que maximice la suma de las varianzas de los elementos del propio vector
rotativo cuadrado (en escala o en bruto), que tiende a moverlos hacia sus valores máximos o
mínimos (absolutos) (que son 0 y 1), y por lo tanto tiende a

hacia una estructura simple. La solución es iterativa y es una característica estándar de muchos
paquetes de software estadístico.

Los resultados de la rotación de los vectores propios pueden depender de cuántos de los vectores
propios originales se seleccionen para la rotación. Es decir, algunos o todos los autovectores
rotativos principales pueden ser diferentes si, por ejemplo, se rotan M 1 en lugar de M (por
ejemplo, O'Lenic y Livezey, 1988). Desafortunadamente, a menudo no hay una respuesta clara a la
pregunta de cuál podría ser la mejor opción para M, y típicamente se hace una elección
esencialmente subjetiva. En la Sección 12.3 se ofrece alguna orientación a partir de las diversas
críticas de truncamiento, aunque es posible que éstas no den una respuesta única. A veces se
utiliza un método de prueba y error, en el que se aumenta lentamente la M hasta que los propios
vectores rotativos principales se estabilizan, es decir, insensibles a nuevos aumentos de la M. En
cualquier caso, sin embargo, tiene sentido incluir todos o ninguno de los vectores propios que
constituyen un múltiplo efectivo, ya que juntos transportan información que ha sido
arbitrariamente mezclada. Jolliffe (1987, 1989) sugiere que puede ser útil rotar por separado los
grupos de vectores propios dentro de múltiplos efectivos para interpretar más fácilmente la
información que representan conjuntamente.

La Figura 12.10, de Horel (1981), muestra la visualización espacial de los dos primeros vectores
propios rotatorios de las alturas de 500 mb de invierno hemisférico promediadas mensualmente.
Utilizando el criterio de truncamiento de la ecuación 12.13 con T 1, se rotaron los primeros 19
vectores propios de la matriz de correlación para estos datos. Los dos patrones de la figura 12.10
son similares a los dos primeros vectores propios no rotatorios derivados de los mismos datos
(véase la figura 12.4a y b), aunque los signos se han invertido (arbitrariamente). Sin embargo, los
vectores rotativos se ajustan más a la idea de una estructura simple en el sentido de que la
mayoría de los campos hemisféricos son bastante planos (cerca de cero) en la Figura 12.10, y cada
panel enfatiza de manera más exclusiva una característica particular de la variabilidad de las
alturas de 500-mbos correspondientes a los patrones de teleconexión en la Figura 3.29. El vector
rotatorio en la Figura 12.10a se enfoca principalmente en las diferencias de altura en el Pacífico
tropical noroccidental y occidental, llamado el patrón de teleconexión del Pacífico occidental. Por
lo tanto, representa variaciones en el chorro de 500 mb en estas longitudes, con valores positivos
del componente principal girado correspondiente que indican un comportamiento más débil que
el promedio del oeste y valores negativos que indican lo contrario. Del mismo modo

PART III Multivariate Statistics

FIGURA 12.10 Despliegues espaciales de los dos primeros vectores propios rotatorios de alturas
hemisféricas medias mensuales de invierno de 500 mb. Los datos son los mismos que los de la
Figura 12.4, pero la rotación ha aislado mejor los patrones de variabilidad, permitiendo una
interpretación más clara en términos de los patrones de teleconexión de la Figura 3.29. De Horel
(1981).

b) c)

FIGURA 12.11 Comparación esquemática de (a) vectores propios no girados, (b) girados
ortogonalmente y (c) girados oblicuamente de longitud unitaria en K ¼ 2 dimensiones. Los paneles
superiores muestran los vectores propios en relación con los gráficos de dispersión de los datos,
que muestran dos grupos o modos. Los paneles inferiores muestran mapas esquemáticos de dos
puntos de los dos vectores propios en cada caso. Después de Karl y Koscielny (1982).

el patrón PNA se destaca con excepcional claridad en la figura 12.10b, donde la rotación lo ha
separado del patrón del hemisferio oriental evidente en la figura 12.4b.

La figura 12.11 muestra representaciones esquemáticas de la rotación del vector propio en dos
dimensiones. Los diagramas superiores de cada sección representan los vectores propios en el
plano bidimensional definido por las variables subyacentes x1 y x2, y los diagramas inferiores
representan "mapas" de los elementos propios del vector trazados en las dos "ubicaciones" x1 y
x2 (correspondientes a mapas del mundo real como los que se muestran en las figuras 12.4 y
12.10). La figura 12.11a ilustra el caso de los propios vectores no giratorios originales. El vector
propio líder e1 se define como la dirección en la que una proyección de los puntos de datos

(es decir, los componentes principales) tiene la mayor varianza, lo que ubica un compromiso entre
los dos grupos de puntos (modos). Es decir, localiza gran parte de la varianza de ambos grupos sin
realmente caracterizarlos. El vector propio líder e1 apunta en la dirección positiva tanto para x1
como para x2, pero está más fuertemente alineado hacia x2, por lo que el mapa e1
correspondiente a continuación muestra un "þ" positivo grande para x2 y un "þ" más pequeño
para x1. El segundo eigenvector está restringido a ser ortogonal al primero y por lo tanto
corresponde a un gran negativo x1, y ligeramente positivo x2, como se indica en el
correspondiente "mapa" a continuación.
La figura 12.11b representa los vectores propios girados ortogonalmente. Dentro de la limitación
de la ortogonalidad, localizan aproximadamente los dos cúmulos de puntos, aunque la varianza
del primer componente principal girado ya no es máxima ya que las proyecciones sobre ~e1 de los
tres puntos con x1 < 0 son bastante pequeñas. Sin embargo, la interpretación de las dos
características se mejora en los mapas de los dos vectores propios de la derecha, donde ~e1 indica
un gran positivo x1 junto con un modesto pero positivo x2, mientras que ~e2 muestra un gran
positivo x2 junto con un modesto negativo x1. Las idealizaciones de las figuras 12.11a y 12.11b
corresponden a los mapas del mundo real de las figuras 12.4 y 12.10, respectivamente.

Finalmente, la Figura 12.11c ilustra una rotación oblicua, donde los vectores propios resultantes ya
no están restringidos a ser ortogonales. Por consiguiente, tienen más flexibilidad en sus
orientaciones y pueden acomodar mejor las características de los datos que no son ortogonales.

12.5.3. Sensibilidad de la rotación ortogonal a la escala del propio vector propio inicial

Un aspecto subestimado de la rotación ortogonal de los vectores propios es que la ortogonalidad


del resultado depende en gran medida de la escala de los vectores propios originales antes de la
rotación (Jolliffe, 1995, 2002; Mestas-Nun˜ez, 2000). Esta dependencia suele sorprender por el
nombre "rotación ortogonal", que deriva de la ortogonalidad de la matriz de transformación[T] en
la ecuación 12.22; es decir,[T]T[T]].

¼[T][T][T] ¼[I]. La confusión se multiplica debido a la afirmación incorrecta en varios documentos


que

una rotación ortogonal produce tanto vectores propios ortogonales como componentes
principales no correlacionados. Como máximo, uno de estos dos resultados se obtiene mediante
una rotación ortogonal, pero ninguno de ellos se producirá a menos que los vectores propios se
escalen correctamente antes de aplicar la matriz de rotación. Debido a la confusión sobre el tema,
vale la pena hacer un análisis explícito de este fenómeno contrario a la intuición.

Denota como[E] la matriz posiblemente truncada (K M) de los vectores propios de[S]. Debido a
que estos vectores propios son ortogonales (Ecuación 10.48) y están originalmente escalados a
longitud unitaria, la matriz[E] es ortogonal, y así satisface la Ecuación 10.42b. Los componentes
principales resultantes se pueden ordenar en la matriz

½U] ¼

cada una de las n filas de las cuales contiene valores para los componentes principales retenidos
por M, umT. Como antes,

X] es la matriz de datos original cuyas columnas K corresponden a las n observaciones de cada una
de las variables K originales. La falta de correlación de los componentes principales no girados se
puede diagnosticar calculando su matriz de covarianza,

ðn - 1Þ-1 ½U]T ½U] ¼ ðn - 1Þ-1ð½X]½E]ÞT ½X]½E]


Los um no están correlacionados porque su matriz de covarianza L[ ] es diagonal, y la varianza para
cada um es lm. Los pasos en la tercera línea de la Ecuación 12.25 siguen de la diagonalización de[S]
(n - 1)-1[X]T[X] (Ecuación 10.50a), y de la ortogonalidad de la matriz[E].

Considere ahora los efectos de las tres escalas de vectores propios enumeradas en la Tabla 12.3
sobre los resultados de una rotación ortogonal. En el primer caso, los vectores propios originales
no se reescalan desde la longitud de la unidad, por lo que la matriz de los vectores propios rotados
es simplemente hE~i ¼

El hecho de que estos autovectores rotatorios sigan siendo ortogonales, como se esperaba, se
puede diagnosticar mediante el cálculo de

½T DIFUNDE LA PALABRA-]

Es decir, los propios vectores rotativos resultantes siguen siendo mutuamente perpendiculares y
de longitud unitaria. Los componentes principales girados correspondientes son

hU~ i ¼ ½X]hE~i ¼ ½X]½E]½T] , ð12:28Þ

y su matriz de covarianza es

ðn - 1Þ-1 U~ T U~ ¼ ðn - 1Þ-1ð½X]½E]½T]ÞT ½X]½E]½T]

Esta matriz no es diagonal, lo que refleja el hecho de que los componentes principales rotados ya
no están desvinculados. Este resultado es fácil de apreciar geométricamente, observando gráficas
de dispersión como la Figura 12.1 o la Figura 12.3. En cada uno de estos casos la nube de puntos
se inclina con respecto a los ejes originales (x1, x2), y el ángulo de inclinación del eje largo de la
nube se localiza por el primer vector propio. La nube de puntos no está inclinada en el sistema de
coordenadas (e1, e2) definido por los dos vectores propios, reflejando la falta de correlación de los
componentes principales no girados (Ecuación 12.25). Pero en relación a cualquier otro par de ejes
mutuamente ortogonales en el plano, los puntos mostrarían alguna inclinación, y por lo tanto las
proyecciones de los datos sobre estos ejes mostrarían alguna correlación distinta de cero.

La segunda escala propia en la Tabla 12.3, ||em|| (lm)1/2, se utiliza comúnmente, y de hecho es
la escala por defecto en muchos paquetes de software estadístico para componentes principales
rotados. En la nota de esta sección, el empleo de esta escala equivale a girar la matriz del propio
vector escalonado[E].

L]1/2, dando como resultado la matriz de los vectores propios rotatorios

La ortogonalidad de los vectores propios rotados en esta matriz se puede comprobar calculando

hE~iT hE~i ¼.½E]½L]1=2½T ΣT E]½L]1=2½T]

Aquí la igualdad en la segunda línea es válida porque la matriz diagonal[L]1/2 es simétrica, de


modo que[L]1/2 ([L]1/2)T. Los vectores propios rotados correspondientes a la segunda escala, y
frecuentemente usados, en la Tabla 12.3 no son ortogonales porque el resultado de la Ecuación
12.31 no es una matriz diagonal. Tampoco son independientes los correspondientes componentes
principales rotados. Esto puede verse calculando su matriz de covarianza, que tampoco es
diagonal, es decir,

La tercera escala propia en la Tabla 12.3, ||em||| ¼ (lm)-1/2, se utiliza relativamente raramente,
aunque puede ser conveniente en el sentido de que produce variación unitaria para todos los
componentes principales um. Los vectores propios rotativos resultantes no son ortogonales, de
modo que el producto de la matriz

hE~iT hE~i ¼.½E]½L]-1=2½T ΣT E]½L]-1=2½T]

no es diagonal. Sin embargo, los componentes principales rotados resultantes no están


correlacionados, de modo que su matriz de covarianza,

es diagonal y también refleja las variaciones unitarias de todos los componentes principales
rotados.

Con mayor frecuencia en meteorología y climatología, los vectores propios en un PCA describen
patrones espaciales, y los componentes principales son series temporales que reflejan la
importancia de los patrones espaciales correspondientes en los datos originales. Al calcular
componentes principales girados ortogonalmente en este contexto, podemos elegir entre
patrones espaciales girados ortogonalmente pero girados correlativamente.

principales series temporales de componentes (utilizando ||em|| 1), o patrones espaciales


rotativos no ortogonales cuyas secuencias temporales no están correlacionadas entre sí (utilizando
|||em|| (lm)-1/2), pero no ambas. No está claro cuál podría ser la ventaja de no tener ninguna
propiedad (usando ||em|| (lm)1/2, como se hace más a menudo). Las diferencias en los
resultados de las diferentes escalas serán pequeñas si se rotan conjuntos de múltiplos efectivos.

por separado, porque sus valores propios serán necesariamente similares en magnitud, lo que
resultará en longitudes similares para los vectores propios escalados.

12.6. CONSIDERACIONES COMPUTACIONALES

12.6.1. Extracción directa de valores propios y vectores propios de[S]

La matriz de covarianza de la muestra[S] es real y simétrica, por lo que siempre tendrá valores
propios reales y no negativos. Existen algoritmos estándar y estables para extraer los valores
propios y los vectores propios de matrices reales y simétricas (por ejemplo, Press et al., 1986), y
este enfoque puede ser muy bueno para calcular un PCA. Como se señaló anteriormente, a veces
es preferible calcular la PCA utilizando la matriz de correlación[R], que es también la matriz de
covarianza para las variables estandarizadas. Las consideraciones computacionales presentadas en
esta sección son igualmente apropiadas para la PCA basada en la matriz de correlación. Una
dificultad práctica que puede surgir es que el tiempo de cálculo requerido aumenta muy
rápidamente a medida que aumenta la dimensión de la matriz de covarianza. Una aplicación típica
de PCA en meteo rología o climatología involucra un campo observado en la cuadrícula K u otros
puntos espaciales, en una secuencia de n veces, donde K >> n. La conceptualización típica es en
términos de la matriz de covarianza (K K), la cual es muy grande - no es inusual que K incluya miles
de puntos de cuadrícula. Utilizando las estaciones de trabajo rápidas disponibles actualmente
(2010), el tiempo de computadora requerido para extraer estos pares de vectores propios puede
ser de muchas horas. Sin embargo, dado que K > n la matriz de covarianza de la muestra es
singular, lo que implica que el último K - n de sus valores propios es cero. No tiene sentido calcular
aproximaciones numéricas a estos cero.

y sus arbitrarios vectores propios asociados.

En esta situación afortunadamente es posible enfocar el esfuerzo computacional en los valores


propios n no n-cero y sus vectores propios asociados, usando un truco computacional (von Storch
y Hannoscho¨ck, 1984). Recordemos que la matriz de covarianza (K K)[S] puede ser calculada a
partir de la matriz de datos centrada[X0] usando la Ecuación 10.30. Invirtiendo los roles de los
puntos de tiempo y espacio, también podemos calcular la matriz de covarianza (n × n)

½Sm]

Tanto[S] como[S*] tienen los mismos valores propios mín(n, K) que no son cero, lk l*k, por lo que
el tiempo de cálculo requerido puede ser mucho menor si se extraen de la matriz más
pequeña[S*]. Es decir, los valores propios de un PCA en modo S en la matriz de covarianza de la
muestra (K K)[S] pueden ser calculados a través de un PCA en modo T en la matriz de covarianza
de la muestra (n n n)[S*], y este último cálculo será mucho más rápido en la situación habitual en
la que K >> n.

Los vectores propios de[S] y[S*] son diferentes, pero los n principales (es decir, los significativos)
de[S] pueden calcularse a partir de los vectores propios ek* de[S*] usando

ΣX0 ΣT ΣT em

Las dimensiones de las multiplicaciones tanto en numerador como en denominador son (K × n) (n


× 1) ¼ (K × 1)

1), y la función del denominador es asegurar que el ek resultante tenga una longitud de unidad.

12.6.2. PCA vía SVD

Los valores propios y los vectores propios en un PCA también pueden calcularse utilizando el
algoritmo SVD (singular value descomposition) (Sección 10.3.5), de dos maneras. Primero, como se
ilustra en el Ejemplo 10.5, los valores propios y los vectores propios de una matriz de covarianza[S]
pueden calcularse a través de la SVD de la matriz (n - 1)-1/2[X0], donde la matriz de datos
centrada (n K)[X0] se relaciona con la matriz de covarianza[S] mediante la Ecuación 10.30. En este
caso, los valores propios de[S] son los cuadrados de los valores singulares de (n - 1)-1/2[X0]-es
decir, lk ok2-y los vectores propios de[S] son los mismos que los vectores singulares derechos de
(n - 1)-1/2[X0]-es decir,[E][R], o ek rk.

Una ventaja de usar la SVD para calcular un PCA de esta manera es que los vectores singulares
izquierdos (los colectores de la matriz (n K)[L] en la Ecuación 10.68) son proporcionales a los
componentes principales (es decir, a las proyecciones de los vectores de datos centrados x0i sobre
los vectores propios ek). En particular,

ki
Aquí se utiliza la matriz[U] en el mismo sentido que en la Sección 12.5.3; es decir, cada una de sus
columnas K contiene la serie de componentes principales uk correspondiente a la secuencia de n
valores de datos xi, i

1, .. ., n.

El algoritmo SVD también puede utilizarse para calcular un PCA operando directamente sobre la
matriz de covarianza. Comparando la descomposición espectral de una matriz cuadrada y
simétrica (Ecuación 10.50a) con su SVD (Ecuación 10.68), es claro que estas descomposiciones
únicas son una y la misma. En particular, dado que una matriz de covarianza[S] es cuadrada y
simétrica, tanto la matriz izquierda como la derecha de su SVD son iguales y contienen los vectores
propios; es decir,[E] ¼[L] ¼[R]. Además, la matriz diagonal de valores singulares es exactamente la
matriz diagonal de valores propios,[L] ¼[O].

12.7. ALGUNOS USOS ADICIONALES DEL PCA

12.7.1. Análisis de Espectro Singular (SSA): Serie temporal PCA

El análisis de componentes principales también puede aplicarse a series temporales escalares o


multivariadas. Este enfoque del análisis de series temporales se conoce como análisis de espectro
singular y análisis de sistemas singulares (SSA, en ambos casos). Los desarrollos más completos de
SSA que los que se presentan aquí se pueden encontrar en Broomhead y King (1986), Elsner y
Tsonis (1996), Ghil et al. (2002), Golyandina et al. (2001), Vautard et al. (1992) y Vautard (1995).

SSA es más fácil de entender en términos de una serie temporal escalar xt, t ¼ 1, ...., n; aunque la
generali- zación a una serie temporal multivariada de un vector xt es razonablemente sencilla.
Como una variante del PCA,

PARTE III Estadísticas multivariadas

SSA implica la extracción de valores propios y vectores propios de una matriz de covarianza. Esta
matriz de covarianza se calcula a partir de una serie temporal escalar pasando por una ventana de
retardo, o imponiendo una dimensión de incrustación, de longitud M en la serie temporal. El
proceso se ilustra en la figura 12.12. Para M ¼ 3, el primer vector de datos M-dimensional, x(1) se
compone de los tres primeros miembros de la serie temporal escalar, x(2) se compone de los tres
segundos miembros de la serie temporal escalar, y así sucesivamente, dando un total de n - M þ 1
vectores de datos superpuestos.

Si la serie temporal xt es covarianza estacionaria, es decir, si su media, varianza y correlaciones


retardadas no cambian con el tiempo, la matriz de covarianza de la población (M × M) de los
vectores de series temporales retardadas x(t) adopta una estructura especial de bandas conocida
como Toeplitz, en la que los elementos si,j ¼ g|i-j| ¼ E[x0t x0t x0tþ|i-j|] están dispuestos en
bandas diagonales paralelas. Es decir, los elementos de la covarianza resultante

se toman de (arriba y a la derecha, y abajo y a la izquierda de) la función de autocovarianza


(Ecuación 3.35), con los retardos dispuestos en orden creciente lejos de la diagonal principal.
Todos los elementos de la diagonal principal son si,i g0; es decir, la varianza. Los elementos
adyacentes a la diagonal principal son todos

igual a g1, lo que refleja el hecho de que, por ejemplo, la covarianza entre el primer y el segundo
elemento del

los vectores x(t) en la Figura 12.12 son los mismos que la covarianza entre el segundo y el tercer
elemento. Los elementos separados de la diagonal principal por una posición son todos iguales a
g2, y así sucesivamente. Debido a los efectos de borde al principio y al final de las series de tiempo
de la muestra, la matriz de covarianza de la muestra puede ser sólo aproximadamente Toeplitz,
aunque la estructura de Toeplitz con bandas diagonales a veces se aplica antes del cálculo de la
SSA (Allen y Smith, 1996; Elsner y Tsonis, 1996).

Dado que el SSA es un PCA, se aplican las mismas consideraciones matemáticas. En particular, los
principales componentes son combinaciones lineales de los datos según los vectores propios
(ecuaciones 12.1 y 12.2). La operación de análisis puede invertirse para sintetizar o aproximar los
datos de todos (ecuación 12.15) o algunos (ecuación 12.16) de los componentes principales. Lo
que hace que la AAE sea diferente se deriva de la diferente naturaleza de los datos y de las
implicaciones de esa diferente naturaleza en la interpretación de los vectores propios y de los
componentes principales. En particular, los vectores de datos son fragmentos de series temporales
en lugar de la distribución espacial más habitual de los valores en un solo momento, de modo que
los vectores propios en el África Subsahariana representan patrones temporales característicos
exhibidos por los datos, en lugar de patrones espaciales característicos. Por consiguiente, los
vectores propios en el SSA a veces se denominan T-EOF. Puesto que los fragmentos de series
temporales solapados xt se producen en una secuencia de tiempo, los componentes principales
también tienen una

x1, x2, x3, x4, x5, .... xn-4, xn-3, xn-2, xn-1, xn

FIGURA 12.12 Ilustración de la construcción de la serie temporal vectorial x(t), t ¼ 1, ...., n - M þ 1,


pasando una ventana de retardo de la dimensión de incrustación M ¼ 3 sobre miembros
consecutivos de la serie temporal escalar xt.

ordenamiento temporal, como en la Ecuación 12.11. Estos componentes principales temporales


um, o T-PCs, indexan el grado en que el correspondiente fragmento de serie temporal xt se
asemeja al correspondiente T-EOF, em. Dado que los datos son fragmentos consecutivos de la
serie temporal original, los componentes principales son combinaciones lineales de estos
segmentos de series temporales, con las ponderaciones dadas por los elementos T-EOF. Los T-PCs
no están correlacionados entre sí, pero en general un T-PC individual mostrará autocorrelaciones
temporales.

La analogía entre el análisis SSA y Fourier de las series temporales es especialmente fuerte, con los
T-EOFs correspondientes a las funciones seno y coseno, y los T-PCs correspondientes a las
amplitudes. Sin embargo, hay dos grandes diferencias. En primer lugar, las funciones de base
ortogonal en una descomposición de Fourier son las funciones armónicas fijas, mientras que las
funciones de base en SSA son los T-EOFs adaptables a los datos. Por lo tanto, un AAE puede ser
más eficiente que un análisis de Fourier, en el sentido de que requiere menos funciones básicas
para representar una fracción dada de la varianza de una serie temporal. Del mismo modo, los
ampli- tudes de Fourier son constantes independientes del tiempo, pero sus contrapartes, los T-
PCs, son en sí mismos funciones del tiempo. Por lo tanto, el ASS puede representar variaciones de
tiempo que pueden ser localizadas en el tiempo, y por lo tanto no necesariamente recurrentes a lo
largo de la serie de tiempo.

En común con el análisis de Fourier, el SSA puede detectar y representar las características
oscilatorias o cuasi-oscilatorias en las series temporales subyacentes. Una característica periódica
o cuasiperiódica de una serie temporal se representa en el SSA mediante pares de T-PC y sus
correspondientes vectores propios. Estos pares tienen valores propios que son iguales o casi
iguales. Los patrones de tiempo característicos representados por estos pares de vectores propios
tienen la misma (o muy similar) forma, pero son compensados en el tiempo por un cuarto de ciclo
(como lo son un par de funciones seno y coseno). Pero a diferencia de las funciones seno y coseno,
estos pares de T-EOFs toman formas determinadas por los patrones de tiempo en los datos
subyacentes. Una motivación común para el uso de SSA es buscar, de forma exploratoria, posibles
periodicidades en series de tiempo, que periodicidades pueden ser intermitentes y/o no
sinusoidales en forma. Los rasgos de este tipo son identificados por un ASS, pero también pueden
aparecer fácilmente en el análisis periodicidades falsas que surgen sólo de las variaciones del
muestreo (Allen y Robertson, 1996; Allen y Smith, 1996).

Una consideración importante en SSA es la elección de la longitud de la ventana o de la dimensión


de incrustación, M. Obviamente, el análisis no puede representar variaciones más largas que esta
longitud, aunque elegir un valor demasiado grande da como resultado un tamaño de muestra
pequeño, n - M 1, a partir del cual estimar la matriz de covarianza. Además, el esfuerzo
computacional aumenta rápidamente a medida que aumenta la M. Las reglas generales habituales
son que se puede lograr un tamaño de muestra adecuado para M < n/3, y que el análisis tendrá
éxito en la interpretación de las variaciones de tiempo de envío con períodos entre M/5 y M.

Ejemplo 12.3. SSA para una serie AR(2)

La Figura 12.13 muestra una realización de 100 puntos del proceso AR(2) (Ecuación 9.27) con
parametros f1 0.9, f2 -0.6, m 0, y se 1. Esta es una serie puramente aleatoria, pero los parámetros
f1 y f2 han sido elegidos de tal manera que permiten que el proceso muestre
pseudoperiodicidades. Es decir, existe una tendencia a que la serie oscile, aunque las oscilaciones
son irregulares con respecto a su frecuencia y fase. La función de densidad espectral para este
proceso AR(2), incluida en la Figura 9.21, muestra

un máximo centrado cerca de f 0.15, correspondiente a un período típico cerca de t 1/f 6.7 pasos
de tiempo.

El análisis de la serie utilizando SSA requiere elegir una longitud de ventana de retardo, M, que
debe ser larga.

suficiente para capturar la característica de interés, pero lo suficientemente corto para calcular
estimaciones de covarianza razonablemente estables. Combinando las reglas generales para la
longitud de la ventana, M/5 < t < M < n/3, una opción plausible es M ¼ 10. Esta opción produce n -
M þ 1 ¼ 91 fragmentos de series temporales superpuestos xt de longitud M ¼ 10.
FIGURA 12.13 Un n ¼ Realización de 100 puntos a partir de un proceso AR(2) con f1 ¼ 0.9 y f2 ¼ -
0.6.

Calculando las covarianzas para esta muestra de 91 vectores de datos xt de la manera


convencional se obtiene la matriz (10 × 10)

2 1:792 3

Para mayor claridad, sólo se han impreso los elementos del triángulo inferior de esta matriz
simétrica. Debido a los efectos de borde en la muestra finita, esta matriz de covarianza es
aproximadamente, pero no exactamente, Toeplitz. Los 10 elementos de la diagonal principal son
sólo aproximadamente iguales, y cada uno está estimando

el verdadero lag-0 autocovarianza g0 s x 1.80. De manera similar, los nueve elementos en la


segunda diagonal son aproximadamente iguales, con cada uno estimando la autocovarianza lag-1
g1 0.91, los ocho elementos en la tercera diagonal estiman la autocovarianza lag-2 g2 -0.25, y así
sucesivamente. La pseudoperiodicidad de los datos se refleja en la gran autocovarianza negativa a
tres desfases y la subsiguiente amortiguación.

oscilación en la función de autocovarianza.

La Figura 12.14 muestra los cuatro vectores propios principales de la matriz de covarianza en la
Ecuación 12.38 y sus valores propios asociados. Los dos primeros de estos vectores propios (Figura
12.14a), que están asociados con valores propios casi iguales, tienen una forma muy similar y
están separados por aproximadamente un cuarto del período t correspondiente a la mitad del pico
espectral de la Figura 9.21. En conjunto, representan la característica dominante de la serie de
datos de la Figura 12.13, es decir, el comportamiento pseudoperiódico, con picos y crestas
sucesivos que tienden a estar separados por seis o siete unidades de tiempo.

El tercer y cuarto T-EOF de la figura 12.14b representan otros aspectos no periódicos de las series
temporales de la figura 12.13. A diferencia de los principales T-EOFs de la Figura 12.14a, no son
imágenes desplazadas entre sí y no tienen valores propios casi iguales. En conjunto, los cuatro
patrones de la Figura 12.14 representan el 83,5% de la varianza dentro de los fragmentos de series
temporales de 10 elementos (pero sin incluir la varianza asociada con escalas temporales más
largas).

Ghil et al. (2002) presentan un ejemplo extendido similar de SSA, usando una serie de tiempo del
índice de oscilación del sur (Figura 3.14). e

(a) (b)

FIGURA 12.14 (a) Los dos primeros vectores propios de la matriz de covarianza en la Ecuación
12.38, y (b) el tercero y cuarto vectores propios.

Desde el punto de vista conceptual, es sencillo ampliar la SSA al análisis simultáneo de múltiples
series temporales (es decir, vectoriales), lo que se denomina SSA multicanal, o MSSA (Ghil et al.,
2002; Plaut y Vautard, 1994; Vautard, 1995). La relación entre SSA y MSSA es paralela a la
existente entre un PCA ordinario para un solo campo y un PCA simultáneo para múltiples campos,
como se describe en la Sección 12.2.2. Los múltiples canales de una MSSA pueden ser los puntos
de cuadrícula K que representan un campo espacial en el tiempo t, en cuyo caso los fragmentos de
series temporales correspondientes a la longitud de la ventana de retardo M se codificarían en un
vector xt (KM × 1), lo que daría lugar a una matriz de covarianza (KM KM) de la que se extraerían
los valores propios del espacio y los vectores propios del espacio y del tiempo (ST-EOF). La
dimensión de dicha matriz puede llegar a ser inmanejable. Una solución (Plaut y Vautard, 1994)
puede ser calcular primero un PCA ordinario para los campos espaciales y luego subdividir los
primeros componentes principales del MSSA. En este caso, cada canal corresponde a uno de los
componentes espaciales principales calculados en el paso inicial de compresión de datos. Vautard
(1995) y Vautard et al. (1996, 1999) describen pronósticos basados en MSSA de campos
construidos pronosticando los componentes principales del espacio-tiempo, y luego
reconstituyendo los campos de pronóstico a través de una síntesis truncada.

12.7.2. Regresión del Principal-Componente

Una patología que puede ocurrir en la regresión lineal múltiple (ver Sección 7.2.8) es que un
conjunto de variables predictoras con fuertes correlaciones mutuas puede resultar en el cálculo de
una relación de regresión inestable, en el sentido de que las distribuciones de muestreo de los
parámetros de regresión estimados pueden tener varianzas muy altas. El problema se puede
apreciar en el contexto de la Ecuación 10.40, para la matriz covari- ance de la distribución del
muestreo conjunto de los parámetros de regresión estimados. Esta ecuación depende del inverso
de la matriz[X]T[X], que es proporcional a la matriz de covarianza[Sx] de los predictores. Las
intercorrelaciones muy fuertes entre los predictores llevan a que su matriz de covarianza (y por lo
tanto también[X]T[X]) sea casi singular, o pequeña en el sentido de que su determinante es
cercano a cero.

PARTE III Estadísticas multivariadas

La inversa, ([X]T[X])-1, es entonces grande, e infla la matriz de covarianza[Sb] en la Ecuación 10.40.


El resultado es que los parámetros de regresión estimados pueden estar muy lejos de sus valores
correctos como una secuencia de variaciones de muestreo, lo que lleva a que la ecuación de
regresión ajustada funcione mal en datos independientes. Los intervalos de predicción (basados
en la Ecuación 10.41) también están inflados.

Un enfoque para remediar este problema es transformar primero los predictores en sus
principales componentes, cuyas correlaciones son cero. La regresión del principal-componente
resultante es conveniente trabajar con ella, ya que los predictores no correlacionados pueden ser
agregados o retirados de una ecuación de regresión tentativa a voluntad sin afectar las
contribuciones de los otros pre-dictores del principal-componente. Si todos los componentes
principales se mantienen en una regresión principal-componente, entonces no se gana nada con
respecto a los mínimos cuadrados convencionales que encajan en el conjunto completo de
predictores. Sin embargo, Jolliffe (2002) muestra que las multicolineidades, si están presentes,
están asociadas con los componentes principales que tienen los valores propios más pequeños. En
consecuencia, los efectos de las multicolineidades, y en particular la matriz de covarianza inflada
para los parámetros estimados, pueden en principio eliminarse truncando los últimos
componentes principales asociados con los valores propios muy pequeños.

Ciertos problemas pueden estar asociados con la regresión de componentes principales. A menos
que los principales componentes que se mantienen como predictores sean interpretables en el
contexto del problema que se está analizando, la comprensión que se puede obtener de la
regresión puede ser limitada. Es posible reexpresar la regresión prin- cipal-componente en
términos de los predictores originales usando la ecuación de síntesis (Ecuación 12.6), pero el
resultado en general involucrará todas las variables predictoras originales aunque sólo se haya
usado uno o unos pocos predictores componentes principales. Esta regresión reconstituida estará
sesgada, aunque a menudo la varianza es mucho menor, lo que resulta en un MSE más pequeño
en general.

12.7.3. El Biplot

En la Sección 3.6 se señaló que la AED gráfica para datos de alta dimensión es especialmente
difícil. Dado que el análisis de componentes principales destaca en la compresión de datos
utilizando el número mínimo de dimensiones, es natural pensar en aplicar PCA a EDA. El biplot,
originado por Gabriel (1971), es una herramienta de este tipo. El "bi-" en biplot se refiere a la
representación simultánea de las n filas (las observaciones) y las columnas K (las variables) de una
matriz de datos,[X].

El biplot es un gráfico bidimensional cuyos ejes son los dos primeros vectores propios de[Sx]. El
biplot representa las n observaciones como sus proyecciones en el plano definido por estos dos
vectores propios; es decir, como la gráfica de dispersión de los dos primeros componentes
principales. En la medida en que (l1 l2)/Sklk 1, esta gráfica de dispersión será una aproximación
cercana a sus relaciones, en un espacio bidimensional graficable. La inspección exploratoria de los
datos trazados de esta manera puede revelar aspectos de los datos tales como los puntos

agruparse en grupos naturales, o secuencias temporales de puntos que se organizan en


trayectorias coherentes en el plano de la trama.

El otro elemento del biplot es la representación simultánea de las variables K. Cada uno de los ejes
de coordenadas del espacio de datos K-dimensional definido por las variables puede ser
considerado como una unidad

vector base que indica la dirección de la variable correspondiente; es decir, b1 ¼[1, 0, 0, 0, .... 0],

b2T[0, 1, 0, ...., 0], ...., bKT[0, 0, 0, 0, ..., 1]. Estos vectores base también pueden ser proyectados
sobre los dos vectores propios que definen el plano del biplot; es decir,

XK
Puesto que cada uno de los elementos de cada uno de los vectores base bk es cero
excepto el kth, estos productos de puntos son simplemente los elementos kth de los dos vectores
propios. Por lo tanto, cada uno de los vectores de la base K bk está localizado en el biplot por
coordenadas dadas por los elementos vectores propios correspondientes. Debido a que los valores
de los datos y sus ejes de coordenadas originales se proyectan de la misma manera, el biplot
equivale a una proyección de la gráfica de dispersión K-dimensional completa de los datos,
incluyendo los ejes de coordenadas, en el plano definido por los dos autovectores principales.

En la Figura 12.15 se muestra un biplot para los datos dimensionales de enero de 1987 en la Tabla
A.1, después de la normalización a media cero y varianza unitaria, de modo que la PCA
corresponde a su matriz de correlación,[R]. En el cuadro 12.1b se indica el ACC correspondiente a
estos datos. Las proyecciones de los seis vectores base originales (más largas que las proyecciones
reales de la Ecuación 12.39 para mayor claridad, pero con las mag nitudes relativas correctas)
están indicadas por los segmentos de línea que divergen del origen. "P," "N," y "X" indican
precipitación, temperatura mínima y temperatura máxima, respectivamente, y los subíndices "I" y
"C" indican Ítaca y Canandaigua. Es inmediatamente evidente que los pares de líneas
correspondientes a variables similares en los dos lugares están orientados casi en las mismas
direcciones y que las variables de temperatura están orientadas casi perpendicularmente a las
variables de precipitación. Aproximadamente (debido a que la varianza descrita es de 92% en lugar
de 100%), las correlaciones entre estas seis variables son iguales a los cosenos de los ángulos entre
las líneas correspondientes en el biplot (ver Tabla 3.5), por lo que las variables orientadas en
direcciones muy similares forman agrupaciones naturales.

La dispersión de los n puntos de datos no sólo retrata su comportamiento K-dimensional de una


manera potencialmente comprensible, sino que su interpretación está más informada por su
relación con las orientaciones de las variables. En la figura 12.15 la mayoría de los puntos están
orientados casi horizontalmente, con una ligera

FIGURA 12.15 Biplot de los datos de enero de 1987 en la Tabla A.1, después de la estandarización.
P ¼ precipitación, X ¼ temperatura máxima

5 perature, y N ¼ temperatura mínima. Puntos numerados

consulte las fechas de calendario correspondientes. La trama es un proyecto de la trama de


dispersión completa de seis dimensiones en el plano definido por los dos primeros componentes
principales.

inclinación que se encuentra aproximadamente a mitad de camino entre los ángulos de las
variaciones de temperatura mínima y máxima, y perpendicular a las variables de precipitación. Son
los días correspondientes a precipitaciones pequeñas o nulas, cuyas principales características de
variabilidad están relacionadas con las diferencias de temperatura. Se ubican principalmente por
debajo del origen porque la precipitación media está un poco por encima de cero, y las variables
de precipitación están orientadas casi verticalmente (es decir, se corresponden estrechamente
con el segundo componente principal). Los puntos hacia la derecha del diagrama, que están
orientados de manera similar a las variables de temperatura, representan días relativamente
cálidos (con poca o ninguna precipitación), mientras que los puntos hacia la izquierda son los días
fríos. Centrándonos en las fechas de los días más fríos, podemos ver que se produjeron en una
sola corrida, hacia finales de mes. Finalmente, la dispersión de los puntos de datos indica que los
pocos valores en la parte superior del biplot son diferentes de las observaciones restantes, pero es
la visualización simultánea de las variables lo que nos permite ver que éstas resultan de grandes
valores positivos para la precipitación.

12.8. EJERCICIOS

12.1. Usando la información del Ejercicio 10.6,

a. Calcule los valores del primer componente principal para el 1 de enero y para el 2 de
enero.

b. Estimar la varianza de los 31 valores del primer componente principal.

c. ¿Qué proporción de la variabilidad total de los datos de temperatura máxima está


representada por el primer componente principal?

12.2. Un análisis de los componentes principales de los datos de la Tabla A.3 arroja los tres
vectores propios e1T ¼

[.593, .552, -.587], e2T [.332, -.831, -.446], y e3T [.734, -.069, .676], donde los tres

Los elementos en cada vector pertenecen a los datos de temperatura, precipitación y presión,
respectivamente. Los tres valores propios correspondientes son l1 2.476, l2 0.356 y l3 0.169.

a. ¿Se realizó este análisis utilizando la matriz de covarianza o la matriz de correlación?


¿Cómo puedes

¿decírselo?

b. ¿Cuántos componentes principales deben conservarse según la regla de Kaiser, la


modificación de Jolliffe y el modelo de palo roto?

c. Reconstruir los datos de 1951, utilizando una síntesis truncada después de los dos
primeros componentes principales.

12.3. Utilice la información del Ejercicio 12.2 para

a. Calcular intervalos de confianza del 95% para los valores propios, asumiendo muestras
grandes y datos multi-normales.

b. Examinar la separación de valores propios utilizando la regla de oro de North et al.

12.4. Utilizando la información del Ejercicio 12.2, calcule la matriz vectorial propia[E] a rotar
ortogonalmente si

a. Los vectores propios rotatorios resultantes deben ser ortogonales.


b. Los componentes principales resultantes no deben estar correlacionados.

12.5. Usar la SVD en la Ecuación 10.70 para encontrar los primeros tres valores del primer
componente principal de los datos de temperatura mínima en la Tabla A.1.

12.6. Construir un biplot para los datos de la Tabla A.3, usando la información del Ejercicio 12.2.

Potrebbero piacerti anche