Sei sulla pagina 1di 8

No has iniciado sesin Discusin Contribuciones Crear una cuenta Acceder

Artculo Discusin Leer Editar Ver historial Buscar en Wikipedia

Anlisis de componentes principales


En estadstica, el anlisis de componentes principales
(en espaol ACP, en ingls, PCA) es una tcnica utilizada
Portada
para reducir la dimensionalidad de un conjunto de datos.
Portal de la comunidad
Actualidad Tcnicamente, el ACP busca la proyeccin segn la cual
Cambios recientes los datos queden mejor representados en trminos de
Pginas nuevas
mnimos cuadrados. Esta convierte un conjunto de
Pgina aleatoria
observaciones de variables posiblemente correlacionadas
Ayuda
Donaciones en un conjunto de valores de variables sin correlacin
Notificar un error lineal llamadas componentes principales.

Imprimir/exportar El ACP se emplea sobre todo en anlisis exploratorio de


datos y para construir modelos predictivos. El ACP ACP de una distribucin normal
Crear un libro
multivariante centrada en (1,3) con
Descargar como PDF comporta el clculo de la descomposicin en autovalores
desviacin estndar 3 en la direccin
Versin para imprimir de la matriz de covarianza, normalmente tras centrar los aproximada (0,866, 0,5) y desviacin
datos en la media de cada atributo. estndar 1 en la direccin
En otros proyectos perpendicular a la anterior. Los
Debe diferenciarse del anlisis factorial con el que tiene vectores muestran los autovectores de
Wikimedia Commons
similaridades formales y en el cual puede ser utilizado la matriz de correlacin escalados
Herramientas como un mtodo de aproximacin para la extraccin de mediante la raz cuadrada del
correspondiente autovalor, y
Lo que enlaza aqu factores.
open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com
Lo que enlaza aqu factores.
desplazados para que su origen
Cambios en enlazadas
coincidan con la media estadstica.
Subir archivo ndice
Pginas especiales 1 Fundamento
Enlace permanente
2 Matemticas del ACP
Informacin de la
pgina
2.1 Mtodo basado en correlaciones
Elemento de Wikidata 2.2 Mtodo basado en las covarianzas
Citar esta pgina 2.3 Limitaciones
3 Ejemplos
En otros idiomas
4 Referencia
4.1 Enlaces externos
Catal
etina
Deutsch
Fundamento [editar]
English
Esperanto El ACP construye una transformacin lineal que escoge un nuevo sistema de coordenadas para el
Eesti conjunto original de datos en el cual la varianza de mayor tamao del conjunto de datos es
Euskara capturada en el primer eje (llamado el Primer Componente Principal), la segunda varianza ms

grande es el segundo eje, y as sucesivamente. Para construir esta transformacin lineal debe
Suomi
construirse primero la matriz de covarianza o matriz de coeficientes de correlacin. Debido a la
Franais

simetra de esta matriz existe una base completa de vectores propios de la misma. La
Magyar transformacin que lleva de las antiguas coordenadas a las coordenadas de la nueva base es
Bahasa Indonesia precisamente la transformacin lineal necesaria para reducir la dimensionalidad de datos. Adems
slenska las coordenadas en la nueva base dan la composicin en factores subyacentes de los datos
Italiano iniciales.

Una de las ventajas del ACP para reducir la dimensionalidad de un grupo de datos, es que retiene
Nederlands aquellas caractersticas del conjunto de datos que contribuyen ms a su varianza, manteniendo
Polski
open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com
Polski un orden de bajo nivel de los componentes principales e ignorando los de alto nivel. El objetivo es
Portugus que esos componentes de bajo orden a veces contienen el aspecto "ms importante" de esa

informacin.
Slovenina
Svenska
Tagalog Matemticas del ACP [editar]

Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido
Ting Vit
m variables (aleatorias) El ACP permite encontrar un nmero de factores subyacentes p < m
Editar enlaces que explican aproximadamente el valor de las m variables para cada individuo. El hecho de que
existan estos p factores subyacentes puede interpretarse como una reduccin de la
dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a cada
individuo ahora nos bastan p valores. Cada uno de los p encontrados se llama componente
principal, de ah el nombre del mtodo.

Existen dos formas bsicas de aplicar el ACP:

1. Mtodo basado en la matriz de correlacin, cuando los datos no son dimensionalmente


homogneos o el orden de magnitud de las variables aleatorias medidas no es el mismo.
2. Mtodo basado en la matriz de covarianzas, que se usa cuando los datos son
dimensionalmente homogneos y presentan valores medios similares.

Mtodo basado en correlaciones [editar]

El mtodo parte de la matriz de correlaciones, consideremos el valor de cada una de las m


variables aleatorias . Para cada uno de los n individuos tomemos el valor de estas variables y
escribamos el conjunto de datos en forma de matriz:

open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com
Obsrvese que cada conjunto

puede considerarse una muestra aleatoria para la variable . A partir de los datos
correspondientes a las m variables aleatorias, puede construirse la matriz de correlacin muestral,
que viene definida por:

Puesto que la matriz de correlaciones es simtrica entonces resulta diagonalizable y sus valores
propios verifican:

Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno
de los m componentes principales. Los factores principales identificados matemticamente se
representan por la base de vectores propios de la matriz . Est claro que cada una de las
variables puede ser expresada como combinacin lineal de los vectores propios o componentes
principales.

Mtodo basado en las covarianzas [editar]

El objetivo es transformar un conjunto dado de datos X de dimensin n x m a otro conjunto de


datos Y de menor dimensin n x l con la menor perdida de informacin til posible utilizando para

open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com
ello la matriz de covarianza.

Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las
describen y el objetivo es que, cada una de esas muestras, se describa con solo I variables,
donde l < m. Adems, el nmero de componentes principales l tiene que ser inferior a la menor de
las dimensiones de X.

Los datos para el anlisis tienen que estar centrados a media 0 (restndoles la media de cada
columna) y/o autoescalados(centrados a media 0 y dividiendo cada columna por su desviacin
estndar).

Los vectores son conocidos como scores y contienen la informacin de cmo las muestras
estn relacionadas unas con otras adems, tienen la propiedad de ser ortogonales. Los vectores
se llaman loadings e informan de la relacin existente entre las variables y tienen la cualidad de
ser ortonormales. Al coger menos componentes principales que variables y debido al error de
ajuste del modelo con los datos, se produce un error que se acumula en la matriz .

El PCA se basa en la descomposicin en vectores propios de la matriz de covarianza. La cual se


calcula con la siguiente ecuacin:

open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com
Donde es el valor propio asociado al vector propio . Por ltimo,

Esta ecuacin la podemos entender como que son las proyecciones de X en , donde los
valores propios miden la cantidad de varianza capturada, es decir, la informacin que
representan cada uno de los componentes principales. La cantidad de informacin que captura
cada componente principal va disminuyendo segn su nmero es decir, el componente principal
nmero uno representa ms informacin que el dos y as sucesivamente.

Limitaciones [editar]

La aplicacin del ACP est limitada por varios supuestos1

Suposicin de linealidad: Se asume que los datos observados son combinacin lineal de una
cierta base.
Importancia estadstica de la media y la covarianza: el ACP utiliza los vectores propios de la
matriz de covarianzas y slo encuentra las direcciones de ejes en el espacio de variables
considerando que los datos se distribuyen de manera gaussiana.

Ejemplos [editar]

Un anlisis consider las calificaciones escolares n = 15 estudiantes en m = materias (lengua,


matemticas, fsica, ingls, filosofa, historia, qumica, gimnasia). Los dos primeros
componentes principales explicaban juntos el 82,1% de la varianza. El primer de ellos pareca
open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com
fuertemente correlacionado con las materias de humanidades (lengua, ingls, filosofa,
historia) mientras que el segundo apareca relacionado con las materias de ciencias
(matemticas, fsica, qumica). As parece que existe un conjunto de habilidades cognitivas
relacionadas con las humanidades y un segundo relacionado con las ciencias, estos dos
conjuntos de habilidades son estadsticamente independientes por lo que un alumno puede
puntuar alto en slo uno de ellos, en los dos o en ninguno.2
Una anlisis de 11 indicadores socieconmicos de 96 pases, revel que los resultados podan
explicarse en alto grado a partir de slo dos componentes principales, el primero de ellos tena
que ver con el nivel de PIB total del pas y el segundo con el ndice de ruralidad.3

Referencia [editar]

1. Jonathon Shlens.A Tutorial on Principal Component Analysis.


2. Ejemplos de PCA (www.uoc.edu)
3. Universidad Carlos III de Madrid

Enlaces externos [editar]

Matemticas del ACP y ejemplos (Universidad Carlos III de Madrid)

Categora: Estadstica multivariante

Se edit esta pgina por ltima vez el 9 sep 2016 a las 18:38.

El texto est disponible bajo la Licencia Creative Commons Atribucin Compartir Igual 3.0; pueden aplicarse clusulas adicionales.
Al usar este sitio, usted acepta nuestros trminos de uso y nuestra poltica de privacidad.
Wikipedia es una marca registrada de la Fundacin Wikimedia, Inc., una organizacin sin nimo de lucro.

Normativa de privacidad Acerca de Wikipedia Limitacin de responsabilidad Desarrolladores Declaracin de cookies


open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com
Versin para mviles

open in browser PRO version Are you a developer? Try out the HTML to PDF API pdfcrowd.com

Potrebbero piacerti anche