Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2007
9. Estadística Multivariada
Se usa el archivo IBEROAMERICA.MTW de indicadores sociales de los 22 países
iberoamericanos de 1998.
Componentes principales:
Todas
Principal Component Analysis: Población (m, Superficie (, % menores 15, Esperan
Eigenanalysis of the Correlation Matrix
Eigenvalue 5.5117 2.0441 1.4691 0.8631 0.5554 0.2638 0.1386 0.0660
Proportion 0.501 0.186 0.134 0.078 0.050 0.024 0.013 0.006
Cumulative 0.501 0.687 0.820 0.899 0.949 0.973 0.986 0.992
Eigenvalue 0.0475 0.0350 0.0056
Proportion 0.004 0.003 0.001
Cumulative 0.996 0.999 1.000
Página 1 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Variable PC1 PC2 PC3 PC4 PC5
Población (miles) 0.016 0.667 El segundo componente
Superficie (km2) 0.024 0.679 está relacionado
% menores 15 años 0.398 0.076 con el tamaño del país
Esperanza vida al nacer 0.358 0.157 0.140 0.125 0.564
Tasa de mortalidad infan 0.370 0.162 0.111 0.096 0.487
Teléfonos por 1.000 hab 0.387 0.033 0.010 0.266 0.320
Usuarios Internet por 1000 hab 0.310 0.030 0.053 0.625 0.045
PIB $/hab 0.380 0.085 0.018 0.235 0.352
% PIB Agricultura 0.334 0.093 0.062 0.561 0.330
% PIB Industria 0.272 0.122 0.555 0.314 0.067
% PIB Servicios 0.019 0.066 0.791 0.197 0.228
Gráfica de Pareto de los valores propios que permite visualizar la importancia de cada
uno de los componentes
Scree Plot of Población (miles), ..., % PIB Servicios La primera componente representa el 50%
6 y la segunda el 18.6% de la variación total
5
4
Eigenvalue
0
La siguiente
1 2 gráfica
3 4representa
5 6 cada
7 8una 9de las
10 observaciones
11 (países) en las
Component Number
coordenadas de los dos primeros componentes. Para identificar a que país corresponde
cada punto puede usarse la opción de Brush.
Página 2 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
TAMAÑO
DESARROLLO
4
Second Component
2 México
Argentina
1
Perú
Bolivia España
C olombia Venezuela
0 Ecuador Portugal
Guatemala Chile
C uba Puerto Rico
Rep.ador
El Salv Dominicana
Nicaragua Paraguay
Honduras Uruguay
PanamáCosta Rica
-1
-2
-4 -3 -2 -1 0 1 2 3 4 5
First Component
0.5
Second Component
0.4
0.3
0.2
Tasa de mortalidad infan
% PIB Industria
PIB $/hab
0.1
Página 3 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Uruguay
Costa Rica Argentina
1 Chile
El Salvador España
Guatemala
Paraguay
0 Brasil
Rep. Dominicana
Perú
Bolivia
Ecuador Puerto Rico
-1 Nicaragua Honduras
Venezuela
Cuba
Portugal
-2
Si se guardan
-4 -3 previamente
-2 -1 0 los1 coeficientes
2 3 de
4 las
5 variables y después se
grafican en una grafica Primer Componente
de dispersión, se pueden btener gráficas de un tercer componente
vesrus el primero, haciendo una columna con los títulos de las variables para usarse como
títulos en los puntos de una gráfica de dispersión, como sigue:
Columna de Pais
variables Población (miles)
Superficie (km2)
% menores 15 años
Esperanza vida al nacer
Tasa de mortalidad infan
Teléfonos por 1.000 hab
Usuarios Internet por 1000 hab
PIB $/hab
% PIB Agricultura
% PIB Industria
% PIB Servicios
0.50
0.25
Pais % menores 15 años
C18
Para agregar líneas a la gráfica, insertar celdas de ceros en las columnas corresponientes a los
coeficientes del tercer y primer componentes (entre cada una de sus celdas):
Seleccionar la gráfica y agregar líneas con: Add > Calculated Line; Y tercer comp; X primer comp
Página 4 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Comp 1 Comp 3
0.0156420 0.1498280
0.0000000 0.0000000
-0.0238230 0.0764970
0.0000000 0.0000000 Scatterplot of Comp 3 vs Comp 1
-0.3978570 0.0080330 % PIB Industria
0.3576520 0.1395810
0.50
0.0000000 0.0000000
Servicios Industrai
-0.3701140 -0.1109600
0.25
0.0000000 0.0000000 Pais % menores 15 años
Población (miles) Teléfonos por 1.000 hab
0.3873530 0.0098170 Superficie (km2)
0.00 Usuarios Internet por 1000 hab
0.0000000 0.0000000 PIB $/hab
Tasa de mortalidad infan
Esperanza v ida al nacer
0.3095390 0.0527510
-0.25
0.0000000 0.0000000
0.3799270 0.0179240 -0.50 % PIB Agricultura
0.0000000 0.0000000
-0.3335910 -0.0616860 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4
Desarrollo
0.0000000 0.0000000
0.2722960 -0.5545960
0.0000000 0.0000000
0.0191980 0.7907320
0.0000000 0.0000000
Análisis factorial
Usar el análisis factorial para resumir la estructura de covarianza de los datos en unas
mínimas dimensiones. Aquí el enfasis es la identificación de factores "relevantes" que
puedan explicar las dimensiones asociadas con la variabilidad grande de los datos.
Página 5 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Home 0.303 0.797 0.523 0.005 0.002 1.000
Variance 3.0289 1.2911 0.5725 0.0954 0.0121 5.0000
% Var 0.606 0.258 0.114 0.019 0.002 1.000
Factor Score Coefficients
Variable Factor1 Factor2 Factor3 Factor4 Factor5
Pop 0.321 0.116 0.011 1.782 5.511
School 0.180 0.553 0.726 1.466 0.060
Employ 0.327 0.004 0.155 0.868 6.988
Health 0.280 0.272 0.601 2.098 1.829
Home 0.100 0.617 0.914 0.049 0.129
3.0
2.5
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5
La proporción de la varianza explicada por los últimos dos factores es mínima (0.019, 0.002)
Factor Number
y se pueden eliminar. Los primeros dos factores reunen el 86% de la variabilidad y con tres factores
se explica el 98% de la vairabilidad. Por tanto queda por decidir si usar el modelo con 2 o 3 factores.
Con un análisis de dos o tres factores por separado, se examinan las comunalidades para ver como
se representan las variables individuales. Si hay alguna no bien representada por el modelo de dos
factores, se puede seleccionar un modelo de tres o más factores.
Factor Analysis: Pop, School, Employ, Health, Home
Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Ocurre en el análisis factorial caundo el método de estimación por máxima verosimilitud converge
Página 6 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Unrotated Factor Loadings and Communalities
Variable Factor1 Factor2 Communality
Pop 0.971 0.160 0.968
School 0.494 0.833 0.938
Employ 1.000 0.000 1.000
Health 0.848 0.395 0.875
Home 0.249 0.375 0.202
Variance 2.9678 1.0159 3.9837
% Var 0.594 0.203 0.797
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable Factor1 Factor2 Communality
Loading Plot of Pop, ..., Home
Pop 0.718 0.673 0.968
1.0 School
School 0.052 0.967 0.938
Employ 0.831 0.556 1.000 0.8
Health 0.924 0.143 0.875 Pop
Home 0.415 0.173 0.202
Second Factor
0.6 Employ
Variance 2.2354 1.7483 3.9837 0.4
% Var 0.447 0.350 0.797
Variance 2.2354 1.7483 3.9837 0.2 Home
Health
% Var 0.447 0.350 0.797
0.0
Los resultados indican que se trata de un caso Heywood. Hay tres tablas de ponderaciones
y comunalidades: no rotada, rotada y ordenada y rotada. Los factores no rotados explican el 79.7%
de la variabilidad de los datos (ver última línea de comunalidad) y los valores de la comunalidad
indican que los valores indicados por las variables sin Home están bien representadas por los estos
dos factores (comunalidades de 0.202 para Home y 0.0875 a 1 para las otras). El porcentaje de
la variabilidad total representada por los factores no cambia con la rotación, sin emabrgo después de la
rotación, los factores están más balanceados en el porcentaje de variabilidad que representan, con
el 44.7% y el 35% respectivamente.
Página 7 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Se usa para evaluar con que confiabilidad varias preguntas en una encuesta miden el mismo constructo.
Se presentan varios tipos de estadísticos para determinar la confiabilidad en general y pregunta por
pregunta.
- El alfa de Cronbach mide el grado de consistencia interna para todas las preguntas incluidas.
Es una medida de consistencia interna. Siendo la consistencia interna uan evaluación de que tan
confiable es una encuesta o preguntas diseñadas para medir el mismo cosntructo, realmente lo hagan.
Un constructo es un tema relevante, o habilidad tal como comprensión de lectura o satisfacción del
cliente. Para aplicar las mediciones de consistencia interna, las preguntas generalmente se colocan
en un mismo instrumento y se aplican a un grupo de gente en una sola ocasión para evitar que
confundan las variables.
Por ejemplo, en un banco se quiere evaluar la satisfacción de sus clientes con oportunidad del servicio:
Se pide a 60 clientes a responder a las siguientes tres preguntas usando una escala de 1 a 5 para
indicar su nivel de acuerdo. 1-Muy satisfecho; 2-Insatisfecho; 3-Neutral; 4-Satisfecho; 5-Muy satisfecho
Si el alfa de Cronbach es alta, hay evidencia de que las preguntas miden el mismo constructo,
de otra forma, si su valor es bajo, las preguntas tiene poco en común y no son buenos indicadores
del mismo constructo.
Results for: Cronbach.MTW
Item Analysis of Item 1, Item 2, Item 3, Item 4
Correlation Matrix
Item 1 Item 2 Item 3
Item 2 0.814
Matrix Plot of Item 1, Item 2, Item 3, Item 4
Item 3 0.795 0.789 5
Item 4 0.038 0.017 0.003
Item 2
Cell Contents: Pearson correlation
3
Página
5
8 de 45
Item 3
1
Mintab V15 Módulo 10.5 Estadística Multivariada P. Reyes / Nov. 2007
Item 2
3
Item and Total Statistics 1
5
Total
Variable Count Mean StDev 3
Item 3
Item 1 60 3.450 1.333
1
Item 2 60 3.383 1.415 5
Item 3 60 3.317 1.255
Item 4
3
Item 4 60 2.167 0.827
Total 60 12.317 3.83 En la1 gráfica de correlaciones, los items 1, 2 y 3 tienen una
1 3 5 1 3 5 1 3 5
correlación positiva,
Item 1 mientrasItemque
2 el 4o. No laItemtiene.
3
Adj. Squared
Omitted Adj. Total Total ItemAdj. Multiple Cronbach's
Variable Mean StDev Total Corr Corr Alpha
Item 1 8.867 2.665 0.818768 0.725307 0.599499
Item 2 8.933 2.603 0.802999 0.717877 0.606279
Item 3 9.000 2.768 0.785333 0.691912 0.625996
Item 4 10.150 3.727 0.019250 0.004488 0.921674
De esta tabla se observa que el Item 4 tiene valores bajos de correlación, y si se omite se incrementa
el valor del alfa de Cronbach.
Por tanto solo las preguntas 1 a 3 miden la satisfacción del cliente en oportunidad de servicio, por lo
que la pregunta 4 se debe omitir o replantear.
Ahora se trata de dividir los países en grupos similares (conglomerados) de acuerdo con la
información disponible:
1. File > Open worksheet IBEROAMERICA.MTW
2. Stat > Multivariate > Cluster observations
3. Linkage Method: Single Distance Measure: Euclidean Number of Clusters 3
4. Seleccionar Show Dendogram
5. En Storage poner C13 - Para tener identificado a que cluster corresponde cada observación
6. OK
Se muestra la secuencia de formación de Clusters, cada uno tiene un color diferente:
81.25
de diferente color
93.75
100.00
1 2 14 9 5 8 18 11 6 15 7 12 3 16 4 13 17 20 10 19 22 21
Observations Página 9 de 45
93.75
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
100.00
1 2 14 9 5 8 18 11 6 15 7 12 3 16 4 13 17 20 10 19 22 21
Con esto se puede hacer Observations
una gráfica de dispersión para analizar los clusters, por ejemplo para
Esperanza de vida y PIB por habitante se tiene:
Seleccionando la gráfica y editando los símbolos por grupos correspondientes a los clusters.
Panamá
Venezuela Uruguay Argentina
México
Rep. Dominicana
C olombia
Ecuador Paraguay
70 El Salvador
Nicaragua Perú Brasil
Honduras
65 Guatemala
Bolivia
60
Number of obs.
0 2000 4000 6000 8000 10000 12000 14000 16000
of Similarity Distance Clusters New in new
PIB $/hab
Step clusters level level joined cluster cluster
1 21 99.6131 54.06 2 14 Primer Cluster
2 20 99.4939 70.73 7 12 Segundo Cluster
3 19 99.2755 101.25 2 9 Tercer con 3
4 18 99.2675 102.37 2 5 observaciones 2, 14, 9
5 17 98.9909 141.02 8 18 etc..
6 16 98.9137 151.81 2 8 2 6
7 15 98.7540 174.12 3 16 3 2
8 14 98.7458 175.28 2 11 2 7
9 13 98.1957 252.15 6 15 6 2
10 12 97.9917 280.66 3 4 3 3
11 11 97.9498 286.51 2 6 2 9
12 10 97.2457 384.91 2 7 2 11
13 9 96.6741 464.79 13 17 13 2
14 8 95.7750 590.44 1 2 1 12
15 7 95.4151 640.73 1 3 1 15
16 6 94.7709 730.75 1 13 1 17
17 5 93.5426 902.41 1 20 1 18
18 4 87.1791 1791.70 19 22 Se forma un solo Cluster
19 3 85.3070 2053.32 10 19 al final
20 2 84.7016 2137.93 10 21 10 4
21 1 81.2502 2620.26 1 10 1 22
Number of clusters: 3
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 18 36798918 1151.26 3319.75
Página 10 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Cluster2 3 7382783 1319.42 1962.60
Cluster3 1 0 0.00 0.00
Cluster Centroids Grand
Variable Cluster1 Cluster2 Cluster3 centroid
% menores 15 años 34.50 23.0 16.0 32.09
Esperanza vida al nacer 70.59 74.5 77.9 71.45
Tasa de mortalidad infan 32.31 13.2 5.5 28.48
Teléfonos por 1.000 hab 78.78 284.3 385.0 120.73
Usuarios Internet por 1000 hab 2.78 8.0 31.0 4.77
PIB $/hab 2442.39 10251.0 14350.0 4048.45
% PIB Agricultura 14.09 2.9 5.9 12.19
% PIB Industria 29.71 43.6 37.8 31.96
% PIB Servicios 56.57 53.6 56.3 56.15
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
Cluster1 0.0 7811.37 11911.6
Cluster2 7811.4 0.00 4100.3
Cluster3 11911.6 4100.32 0.0
Ejemplo: Se trata de distribuir las variablies en grupos afines inicialmente no conocidos.
Otro ejemplo con el archivo COCHES.MTW
59.47
72.98
Similarity
86.49
100.00
Cluster 1 formado por 6 variables afine Los otros 6 clusters se forman de una variable cada uno
indicados con un color diferente
Variables
Ejemplo:
Se hacen mediciones en cinco características nutricionales (proteinas, carbohidratos, grasas,
calorías, porcentaje de vitamina A) de 12 marcas de cereales. Utilizar el método de liga completa,
distancia euclidiana al cuadrado, y estandarización dado que las variables tienen diferentes unidades.
Se requiere un dendograma y asignación de diferentes líneas y colores para cada conglomerado.
Página 11 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Cluster Analysis of Observations: Protein, Carbo, Fat, Calories, VitaminA
Standardized Variables, Squared Euclidean Distance, Complete Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 11 100.000 0.0000 5 12 5 2
2 10 99.822 0.0640 3 5 3 3
3 9 98.792 0.4347 3 11 3 4
4 8 94.684 1.9131 6 8 6 2
5 7 93.406 2.3730 2 3 2 5
6 6 87.329 4.5597 7 9 7 2
7 5 86.189 4.9701 1 4 1 2
8 4 80.601 6.9810 2 6 2 7
9 3 68.079 11.4873 2 7 2 9
10 2 41.409 21.0850 1 2 1 11
11 1 0.000 35.9870 1 10 1 12
Final Partition
Number of clusters: 4
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 2 2.48505 1.11469 1.11469
Cluster2 7 8.99868 1.04259 1.76922
Cluster3 2 2.27987 1.06768 1.06768
Cluster4 1 0.00000 0.00000 0.00000
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Cluster4 Grand centroid
Protein 1.92825 0.333458 0.20297 1.11636 0.0000000
Carbo 0.75867 0.541908 0.12645 2.52890 0.0000000
Fat 0.33850 0.096715 0.33850 0.67700 0.0000000
Calories 0.28031 0.280306 0.28031 3.08337 0.0000000
VitaminA 0.63971 0.255883 2.04707 1.02353 0.0000000
Distances Between Cluster Centroids
Página 12 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Cluster1 Cluster2 Cluster3 Cluster4
Cluster1 0.00000 2.67275 3.54180 4.98961
Cluster2 2.67275 0.00000 2.38382 4.72050
Cluster3 3.54180 2.38382 0.00000 5.44603
Cluster4 4.98961 4.72050 5.44603 0.00000
0.00
33.33
Similarity
66.67
100.00
1 4 2 3 5 12 11 6 8 7 9 10
El dendograma muestra la información de la tabla de amalgamamiento en la forma de un diagrama
Observations
de árbol, los cereales 1 a 4 forman el primer conglomerado, los cereales 2,3,4,12,11,6 y 8 forman el
segundo; los cereales 7 y 9 forman el tercero y el cereal 10 forma el cuarto.
Conglomerado de variables
Se usa para clasificar variables en grupos, cuando no se conocen inicialmente y reducir su número.
Esta técnica puede proporcionar variables nuevas que sean más comprensibles que las obtenidas
del análisis de componentes.
El proceso es un método aglomerativo jerárquico que inicia con todas las variables por separado,
cada una formando su propio conglomerado. En el primer paso, las dos variables más cercanas se
reunen, después una tercera variable se junta a los dos anteriores, etc. El proceso continua hasta
tener un solo conglomerado o se le puede indicar con cuantos conglomerados termine.
Por ejemplo se trata de investigar el cambio de presión sanguinea a largo plazo en Peruanos que
emigran a las ciudades desde las montañas. Se toman 39 hombres mayores de 21 años.
El objetivo es reducir el número de variables regsitradas.
Página 13 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Continua.. 24 68 125 75
24 52 148 120
25 72 140 78
27 72 106 72 Etcetera…
Correlation Coefficient Distance, Average Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 9 86.7763 0.264474 6 7 6 2
2 8 79.4106 0.411787 1 2 1 2
3 7 78.8470 0.423059 5 6 5 3
4 6 76.0682 0.478636 3 9 3 2
5 5 71.7422 0.565156 3 10 3 3
6 4 65.5459 0.689082 3 5 3 6
7 3 61.3391 0.773218 3 8 3 7
8 2 56.5958 0.868085 1 3 1 9
9 1 55.4390 0.891221 1 4 1 10
Dendrogram
Average Linkage, Correlation Coefficient Distance
55.44
70.29
Similarity
85.15
100.00
Si se pide una
Agepartición final,Systol
Years Weight se obtiene unaForearm
Diastol Chin lista deCalfvariables quedan en cada conglomerado.
Pulse Height
El dendograma sugiere variables que Variables
pueden ser combiandas con su total o proemdio. En este caso
Chin, Forearm y Calf skin se pueden combinar. La edad y año de migración también son similares.
El peso y las dos mediciones de presión sanguinea son similares, se decide dejar el peso por
separado y combinar las presiones.
Página 14 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Por ejemplo, se atrapan 43 osos. Se les mide su longitud total y longitud de cabeza, peso total y peso
de la cabeza, y diámetro de cuello y de naríz. Se desea clasificar a los 143 osos como pequeños,
medianos y grandes. Se sabe que el 2o., el 78 y el 15 están en las categorías 1, 2 y 3 respectivamente.
Se crea una columna de partición inicial con las tres categorías designadas como 1=pequeño,
2= mediano y 3= grande y los restantes 0=desconocida para indicar la membresía inicial.
Despúes se hace un análisis de congloemerados de K medias y se almacena la membresía en una +
columna denominada BearSize.
Continuación.
ID Length Chest.G Weight Obs.No Name BearSize
39 45 23 65 1 Allen 1
41 47.5 24 70 1 Berta 1
41 57 27 74 2 Berta 1
41 59.5 38 142 3 Berta 2
41 62 31 121 4 Berta 2
43 53 26 80 1 Clyde 1
43 56 30.5 108 2 Clyde 1
2 Para crear la columna de partición inicial, seleccionar Calc > Make Patterned Data > Simple Set of Numbers.
3 En Store patterned data in, poner Initial como el nombre de la columna.
4 En ambos From first value y From last value, poner 0.
5 En List each value, poner 143. Click OK.
6 Ir a Data window y poner 1, 2, y 3 en el segundo, setenta y ochoavo y quinceavao renglones de la columna Initial.
Página 15 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 41 63.075 1.125 2.488
Cluster2 67 78.947 0.997 2.048
Cluster3 35 65.149 1.311 2.449
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 centroid
Head.L 1.0673 0.0126 1.2261 0.0000
Head.W 0.9943 0.0155 1.1943 0.0000
Neck.G 1.0244 0.1293 1.4476 0.0000
Length 1.1399 0.0614 1.2177 0.0000
Chest.G 1.0570 0.0810 1.3932 0.0000
Weight 0.9460 0.2033 1.4974 0.0000
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
Cluster1 0.0000 2.4233 5.8045
Cluster2 2.4233 0.0000 3.4388
Cluster3 5.8045 3.4388 0.0000
Los centroides para los congloemrados individuales se muestran en la segunda tabla y en la tercera
se da la distancia entre centroides de los conglomerados.
Análisis discriminante
Este análisis se aplica cuando ya se sabe a que grupo pertenece cada observación y lo que se desea
saber es cómo la variables disponibles afectan a la clasificación para poder asignar una nueva
observación de la que se conocen los valores de las variables pero no el grupo al que pertenece.
Para el caso de clasificar nuevas observaciones en dos categorías, la regresión logística puede
ser superior al análisis discriminante.
Ejemplo: Con los datos del archivo COCHES.MTW se usan los primeros 150 coches y considerando
solo los de 4, 6 y 8 cilindros:
Página 16 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Linear Discriminant Function for Groups
4 6 8
Constant 1136.2 1098.4 1136.1
PVP 0.0 0.0 0.0
Cil.(cc) 0.0 0.0 0.0
Pot.(CV) 1.1 1.1 1.1
Long. 0.3 0.3 0.4
Anch. 12.1 11.8 12.1
Altu. 3.0 3.0 2.9
Malete. 0.3 0.3 0.2
Peso 0.0 0.0 0.0
Consumo 15.1 14.6 15.7
Velo.max 11.2 5.6 8.2
Acele. 10.1 10.3 10.8
Se van a aplicar estas funciones de discriminación de los primeros 150 coches a los 97 restantes:ç
Copiar columnas C15, C16 y C17 de la hoja COCHES 1:150 que corresponden a las funciones de
discriminación a la hoja COCHES 151:247.
2. Crear la matriz de datos y las matrices con los coeficientes de las funciones de discriminación
Editor > Enable comands
MTB > copy c3 c4 c6-c15 m1 - c5 (no. cil.) se excluye ya que es el valor que se trata de predecir.
MTB > copy c16 m2
MTB > copy c17 m3 Matrices de coeficientes de las tres funciones de discriminación
MTB > copy c18 m4 para 4, 6 y 8 cilindros
Página 17 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
4. Pasar los valores de las matrices del paso 3 a las columna C19, C20 y C21
Editor Enable comands
MTB > copy m5 c19 MTB > copy c3 c4 c6c15 m1
MTB > copy m6 c20 MTB > copy c16 m2
MTB > copy m7 c21 MTB > copy c17 m3
MTB > copy c18 m4
5. Identificar cual es la función que da el valor máxi MTB > multi m1 m2 m5
cada coche MTB > multi m1 m3 m6
MTB > rmax c19-c21 c22 (Calc > Row Statistics) MTB > multi m1 m4 m7
MTB > copy m5 c19
MTB > let c23=c19=c22 MTB > copy m6 c20
MTB > let c24=c20=c22 MTB > copy m7 c21
MTB > let c25=c21=c22 MTB > rmax c19c21 c22
MTB > let c23=c19=c22
6. Colocar en c26 el número de cilindros asignado MTB > let c24=c20=c22
MTB > let c25=c21=c22
MTB > let c26=4*c23+6*c24+8*c25 MTB > let c26=4*c23+6*c24+8*c25
MTB > code (18) '*' c26 c26
Para poner * en los valores missing de las funciones MTB > .
discriminantes en C26
MTB > Code (18) '*' c26 c26
Tabulated statistics: Num.Cil., C26
Rows: Num.Cil. Columns: C26
4 6 8 Missing All
4 80 3 0 4 83
6 0 5 1 1 6
8 0 0 0 2 0
Missing 0 1 0 0 *
All 80 8 1 * 89
Cell Contents: Count
De los 89 coches se han acertado a clasificar como de 4 cilindros 80. De los 6 de 6 cilindros
se han clasificado bien 5 y el de 8 cilindros no se clasificaron 2. La mejor discriminación
fue con los de 4 por tener mas coches en la muestra.
Minitab 15 Ejemplo:
Para regular la pesca de salmón, se desea identificar si tienen su origen en Alaska o en Canadá.
50 peces de cada origen se capturan y se miden sus dimensiones de cuando vivian en agua dulce
y cuando posteriormente vivian en agua salada. La idea es poder identificar de donde vienen las
nuevas capturas.
Página 18 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Seleccionar Cross Validation si se quiere reducir la tasa de error aparente en clasificaciones erroneas
se usa para compensar un error que sea optimista.
SalmonOriginFreshwater Marine
Alaska 108 368
Alaska 131 355
Alaska 105 469
Alaska 86 506
Alaska 99 402
Alaska 87 423 Etcetera…
True Group
Put into Group Alaska Canada
Alaska 44 1
Canada 6 49
Total N 50 50
N correct 44 49
Proportion 0.880 0.98 Prob. de clasificar correctamente peces de Alaska o Canadá
N = 100 N Correct = 93 Proportion Correct = 0.930
Squared Distance Between Grou Identificación correcta
Alaska Canada
Alaska 0.00000 8.29187
Canada 8.29187 0.00000
Página 19 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
71** Canada Alaska Alaska 2.045 0.948
Canada 7.849 0.052
Ejemplo:
Se clasifica a 790 investigadores en 10 disciplinas académicas y cinco categorías de fondeo,
donde A es la categoría más alta de fondeo, D la más baja y E sin fondos. Los renglones son
las disciplinas y las categorías de fondeo son las columnas.
Se desea conocer como se comparan las disciplinas entre sí respecto a las categorías de fondeo.
Se hace un análisis de correspondencia desde una orientaciòn de filas. Se incluyen datos
compmentarios como son: una fila para investigadores de museos no incluidos en el estudio, y una fila
de ciencias matemáticas, que es la suma de matemáticas y estadística.
Página 20 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Row ProfilDa las proporciones de cada renglón de categorías por columna, por ejemplo Geología:
A B C D E Mass
Geology 0.035 0.224 0.459 0.165 0.118 0.107
Biochemistry 0.034 0.069 0.448 0.034 0.414 0.036
Chemistry 0.046 0.192 0.377 0.162 0.223 0.163
Zoology 0.025 0.125 0.342 0.292 0.217 0.151
Physics 0.088 0.193 0.412 0.079 0.228 0.143
Engineering 0.034 0.125 0.284 0.170 0.386 0.111
Microbiology 0.027 0.162 0.378 0.135 0.297 0.046
Botany 0.000 0.140 0.395 0.198 0.267 0.108
Statistics 0.069 0.172 0.379 0.138 0.241 0.036
Mathematics 0.026 0.141 0.474 0.103 0.256 0.098
Mass 0.039 0.161 0.389 0.162 0.249
Analysis of Contingency Table
Muestra la descomposición de la inercia total. Da un resumen de la descomposición de la tabla de
contingencia 10 x 5 en cuatro componentes.
Chi2 / n 65.972/796
Axis Inertia Proportion Cumulative Histogram
1 0.0391 0.4720 0.4720 ******************************
2 0.0304 0.3666 0.8385 ***********************
3 0.0109 0.1311 0.9697 ********
4 0.0025 0.0303 1.0000 *
Total 0.0829
Row Contributions
Como no se especificó el número de componentes, Minitab calcula 2.
Component 2
ID Name Coord Corr Contr
1 Geology 0.303 0.861 0.322
2 Biochemistry 0.455 0.762 0.248
3 Chemistry 0.073 0.510 0.029
4 Zoology 0.102 0.083 0.052
5 Physics 0.027 0.006 0.003
6 Engineering 0.292 0.749 0.310
7 Microbiology 0.110 0.671 0.018
8 Botany 0.039 0.029 0.005
9 Statistics 0.014 0.007 0.000
Página 21 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
10 Mathematics 0.061 0.079 0.012
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Museums 0.556 0.067 0.353 0.314 0.225 0.168 0.381 0.331 0.318
2 MathSci 0.559 0.134 0.041 0.112 0.493 0.043 0.041 0.066 0.007
Row Plot
0.5 Biochemistry
0.4
Engineering
0.3
0.2
Component 2
Microbiology
0.1 Mathematics
MathSci Botany
Phy sics Statistics
0.0
Chemistry
Zoology
-0.1
-0.2
Geology
-0.3
Museums
-0.4
-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
Zoología y física muestra estas dos clases con signo contrario
Component 1
2
E
1
Biochemistry
Engineering
Microbiology
Component 2
Mathematics
MathSci
Botany
Statistics
Physics
Chemistry
Zoology
0 CGeology
A Museums
D
B
-1
-2
-3
-3 -2 -1 0 1 2
Component 1 Página 22 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
-2
Ejemplo:
Los accidentes de auto se clasifican de acuerdo al tipo de accidente (colisión o volteo), la severidad
del accidente (no severo o severo), si o no el conductor fue expulsado, y el tamaño del coche (pequeño
o estándar). El análisis de correspondencia múltiple se utilizó para examinar como se relacionan entre
categorías en esta tabla de cuatro vias.
Analysis of Indicator Matrix
Axis Inertia Proportion Cumulative Histogram
1 0.4032 0.4032 0.4032 ******************************
2 0.2520 0.2520 0.6552 ******************
3 0.1899 0.1899 0.8451 **************
4 0.1549 0.1549 1.0000 ***********
Total 1.0000
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Small 0.965 0.042 0.208 0.381 0.030 0.015 2.139 0.936 0.771
2 Standard 0.965 0.208 0.042 0.078 0.030 0.003 0.437 0.936 0.158
3 NoEject 0.474 0.213 0.037 0.284 0.472 0.043 0.020 0.002 0.000
4 Eject 0.474 0.037 0.213 1.659 0.472 0.250 0.115 0.002 0.002
Página 23 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
5 Collis 0.613 0.193 0.057 0.426 0.610 0.087 0.034 0.004 0.001
6 Rollover 0.613 0.057 0.193 1.429 0.610 0.291 0.113 0.004 0.003
7 NoSevere 0.568 0.135 0.115 0.652 0.502 0.143 0.237 0.066 0.030
8 Severe 0.568 0.115 0.135 0.769 0.502 0.168 0.280 0.066 0.036
Esta tabla se usa para interpretar los diferentes componentes. Como no se especificó el número de
componentes, Minitab calcula 2.
- La columna Qual o quality, esla proporción de la inercia de la columna, representada por todos los
componentes calculados. Las categorías de tamaño de coche, están mejor representadas por la
división de los dos componentes con Qual = 0.965, mientras que la expulsión tiene el menor valor
Qual = 0.474.
- La columna denominada Inert es La proporción de Inercia a La que contribuye cada columna. Las
categorías carros pequeños, expulsiones y colisiones, tienen la mayor inercia, sumando 61.4%, lo cual
indica que éstas categorías están más disociadas que las otras.
Minitab muestra información para cada uno de los dos componentes (ejes):
- La co lumna Coord da las coordenas de la columna. Eject y Rollover tienen las coordenadas
absolutas más largas para el componente 1 y Small tiene la coordenada mayor absoluta para el
componente 2. El signo y tamaño relativo de las coordenadas son útiles para interpretar componentes.
- La columna Corr representa la contribución del componente respectivo a la inercia de los renglones.
Aquí, el componente 1 representa el 47 del 61% de la inercia de las categorías: expulsión,
tipo de colisión y severidad del accidente. Pero solo explica el 3% de la inercia del tamaño del carro.
- La columna Contr es la contribución de la fila al eje de inercia, muestra como expulsión y volteo
son los que contribuyen más al componente 1 (Contr = 0.250 y 0.291, respectivamente).
El componente 2, por otra parte suma 93.6% de la inercia de las categorías de tamaño de coche,
contribuyendo el pequeño (small con 77.1% del eje de inercia.,
Column Plot
2
1
Standard
Severe
Component 2
Eject
CNoEject
ollis
0 Rollover
NoSevere
-1
-2 Small
no severo.
El componente 2 separa pequeño con otras categorías. Los dos componentes pueden no explicar
adecuadamente la variabilidad de estos datos.
Página 24 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
speran
0.0660
0.006
0.992
Página 25 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Pop
Employ
Health
0.75 1.00
Página 26 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
tructo.
Página 27 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
...
Página 28 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Set of Numbers.
e la columna Initial.
Página 29 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Página 30 de 45
Mintab V15 Módulo 10. Estadística Multivariada P. Reyes / Nov. 2007
Página 31 de 45
ARCHIVO IBEROAMERICA.MTW
ARCHIVO COCHES