Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introduccin
En este capitulo se define la estadstica descriptiva y los mtodos
estadsticos multivariados que se utilizaron en el presente estudio. Dentro de
los mtodos estadsticos multivariados descritos estn: (i) el anlisis de
componentes principales, el cual detalla, sus caractersticas, objetivos y la
explicacin de la obtencin de ellas. El segundo mtodo multivariado definido
es (ii) el anlisis de conglomerados, en este, se describen los objetivos, las
medidas de semejanza, distancia y las tcnicas de agrupamiento. Como
ltimo mtodo se tiene (iii) el anlisis discriminante, en el cual se detalla la
obtencin de las funciones discriminante para los casos de dos o mas
grupos.
Diagrama de Caja
Un diagrama de caja es una ilustracin grfica, basada en cuartiles, que
ayuda a visualizar un conjunto de datos.
Se requieren cinco tipos de datos para construir un diagrama de caja: el valor
mnimo, el primer cuartil, la mediana, el tercer cuartil, y el valor mximo.
Figura 2.1
Diagrama de Caja
37
Prueba de Kolmogorov-Smirnov
Este contraste, que es valido nicamente para variables continuas, compara
la funcin de distribucin (probabilidad acumulada) terica con la observada,
calcula un valor de discrepancia, representado habitualmente como D, que
corresponde a la discrepancia mxima en valor absoluto entre la distribucin
observada y la distribucin terica, proporcionando asimismo un valor de
probabilidad P, que corresponde, si estamos verificando un ajuste a la
distribucin normal, a la probabilidad
38
39
dependencias entre cada para de variables, entre una variable y todas las
restantes, entre pares de variables controlando por el efecto de otras en el
sistema multivariado y dependencia conjunta entre todas las variables.
2.2.2. Matriz de Datos Multivariados
La organizacin de datos para un anlisis multivariado generalmente se lo
realiza en forma de una matriz con n filas, en cada fila se registran
observaciones de un mismo individuo, y cada una de las p columnas
representa una variable aleatoria. La Figura 2.2 muestra la matriz de datos
multivariados de dimensin nxp. A esta matriz de datos la llamaremos X ,
donde cada fila es un caso u observacin multivariada. Una observacin
multivariada es la coleccin de mediciones sobre p variables diferentes
tomadas sobre el mismo tem o unidad objeto de estudio.
Figura 2.2
Organizacin de Datos Multivariados
Xj
Xp
Variable
Caso
X1
X2
X 11
X 12
...
X1 j
...
X1p
X 21
X 22
...
X2j
...
X2p
.
.
n
.
.
.
.
.
.
X n2
...
...
...
.
.
X n1
...
...
...
X nj
X np
40
41
lineal
de las p
as q
en el
42
43
44
45
2.4.3. Distancias
Dado que el objetivo bsico del anlisis de conglomerados es medir la
asociacin entre las entidades a agrupar, es necesario que se establezca
una medida de similaridad, o su complemento (medida de disimilaridad). En
la formacin de grupos, la proximidad est dada por algn tipo de distancia.
La seleccin de una medida de distancia apropiada es fundamental en el uso
de cualquier tcnica de agrupamiento, sin embargo la seleccin de esta
depende de la naturaleza de las variables ya sean estas: binaria, discreta,
continua, de la escala de medicin (nominal, ordinal, intervalo, cociente) y
del conocimiento del objeto de estudio.
46
d ( x, y )
x
i 1
yi
Eucldea
es
frecuentemente
preferida
con
motivos
de
47
48
49
Figura 2.3
Dendrograma Construido por un Procedimiento Jerrquico
Aglomerativo de Clasificacin
Encadenamiento promedio (average linkage)
555
337
67
75
521
517
522
336
507
240
202
156
70
41
0.00
1.74
3.48
5.22
6.96
8.70
10.44
12.18
Distancia
Una
de
las
principales
caractersticas
de
los
procedimientos
de
50
forma
un
solo
conglomerado
que
contiene
todos
los
51
de
encadenamiento
simple,
es
uno
de
los
pocos
52
53
2.4.4.2.1. K-means
El procedimiento comienza con un agrupamiento inicial o con un grupo de
puntos semilla (centroides) que formarn los centros de grupo (particin
inicial del grupo de objetos en K items). Prosigue asignando cada objeto al
grupo que tiene el centroide (media) ms cercano. Generalmente se utiliza
distancia Eucldea con observaciones estandarizadas o no. Recalcula el
centroide para el conglomerado que recibi un nuevo tem y para el que lo
perdi. Repite el accionar descrito varias veces hasta que ya no existen ms
re-posicionamientos.
54
que
el
anlisis
discriminante
tratar
existentes.
Estas
funciones,
denominadas
posibles.
55
56
Ser
la
siguiente
en
capacidad
discriminatoria
adems,
estar
objetivo
del
anlisis
discriminante
es,
precisamente,
mejorar
la
disponibles.
Para
ello,
la
informacin
de
todas
las
57
58
59