Sei sulla pagina 1di 16

Humberto Villalobos

7-03-05

Estadstica Multivariada

UNIVERSIDAD TCNICA FEDERICO SANTA MARA

Existen Muchas Mediciones asociadas a


una poblacin.

PROBABILIDAD
Y ESTADSTICA

Carrera.
Satisfaccin con la
Universidad.
Puntaje de Ingreso.
Nmero de hermanos.
Etc.

HUMBERTO VILLALOBOS TORRES

UNIVERSIDAD TCNICA FEDERICO SANTA MARA

DEPARTAMENTO

DE

De la
Poblacin de
Alumnos
USM

MATEMTICAS

20/03/2008

20/03/2008

Estadstica Multivariada

Estadstica Multivariada

Se cuenta con una matriz de Datos

Observar el comportamiento global


de los datos.
Establecer relaciones
Establecer grupos
Determinar patrones.

Se Requieren herramientas
Computacionales especializadas
20/03/2008

20/03/2008

Anlisis Exploratorio
Multivariado

Anlisis Exploratorio
Multivariado

Matriz de Asociaciones

Matriz de Correlaciones.
Muestra la asociacin lineal entre
pares de variables.

20/03/2008

Primera Clase

20/03/2008

Humberto Villalobos

7-03-05

Organizacin de Datos

Organizacin de Datos

La organizacin habitual es a travs


de pares ordenados de datos.

Anlisis a travs de la tabla

20/03/2008

20/03/2008

Organizacin de Datos

Organizacin de Datos

Expresin en trminos de Frecuencias


Relativas

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean en cierta regin,
en la cual se miden las siguientes caractersticas:
Cargo que ocupa, Sueldo que percibe y valor del
automvil que posee, en miles de pesos.
,

20/03/2008

20/03/2008

Organizacin de Datos

Organizacin de Datos

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean

20/03/2008

Primera Clase

20/03/2008

Humberto Villalobos

7-03-05

Organizacin de Datos

Organizacin de Datos

Distribuciones Marginales.

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean

20/03/2008

20/03/2008

Organizacin de Datos

Organizacin de Datos

APLICACIN 2: Antes de construir una presa sobre

APLICACIN 1: Se realiza una


encuesta a profesionales que
se desempean

el Ro Missouri, una empresa efectu una serie de


pruebas para medir un flujo de agua (en miles de
galones por minuto [Mg/m]) en tres de sus grandes
ramas: Sioux City, Yankton y Omaha. Los
resultados de las pruebas fueron organizados en la
siguiente tabla:
,

20/03/2008

20/03/2008

Organizacin de Datos

Organizacin de Datos
APLICACIN 3: Un Socilogo dirigi una
investigacin para determinar la incidencia de un tipo
determinado de crimen variaba entre las cuatro
regin de mayor ndice delictual. Los crmenes de
inters para el socilogo son: asalto, robo hurto y
homicidio. La siguiente tabla presenta los resultados
en una muestra de 746, 918, 1527 y 854 crmenes para
la regin IV, V, Central, VIII, respectivamente
,
durante el ltimo
ao.

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Determine las distribuciones
marginales

Frecuencia

Histograma
150
100
50
0

Flujo de rios

20/03/2008

Primera Clase

[Mg/m]

20/03/2008

Humberto Villalobos

7-03-05

Organizacin de Datos

APLICACIN 3: Un Socilogo dirigi una


investigacin para determinar la incidencia
Determine las distribuciones marginales

Utilidad de
marginales.

Frecuencia

Organizacin de Datos

Central

distribuciones

Observacin de la distribucin de los


datos en las clases de mayor y menor
relevancia.
Mediante el uso de indicadores sobre
estas distribuciones, se puede tratar de
establecer asociaciones con variables
NO CUANTITATIVAS.

40%
30%
20%
10%
0%
IV

las

VIII

Regin

Asalto
Robo
Hurto
Homicidio

20/03/2008

20/03/2008

Organizacin de Datos

Organizacin de Datos
Distribuciones condicionales.

Distribuciones Condicionales.

nA1
n
A
nA 2
n
A
fj
= #
i =A
#

nAr
n
A

20/03/2008

A = 1, ... , k

j = r

Organizacin de Datos

Organizacin de Datos

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Determine las distribucin
condicional del flujo del ro en la rama Yankton

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Determine las distribucin
condicional del flujo del ro en la rama Omaha

Todos los indicadores son posibles de determinar


para este grupo de datos y ser comparados con otro
grupo de inters.

Todos los indicadores son posibles de determinar


para este grupo de datos

Primera Clase

j = 2

20/03/2008

20/03/2008

j = 1

20/03/2008

Humberto Villalobos

7-03-05

Organizacin de Datos

Organizacin de Datos

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Compare el flujo de las ramas de
los ros

APLICACIN 3: Un Socilogo dirigi una


investigacin para determinar la incidencia
Determine las distribucin condicional del tipo de
crimen en la quinta regin central y compare
Asalto

Robo
Hurto
Homicidio

Asalto
Robo
Hurto
Homicidio

20/03/2008

20/03/2008

Organizacin de Datos

Organizacin de Datos

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean

Grfica de Dispersin

Promedio Condicional al Cargo

6e6
5e6
4e6
3e6
2e6
1e6
0

Otros

Ventas

Administrativo

Ejecutivo

Sub-Gerente

Gerente

Cargo

Las Distancias en el Eje de los


Cargos son arbitrarias, Slo de
debe tener Presente el orden dado
el tipo de escala.
20/03/2008

20/03/2008

Organizacin de Datos y
Estratificacin

Organizacin de Datos
Organizacin de Datos:

APLICACIN 4:
Un
estudio
de
una
administradora de fondos de pensiones acerca de
la opcin que toma el afiliado, con respecto al
tipo de fondo donde quiere mantener un mayor
porcentaje de sus ahorros previsiones, y su
respectivo nivel de ingresos (en miles de pesos)

Distribuciones Marginales
Se obtienen Indicadores por variable, segn
sea el tipo de escala de la variable.

Distribuciones Condicionales
Se obtienen Indicadores por variable, segn
sea el tipo de escala de la variable, en
variables de inters.
Mediante el uso adecuado de indicadores se
pueden asociar variables.
20/03/2008

Primera Clase

20/03/2008

Humberto Villalobos

7-03-05

Organizacin de Datos y
Estratificacin

Organizacin de Datos y
Estratificacin
APLICACIN 4:
Un
administradora de .

APLICACIN 4: En este caso cada tipo de fondo


representa un estrato o grupo, de donde a travs
de las distribuciones condicionales y marginales
se obtienen los indicadores necesarios:

estudio

de

una

Utilizando la Marginal de Ingreso

20/03/2008

20/03/2008

Organizacin de Datos y
Estratificacin

Asociacin de Variables
Existe una Matriz de Datos

APLICACIN 4:
Un
estudio
de
una
administradora de .
Utilizando la Marginal de Ingreso

20/03/2008

20/03/2008

Asociacin de Variables

Asociacin de Variables

Tipo de Escala de la Medicin

Combinacin entre Tipos de Escalas

Discreta
Cuantitativa
Continua

Nominal - Discreta

Intervalar

Comuna v/s Nmero de Atrasos

Nominal - Continua

Razn

Comuna v/s % de Crdito

Nominal - Ordinal

Nominal

Comuna v/s Establecimiento educacional

Nominal - Nominal

Cualitativa

Comuna v/s Carrera

Ordinal

Continua - Continua
Tiempo traslado v/s Tiempo dedicado al estudi0

20/03/2008

Primera Clase

20/03/2008

Humberto Villalobos

7-03-05

Asociacin de Variables

Indicadores de Asociacin

Anlisis Exploratorio de pares de


variables.

Estadstica Chi - Cuadrado


Su uso es aplicable a cualquier tipo de
escala de medicin

Grficos Adecuados

Nominal Ordinal Discreta - Continua

Anlisis a travs de Indicadores de


asociacin.

Es fundamental que los datos se


encuentren agrupados en una tabla
Parte de la idea de la independencia entre
dos variables.

Chi- Cuadrado de Pearson


Asociacin Montona de Spearman
Asociacin de Kendall
Asociacin Lineal de Pearson

20/03/2008

20/03/2008

Estadstica Chi - Cuadrado

Estadstica Chi - Cuadrado

Estadstica Chi - Cuadrado

Una Tabla de Frecuencia de Doble


Clasificacin

Se basa en la relacin entre lo Observado


y lo Esperado
Observa las discrepancias existentes entre
las frecuencias que se tienen en la
muestra y las que debiesen obtenerse si
las variables fuesen independientes.
Entonces a grandes discrepancias, mayor
es la posibilidad de dependencia entre las
variables
20/03/2008

20/03/2008

Estadstica Chi - Cuadrado

Estadstica Chi - Cuadrado

Cmo determinar lo esperado?

En una tabla de frecuencia el concepto


tiene una aplicacin similar.

bolitas
rojas
bolitas
azules

20/03/2008

Primera Clase

Caracterstica A NO depende de la
Caracterstica B, luego sus distribuciones
tampoco

Cuntas
esperaras
de B1?

Muestra de 10 bolitas
Cuntas esperaras
que fuesen rojas

Cuntas esperaras de A1?

Cuntas esperaras de B1 y A1?


20/03/2008

Humberto Villalobos

7-03-05

Estadstica Chi - Cuadrado

Estadstica Chi - Cuadrado

El Clculo de la estadstica Chi cuadrado

El clculo de la estadstica 2

rc

2 =

ij

nij

rc

( Observado Esperado )2

2 =

Esperado

ij

n n

n
nij j i
n

n j ni

Desarrollando el cuadrado

n j ni
n
n
i =
n
n
n
n j

rc

2 =

n
ij

20/03/2008

ni

Estadstica Chi - Cuadrado

Estadstica Chi - Cuadrado

APLICACIN 5: Suponga la siguiente


Tabla de doble clasificacin

APLICACIN 5: Suponga la siguiente Tabla

20/03/2008

20/03/2008

Estadstica Chi - Cuadrado

(25 22) 2 (20 23) 2


(26 26) 2
+
+ ... +
22
23
26

Estadstica Chi - Cuadrado


Tablas de contingencia de dos clases cada
variable.

Indicadores descriptivos relacionados a


uso de Chi- cuadrado
Tablas de contingencia de dos clases en
cada variable.
Tablas de contingencia de tablas donde
cada caracterstica tiene la misma
cantidad de clases.
Tablas de contingencia de tablas donde las
caractersticas tienen distinta cantidad de
clases.

Primera Clase

20/03/2008

2 =

20/03/2008

n nij2

H=
20/03/2008

n22 n11 n12 n21


n

Humberto Villalobos

7-03-05

Estadstica Chi - Cuadrado

Estadstica Chi - Cuadrado

Tablas de contingencia de dos clases cada


variable.

Tablas de contingencia de tablas donde cada


caracterstica tiene la misma cantidad de clases.
Es el indicador ms comnmente usado es el
coeficiente de contingencia CC el cual vara entre
cero y un mximo que depende de la cantidad de
clases.
Este coeficiente indicar que mientras ms cercano se
encuentre a cero menor es el grado de asociacin
entre las variables.
Es un indicador muy conservador, que no tiene un
valor probablistico, slo descriptivo.

Su fundamento se encuentra en que si las


variables fueses independientes, entonces la razn
entre n11/n1 n21/n2, es decir:

n11 n21
=
n1 n2

n11 n11 + n21 n1


n n
=
=
n11 = 1 1
n1 n1 + n2
n
n
n21 n11 + n21 n1
n n
=
=
n21 = 1 2
n2 n1 + n2
n
n
n n
n n
12 21 H 11 22
n
n

20/03/2008

CC =

k 1
k

Estadstica Chi - Cuadrado

APLICACIN 3: Un Socilogo dirigi una


investigacin para determinar

Tablas de contingencia de tablas donde las


caracterstica tiene la distinta cantidad de clases.
Es un indicador que vara entre cero y uno, que al
igual que el coeficiente de contingencia, indicar
menor es el grado de asociacin entre las variables
mientras ms cercano se encuentre a cero.
Al igual que CC, es un indicador muy conservador,
que no tiene un valor probablistico, slo descriptivo.

k 1
3
=
4
k

CC =

125,84
= 0,174
4045 + 125,84

CC
0,174
100% =
100% = 20, 09%
mx(CC )
0,866

T2 =

2
n (k 1) (r 1)

; V=

2
n min{k 1, r 1}

20/03/2008

Organizacin de Datos

Indicadores de Asociacin II

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean

Estadstica de Asociacin de Spearman

T2 =

Primera Clase

CC =

Organizacin de Datos

CC =

20/03/2008

k=r

20/03/2008

20/03/2008

2
n + 2

Es fundamental que los datos se


encuentren en al menos escala ordinal
La aplicacin ms utilizada es datos no
agrupados, sin embargo, bajo ciertas
restricciones se puede extender a datos
agrupados
Se basa en la relacin entre los rangos de
la variables

354, 44
= 0,3236
200 6 5
20/03/2008

Humberto Villalobos

7-03-05

Estadstica de Spearman

Estadstica de Spearman

Tiene una estrecha relacin con el


coeficiente de asociacin de Pearson,
que se ver ms adelante.

Rangear datos

rs = 1

6
n( n

Ordinales

Continuos

d
1)

2
i

i =1

Rx = Rango de la variable x.

( Rx Ry )2

20/03/2008

20/03/2008

Estadstica de Spearman

12
rs = 8(64
0,857
1)

rs = 1

Ry = Rango de la variable y.

6
4
rrss ==1 0,
952
8(64 1)

Estadstica de Spearman

APLICACIN 1: Una Aproximacin con datos


agrupados en Tablas, para la aplicacin de la
realizacin de una encuesta a profesionales

Grfica de Dispersin

Promedio Condicional al Cargo

6e6
5e6
4e6
3e6
2e6
1e6
0

Otros

Ventas Administrativo
EjecutivoSub-GerenteGerente
Cargo

Cuidado !
20/03/2008

20/03/2008

Estadstica de Spearman

Estadstica de Spearman

Una Aproximacin con datos


agrupados en Tablas

No muestra relaciones funcionales


Indica una asociacin montona
entre las variables.
rs = 1

Siempre creciente
Siempre decreciente

6
14
6(36 1)

Se encuentra acotado en el intervalo


[-1 ; 1]

rs = 0, 60

Montona creciente
1
Montona decreciente -1

Cuidado con los empates de rangos


20/03/2008

Primera Clase

20/03/2008

10

Humberto Villalobos

7-03-05

Estadstica de Spearman

Estadstica de Spearman

APLICACIN 2: Antes de construir una presa


sobre el Ro Missouri, una empresa efectu

APLICACIN 2: Antes de construir una presa


sobre el Ro Missouri, una empresa efectu :

20/03/2008

Es posible determinar mediante el uso del


coeficiente de Spearman, las relaciones
montonas entre las ramas de ro Missouri

rS ( S ; O) = 1

6 12,5
= 0,85
8 63

rS (Y ; O) = 1

6 50,5
= 0, 40
8 63

Indicadores de Asociacin III

Estadstica de Kendall

Estadstica de Asociacin de Kendall

Se basa en una medida de desorden.

20/03/2008

d2 =

d2 =

i =1

i =1

di2 = ( X i Yi )2

( X i Yi )2

i =1

20/03/2008

2
= d max
=

Estadstica de Kendall

Estadstica de Kendall

La estadstica de Kendall se expresa por:

Mtodo de Clculo de Kendall

n(n 2 1)
3

ns nd
ns + nd

ns : Nmero de comparaciones de orden


Natural

Primera Clase

6 24
= 0, 71
8 63

20/03/2008

Es fundamental que los datos se


encuentren en al menos escala ordinal
Representa una alternativa al coeficiente
de Spearman, ya que tambin se basa n la
relaciones de los rangos de las variables
El coeficiente de Kendall al igual que
Spearman se encentra acotado en el
intervalo [-1; 1]

20/03/2008

rS ( S ; Y ) = 1

nd : Nmero de comparaciones de orden


Inverso

=
20/03/2008

ns nd 25 3 22
=
=
= 0, 786
ns + nd 25 + 3 28

11

Humberto Villalobos

7-03-05

Indicadores de Asociacin IV

Estadstica de Pearson

Estadstica de Asociacin de Pearson

Es habitual que se utilice la grfica de


dispersin para visualizar el tipo de
relacin

Muestra la relacin lineal que existe entre


dos variables
Es fundamental que los datos sean
cuantitativos continuos.
Este coeficiente al igual que Spearman y
Kendall se encentra acotado en el
intervalo [-1; 1]
Lineal creciente

Lineal decreciente

1
-1

20/03/2008

20/03/2008

Estadstica de Pearson

Anlisis Exploratorio

Si la relacin no es lineal, entonces no son


detectadas por este coeficiente.

Grficamente se puede observar

G RFICA DE DISPERSIN

GRFICA DE DISPERSIN
Y 100
80
60
40
20
0

Y 80
60
40
20
0
5

10

15

20

25

10

15

20

25

GRFICA DE DISPERSIN

GRFICA DE DISPERSIN
Y 600

Y 40000

400

30000

200

20000

10000

-200

22

27

32

37

12

17

22

27

20/03/2008

32

20/03/2008

Estadstica de Pearson

Estadstica de Pearson

Asociacin Lineal de Pearson

Asociacin Lineal de Pearson

rp

( yi

i=1

( yi

- y ) ( xi - x )
n

- y) 2

i=1

( xi -

rp =
x) 2

yi2

i =1
20/03/2008

Primera Clase

Desviaciones estndar
de cada variable

ny x

i =1
n

Mide la relacin
lineal ente un par
de variables

i=1

yi xi

rp =

cov( x, y)
sx s y

- n y2

xi2

cov =

- nx2

( yi

i =1

- y ) ( xi - x )
n 1

i =1

20/03/2008

12

Humberto Villalobos

7-03-05

Estadstica de Pearson

Estadstica de Pearson

APLICACIN 5: Considere la siguiente situacin

APLICACIN 6: Considere la siguiente situacin

Tiempo de Transporte

Tiempo Transporte
70
60
50
40
30
20
10
0

xT = 15, 609

xC = 13, 037

ST2

= 400, 491

SC2 = 17, 634

ST = 20, 012

SC = 4,199

Cov(C ; T) = 62, 782 = SCT


7

11

13

15

17

19

21

23

% de Capacidad no Utilizada

rp = 0, 7471

20/03/2008

20/03/2008

Estadstica de Pearson

Estadstica de Pearson

APLICACIN 7: Gastos Publicidad v/s Cantidad

APLICACIN 7: Gastos Publicidad v/s Cantidad

xP = 12, 467
Q [M/US$]

26

S P2

22

= 9,838

S P = 3,137

18
14

xQ = 17,867
SQ2 = 12, 267

SQ = 3,502

Cov( P; Q) = 10, 638 = S PQ

10
7

11

13
15
P [M/US $]

17

19

21

rp = 0,9684
20/03/2008

20/03/2008

Estadstica de Pearson

Estadstica de Pearson

Asociacin Lineal de Pearson

APLICACIN 7: Se aplic una cantidad


estrgeno (C en mg.) versus su edad (E en
aos)

ij ( m i

i ( mi

- y)

i =1

j ( m j

- x)

f ij mi m j -

yx

i = 1 j =1

rP =

i =1

Primera Clase

f
j =1

20/03/2008

- y ) ( x j - x )

i = 1 j =1

rP =

f i mi - y

f j m j - x

j =1

C = 25,417

SC2 = 39,393

E = 38,333 S E2 = 167, 225

20/03/2008

13

Humberto Villalobos

7-03-05

Estadstica de Pearson

La idea de Pronosticar

APLICACIN 7: Se aplic una cantidad


estrgeno (C en mg.) versus su edad (E en aos)

Al establecer un relacin funcional entre


variables, se puede utilizar una para el
pronstico de la otra.

rp =

15 20 7 + 15 30 1 + ... + 35 60 6
25, 417 38,333
60
39,393 167, 225

20/03/2008

20/03/2008

Estimacin de Parmetros

Estimacin de Parmetros

Para estimar los parmetros de la funcin de


pronstico, se busca minimizar los errores
cuadrticos.

Minimizacin de errores cuadrticos

20/03/2008

Modelo funcional entre


las variables

20/03/2008

Estimacin de Parmetros

Pronsticos en las variables

Minimizacin de errores cuadrticos

Minimizacin de errores cuadrticos

Clara relacin
con el coeficiente
de Pearson
20/03/2008

Primera Clase

20/03/2008

14

Humberto Villalobos

7-03-05

Pronsticos en el % de Capacidad

Pronsticos en la Cantidad

APLICACIN 6: Considere la siguiente situacin ...

APLICACIN 7: Gastos Publicidad v/s Cantidad


26

70
60
50
40
30
20
10
0

Q [M/US$]

Tiempo de Transporte

Tiempo Transporte

22
18
14
10

11

13

15

17

19

21

23

11

% de Capacidad no Utilizada

20/03/2008

rp = 0, 7471

13
15
P [M/US $]

19

21

rp = 0,9684

20/03/2008

Pronsticos en el estrgeno

Enfoque Matricial

APLICACIN 7:

Se cuenta con una matriz de Datos

Se aplic una cantidad


estrgeno (C en mg.) versus su edad (E en aos)

17

C = 25,417
SC2 = 39,393
E = 38,333
S E2 = 167, 225

rp = 0,84

yi = 25, 417 + 0,84

39,393
( xi 38,333)
167, 225

20/03/2008

20/03/2008

Enfoque Matricial

Enfoque Matricial

Es posible determinar un vector de media

1

1
=
#

1 p1

Cuidado con la caracterstica de la unidad de


medicin de la variable

Es posible determinar una matriz de


varianza y covarianza entre la variables
La covarianza es un indicador de el tipo de
asociacin (positiva negativa) entre pares de
variables
Puede tomar cualquier valor en los reales
Es un factor de importancia para Pearson y
Spearman
20/03/2008

Primera Clase


1
2
=
= Xt 1
#
n

20/03/2008

p
p1

x1


x2
1
=
X = Xt 1
#
n

x p p1

15

Humberto Villalobos

7-03-05

Enfoque Matricial

Enfoque Matricial

Matriz de Varianza y Covarianza ()

Aplicacin Matricial

1
(Xt 1n1 Xt )t (Xt 1n1 Xt )
n 1

s12

s
= 12
#

s1 p

s21 " s p1 Es una matriz

Simtrica
s22 " s p 2
S =S
# % # Es una matriz

semidefinida
s2 p " s 2p
p p positiva

20/03/2008

12

21

20/03/2008

Herramientas de Excel

Herramientas de Excel

Resultado
Matriz de
covarianzas
20/03/2008

Primera Clase

20/03/2008

16

Potrebbero piacerti anche