Sei sulla pagina 1di 6

IN3401

Estadistica para Economia y Gestion


Prof. Marcelo Olivares

Comparando Muestras en Stata


Este tutorial trata sobre comandos bsicos para comparar muestras. El set de datos, student2.dta, fue
obtenido del libro Statistics with Stata de Lawrence C Hamilton (Captulo 5).
Descripcin del set de datos:
.desc
obs:

243

vars:

19

size:

Student survey (Ward 1990)


12 Jul 2003 10:16

6,561 (99.4% of memory free)

---------------------------------------------------------------------storage
variable name

type

display

value

format

label

variable label

------------------------------------------------------------------------------id

int

%8.0g

Student ID

year

byte

%9.0g

age

byte

%8.0g

gender

byte

%9.0g

major

byte

%8.0g

relig

byte

%8.0g

drink

byte

%9.0g

33-point drinking scale

gpa

float

%9.0g

Grade Point Average

grades

byte

%8.0g

grades

Guessed grades this semester

belong

byte

%8.0g

belong

Belong to fraternity/sorority

live

byte

%8.0g

v10

Where do you live?

miles

byte

%8.0g

How many miles from campus?

study

byte

%8.0g

Avg. hours/week studying

athlete

byte

%8.0g

yes

Are you a varsity athlete?

employed

byte

%8.0g

yes

Are you employed?

allnight

byte

%8.0g

allnight

How often study all night?

ditch

byte

%8.0g

times

How many class/month ditched?

hsdrink

byte

%9.0g

High school drinking scale

aggress

byte

%9.0g

Aggressive behavior scale

year

Year in college
Age at last birthday

Gender (male)
Student major

v4

Religious preference

-------------------------------------------------------------------------------


El anlisis estar centrado en la medida drink, la cual mide cuan a menudo y en gran cantidad los
alumnos beben alcohol.
Comparando 2 muestras.
Los miembros de fraternidades beben ms que los no-miembros?
Una herramienta comn para visualizar la distribucin de dos muestras es el diagrama de cajas-bigotes
(box-and-whisker plot) (tambin conocido como box-plot en ingls)

10

20

33-point drinking scale

30

40

.graph box drink, over(belong)

member

nonmember


Un diagrama de cajas muestra varios percentiles de la distribucin de la muestra. La lnea del medio es
la mediana, las lneas superior e inferior que definen el rectngulo sombreado son los percentiles 75 y
25. El rango intercuartil, IQR, es la diferencia entre los percentiles 25 y 75. La parte superior y los
resultados finales son la mediana + / - 1.5xIQR. Observaciones sobre la lnea superior y por debajo de la
lnea inferior podran considerarse outliers.



Para probar la hiptesis de igualdad de medias:

. ttest drink, by(belong)

Two-sample t test with equal variances


-----------------------------------------------------------------------------Group |

Obs

Mean

Std. Err.

Std. Dev.

[95% Conf. Interval]

---------+-------------------------------------------------------------------member |

47

24.7234

.7124518

4.884323

23.28931

26.1575

nonmembe |

196

17.7602

.4575013

6.405018

16.85792

18.66249

---------+-------------------------------------------------------------------combined |

243

19.107

.431224

6.722117

18.25756

19.95643

---------+-------------------------------------------------------------------diff |

6.9632

.9978608

4.997558

8.928842

-----------------------------------------------------------------------------diff = mean(member) - mean(nonmembe)


Ho: diff = 0

Ha: diff < 0

t =

6.9781

degrees of freedom =

241

Ha: diff != 0

Pr(T < t) = 1.0000

Pr(|T| > |t|) = 0.0000

(Nota: este test assume que las muestras tienen igual varianza).
Un test no paramtrico de Mann-Whitney se puede correr usando:
. ranksum drink, by(belong)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test


... [Output omitted]
Ho: drink(belong==member) = drink(belong==nonmember)
z =
Prob > |z| =

6.480
0.0000

Ha: diff > 0


Pr(T > t) = 0.0000


Para testear si dos muestras tienen la misma varianza:
. sdtest drink, by(belong)

Variance ratio test


-----------------------------------------------------------------------------Group |

Obs

Mean

Std. Err.

Std. Dev.

[95% Conf. Interval]

---------+-------------------------------------------------------------------member |

47

24.7234

.7124518

4.884323

23.28931

26.1575

nonmembe |

196

17.7602

.4575013

6.405018

16.85792

18.66249

---------+-------------------------------------------------------------------combined |

243

19.107

.431224

6.722117

18.25756

19.95643

-----------------------------------------------------------------------------ratio = sd(member) / sd(nonmembe)


Ho: ratio = 1

Ha: ratio < 1


Pr(F < f) = 0.0156

Ha: ratio != 1
2*Pr(F < f) = 0.0312

f =

0.5815

degrees of freedom =

46, 195

Ha: ratio > 1


Pr(F > f) = 0.9844


Comparando medias en mltiples grupos.
El consumo promedio de alcohol vara segn los aos en la escuela?
Year (ao) es la variable categrica con mltiples niveles. Dibujamos un diagrama de cajas para obtener
una comparacin visual entre los grupos:
. graph hbox drink, over(year)

Freshman

Sophomore

Junior

Senior

10

20
33-point drinking scale

30

40

Podemos hacer ANOVA de la variable drink, comparando las medias en estos 4 grupos:
. anova drink year
Number of obs =
Root MSE

Source |

Partial SS

243

R-squared

= 6.55489

df

0.0609

Adj R-squared =

0.0491

MS

Prob > F

-----------+---------------------------------------------------Model |

666.200518

222.066839

5.17

0.0018

666.200518

222.066839

5.17

0.0018

10269.0176

239

42.9666008

|
year |
|
Residual |

-----------+----------------------------------------------------


Total |

10935.2181

242

45.1868517

La tabla ANOVA muestra que la variacin entre los grupos es mucho mayor que dentro de los grupos. El
valor del estadstico F es 5.17; bajo la hiptesis nula de igualdad de medias entre los grupos, este
estadstico del test sigue una distribucin F con 3, 242-3 grados de libertad. El p-valor es 0.0018,
sugiriendo que la hiptesis verdadera no es verdadera.

Potrebbero piacerti anche