Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
BMDP
Pedro Cuesta
Apoyo a Investigacin C.P.D
Servicios Informticos UCM
Estad - 2
INTRODUCCIN
Consideramos en este curso el trmino Estadstica como una serie de hechos orientados
a ordenar y describir un conjunto de datos con la finalidad de inferir generalidades a partir de
observaciones especificas
No hay que olvidar que los datos disponibles suministrarn una informacin parcial del
proceso en estudio y aunque la estadstica valide unas hiptesis, el investigador deber dar un
significado real a las conclusiones en el contexto correspondiente.
PRUEBAS ESTADSTICAS
Se formulan hiptesis acerca de leyes o fenmenos fsicos o naturales, que es necesario
demostrar o rechazar por medio de "contrastes" (tests) o "pruebas". La prueba de la hiptesis es
el Contraste de la hiptesis, lo que nos llevara a su aceptacin o rechazo.
El procedimiento estndar consiste en recopilar informacin en forma de observaciones
numricas que sern la base de nuestra decisin. Por ejemplo si tiramos una moneda 100 veces y
obtenemos siempre cara podemos percibir que la hiptesis de que la moneda no est trucada no
es aceptable. Sin embargo es posible obtener este resultado con una moneda no trucada, por
consiguiente no podremos estar completamente seguros de nuestra decisin.
Los procedimientos de Inferencia Estadstica nos posibilitan, bajo ciertas hiptesis,
establecer la probabilidad de aceptar hiptesis falsas o rechazar hiptesis verdaderas. Es decir
nos dan la probabilidad de cometer error con nuestra decisin.
CLASIFICACIN DE VARIABLES
El trmino variable se usa en estadstica para indicar una caracterstica o propiedad que
es posible medir. Cuando medimos algo representamos por un modelo numrico aquello que
medimos. Por ejemplo, la altura de una persona. Asignamos un nmero a cada persona.
Las medidas fsicas, como altura y peso, se miden con un instrumento fsico. Otras
propiedades abstractas
tales como razonamiento, depresin , inteligencia se miden
indirectamente.
En general, los datos a analizar consistirn de un conjunto de P variables medidas en N
unidades muestrales (individuos, observaciones, casos,...)
A la hora de determinar el anlisis estadstico apropiado para un conjunto de datos es
importante clasificar las variables segn su tipo. Un mtodo de clasificar variables se basa en el
grado de sofisticacin en el mtodo de obtener la medida. Por ejemplo, podemos medir la altura
de un individuo precisando nicamente si sobrepasa una marca (alto) o no (bajo). Por otra parte
podramos obtener la altura en centmetros.
Estad - 3
Estad - 4
Esta ltima clasificacin lleva a considerar las posibles distribuciones de las variables que
se suponen en los anlisis. De esta forma una variable discreta puede seguir una distribucin
binomial, de Poisson, multinomial, etc., mientras que la distribucin normal se usa para describir
la distribucin de las variables continuas.
DISTRIBUCIONES CONTINUAS
n = Xi
2
i =1
X 1 n1
X 2 n2
se le llama F de Fisher-Snedecor con n1 y n2 grados de libertad.
F=
01
0.4
0.4
0.3
0.3
prob. densidad
prob. densidad
0.2
0.2
0.1
0.1
-5
-3
-1
Estad - 5
-5
-3
-1
10
Func. de densidad F
0.1
10 10
0.8
0.6
prob. densidad
prob. densidad
0.08
0.06
0.04
0.4
0.2
0.02
10
20
X
30
40
4
X
Estad - 6
Las distribuciones CHI-2, t y F juegan un gran papel en las estimaciones por intervalo,
contrastes de hiptesis y modelos lineales. Es importante reconocer estas distribuciones y utilizar
sus tablas de percentiles correspondientes.
CMO SE USAN LAS VARIABLES EN EL ANLISIS
Las variables pueden ser definidas para medir una determinada salida o respuesta o bien
para explicar por qu se obtiene una determinada salida. Por ejemplo en el estudio de una
enfermedad, las variables edad, antecedentes, severidad del estado, tratamiento son variables
explicativas o independientes. La variable discreta sana/no-sana es la variable a explicar o
dependiente.
En ciertos anlisis exploratorios todas las variables se usan como un nico conjunto, sin
distincin entre independientes y dependientes
Estad - 7
Clasificacin Representacin
Grfica
Nominal
Ordinal
Intervalo
Razn
Grf. de barras
Grf. de tartas
Histogramas
Moda
Histogramas con
reas medibles
Histogramas con
reas medibles
Media = X
Varianza binomial
multinomial
Mediana
Media geomtrica = X i
i=1
1N
Coeficiente
de variacin = S X
Media armnica =
1 Xi
i= 1
Estad - 8
Variables Independientes
Nominal u Ordinal
Intervalo o Razn
Variables dependientes
1 variable
> 1 variable
1 variable
> 1 variable
No variables dependient.
Ajuste 2
Medidas de asociacin
Modelo log-lineales
Estadsticos univariantes
(ej.: t para una muestra)
Medidas descriptivas
Contraste de normalidad
Matriz de correlacin
Componentes principales
Anlisis factorial
Anlisis Cluster
Modelo log-lineales
Regresin logstica
Segmentacin
Modelo log-lineales
Funcin discriminante
Regresin logstica
Estadsticos univariantes (t)
Funcin discriminante
Funcin discriminante
Regresin logstica
Anlisis Varianza
Segmentacin
Anlisis Supervivencia
Anlisis multivariante Varianza
Anlisis varianza en
Componentes Principales
Regresin lineal
Correlacin
Anlisis Supervivencia
Correlacin cannica
Contraste 2
de independencia
Nominal u Ordinal
1 variable
Contraste 2
Contraste exacto de Fisher
> 1 variable
Modelo log-lineales
Funcin discriminante
Intervalo o Razn
1 variable
> 1 variable
Contraste t
Anlisis Varianza
Anlisis Supervivencia
Anlisis multivariante Varianza
Anlisis varianza en
Componentes Principales
T2 Hotelling
Anlisis Perfiles
Correlacin cannica
Anlisis Path
Modelos estructurales
(LISREL, EQS)
Pedro Cuesta
17/12/99 BMDP-Esta
EJEMPLO ILUSTRATIVO
ESTUDIO DE LA PRESIN ARTERIAL A DIFERENTES ESTMULOS.
Se estudian 355 varones sometidos a un rgimen de vida y alimentacin similares
(servicio militar). Se mide la Tensin Arterial Sistlica (TAS) tras cinco pruebas: postural,
mental, esttica, fro y dinmica. Cada prueba tiene su correspondiente valor base.
El fichero PAS.DAT de trabajo tiene 15 variables:
Entre 18 y 28 aos
EDAD
TABCANT
ALCOHOL
gr. de alcohol
POSTBAS
POSTEST
MENTBAS
MENTEST
ESTABAS
ESTAEST
FRIOBAS
FRIOEST
DINABAS
DINAEST
delgados:
control:
medios:
obesos:
-5 %
-5 5 %
5 15 %
> 15 %
Consumo
Consumo
Consumo
Consumo
33 gr./da
33 100 gr./da
100 200 gr./da
> 200 gr./da
Pedro Cuesta
17/12/99 BMDP-Esta
B M D P 1D
DESCRIPCIN SIMPLE DE LOS DATOS
OBJETIVO : Calcula estadsticas univariantes para cada variable.
Pueden calcularse para cada nivel de una variable grupo. Pueden
listarse todos los casos, o solo los casos con missing o valores
fuera de los limites especificados.
Aplicaciones:
Ordenar los casos por varias variables.
Listar los casos con errores de codificacin.
Listar los valores extremos.
Los estadsticos que calcula para cada variable son:
Nmero de casos no missing en la variable n
Media
x
Desviacin Estndar
= n 1
Error estndar de la media
n
Coeficiente de variacin
x
Smallest value (mnimo)
xmin
Smallest z-score (mnimo estandarizado) ( x min x )
Largest value (mximo)
xmax
Largest z-score (mximo estandarizado)
( x max x )
Rango
xmax xmin
Determinar si existen
Encontrar los casos concretos
Determinar la causa (Errores, variaciones reales extremas, muestras inadecuadas).
Decidir qu hacer con ellos (mantenerles, corregirles, dos ejecuciones, etc.).
Pedro Cuesta
17/12/99 BMDP-Esta
OPCIONES:
Ordenar los datos
/INPUT
Los niveles de la primera variable varan mas lentamente. Y los de la ultima mas
rpidamente. Se especifica orden ascendente o descendente para cada variable
especificada en SORT.
Los datos ordenados pueden imprimirse y salvarse a un fichero.
Estadsticas por grupos
/GROUP
Nombres o ndices de las variables para dividir los casos en grupos. Los estadsticos
se calculan para cada grupo, en cada variable individualmente.
Alternativamente puede usarse BMDP9D.
Pesos/frecuencias
Podemos especificar una variable que contenga la frecuencia o peso de cada caso. La
variable frecuencia tiene el efecto de casos repetidos.
/VARiable . FREQ= CONT
Especifica la variable conteniendo la frecuencia de cada caso.
/VARiable . CWEIGHT= PESOMUES
Especifica la variable conteniendo un peso para cada caso.
Listar casos no aceptables
/PRINT
MISS. MIN.MAX.
MISS Lista los casos que tengan al menos un missing en una variable. Valor igual al
especificado en el prrafo VARIABLE.
MIN Lista los casos que tengan un valor menor o igual al valor mnimo especificado
en el prrafo VARIABLE.
MAX Lista los casos que tengan un valor mayor o igual al valor mximo especificado
en el prrafo VARIABLE.
Listar casos
/PRINT
Pedro Cuesta
17/12/99 BMDP-Esta
Otras opciones
/PRINT
LINEsize=80. PAGE=70.
ECASE.
SK.
Imprime los estadsticos Simetra y Curtosis para cada variable. Comentados en 2D.
/SAVE
Crea un fichero BMDP guardando las variables originales, las nuevas, las
transformaciones, etc.
Salida ejemplo:
/PRINT
CASE
1
NO. EDAD
---- -------1
21.00
2
21.00
3
21.00
4
21.00
190
22.00
2
SOBREPES
-------<- 5
- 5<+5
MISSING
MISSING
MISSING
3
TABTIPO
-------NOFUMA
NOFUMA
NEGRO
RUBIO
NORESP
4
TABCANT
-------0
0
T1-10
T>20
T11-20
5
6
7
8
9
10
11
12
13
ALCOHOL POSTBAS POSTEST MENTBAS MENTEST ESTABAS ESTAEST FRIOBAS FRIOEST
-------- -------- -------- -------- -------- -------- -------- -------- ------->200
108.00
102.00
102.00
122.00
108.00
128.00
104.00
114.00
< 33
120.00
122.00
122.00
122.00
110.00
132.00
110.00 MISSING
100<200
120.00
128.00
128.00
136.00
134.00
150.00
146.00
124.00
< 33
110.00
104.00
104.00
116.00
112.00
116.00
100.00
106.00
100<200
142.00
130.00
130.00
136.00
126.00
126.00
122.00
122.00
CASE
14
15
NO. DINABAS DINAEST
---- -------- -------1
102.00 MISSING
2
110.00
148.00
3
120.00
164.00
4
94.00
134.00
190
122.00
150.00
NUMBER OF CASES READ. . . . . . . . . . . . . .
355
EDAD
SOBREPES
TABTIPO
TABCANT
ALCOHOL
POSTBAS
POSTEST
MENTBAS
MENTEST
ESTABAS
ESTAEST
FRIOBAS
FRIOEST
DINABAS
DINAEST
TOTAL
FREQ.
355
352
355
355
355
355
355
355
355
355
355
355
354
355
354
MEAN
21.473
4.0969
1.6056
2.5155
156.39
122.01
116.29
116.22
119.72
114.00
144.40
113.97
121.10
114.32
146.15
STANDARD ST.ERR
DEV.
OF MEAN
1.0689
9.9397
.98116
.99811
123.65
13.062
13.766
13.742
13.980
12.476
19.142
12.297
14.136
12.204
21.025
.05673
.52979
.05207
.05297
6.5626
.69327
.73064
.72936
.74199
.66216
1.0159
.65266
.75131
.64770
1.1175
COEFF
OF VAR
SMALLEST
VALUE Z-SCR
LARGEST
VALUE Z-SCR
RANGE
28.000
55.500
3.0000
5.0000
390.00
188.00
182.00
182.00
168.00
162.00
200.00
150.00
190.00
158.00
216.00
10.000
78.600
3.0000
4.0000
390.00
98.000
100.00
100.00
80.000
78.000
98.000
70.000
106.00
98.000
156.00
6.11
5.17
1.42
2.49
1.89
5.05
4.77
4.79
3.45
3.85
2.90
2.93
4.87
3.58
3.32
Pedro Cuesta
17/12/99 BMDP-Esta
B M D P 2D
DESCRIPCIN DETALLADA DE LOS DATOS Y
FRECUENCIAS
OBJETIVO: Calcula estadsticas univariantes para cada variable, frecuencias
y porcentajes de cada valor, etc. Son posibles tres alternativas robustas de la
media y un estadstico para normalidad.
Estadsticos univariantes:
Mximo y mnimo observados y rango.
Varianza y desviacin estndar
Mitad del rango intercuartil
( Q3 Q1 ) 2
Donde Q1 y Q3 son los 25% y 75% percentiles respectivamente.
Representa la mitad de la longitud del intervalo que cubre el 50% de los
valores centrales. Es una medida de variacin que no se altera si una pequea
fraccin de los datos presenta valores muy altos o bajos. Se usa como
alternativa a la varianza en distribuciones con colas largas en una direccin.
(El percentil 100p% es un valor x p tal que al menos el 100p% de los datos
son x p y al menos el 100(1p)% de los datos son x p ).
Mximo y mnimo valor estandarizado.
Pedro Cuesta
17/12/99 BMDP-Esta
Intervalos centrales:
Q1
Q3
S
S+
percentil 25%
percentil 75%
media menos una desviacin
media ms una desviacin
INFERENCIA
Media:
Observamos su intervalo de confianza para contrastar la hiptesis H : = 0
Proporcin
Si estamos interesados en un intervalo de confianza del porcentaje p observado en
una caracterstica o modalidad de una variable discreta calculamos:
p 1. 96 p(1 p) n
lo que nos permite contrastar la hiptesis H : p = p0
OPCIONES :
Pesos/frecuencias
Podemos especificar una variable que contenga la frecuencia o peso de cada caso. La
variable frecuencia tiene el efecto de casos repetidos.
/VARiable
FREQ= CONT.
Truncar/Redondear valores
Cuando hay muchos casos y muchos valores diferentes (hasta uno por caso) podemos
suprimir la salida de valores individuales o agruparles:
Pedro Cuesta
/COUNT
17/12/99 BMDP-Esta
STEM.
Histogramas Stem-Leaf.
/GROUP
VARIABLE = SEXO.
Realiza el anlisis para cada uno de las categoras determinada por una variable.
Pedro Cuesta
************
* POSTEST *
************
VARIABLE NUMBER . . . . . .
NUMBER OF DISTINCT VALUES .
NUMBER OF VALUES COUNTED. .
NUMBER OF VALUES NOT COUNTED
7
38
355
0
MAX
MIN
VALUE
182.0000000
82.0000000
SKEWNESS
KURTOSIS
VALUE
0.61
1.22
ZSCORE
4.773
-2.491
CASE #
300
265
VALUE/S.E.
4.660
4.705
5 COUNTS
HH
HHHH
HHHHH
HHHHHHH
HHHHHHHHH
HHHHHHHHH
HHHHHHHHHH
HHHHHHHHHHHHH
HHHHHHHHHHHHHHHHH H H
H
.....+....+....+....+....+..
100
140
180
120
160
MEAN
MEDIAN
MODE
ESTIMATE
116.2873230
116.0000000
112.0000000
TEST OF NORMALITY
W STATISTIC
SIGNIFICANCE LEVEL
0.9772
0.0457
ST.ERROR
0.7306382
0.5773506
ST.DEV.
VARIANCE
RANGE
(Q3-Q1)/2
ESTIMATE
13.7662792
189.5104370
100.0000000
9.0000000
114.8503876
117.7242584
106.0000000
124.0000000
102.5210419
130.0536041
S Q
Q
S
- 1
M M
3
+
M
. .
O E
.
.
M
I
. .
D A
.
.
A
N
. .
E N
.
.
X
..+.......+.......+.......+.......+.......+.......+.......+.......+.......+.......+.......+.....
81.
99.
117
135
153
171
90.
108
126
144
162
180
VALUE
COUNT
82.
1
84.
1
86.
1
88.
2
90.
2
92.
5
94.
4
96.
2
98.
7
100.
14
102.
15
104.
21
106.
18
108.
19
110.
19
112.
26
114.
19
116.
24
118.
19
PERCENTS
CELL
CUM
0.3
0.3
0.3
0.6
0.3
0.8
0.6
1.4
0.6
2.0
1.4
3.4
1.1
4.5
0.6
5.1
2.0
7.0
3.9 11.0
4.2 15.2
5.9 21.1
5.1 26.2
5.4 31.5
5.4 36.9
7.3 44.2
5.4 49.6
6.8 56.3
5.4 61.7
VALUE
COUNT
120.
16
122.
17
124.
15
126.
13
128.
18
130.
5
132.
14
134.
7
136.
7
138.
4
140.
4
142.
3
144.
3
146.
2
148.
3
150.
2
156.
1
164.
1
182.
1
PERCENTS
CELL
CUM
4.5 66.2
4.8 71.0
4.2 75.2
3.7 78.9
5.1 83.9
1.4 85.4
3.9 89.3
2.0 91.3
2.0 93.2
1.1 94.4
1.1 95.5
0.8 96.3
0.8 97.2
0.6 97.7
0.8 98.6
0.6 99.2
0.3 99.4
0.3 99.7
0.3 100.0
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
B M D P 5D
HISTOGRAMAS Y GRFICOS UNIVARIANTES
OBJETIVO: Histogramas de frecuencias y porcentajes para cada
variable. Grficos de normalidad. Cuando se especifica una variable grupo
pueden obtenerse grficos conjuntos o por separado de cada grupo.
Los histogramas nos muestran la distribucin de la variable. Podemos ver en ellos los
valores mas frecuentes, valores extremos, picos o subpoblaciones, simetras , etc.
El histograma de porcentajes acumulativos nos permite obtener aproximaciones de la
mediana y otros percentiles.
Si n es el nmero de observaciones n es un nmero adecuado de intervalos.
OPCIONES:
/PLOT
Obligatorio. Histograma de frecuencias para cada variable. Opciones de tamao y
etiquetado por defecto. Imprime frecuencias, frecuencias acumuladas, porcentajes y
porcentajes acumulados
Solicitamos histogramas acumulados de 60 caracteres de ancho y 40 lineas de alto. La
base del histograma corresponde a una frecuencia de 0 y cada carcter en las barras
representa 5 observaciones.
/PLOT
Grficos de normalidad.
Se obtienen tres tipos diferentes de grficos de normalidad. Estos grficos se
solicitarn frecuentemente para analizar los residuos de modelos como la Regresin Lineal.
NORMAL
En los grficos de probabilidad normal, los datos se estandarizan y se ordenan. Al
representarlos frente a los datos esperados de una distribucin N(0,1) deberamos
obtener puntos alineados en la diagonal del cuadro.
Si los extremos se curvan hacia abajo (arriba) indica una distribucin sesgada hacia la
dcha. (ida.). Una forma-S indica colas diferentes que una normal.
DETRENDED
Grfico similar al anterior pero eliminando la tendencia lineal. Si la variable tiene una
distribucin normal los puntos del grfico deben situarse cerca del cero y sin un patrn
determinado.
HALF-NORMAL
Examina residuales ignorando el signo.
/PLOT
Pedro Cuesta
17/12/99 BMDP-Esta
Transformaciones
Aplicando alguna transformacin a la variable del tipo
x,
x , log 10 ( x ), 1 / x , x 2
7 POSTEST
SYMBOL COUNT
X
355
EACH SYMBOL REPRESENTS
MEAN
ST.DEV.
116.287
13.766
1 OBSERVATIONS
INTERVAL
FREQUENCY
NAME
5
10
15
20
25
30
35
40
45
50
55 INT. CUM.
+----+----+----+----+----+----+----+----+----+----+----+
*78
+
0
0
*81
+
0
0
*84
+XX
2
2
*87
+X
1
3
*90
+XXXX
4
7
*93
+XXXXX
5
12
*96
+XXXXXX
6
18
*99
+XXXXXXX
7
25
*102
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXX
29
54
*105
+XXXXXXXXXXXXXXXXXXXXX
21
75
*108
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
37 112
*111
+XXXXXXXXXXXXXXXXXXX
19 131
*114
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
45 176
*117
+XXXXXXXXXXXXXXXXXXXXXXXX
24 200
*120
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
35 235
*123
+XXXXXXXXXXXXXXXXX
17 252
*126
+XXXXXXXXXXXXXXXXXXXXXXXXXXXX
28 280
*129
+XXXXXXXXXXXXXXXXXX
18 298
*132
+XXXXXXXXXXXXXXXXXXX
19 317
*135
+XXXXXXX
7 324
*138
+XXXXXXXXXXX
11 335
*141
+XXXX
4 339
*144
+XXXXXX
6 345
*147
+XX
2 347
*150
+XXXXX
5 352
*153
+
0 352
*156
+X
1 353
*159
+
0 353
*162
+
0 353
*165
+X
1 354
*168
+
0 354
*171
+
0 354
*174
+
0 354
*177
+
0 354
*180
+
0 354
*183
+X
1 355
+----+----+----+----+----+----+----+----+----+----+----+
5
10
15
20
25
30
35
40
45
50
55
PERCENTAGE
INT. CUM.
0.0
0.0
0.0
0.0
0.6
0.6
0.3
0.8
1.1
2.0
1.4
3.4
1.7
5.1
2.0
7.0
8.2 15.2
5.9 21.1
10.4 31.5
5.4 36.9
12.7 49.6
6.8 56.3
9.9 66.2
4.8 71.0
7.9 78.9
5.1 83.9
5.4 89.3
2.0 91.3
3.1 94.4
1.1 95.5
1.7 97.2
0.6 97.7
1.4 99.2
0.0 99.2
0.3 99.4
0.0 99.4
0.0 99.4
0.3 99.7
0.0 99.7
0.0 99.7
0.0 99.7
0.0 99.7
0.0 99.7
0.3 100.0
Pedro Cuesta
E
X
P
E
C
T
E
D
N
O
R
M
A
L
-1
V
A
L
U
E
-2
-3
7 POSTEST
SYMBOL COUNT
MEAN
ST.DEV.
*
355
116.287
13.766
..+....+....+....+....+....+....+....+....+....+....+.....
+
+
//
*
/
*
/* *
/**
+
/**
+
/**
**
**
**
+
***
+
**
***
**
**/
+
**
+
**
***
**
**
+
**
+
**
/**
/**
**
+
/**
+
/**
- //**
- / *
-/ *
+
+
..+....+....+....+....+....+....+....+....+....+....+.....
90.
110
130
150
170
80.
100
120
140
160
180
POSTEST
VALUES FROM NORMAL DISTRIBUTION WOULD LIE
ON THE LINE INDICATED BY THE SYMBOL / .
17/12/99 BMDP-Esta
Pedro Cuesta
M
A
L
-.4
+ *
+
*
..+....+....+....+....+....+....+....+....+.L..+....+L....
90.
110
130
150
170
80.
100
120
140
160
180
POSTEST
VALUES FROM NORMAL DISTRIBUTION WOULD LIE
ON THE LINE INDICATED BY THE SYMBOL - .
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
B M D P 6D
CORRELACION
OBJETIVO: Relacin de dos variables continuas.
/PLOT
XVAR=ESTABAS,DINABAS. YVAR=ESTAEST,DINAEST.
r=
( xi x )( yi y )
sx sy
( n 1)
i =1
r n 2
t n 2
1 r2
La media de cada variable x , y y las desviaciones estndar sx , s y
La linea de regresin por mnimos cuadrados y = a + bx
La media de cuadrados residual (RES.MS) s 2y / x = ( y j yj ) 2 ( n 2)
Podemos identificar subpoblaciones con un caracter diferente para cada modalidad de una
variable grupo categrica:
/GROUP
/PLOT
....VARIAB = SOBREPES.
XVAR=DINABAS. YVAR=DINAEST.
GROUP = ALL. SYMBOLS = D,C,M,S.
Pedro Cuesta
PROGRAM INSTRUCTIONS
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CODES (EDAD) = 18 TO 28.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
CUTP(5)= 33.,100.,200.
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
/PRINT LEVEL = BRIEF. LINESIZE = 100. PAGESIZE = 75.
/PLOT XVAR=DINABAS. YVAR=DINAEST. CROSS. SIZE = 65,50.
/END
220
200
180
160
D
I
N
A
E
S
T
140
120
100
80.
60.
....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+...
+
+
1
1
1
1
1
Y
+
1
+
11 1
1
1
1
1
1
1
12
1
+
1 1 2
1
1
+
1
2
2
112 1 11
12 2
1
1
2
1 2 3
2
1 2 11 1 3 1 23
1
1
+
2 2 1 1 12
2
+
113 12115 2211 31 1 1
1 2 531 2 3
21 1 1
1
2 1142 5 11 21
1
1
112 5 14325 11
1
1
111 1 421 212 2
3
+
1
111 2212 1 14
+
1
211 22321 334 1 3 2
1
32 3 232 2
1112 2 23 111 1
1 1 3222
1
1 32153 21 21 11
+
1
2 1 2
+
1
212 1
1
1
2
1
22 1
1
2
1
1
1
11
1
+
+
1
+
+
Y
+
1
+
17/12/99 BMDP-Esta
Pedro Cuesta
....+.....+.....+.....+.....+M....+.....+.....+.....+.....+.....+...
70.
90.
110
130
150
60.
80.
100
120
140
160
N = 354
R = .661
P < .001
--REGRESSION LINE-Y= 15.984 +1.1382*X
DINABAS
-RES.MS249.82
X
Y
MEAN
114.36
146.15
S.D.
12.203
21.025
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
/END
90
80
70
A
C
T
D
A
E
S
F
60
50
40
30
20
.+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....
+
+
G
N N N
G
N NN
N N L
G L
G
N
+
G
*
LL
L
+
L N L
NN N L
G
NL
G
G
NNLL* L
L
GN
G
L
L
L
L
*
+
* G
G
+
G G
G G G
G
G
G
GGG
NG
G
G
G GG G
G
+
L
G
G
+
G
G
G
G
G
G
G
G
G
G
G
G G
G
G
+
G
G G
+
GG
G
G
G
G
G
G
G
G
G
+
G
+
G
G
G
G
G
G
G
G
- G G
+ G
+
G
G
G
+
+
.+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....
35
45
55
65
75
85
30
40
50
60
70
80
Pedro Cuesta
ACTDAREP
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
B M D P 4F
TABLAS DE FRECUENCIAS
OBJETIVO: Analiza tablas de frecuencias de dos o mltiples
entradas, a partir de las frecuencias de las celdas o de casos
individuales.
Se analiza el grado de asociacin entre dos variables categricas.
Incorpora nmerosos estadsticos para tablas 22 de frecuencias,
tablas con categoras ordenadas, etc.
En las tablas de porcentajes hay que determinar la direccin en la que deben
calcularse (filas o columnas). Si una de las dos variables es la independiente o de control y la
otra dependiente o criterio, se calculan los porcentajes a lo largo de la variable dependiente.
En los porcentajes se interpretan cambios: absolutos, relativos relativos al posible
aumento.
Notacin
1
1
2
M
i
M
r
Frecuencias marginales
nij
ni
nj
n
ni = nij , n. j = nij
j
Proporciones marginales
pi = pij , p. j = pij
j
pij
pi j =1, ,c
pij
p
j i =1, ,r
La relacion entre las dos variables tiene dos puntos de vista: Homogeneidad entre
perfiles o Independencia (la distribucin observada corresponde a la esperada segn las
frecuencias marginales). En el caso extremo tendramos una relacin funcional perfecta entre
filas y columnas.
Significatvidad estadstica
Construida la tabla el estadstico CHI-DOS se utiliza para contrastar si la cantidad de
tabaco TABCANT es independiente de la variable ALCOHOL. Si estas dos variables son
Pedro Cuesta
17/12/99 BMDP-Esta
nin j
n
CHI DOS =
( nij eij ) 2
i= 1 j = 1
eij
2(r 1)(c1)
El estadstico CHI-DOS es una medida de las diferencias entre los valores observados
en la realidad y los esperados en caso de independencia. La independencia implicara que los
perfiles de las filas, es decir los porcentajes por filas coinciden. Esto implicara que la variable
Alcohol no proporciona informacin relevante sobre la distribucin de cantidad de tabaco.
Para decidir si rechazamos la independencia (igualdad de porcentajes) se compara el
estadstico CHI-DOS con una distribucin 2 con df = (nf-1)(nc-1) grados de libertad.
El nivel de significatividad nos indica la probabilidad de cometer error si rechazamos la
independencia, es decir si admitimos que hay asociacin (porcentajes diferentes). Se suele
tomar esta decisin cuando esta probabilidad de error es pequea (< 0.05), es decir cuando
tenemos ms de un 95% de confianza en nuestra decisin.
Son de inters las cantidades siguientes:
Valores esperados Si son pequeos la aproximacin del estadstico por 2 no es buena .
Ninguna celda debe tener valor < 1 y no ms de un 20% de celdas con valor
< 5. En caso contrario se pueden agrupar categoras.
Desviaciones estndarizadas ajustadas
nij eij
eij (1 pi )(1 p j )
N ( 0,1)
Valores en valor absoluto mayor que 3. son tiles para descubrir celdas con
valores diferentes significativamente de los esperados en caso de
independencia.
Ejemplo del prrafo TABLE: Tabla de dos variables, Tabla con tres variables
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
Pedro Cuesta
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
CUTP(5)= 33.,100.,200.
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
/PRINT LEVEL=BRIEF.CASE=0.LIST=0.LINESIZE = 100.PAGESIZE = 75.
OBS.PERC=ROW,COL,TOT.ADJ.
/TABLE ROW = 5. COL = 4. CROSS.
/TABLE INDICES = TABCANT,ALCOHOL,EDAD.
/END
************************
* TABLE PARAGRAPH
1 *
************************
*** OBSERVED FREQUENCY TABLE
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
22
11
21
4 |
58
33<100
26
17
53
7 |
103
100<200
18
21
49
8 |
96
>200
12
13
54
19 |
98
--------------------------------------------|--------TOTAL
78
62
177
38 |
355
ALL CASES HAD COMPLETE DATA FOR THIS TABLE.
-- TABLE
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
37.9
19.0
36.2
6.9 | 100.0
33<100
25.2
16.5
51.5
6.8 | 100.0
100<200
18.8
21.9
51.0
8.3 | 100.0
>200
12.2
13.3
55.1
19.4 | 100.0
--------------------------------------------|--------TOTAL
22.0
17.5
49.9
10.7 | 100.0
*** PERCENTS OF COLUMN TOTALS -- TABLE
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
28.2
17.7
11.9
10.5 |
16.3
17/12/99 BMDP-Esta
Pedro Cuesta
33<100
33.3
27.4
29.9
18.4 |
29.0
100<200
23.1
33.9
27.7
21.1 |
27.0
>200
15.4
21.0
30.5
50.0 |
27.6
--------------------------------------------|--------TOTAL
100.0
100.0
100.0
100.0 | 100.0
17/12/99 BMDP-Esta
Pedro Cuesta
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
6.2
3.1
5.9
1.1 |
16.3
33<100
7.3
4.8
14.9
2.0 |
29.0
100<200
5.1
5.9
13.8
2.3 |
27.0
>200
3.4
3.7
15.2
5.4 |
27.6
--------------------------------------------|--------TOTAL
22.0
17.5
49.9
10.7 | 100.0
*****
6.21
STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
26.537
9 0.0017
*** ADJUSTED STANDARDIZED DEVIATES
-- TABLE
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
3.2
0.3
-2.3
-1.0 |
0.2
33<100
1.0
-0.3
0.4
-1.5 |
-0.5
100<200
-0.9
1.3
0.3
-0.9 |
-0.2
>200
-2.7
-1.3
1.2
3.3 |
0.5
--------------------------------------------|--------TOTAL
0.5
0.1
-0.4
-0.2 |
0.0
************************
* TABLE PARAGRAPH
2 *
************************
*** OBSERVED FREQUENCY TABLE
EDAD
------
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21
< 33
10
7
14
2 |
33
33<100
13
10
25
3 |
51
100<200
10
10
30
5 |
55
>200
5
6
27
9 |
47
--------------------------------------------|--------TOTAL
38
33
96
19 |
186
EDAD>=21
< 33
12
4
7
2 |
25
33<100
13
7
28
4 |
52
100<200
8
11
19
3 |
41
>200
7
7
27
10 |
51
--------------------------------------------|--------TOTAL
40
29
81
19 |
169
17/12/99 BMDP-Esta
Pedro Cuesta
355
17/12/99 BMDP-Esta
Pedro Cuesta
-- TABLE
EDAD
------
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21
< 33
30.3
21.2
42.4
6.1 | 100.0
33<100
25.5
19.6
49.0
5.9 | 100.0
100<200
18.2
18.2
54.5
9.1 | 100.0
>200
10.6
12.8
57.4
19.1 | 100.0
--------------------------------------------|--------TOTAL
20.4
17.7
51.6
10.2 | 100.0
EDAD>=21
< 33
48.0
16.0
28.0
8.0 | 100.0
33<100
25.0
13.5
53.8
7.7 | 100.0
100<200
19.5
26.8
46.3
7.3 | 100.0
>200
13.7
13.7
52.9
19.6 | 100.0
--------------------------------------------|--------TOTAL
23.7
17.2
47.9
11.2 | 100.0
EDAD
------
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21
< 33
26.3
21.2
14.6
10.5 |
17.7
33<100
34.2
30.3
26.0
15.8 |
27.4
100<200
26.3
30.3
31.3
26.3 |
29.6
>200
13.2
18.2
28.1
47.4 |
25.3
--------------------------------------------|--------TOTAL
100.0
100.0
100.0
100.0 | 100.0
EDAD>=21
< 33
30.0
13.8
8.6
10.5 |
14.8
33<100
32.5
24.1
34.6
21.1 |
30.8
100<200
20.0
37.9
23.5
15.8 |
24.3
>200
17.5
24.1
33.3
52.6 |
30.2
--------------------------------------------|--------TOTAL
100.0
100.0
100.0
100.0 | 100.0
EDAD
------
ALCOHOL
------
TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21
< 33
2.8
2.0
3.9
0.6 |
9.3
33<100
3.7
2.8
7.0
0.8 |
14.4
100<200
2.8
2.8
8.5
1.4 |
15.5
>200
1.4
1.7
7.6
2.5 |
13.2
--------------------------------------------|--------TOTAL
10.7
9.3
27.0
5.4 |
52.4
EDAD>=21
< 33
3.4
1.1
2.0
0.6 |
7.0
33<100
3.7
2.0
7.9
1.1 |
14.6
100<200
2.3
3.1
5.4
0.8 |
11.5
>200
2.0
2.0
7.6
2.8 |
14.4
--------------------------------------------|--------TOTAL
11.3
8.2
22.8
5.4 |
47.6
17/12/99 BMDP-Esta
Pedro Cuesta
PROBLEM
1898
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
CONTINGENCY
Cuando hay asociacin entre filas y columnas el valor esperado del
estadstico CHI-DOS es proporcional al tamao muestral. Entonces, no podemos comparar
tablas basadas en diferentes tamaos. En ese caso usamos medidas no dependientes de n: C,
phi, V de Cramer.
TAUS, LAMBDA, UNCERTANTY
Miden la ganancia en la prediccin (o
reduccin de incertidumbre) de una variable categrica debida al conocimiento de otra,
relativa al no conocimiento.
Tablas 22 (Ver segunda salida)
/STATISTICS
FISHER. CONTINGENCY.
Pedro Cuesta
17/12/99 BMDP-Esta
Si no hay asociacin entre las dos variable categricas vale 1. En el ejemplo posterior
dentro de la categora Alcohol > 100 la tasa de fumar ms de 10 es 71/31. Dentro de
Alcohol < 100 la tasa es 44/40.
71 31
El odds.ratio para estas dos categoras es el cociente
= 2. 082
44 40
El riesgo relativo de fumar mucho es dos veces ms en los que beben mucho.
El 4F calcula el logaritmo neperiano del odds-ratio, su error estndar para un intervalo
de confianza y un t-value para contrastar si ln(cross-product) es cero o lo que es
equivalente si cross-product es uno.
Homogeneidad de odds-ratios.
En la segunda salida cruzamos dos variables binarias para cada grupo de edad.
Queremos contrastar si los odds-ratios son similares en cada nivel de edad y estimar un oddsratio comn.
Los dos odds-ratios son 2.082 y 1.570 y el test de homogeneidad no es significativo
(p = 0.52) lo que indicara que los odds-ratios son similares. (En contradiccin con los test en
cada grupo donde un t-value sale significativo y otro no).
Se combinan los odds-ratios por dos mtodos diferentes, obteniendo un valor
conjunto (RISK) que se contrasta si su valor es igual a 1. En el ejemplo el primer mtodo
indica diferencias de 1. (p = 0.009) y el segundo lo confirma con un intervalo de confianza
(1.17,2.82). Ambos estadsticos llevan a la conclusin que hay una asociacin positiva entre
beber > 100 y fumar > 10.
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
NAMES(5) = '< 100','< 100','> 100','> 100'.
/PRINT LEVEL=BRIEF.CASE=0.LIST=0.LINESIZE = 100.PAGESIZE = 75.
OBS. # PERC=ROW,COL,TOT.ADJ.
/TABLE ROW = 5. COL = 4. CONDITION = EDAD.
/STATISTICS
FISHER. CONTINGENCY.
/END
************************
* TABLE PARAGRAPH
1 *
************************
*** OBSERVED FREQUENCY TABLE 1
USING LEVEL
EDAD<=21
OF VARIABLE
EDAD
Pedro Cuesta
********
ALCOHOL
------
TABCANT
-----T0-10
T11-40
TOTAL
-----------------------------------< 100
40
44 |
84
> 100
31
71 |
102
--------------------------|--------TOTAL
71
115 |
186
********
17/12/99 BMDP-Esta
Pedro Cuesta
*****
32.06
STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
5.792
1 0.0161
FISHER EXACT TEST(1-TAIL)
0.0121
FISHER EXACT TEST(2-TAIL)
0.0226
YATES CORRECTED CHISQ.
5.085
1 0.0241
ROW RELATIVE SYMMETRY CHISQ
8.365
1 0.0038
COL RELATIVE SYMMETRY CHISQ
0.331
1 0.5648
PHI = CRAMER'S V
0.176
MAXIMUM VALUE FOR PHI
0.866
CONTINGENCY COEF. C
0.174
MAX.VALUE FOR CONTINGEN.
0.655
STATISTIC
VALUE
ASE1 T-VALUE DEP.
--------------------------------------------------------YULE'S Q
0.351
0.134
2.315
CROSS-PRODUCT RATIO
2.082
YULE'S Y
0.181
0.074
2.391
LN(CROSS-PRODUCT RATIO)
0.733
0.307
2.418
*** OBSERVED FREQUENCY TABLE
USING LEVEL
EDAD>=21
********
OF VARIABLE
EDAD
********
ALCOHOL
------
TABCANT
-----T0-10
T11-40
TOTAL
-----------------------------------< 100
36
41 |
77
> 100
33
59 |
92
--------------------------|--------TOTAL
69
100 |
169
*****
STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
2.055
1 0.1517
FISHER EXACT TEST(1-TAIL)
0.1009
FISHER EXACT TEST(2-TAIL)
0.1610
YATES CORRECTED CHISQ.
1.629
1 0.2018
ROW RELATIVE SYMMETRY CHISQ
4.461
1 0.0347
COL RELATIVE SYMMETRY CHISQ
0.520
1 0.4706
PHI = CRAMER'S V
0.110
MAXIMUM VALUE FOR PHI
0.908
CONTINGENCY COEF. C
0.110
MAX.VALUE FOR CONTINGEN.
0.672
STATISTIC
VALUE
ASE1 T-VALUE DEP.
--------------------------------------------------------YULE'S Q
0.222
0.150
1.411
CROSS-PRODUCT RATIO
1.570
17/12/99 BMDP-Esta
Pedro Cuesta
YULE'S Y
LN(CROSS-PRODUCT RATIO)
0.112
0.451
0.078
0.315
17/12/99 BMDP-Esta
1.429
1.435
PROGRAM INSTRUCTIONS
/INPUT VARIAB = 2 FORMAT = FREE. TABLE = 3,3.
/VARIAB NAMES = DESPUES, ANTES.
/CATEGORY
NAMES (ANTES,DESPUES) = ACUERDO,DESACUER,NOSEGURO.
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
*****
17/12/99 BMDP-Esta
ANTES
------
DESPUES
-----ACUERDO DESACUER NOSEGURO
TOTAL
--------------------------------------------ACUERDO
47
56
38 |
141
DESACUER
28
61
31 |
120
NOSEGURO
26
47
10 |
83
-----------------------------------|--------TOTAL
101
164
79 |
344
*****
ANTES
------
DESPUES
-----ACUERDO DESACUER NOSEGURO
TOTAL
--------------------------------------------ACUERDO
13.7
16.3
11.0 |
41.0
DESACUER
8.1
17.7
9.0 |
34.9
NOSEGURO
7.6
13.7
2.9 |
24.1
-----------------------------------|--------TOTAL
29.4
47.7
23.0 | 100.0
*****
19.06
STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
11.584
4 0.0207
MCNEMAR TEST OF SYMMETRY
14.865
3 0.0019
MARGINAL HOMOGENEITY
14.778
2 0.0006
STATISTIC
VALUE
ASE1 T-VALUE DEP.
--------------------------------------------------------KAPPA, MEAS. RELIABILITY
0.001
0.036
0.039
TABLE= 4, 3, 2.
Requerido cuando los datos de entrada son las propias tablas de frecuencia a analizar.
/TABLE
CROSS considera todos los posibles pares de una variable en ROW y una
variable en COL.
PAIR forma la tabla con la primera en ROW y la primera en COL, etc.
COND = EDAD.
Para estratificar tablas por los valores de una variable condicin,
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
B M D P 3D
TEST T
Medimos las diferencias entre dos conjuntos de datos:
Resultados producidos por dos procesos de
produccin, dos tratamientos mdicos, opiniones de
dos grupos de personas, etc.
Se realizan contrastes de localizacin de medias para una o dos muestras. En el
anlisis de dos muestras, stas pueden ser independientes o dependientes (datos pareados).
Dos muestras independientes pueden aparecer, bien en un experimento donde hay una
asignacin aleatoria a dos tratamientos o bien en diseos clnicos o encuestas donde se
compararn dos grupos. Muestras dependientes o pareadas son frecuentemente dos medidas
en el mismo sujeto realizadas en dos momentos de tiempo o bajo diferentes condiciones.
Tambien pueden ser dos sujetos diferentes que se seleccionan en un par por ser homogneos
respecto al resto de caractersticas que pueden influir en la que se contrasta.
El programa 3D proporciona informacin descriptiva de cada conjunto de datos y un
histograma de cada grupo. La comparacin de medias se realiza con el estadstico
t = ( x1 x2 ) S , donde S es el error estndar de la diferencia.
Dos muestras
/GROUP
. VARIAB = ALCOHOL.
/TWOGROUP VARIAB = 7 TO 15 BY 2. ROBUST. HOTEL.
El test de Levene contrasta la igualdad de varianzas. Calcula la desviacin absoluta de
cada observacin a la media de su grupo y ejecuta un t-test de dos muestras con estas
desviaciones. Un p-value pequeo indica varianzas desiguales. Si se rechaza la hiptesis nula
de igualdad de varianzas debemos considerar en la comparacin de medias el t-test de
varianzas diferentes (SEPARATE). Por otro lado puede ser una indicacin de falta de
normalidad o outliers, por lo que deberemos considerar transformaciones, opciones TRIM o
contrastes no paramtricos.
Los estadsticos T para las medias contrastan la hiptesis nula
H0 : 1 2 = 0 frente a H1 : 1 2 0
En POOLED T se estima una varianza conjunta como una media ponderada de las
varianzas dentro de cada grupo
( n 1) S12 + ( n2 1) S22
2
Sp = 1
n1 + n2 2
Pedro Cuesta
17/12/99 BMDP-Esta
( x1 x 2 )
t n1 + n2 2
S p 1 n1 + 1 n2
Un valor de p-value pequeo significa que las medias son significativamente diferentes.
La opcin ROBUST ejecuta los "TRIM T" que consiste en reducir la influencia del mayor
y menor valor de cada grupo.
1
29.9
26.6
11.4
23.7
3
25.3
28.5
4
16.5
14.2
5
21.1
17.9
6
24.3
Pedro Cuesta
17/12/99 BMDP-Esta
Datos pareados
/MATCHED VARIAB = 6 TO 14 BY 2. CROSS. NONPAR.
La salida del programa incluye etadsticos descriptivos de cada grupo y de las
diferencias. El test pareado MATCHED T se calcula dividiendo la media de las diferencias
por su error estndar. En la salida ejemplo (POSTBAS-MENTBAS) tenemos
t=
d
S d2
5. 7944
=
n
5. 7944
= 8.52
0. 6802
1
13.2
14.0
2
8.2
8.8
3
10.9
11.2
4
5
14.3 10.7
14.2 11.8
6
6.6
6.4
7
9.5
9.8
8
10.8
11.3
9
8.8
9.3
10
13.3
13.6
Pedro Cuesta
17/12/99 BMDP-Esta
OTRAS OPCIONES:
/TWOGroup
GLIST = ED10,ED20,ED30.
Especifica el subconjunto de grupos, de la variable especificada en
/GROUP, que sern comparados entre s.
QQPLOT.
Grficos cuantil-cuantil para comparar la distribucin de los dos
conjuntos de datos.
CORRELATION.
Imprime la matriz de correlacin para cada grupo.
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
5,
0.0601
5.2854
1.0451
349
P-VALUE
0.3909
POSTEST
VARIABLE NUMBER
7
*****************************
GROUP
1 < 100
H
H H H
HHHH H
HHHHHHHH
HHHHHHHHHHHHHH
M--------------------M
I AN H=
7 CASES A
N
(N= 161)
X
2 > 100
X
X
X X X
XXXXX X
XXXXXXX
XXXXXXXXXXXXXXX X X
M--------------------M
I AN X=
7 CASES A
N
(N= 194)
X
GROUP
< 100
> 100
------------------------------MEAN
114.5342
117.7423
TRIM MEAN 114.5283
117.5833
STD DEV
12.5574
14.5665
S.E.M.
0.9897
1.0458
SAMPLE SIZE
161
194
MAXIMUM
148.0000
182.0000
MINIMUM
82.0000
84.0000
Z MAX
2.67
4.41
Z MIN
-2.59
-2.32
CASE (MAX)
210
300
CASE (MIN)
265
118
2ND MAX
146.0000
164.0000
2ND MIN
88.0000
86.0000
TEST STATISTICS
P-VALUE DF
-------------------------------LEVENE F FOR
VARIABILITY
0.95 0.3314 1, 353
POOLED
T
SEPARATE T
TRIM POOL.T
TRIM SEP. T
-2.20
-2.23
-2.11
-2.14
0.0286
0.0265
0.0355
0.0333
353
352.5
349
347.8
DINAEST
VARIABLE NUMBER 15
*****************************
GROUP
1 < 100
HH
H HHH
HHHHHH
HHHHHHHH
HHHHHHHHHHHHHHH
M--------------------M
I AN H=
6 CASES A
N
(N= 161)
X
2 > 100
X
XXX
X XXXX
XXXXXX
XXXXXXXXX
X
XXXXXXXXXXXXXXX
M--------------------M
I AN X=
6 CASES A
N
(N= 193)
X
GROUP
< 100
> 100
------------------------------MEAN
144.2236
147.7616
TRIM MEAN 144.1258
147.8639
TEST STATISTICS
P-VALUE DF
-------------------------------LEVENE F FOR
VARIABILITY
0.03 0.8558 1, 352
Pedro Cuesta
STD DEV
20.5633
S.E.M.
1.6206
SAMPLE SIZE
161
MAXIMUM
206.0000
MINIMUM
98.0000
Z MAX
3.00
Z MIN
-2.25
CASE (MAX)
137
CASE (MIN)
328
2ND MAX
200.0000
2ND MIN
104.0000
PROGRAM TERMINATED
17/12/99 BMDP-Esta
21.3221
1.5348
193
216.0000
60.0000
3.20
-4.12
38
61
212.0000
104.0000
POOLED
T
SEPARATE T
TRIM POOL.T
TRIM SEP. T
-1.58
-1.59
-1.69
-1.69
0.1150
0.1139
0.0916
0.0914
352
344.7
348
337.4
Pedro Cuesta
17/12/99 BMDP-Esta
PROGRAM INSTRUCTIONS
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
#
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
#
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
NAMES(5) = '< 100','< 100','> 100','> 100'.
/PRINT LEVEL=BRIEF.CASE=0. LINESIZE = 100.PAGESIZE = 75.
/MATCHED VARIAB = 6 TO 14 BY 2. CROSS. ROBUST. NONPAR.
/END
MENTBAS
X X
XXXX
XXXXX X
XXXXXXXX
XXXXXXXXXXXXXX X X
M--------------------M
I AN X=
14 CASES A
N
(N= 355)
X
POSTBAS
MENTBAS
------------------------------MEAN
122.0113
116.2169
TRIM MEAN 121.9150
116.1275
STD DEV
13.0622
13.7422
S.E.M.
0.6933
0.7294
SAMPLE SIZE
355
355
MAXIMUM
188.0000
182.0000
MINIMUM
90.0000
82.0000
Z MAX
5.05
4.79
Z MIN
-2.45
-2.49
CASE (MAX)
165
300
CASE (MIN)
96
265
2ND MAX
180.0000
164.0000
2ND MIN
90.0000
84.0000
H
H HHH
HHHHH
HHHHHHH
HHHHHHHHH
H HHHHHHHHHHHHHHH HH
M--------------------M
I AN H=
11 CASES A
POSTBAS - MENTBAS
------------------MEAN
5.7944
TRIM MEAN
5.8045
STD DEV
12.8162
S.E.M.
0.6802
SAMPLE SIZE
355
MAXIMUM
54.0000
MINIMUM
-46.0000
Z MAX
3.76
TEST STATISTICS
P-VALUE DF
-------------------------------MATCHED T
8.52 0.0000 354
TRIMMED T
8.64 0.0000 352
SIGN TEST*
0.0000
WILCOXON**
13882.0 0.0000
CORRELATION
SPEARMAN R
0.5438 0.0000
0.4949 0.0000
353
353
Pedro Cuesta
(N=
355)
Z MIN
-4.04
CASE (MAX)
165
CASE (MIN)
278
2ND MAX
44.0000
2ND MIN
-32.0000
2ND MIN
-20.0000
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
DINABAS
XX
XX
XX X
XXXXXX
XXXXXXX
X
XXXXXXXXXXXXXX X
M--------------------M
I AN X=
13 CASES A
N
(N= 355)
X
ESTABAS
DINABAS
------------------------------MEAN
113.9972
114.3240
TRIM MEAN 113.9462
114.3541
STD DEV
12.4761
12.2035
S.E.M.
0.6622
0.6477
SAMPLE SIZE
355
355
MAXIMUM
162.0000
158.0000
MINIMUM
84.0000
60.0000
Z MAX
3.85
3.58
Z MIN
-2.40
-4.45
CASE (MAX)
300
300
CASE (MIN)
55
61
2ND MAX
154.0000
150.0000
2ND MIN
88.0000
82.0000
HH
HHH
HHHHH
HHHHHH
HHHHHHHH
HH HHHHHHHHHHHHH H H
M--------------------M
I AN H=
12 CASES A
N
(N= 355)
X
PROGRAM TERMINATED
ESTABAS - DINABAS
------------------MEAN
-0.3268
TRIM MEAN
-0.3626
STD DEV
9.1667
S.E.M.
0.4865
SAMPLE SIZE
355
MAXIMUM
46.0000
MINIMUM
-34.0000
Z MAX
5.05
Z MIN
-3.67
CASE (MAX)
61
CASE (MIN)
95
2ND MAX
34.0000
2ND MIN
-32.0000
TEST STATISTICS
P-VALUE DF
-------------------------------MATCHED T
-0.67 0.5023 354
TRIMMED T
-0.76 0.4506 352
SIGN TEST*
0.7377
WILCOXON**
24436.5 0.3975
CORRELATION
SPEARMAN R
0.7243 0.0000
0.7082 0.0000
353
353
Pedro Cuesta
17/12/99 BMDP-Esta
B M D P 7D
ANLISIS DE LA VARIANZA DE UNO
O DOS FACTORES
OBJETIVO: Realiza un anlisis de la varianza bsico de uno o dos
factores, incluyendo descriptiva en cada grupo, histogramas y diagnsticos
sobre los datos.
Extendemos la comparacin de dos medias del mdulo 3D al caso en el que una
variable categrica establece ms de dos grupos o se examina el efecto de ms de una
variable categrica (factores) en las medias de una variable respuesta.
Pedro Cuesta
17/12/99 BMDP-Esta
Podemos admitir que las dos medias son diferentes con una probabilidad de
error menor de 0.01.
Podemos admitir que las dos medias son diferentes con una probabilidad de
error menor de 0.05.
Podemos admitir que las dos medias son diferentes con una probabilidad de
error menor de 0.10.
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
************
HISTOGRAM OF * DINAEST * (
************
17/12/99 BMDP-Esta
15)
GROUPED
BY
************
* SOBREPES * (
************
2)
CASES WITH
UNUSED
VALUES FOR
<- 5
- 5<+5
5<15
> 15
SOBREPES
MIDPOINTS.................+.................+.................+.................+.................+
224.000)
217.000)
*
210.000)
*
203.000)
**
*
*
196.000)
*
*
**
189.000)*
*
****
**
182.000)
***
***
*
175.000)*
****
****
***
168.000)
******
********
***
161.000)**
**************
**********
********
*
154.000)**********
***************18 ***********
M***
147.000)******
M**************31 M**************** ********
M
140.000)********
***************** ************
****
133.000)M********
***************23 ************
****
*
126.000)******
**********
********
***
119.000)*****
*************
***
**
112.000)***
****
****
105.000)***
**
*
98.000)*
91.000)
84.000)
77.000)
70.000)
63.000)*
56.000)
LEGEND FOR GROUP MEANS:
M - MEAN COINCIDES WITH AN ASTERISK
N - MEAN DOES NOT COINCIDE WITH ANY ASTERISK
MEAN
135.286
STD.DEV.
20.884
S. E. M.
2.791
MAXIMUM
190.000
MINIMUM
60.000
CASES EXCL. (
1)
CASES INCL.
56
144.658
18.757
1.537
206.000
104.000
(
0)
149
149.212
19.987
2.009
206.000
108.000
(
0)
99
157.191
24.118
3.518
216.000
116.000
(
0)
47
149.333
15.011
8.667
164.000
134.000
(
0)
3
Pedro Cuesta
|--------------------------------------------------------------------------|
| EQUALITY OF MEANS TESTS; VARIANCES ARE NOT ASSUMED TO BE EQUAL
|
|
WELCH
3, 104
7.40
0.0002
|
|
BROWN-FORSYTHE
3, 151
7.75
0.0001
|
----------------------------------------------------------------------------
17/12/99 BMDP-Esta
Pedro Cuesta
GROUP
NO. LABEL
2 - 5<+5
3 5<15
4 > 15
3 5<15
4 > 15
4 > 15
MEAN
DIFF
-9.37
-13.93
-21.91
-4.55
-12.53
-7.98
.
.
L_____M_____U
L_____M_____U .
L_____M_____U
.
L____M__._U
L_____M_____U .
L_____M____.U
-----+---------+---------+---------+---------+-----30.00
-15.00
0.00
15.00
30.00
<
5
GROUP
NO. LABEL
-----------1 <- 5
2 - 5<+5
3 5<15
4 > 15
MEAN
-----135.29
144.66
149.21
157.19
SAMPLE
SIZE
---56
149
99
47
5
<
+
5
>
5
<
1
5
1
5
GROUP
NO. LABEL
1 <- 5
3 5<15
4 > 15
MEAN
DIFF
9.37
-4.55
-12.53
.
.
.L____M____U
L___M__.U
L_____M_____U .
-----+---------+---------+---------+---------+-----30.00
-15.00
0.00
15.00
30.00
GROUP
NO. LABEL
1 <- 5
2 - 5<+5
3 5<15
4 > 15
SAMPLE
MEAN SIZE
135.29
56
144.66 149
149.21
99
157.19
47
**
CONTROL GROUP
**
NOMENCLATURE
-------------------
17/12/99 BMDP-Esta
Pedro Cuesta
1% SIGNIFICANCE **
5% SIGNIFICANCE *
>5% SIGNIFICANCE
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
MEANS
- 5<+5
5<15
> 15
_________________
135.29
SAMPLE SIZE
144.66
56.
149.
149.21
99.
157.19
47.
MEAN
135.29
144.66
149.21
157.19
SAMPLE
SIZE
56 L_______M_______U
149
L____M____U
99
L_____M_____U
47
L__________M__________
+---------+---------+---------+---------+---------+
129.50
136.50
143.50
150.50
157.50
164.50
************
PAIRWISE T-TEST OF * DINAEST * (
************
SOBREPES
GROUP
--------------------<- 5
VS.
- 5<+5
5<15
> 15
- 5<+5
VS.
5<15
> 15
5<15
VS.
> 15
************
15) GROUPED BY * SOBREPES * (
************
SEPARATE VARIANCE
T-VAL DF P-VAL
------------------
POOLED VARIANCE
T-VAL DF P-VAL
------------------
2)
DIFF.
OF MEANS
--------
CELL
NO.
-----1
-2.94 90 0.0041*
-2.96 347 0.0033*
-4.05 110 0.0001*** -4.12 347 0.0000***
-4.88 91 0.0000*** -5.47 347 0.0000***
-9.372
-13.926
-21.906
-4.554
-12.534
-1.97
2
3
4
2
3
4
3
77 0.0525
-7.979
Pedro Cuesta
>10%
SIGNIFICANCE
PROGRAM TERMINATED
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
TTEST. COMP = 4.
B1
2
1
0.5
0
/PRINT
1 B1
1
0
0.5
1
Transformacin
Reciproca
Logaritmica
Raiz cuadrada
Ninguna
TRIM. CORR.
Puede imprimirse la matriz de correlacin dentro de cada grupo, as como tres niveles
de medias y desviaciones robustas (trimmed)
Pedro Cuesta
17/12/99 BMDP-Esta
Sobrepeso
< 5
< 5 - 15
> 15
Tabaco
T0 - 10 T11-40
d0
d1
c0
c1
o0
o1
-5<15
>15
165
165
160
160
155
155
150
150
145
145
140
135
T0-10
140
T11-40
135
130
125
<-5
130
-5<15
>15
125
T0-10
T11-40
Pedro Cuesta
17/12/99 BMDP-Esta
************
HISTOGRAM OF * DINAEST * (
************
15)
GROUPED
BY
AND
************
* SOBREPES * (
* TABCANT * (
************
2)
4)
<- 5
<- 5
- 5<15
T0-10
T11-40
T0-10
MIDPOINTS.....................+.....................+.....................+
224.000)
217.000)
210.000)
203.000)
*
196.000)
*
189.000)
*
**
182.000)
*
175.000)*
****
168.000)
****
161.000)*
*
**********
154.000)***
*******
*********
147.000)****
**
M*******************
140.000)***
*****
***********
133.000)M**
M*****
************
126.000)**
****
***********
119.000)**
***
******
112.000)
***
*****
105.000)**
*
*
98.000)*
91.000)
84.000)
77.000)
70.000)
63.000)
*
56.000)
MEAN
STD.DEV.
136.364
19.446
134.588
22.022
144.633
19.311
Pedro Cuesta
S. E. M.
4.146
MAXIMUM
174.000
MINIMUM
98.000
CASES EXCL. (
1)
CASES INCL.
22
3.777
190.000
60.000
(
0)
34
1.951
200.000
108.000
(
0)
98
17/12/99 BMDP-Esta
Pedro Cuesta
************
HISTOGRAM OF * DINAEST * (
************
17/12/99 BMDP-Esta
15)
GROUPED
BY
AND
************
* SOBREPES * (
* TABCANT * (
************
2)
4)
- 5<15
> 15
> 15
T11-40
T0-10
T11-40
MIDPOINTS.....................+.....................+.................+
224.000)
217.000)
*
210.000)
*
203.000)**
*
196.000)*
**
189.000)***
**
182.000)*****
*
175.000)****
*
**
168.000)**********
*
**
161.000)**************
M*
******
154.000)******************** **
M*
147.000)M******************28 ****
****
140.000)******************
**
**
133.000)*******************23
****
126.000)*******
***
119.000)**********
*
*
112.000)***
105.000)**
98.000)
91.000)
84.000)
77.000)
70.000)
63.000)
56.000)
MEAN
147.680
STD.DEV.
19.340
S. E. M.
1.579
MAXIMUM
206.000
MINIMUM
104.000
CASES EXCL. (
0)
CASES INCL.
150
163.444
26.309
6.201
216.000
116.000
(
0)
18
153.310
22.241
4.130
204.000
122.000
(
0)
29
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
BMDP 3S
ESTADSTICOS
NO PARAMTRICOS
OBJETIVO: Calculo de estadsticos no paramtricos
Los anlisis no paramtricos contienen menos hiptesis acerca de las distribuciones de
los datos que los contrastes estadstico estndar. En particular no asumen normalidad de los
datos. Muchos test no paramtricos trabajan con rangos en lugar de los valores.
El programa 3S es apropiado para cuatro diferentes problemas:
1. Dos ms grupos independientes. Anlisis de la varianza con un factor, para
contrastar la hiptesis de que muestras independientes de dos o ms grupos
provienen de la misma poblacin: Test de suma de rangos de Mann-Whitney y de
Kruskal-Wallis, con la posibilidad de comparaciones pareadas.
2. Observaciones pareadas. Suma de rangos de Wilcoxon y test de los signos
para contrastar la hiptesis de no diferencias en las observaciones pareadas.
3. Bloques aleatorizados. Anlisis de la varianza con dos factores con una
observacin por celda, o medidas repetidas: Contraste de Friedman, con
comparaciones mltiples.
4. Correlaciones de rangos. Las correlaciones de Kendall y Spearman estiman la
correlacin entre dos variables basndose en los rangos de las observaciones.
Algunas de estas medidas aparecen en los mdulos 3D y 4F.
PROGRAM INSTRUCTIONS
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
NAMES(5) = '< 100','< 100','> 100','> 100'.
VARIAB = SOBREPES.
/TEST
Pedro Cuesta
/COMPARISON NK.
/PRINT LEVEL=BRIEF. LINESIZE = 100.PAGESIZE = 75.
/END
17/12/99 BMDP-Esta
Pedro Cuesta
355
5
350
VARIABLE
GROUP
NO. NAME
1 <- 5
2 - 5<+5
3 5<15
4 > 15
13 FRIOEST
FREQUENCY
56
148
99
47
RANK
SUM
7089.5
24159.0
19302.0
10874.5
MULTIPLE COMPARISONS
THE NULL HYPOTHESIS IS REJECTED IF ZSTAT IS LARGER THAN
THE CRITICAL VALUE ZC, WHERE 1-PHI(ZC)= ALPHA/(K(K-1)),
PHI IS THE CUMULATIVE STANDARD NORMAL DISTRIBUTION FUNCTION,
ALPHA IS THE DESIRED OVERALL SIGNIFICANCE LEVEL, AND
K IS THE NUMBER OF GROUPS COMPARED.
WITH
COMPARISONS
<- 5
- - 5<+5
<- 5
- 5<15
<- 5
- > 15
- 5<+5
- 5<15
- 5<+5
- > 15
5<15
- > 15
VARIABLE
GROUP
NO. NAME
1 <- 5
2 - 5<+5
3 5<15
4 > 15
ZSTAT
DIF
2.31
-36.64
4.05** -68.37
5.24** -104.77
2.42*
-31.73
4.03** -68.14
2.03
-36.40
15 DINAEST
FREQUENCY
56
148
99
47
SE
15.85
16.89
19.98
13.12
16.91
17.89
RANK
SUM
7174.0
24881.0
18984.5
10385.5
MULTIPLE COMPARISONS
THE NULL HYPOTHESIS IS REJECTED IF ZSTAT IS LARGER THAN
THE CRITICAL VALUE ZC, WHERE 1-PHI(ZC)= ALPHA/(K(K-1)),
PHI IS THE CUMULATIVE STANDARD NORMAL DISTRIBUTION FUNCTION,
ALPHA IS THE DESIRED OVERALL SIGNIFICANCE LEVEL, AND
17/12/99 BMDP-Esta
Pedro Cuesta
COMPARISONS
<- 5
- - 5<+5
<- 5
- 5<15
<- 5
- > 15
- 5<+5
- 5<15
- 5<+5
- > 15
5<15
- > 15
ZSTAT
2.52*
3.77**
4.64**
1.80
3.12**
1.63
DIF
-40.01
-63.66
-92.86
-23.65
-52.85
-29.21
SE
15.86
16.91
20.00
13.13
16.93
17.91
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
BMDP 2V
ANLISIS DE VARIANZA
Y COVARIANZA
OBJETIVO: Realiza anlisis de la varianza y covarianza para una
gran variedad de diseos de efectos fijos y medidas repetidas.
1
36
20
1
41
25
1
39
24
1
42
25
1
49
32
2
40
22
2
48
28
2
39
22
2
45
30
2
44
28
3
35
21
3
37
23
3
42
26
BMDP2V
El efecto mquina es significativo al 5%.
PROGRAM INSTRUCTIONS
/INPUT VARIAB = 3. FORMAT = FREE.
/VARIAB NAMES = MAQUINA,FUERZA,DIAMETRO.
/GROUPING
CODES (MAQUINA) = 1,2,3. NAMES (MAQUINA) = MAQ1,MAQ2,MAQ3.
VARIAB = MAQUINA.
/DESIGN DEPENDENT = FUERZA.
/PRINT LEVEL = BRIEF. CASE = 15. RESIDUAL.
/SAVE FILE = '2V.INT'. CODE = RESID. NEW.
/END
FREQUENCY
--------5
5
5
15
3
34
21
3
32
15
Pedro Cuesta
17/12/99 BMDP-Esta
TOTAL
FREQ.
2 FUERZA
3 DIAMETRO
STANDARD ST.ERR
DEV.
OF MEAN
MEAN
15
15
40.200
24.133
4.9742
4.3238
1.2843
1.1164
32.000
15.000
49.000
32.000
17.000
17.000
.
MEAN
.
YES
.
NO
.
NO
.
YES
.
NO
.
NO
.
NO
.
YES
.
NO
.
NO
. 1.0E-02
DESIGN SPECIFICATIONS
--------------------GROUP =
DEPEND =
1
2
GROUP STRUCTURE
MAQUINA
MAQ1
MAQ2
MAQ3
COUNT
5
5
5
CELL MEANS
FOR
--------------------
MARGINAL
MAQUINA =
MAQ1
FUERZA
COUNT
1PAGE
MAQ2
41.40000
5
3
2V
43.20000
5
29-MAR-95
MAQ1
FUERZA
1PAGE
2V
36.00000
5
40.20000
15
11:08:17
MAQ2
4.82701
MAQ3
3.70135
29-MAR-95
MAQ3
3.80789
11:08:17
A N A L Y S I S
O F
V A R I A N C E FOR
---------------------------------------THE TRIALS ARE REPRESENTED BY THE VARIABLES:
FUERZA
THE
Pedro Cuesta
17/12/99 BMDP-Esta
SOURCE
SUM OF
SQUARES
MEAN
MAQUINA
1 ERROR
24240.60000
140.40000
206.00000
D.F.
1
2
12
MEAN
SQUARE
24240.60000
70.20000
17.16667
1412.07
4.09
TAIL
PROB.
0.0000
0.0442
MAQ1
MAQ1
MAQ1
MAQ1
MAQ1
MAQ2
MAQ2
MAQ2
MAQ2
MAQ2
MAQ3
MAQ3
MAQ3
MAQ3
MAQ3
41.40000
41.40000
41.40000
41.40000
41.40000
43.20000
43.20000
43.20000
43.20000
43.20000
36.00000
36.00000
36.00000
36.00000
36.00000
-5.40000
-0.40000
-2.40000
0.60000
7.60000
-3.20000
4.80000
-4.20000
1.80000
0.80000
-1.00000
1.00000
6.00000
-2.00000
-4.00000
BMDP
FILE HAS BEEN COMPLETED. FILE NAME IS
-----------------------------------------NUMBER OF CASES WRITTEN TO FILE
15
ERROR
TERM
1
SUM OF
SQUARES
206.00000
RECOMPUTED
FROM RESIDUALS
206.00000
2V.INT
RELATIVE
ERROR
0.00000
BMDP6D
Se observa relacin lineal, lo que sugiere la inclusin del dimetro en el modelo.
PROGRAM INSTRUCTIONS
/INPUT FILE = '2V.INT'. CODE = RESID.
/PLOT XVAR = DIAMETRO. YVAR = FUERZA,RESIDUAL. CROSS. SIZE = 35,25.
/END
50
45
F
U
...+.......+.......+.......+.......+..
+
Y
1 1
+
1
+
1
-
Pedro Cuesta
E
R
Z
A
40
35
1 1
1
+
1
+
1
1
1
1
+
1
+
1
-1
...Y.......+.......+.......+.......+..
20
28
16
24
32
N =
15
R = .939
P < .001
--REGRESSION LINE-Y= 14.143 +1.0797*X
DIAMETRO
-RES.MS3.1746
X
Y
3 VS.
MEAN
24.133
40.200
2 )
17/12/99 BMDP-Esta
Pedro Cuesta
4
R
E
S
I
D
U
A
L
-4
...+.......+.......+.......+.......+..
+
+
1 1
Y
1
+
+
1
1
1
1
+
+
1
1
1
1
1
+1
1
+
1
..Y+.......+.......+.......+.......+..
20
28
16
24
32
N =
15
R = .804
P < .001
--REGRESSION LINE-Y=-17.206 +.71294*X
DIAMETRO
-RES.MS5.6127
X
Y
3 VS.
MEAN
24.133
30E-9
5 )
BMDP2V
Ahora, el efecto mquina no es significativo
PROGRAM INSTRUCTIONS
/INPUT VARIAB = 3. FORMAT = FREE.
/VARIAB NAMES = MAQUINA,FUERZA,DIAMETRO.
/GROUPING
CODES (MAQUINA) = 1,2,3. NAMES (MAQUINA) = MAQ1,MAQ2,MAQ3.
VARIAB = MAQUINA.
/DESIGN DEPENDENT = FUERZA. COVARIATE = DIAMETRO.
/PRINT LEVEL = BRIEF. CASE = 15. RESIDUAL.
/SAVE FILE = '2V.INT'. CODE = RESID. NEW.
/END
CELL MEANS
FOR
--------------------
1-ST COVARIATE
MARGINAL
17/12/99 BMDP-Esta
Pedro Cuesta
MAQUINA =
DIAMETRO
COUNT
17/12/99 BMDP-Esta
MAQ1
MAQ2
25.20000
5
MAQ3
26.00000
5
CELL MEANS
FOR
--------------------
21.20000
5
24.13333
15
MARGINAL
MAQUINA =
FUERZA
COUNT
MAQ1
MAQ2
41.40000
5
MAQ3
43.20000
5
36.00000
5
40.20000
15
A N A L Y S I S
O F
V A R I A N C E FOR
----------------------------------------
THE
MAQUINA
DIAMETRO
1 ERROR
SUM OF
SQUARES
D.F.
13.28385
178.01411
27.98589
2
1
11
REG. COEFF.
DIAMETRO
CASE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
ESTIMATE
0.95399
MAQUINA
MAQ1
MAQ1
MAQ1
MAQ1
MAQ1
MAQ2
MAQ2
MAQ2
MAQ2
MAQ2
MAQ3
MAQ3
MAQ3
MAQ3
MAQ3
ERROR
TERM
1
MEAN
SQUARE
PREDICTD
36.43926
41.20920
40.25521
41.20920
47.88712
39.38405
45.10798
39.38405
47.01595
45.10798
35.80920
37.71718
40.57914
35.80920
30.08528
SUM OF
SQUARES
27.98589
2.61
69.97
0.1181
0.0000
STD. ERROR
0.11405
T-VALUE
8.36
P-VALUE
0.0000
-0.43926
-0.20920
-1.25521
0.79080
1.11288
0.61595
2.89202
-0.38405
-2.01595
-1.10798
-0.80920
-0.71718
1.42086
-1.80920
1.91472
RELATIVE
ERROR
0.00000
MARGINAL
MAQUINA =
FUERZA
COUNT
MAQ1
40.38241
5
MAQ2
41.41922
5
MAQ3
38.79836
5
TAIL
PROB.
6.64193
178.01411
2.54417
RESIDUAL
RECOMPUTED
FROM RESIDUALS
27.98589
40.20000
15
Pedro Cuesta
0.72363
0.74442
0.78788
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
BMDP 2R
REGRESIN LINEAL
Mtodo estadstico para modelizar las relaciones entre variables continuas. Referimos
la respuesta de una variable dependiente a los valores de las variables independientes o
explicativas.
Cuando se usan la Regresin y Correlacin?
Los datos surgen de dos formas:
1. X fija : Aosventas, temperaturaconcentracin.
2. X variable: 2 variables aleatorias medidas en la poblacin
Regresin y correlacin se usan para dos propsitos:
1. Descriptiva: Tipo de relacin. Ecuaciones, representacin grfica, contrates de
hiptesis, intervalos de confianza.
1. Prediccin Predecir Y dado una valor de X.
El modelo general se escribe
Yi = a + b1 X i1 + b2 X i 2 + + bm X im + i i = 1, , n
con i variables aleatorias normales independientes N(0,), desconocido.
Se estiman los parmetros en la ecuacin anterior eligiendo los valores
0 , 1 , , m que minimizan la suma de errores al cuadrado
n
SSE = Yi Yi
i =1
con Yi = 0 + 1 X i1 + + m X im
Prrafo REGRESS
1
10
30
24
2
15
25
27
3
10
40
29
4
20
18
31
5
25
22
25
6
18
31
33
7
12
26
26
8
14
34
28
9
16
29
31
10
22
37
39
11
24
20
33
12
17
25
30
13
13
27
25
14
30
23
42
15
24
33
40
Pedro Cuesta
17/12/99 BMDP-Esta
MEDIDAS DE INFLUENCIA
El ejemplo previo demuestra la necesidad de chequear el modelo, globalmente y
analizando observaciones influyentes o "raras". La sentencia DIAGNOSTICS proporciona
medidas tiles para identificar observaciones particulares:
Leverage
Un valor grande indica que la observacin est distante del centro del resto de
observaciones. Puede ser un "outliers" . Se compara con 2p/n , siendo p = m+1 el
nmero de parmetros calculado.
Distancia de Cook
Medida de influencia en los coeficientes de regresin. Se compara con F(p,np).
Residual estandarizado
Residual dividido por su error estndar. Se compara con una distribucin t o Normal.
Residual estandarizado suprimido
La observacin no interviene en la regresin ajustada para el resto. Se compara con
una t np1.
INTERPRETACIN DE LA SALIDA
La salida que genera BMDP puede utilizarse en los contextos de inferencia y
prediccin. La validez de las conclusiones est sujeta al chequeo que es necesario hacer del
modelo y sus hiptesis. Esta inspeccin del modelo se discute en los apartados Medidas de
influencia y Validacin del modelo
La ecuacin obtenida para el ejemplo es
TIEMPO = 2.311 + .877 PUNTOS + .456 DISTANCIA
Si queremos predecir la variable tiempo para la observacin 1 obtenemos
TIEMPO = 2.311 + .877 (10) + .456 (30) = 24.76
Pero tambin podemos predecir para otras combinaciones de valores no presentes en la
muestra. Por ejemplo para (20,30)
TIEMPO = 2.311 + .877 (20) + .456 (30) = 33.53
Es importante resaltar que si obtenemos otra muestra de 15 observaciones es normal
que la ecuacin cambie y por lo tanto las predicciones. Entonces es importante conocer para
nuestra muestra lo siguiente:
1. La cantidad de posible error presente en las predicciones.
2. La significatividad de las estimaciones de los parmetros.
Pedro Cuesta
17/12/99 BMDP-Esta
Pedro Cuesta
17/12/99 BMDP-Esta
SSE
n p
Cuanto menor es s ms precisa es la prediccin de Y.
s=
Este valor se usa como criterio en la seleccin del mejor modelo de regresin cuando hay
muchas variables explicativas o diferentes conjuntos alternativos de ellas. Como siempre
aumenta al incorporar nuevas variables al modelo, es necesario un ajuste que tenga en cuenta
el nmero de parmetros
n 1 Suma de cuadrados debido al error
2
RADJ
= 1
Pedro Cuesta
17/12/99 BMDP-Esta
Estadsticos de residuales:
a) Medidas de influencia: Leverage, Cook y Residuales estandarizados.
b) Aleatoriedad: El estadstico Durbin-Watson, Prrafo ACF (2T) para la autocorrelacin.