Sei sulla pagina 1di 84

ESTADSTICA BSICA CON

BMDP

Pedro Cuesta
Apoyo a Investigacin C.P.D
Servicios Informticos UCM

Pedro Cuesta (A.I.D.E Servicios Informticos U.C.M) 17/12/99

Estad - 2

INTRODUCCIN
Consideramos en este curso el trmino Estadstica como una serie de hechos orientados
a ordenar y describir un conjunto de datos con la finalidad de inferir generalidades a partir de
observaciones especificas
No hay que olvidar que los datos disponibles suministrarn una informacin parcial del
proceso en estudio y aunque la estadstica valide unas hiptesis, el investigador deber dar un
significado real a las conclusiones en el contexto correspondiente.
PRUEBAS ESTADSTICAS
Se formulan hiptesis acerca de leyes o fenmenos fsicos o naturales, que es necesario
demostrar o rechazar por medio de "contrastes" (tests) o "pruebas". La prueba de la hiptesis es
el Contraste de la hiptesis, lo que nos llevara a su aceptacin o rechazo.
El procedimiento estndar consiste en recopilar informacin en forma de observaciones
numricas que sern la base de nuestra decisin. Por ejemplo si tiramos una moneda 100 veces y
obtenemos siempre cara podemos percibir que la hiptesis de que la moneda no est trucada no
es aceptable. Sin embargo es posible obtener este resultado con una moneda no trucada, por
consiguiente no podremos estar completamente seguros de nuestra decisin.
Los procedimientos de Inferencia Estadstica nos posibilitan, bajo ciertas hiptesis,
establecer la probabilidad de aceptar hiptesis falsas o rechazar hiptesis verdaderas. Es decir
nos dan la probabilidad de cometer error con nuestra decisin.

CLASIFICACIN DE VARIABLES
El trmino variable se usa en estadstica para indicar una caracterstica o propiedad que
es posible medir. Cuando medimos algo representamos por un modelo numrico aquello que
medimos. Por ejemplo, la altura de una persona. Asignamos un nmero a cada persona.
Las medidas fsicas, como altura y peso, se miden con un instrumento fsico. Otras
propiedades abstractas
tales como razonamiento, depresin , inteligencia se miden
indirectamente.
En general, los datos a analizar consistirn de un conjunto de P variables medidas en N
unidades muestrales (individuos, observaciones, casos,...)
A la hora de determinar el anlisis estadstico apropiado para un conjunto de datos es
importante clasificar las variables segn su tipo. Un mtodo de clasificar variables se basa en el
grado de sofisticacin en el mtodo de obtener la medida. Por ejemplo, podemos medir la altura
de un individuo precisando nicamente si sobrepasa una marca (alto) o no (bajo). Por otra parte
podramos obtener la altura en centmetros.

Pedro Cuesta (A.I.D.E Servicios Informticos U.C.M) 17/12/99

Estad - 3

Una clasificacin comnmente aceptada especifica cuatro tipos de variables: nominal,


ordinal, intervalo, de razn.
Variables nominales
Con las variables nominales cada observacin pertenece a una de varias categoras
diferentes. Las categoras no son necesariamente numricas, aunque puedan usarse nmeros para
representarlas. Por ejemplo, "sexo" es una variable nominal. Podemos usar dos smbolos M y F
para representar las dos categoras.
Algunos programas de anlisis de datos tratan slo smbolos numricos, por lo que es
preferible esta representacin. Puesto que las categoras pueden considerarse en cualquier orden
cualquier conjunto de nmeros ser vlido para su representacin: 0/1, 1/2 (para no confundir
ceros con blancos), 1/6 (para evitar errores de grabacin).
Variables Ordinales
En este caso se usan categoras, pero existe un orden conocido entre ellas. Por ejemplo
una escala de niveles de dureza de minerales y rocas, un estatus socioeconmico, etc. Puede
usarse cualquier secuencia de nmeros crecientes para su representacin. Para definir una
variable ordinal la operacin bsica es determinar si una observacin es mayor que otra.
Variables de intervalo
Una variable intervalo es una variable ordinal especial, en la que las diferencias entre dos
valores sucesivos es siempre la misma. Por ejemplo, la variable temperatura en grados
Fahrenheit. La diferencia entre 12 y 13 es la misma que entre 20 y 21. Esto no ocurre en el
caso de la dureza de minerales o estatus socioeconmico.
Variables de razn.
Son variables de intervalo con un punto natural representando el origen: punto cero. Por
ejemplo, la altura. Aunque cambie la unidad de medida no cambia el cero natural ni las razones
entre dos valores. La temperatura Fahrenheit no es de este tipo pues se puede elegir el punto
cero arbitrariamente, no conservando razones.
OTRAS CLASIFICACIONES
Muchas veces nos referimos con el trmino Variables categricas a las variables
nominales y ordinales. Tambin clasificamos a las variables en discretas y continuas.
Una variables es continua si puede tomar cualquier valor en un rango especfico. Por
ejemplo altura o peso.
Una variable que no es continua es discreta. Puede tomar slo ciertos valores
especficos, (Ej.: nmero de hermanos)
Todas las variables nominales y ordinales son discretas. Las variables de intervalo o razn
pueden ser discretas o continuas.

Pedro Cuesta (A.I.D.E Servicios Informticos U.C.M) 17/12/99

Estad - 4

Esta ltima clasificacin lleva a considerar las posibles distribuciones de las variables que
se suponen en los anlisis. De esta forma una variable discreta puede seguir una distribucin
binomial, de Poisson, multinomial, etc., mientras que la distribucin normal se usa para describir
la distribucin de las variables continuas.
DISTRIBUCIONES CONTINUAS

La distribucin normal tiene por funcin de densidad


1 x 2
1
f ( x) =
exp

2
2
simtrica respecto a la media con desviacin tpica .
verificndose que si x N(0,1)
Pr ( 2.576 < x < 2. 576) = 0. 99
Pr ( 1. 960 < x < 1. 960) = 0. 95
Pr ( 1. 645 < x < 1. 645) = 0. 90
Distribucin CHI-2 con n grados de libertad:
n

n = Xi
2

i =1

donde Xi son variables aleatorias independientes normales de media 0 y varianza 1.


Distribucin t de Student con n grados de libertad:
Sean X e Y dos variables aleatorias independientes. X es una N(0,1) e Y es una CHI-2
con n grados de libertad. Entonces a la distribucin
X
Yn
se le llama t de Student con n grados de libertad.
t=

Es una distribucin simtrica con media 0. La grfica de la funcin de densidad es similar


a la N(0,1) pero menos apuntada.
Para valores grandes de n se aproxima por una N(0,1).
Distribucin F de Fisher con n1 y n2 grados de libertad:
Sean X1 e X2 dos variables aleatorias independientes. X1 es una CHI-2 con n1 grados de
libertad y X2 es una CHI-2 con n2 grados de libertad. Entonces a la distribucin

X 1 n1
X 2 n2
se le llama F de Fisher-Snedecor con n1 y n2 grados de libertad.
F=

Una t de Student es la raz cuadrada de una F con n1 = 1 y n2 = n grados de libertad

Pedro Cuesta (A.I.D.E Servicios Informticos U.C.M) 17/12/99

01

Func. de densidad t de Student 10

0.4

0.4

0.3

0.3
prob. densidad

prob. densidad

Func. de densidad Normal

0.2

0.2

0.1

0.1

-5

-3

-1

Estad - 5

-5

-3

-1

Func. de densidad CHI-2

10

Func. de densidad F

0.1

10 10

0.8

0.6
prob. densidad

prob. densidad

0.08

0.06

0.04

0.4

0.2

0.02

10

20
X

30

40

4
X

Pedro Cuesta (A.I.D.E Servicios Informticos U.C.M) 17/12/99

Estad - 6

Las distribuciones CHI-2, t y F juegan un gran papel en las estimaciones por intervalo,
contrastes de hiptesis y modelos lineales. Es importante reconocer estas distribuciones y utilizar
sus tablas de percentiles correspondientes.
CMO SE USAN LAS VARIABLES EN EL ANLISIS
Las variables pueden ser definidas para medir una determinada salida o respuesta o bien
para explicar por qu se obtiene una determinada salida. Por ejemplo en el estudio de una
enfermedad, las variables edad, antecedentes, severidad del estado, tratamiento son variables
explicativas o independientes. La variable discreta sana/no-sana es la variable a explicar o
dependiente.
En ciertos anlisis exploratorios todas las variables se usan como un nico conjunto, sin
distincin entre independientes y dependientes

SELECCIN DEL ANLISIS APROPIADO


Hay dos motivos por los que resulta difcil la eleccin de la tcnica estadstica adecuada
para un investigador con datos reales.
La primera es que las clases y libros estadsticos se presentan en un orden lgico desde el
punto de vista de la enseanza de las materias, pero no desde el punto de vista del proceso del
anlisis de datos. La segunda es que los datos reales contienen mezclas de tipos de datos que
hacen la eleccin del anlisis arbitraria.
Una buena estrategia consiste en aplicar diferentes anlisis al mismo conjunto de datos, lo
que nos proporcionar informacin variada sobre el fenmeno en estudio.
ANLISIS MULTIVARIANTE SEGN EL TIPO DE VARIABLES
Para decidir el anlisis apropiado clasificamos las variables como sigue
1. Independientes frente Dependientes
2. Nominal u ordinal frente intervalo o razn
Las variables nominales son las que frecuentemente causan confusin. Algunas veces se
tratan como variables nominales y otras veces como variables de intervalo en las que es imposible
mayor precisin. La clave esta en observar como de distante est dicha escala ordinal de una
escala de intervalo y decidir en cada caso particular.

Pedro Cuesta (A.I.D.E Servicios Informticos U.C.M) 17/12/99

Estad - 7

Tabla 1. Medidas descriptivas segn el tipo de variables.

Clasificacin Representacin
Grfica
Nominal
Ordinal
Intervalo
Razn

Medidas del centro de una Medidas de Variabilidistribucin


dad de una distribucin

Grf. de barras
Grf. de tartas
Histogramas

Moda

Histogramas con
reas medibles
Histogramas con
reas medibles

Media = X

Varianza binomial
multinomial

Rango P75 P25


Desviacin estndar = S

Mediana

Media geomtrica = X i

i=1

1N

Coeficiente
de variacin = S X

Media armnica =

1 Xi
i= 1

La Tabla 1. muestra medidas apropiadas y representaciones grficas para cada tipo de


variable. Cada medida es apropiada para el tipo de variable listada a la izquierda y para todas las
de debajo.
La varianza de una binomial con proporcin p es p(1p)/N
La expresin ( P75 P25 ) 2 es la desviacin intercuartil (BMDP2D).
El coeficiente de variacin puede usarse para comparar la variabilidad de distribuciones
con medias mmuy diferentes.
En la Tabla 2. se muestran los anlisis estadsticos mas usuales en funcin del tipo de
variables
Hay que tomar decisiones especiales cuando el investigador tiene, por ejemplo, una
variable dependiente de intervalo junto con cinco variables independientes de las cuales tres son
de intervalo, una ordinal y una nominal. Un ataque posible es usar la regresin mltiple
considerando la variable ordinal como de intervalo y generando variables artificiales 0/1 para la
nominal. Otra posibilidad consistira en categorizar todas las variables independientes y realizar un
anlisis de la varianza. Teniendo en cuenta las facilidades que dan los programas informticos
para realizar ambos anlisis, sta sera sin duda la mejor opcin.

Pedro Cuesta (A.I.D.E Servicios Informticos U.C.M) 17/12/99

Estad - 8

Tabla 2. Anlisis estadstico sugerido.

Variables Independientes
Nominal u Ordinal

Intervalo o Razn

Variables dependientes

1 variable

> 1 variable

1 variable

> 1 variable

No variables dependient.

Ajuste 2

Medidas de asociacin
Modelo log-lineales

Estadsticos univariantes
(ej.: t para una muestra)
Medidas descriptivas
Contraste de normalidad

Matriz de correlacin
Componentes principales
Anlisis factorial
Anlisis Cluster

Modelo log-lineales
Regresin logstica
Segmentacin
Modelo log-lineales

Funcin discriminante
Regresin logstica
Estadsticos univariantes (t)
Funcin discriminante

Funcin discriminante
Regresin logstica

Anlisis Varianza
Segmentacin
Anlisis Supervivencia
Anlisis multivariante Varianza
Anlisis varianza en
Componentes Principales

Regresin lineal
Correlacin
Anlisis Supervivencia
Correlacin cannica

Regresin lineal mltiple


Anlisis Supervivencia

Contraste 2
de independencia

Nominal u Ordinal
1 variable

Contraste 2
Contraste exacto de Fisher

> 1 variable

Modelo log-lineales

Funcin discriminante

Intervalo o Razn
1 variable

> 1 variable

Contraste t
Anlisis Varianza
Anlisis Supervivencia
Anlisis multivariante Varianza
Anlisis varianza en
Componentes Principales
T2 Hotelling
Anlisis Perfiles

Correlacin cannica
Anlisis Path
Modelos estructurales
(LISREL, EQS)

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

EJEMPLO ILUSTRATIVO
ESTUDIO DE LA PRESIN ARTERIAL A DIFERENTES ESTMULOS.
Se estudian 355 varones sometidos a un rgimen de vida y alimentacin similares
(servicio militar). Se mide la Tensin Arterial Sistlica (TAS) tras cinco pruebas: postural,
mental, esttica, fro y dinmica. Cada prueba tiene su correspondiente valor base.
El fichero PAS.DAT de trabajo tiene 15 variables:
Entre 18 y 28 aos

EDAD

SOBREPES (peso real)/(peso terico)*100 - 100


TABTIPO

(0: no fuma, 1: rubio, 2: negro, 3: no responde)

TABCANT

1: 0, 2: 1-10, 3: 11-20, 4: 21-40, 5: >40)

ALCOHOL

gr. de alcohol

POSTBAS

TAS basal para el test postural

POSTEST

TAS tras el estmulo postural

MENTBAS

TAS basal para el test mental

MENTEST

TAS tras el estmulo mental.

ESTABAS

TAS basal para el test esttico

ESTAEST

TAS tras el estmulo esttico.

FRIOBAS

TAS basal para el test de fro

FRIOEST

TAS tras el estmulo de fro

DINABAS

TAS basal para el test dinmico

DINAEST

TAS tras el estmulo dinmico

Se consideran cualitativas SOBREPESO, TABTIPO, TABCANT, ALCOHOL


Se pueden considerar cuatro categoras en la variable SOBREPESO

delgados:
control:
medios:
obesos:

-5 %
-5 5 %
5 15 %
> 15 %

Se pueden considerar cuatro categoras en la variable ALCOHOL

Consumo
Consumo
Consumo
Consumo

33 gr./da
33 100 gr./da
100 200 gr./da
> 200 gr./da

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

B M D P 1D
DESCRIPCIN SIMPLE DE LOS DATOS
OBJETIVO : Calcula estadsticas univariantes para cada variable.
Pueden calcularse para cada nivel de una variable grupo. Pueden
listarse todos los casos, o solo los casos con missing o valores
fuera de los limites especificados.
Aplicaciones:
Ordenar los casos por varias variables.
Listar los casos con errores de codificacin.
Listar los valores extremos.
Los estadsticos que calcula para cada variable son:
Nmero de casos no missing en la variable n

Media
x
Desviacin Estndar
= n 1
Error estndar de la media
n
Coeficiente de variacin
x
Smallest value (mnimo)
xmin
Smallest z-score (mnimo estandarizado) ( x min x )
Largest value (mximo)
xmax
Largest z-score (mximo estandarizado)
( x max x )
Rango
xmax xmin

El error estndar de la media es una medida de su precisin y se usa para determinar


un intervalo de confianza (aprox. x 2 n . Se calcula en mdulo 2D).
El coeficiente de variacin puede ser til para comparar la variacin de variables con
diferentes escalas o los cambios en la desviacin estndar respecto a un cambio de media.
Los extremos z-scores ayudan a identificar "outliers" en referencia a la distribucin
Normal univariante. Por outliers denominamos a las observaciones que parecen ser
inconsistentes con el resto del conjunto de datos. El tratamiento con estos valores debe ser
1.
2.
3.
4.

Determinar si existen
Encontrar los casos concretos
Determinar la causa (Errores, variaciones reales extremas, muestras inadecuadas).
Decidir qu hacer con ellos (mantenerles, corregirles, dos ejecuciones, etc.).

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

OPCIONES:
Ordenar los datos
/INPUT

. SORT=SEXO,EDAD. ORDER= D,A.

Los niveles de la primera variable varan mas lentamente. Y los de la ultima mas
rpidamente. Se especifica orden ascendente o descendente para cada variable
especificada en SORT.
Los datos ordenados pueden imprimirse y salvarse a un fichero.
Estadsticas por grupos
/GROUP

. GROUP= SEXO, EDAD.

Nombres o ndices de las variables para dividir los casos en grupos. Los estadsticos
se calculan para cada grupo, en cada variable individualmente.
Alternativamente puede usarse BMDP9D.
Pesos/frecuencias
Podemos especificar una variable que contenga la frecuencia o peso de cada caso. La
variable frecuencia tiene el efecto de casos repetidos.
/VARiable . FREQ= CONT
Especifica la variable conteniendo la frecuencia de cada caso.
/VARiable . CWEIGHT= PESOMUES
Especifica la variable conteniendo un peso para cada caso.
Listar casos no aceptables
/PRINT

MISS. MIN.MAX.

MISS Lista los casos que tengan al menos un missing en una variable. Valor igual al
especificado en el prrafo VARIABLE.
MIN Lista los casos que tengan un valor menor o igual al valor mnimo especificado
en el prrafo VARIABLE.
MAX Lista los casos que tengan un valor mayor o igual al valor mximo especificado
en el prrafo VARIABLE.
Listar casos
/PRINT

DATA. METHOD = CASE. FIELD = 3, 2*4, 9.1, -2.


Lista los datos para todos los casos.

METHOD=VARIAB|CASE. Determina como se listaran los datos:

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

FIELD Controla el formato del listado, especificando nmero de posiciones,


decimales y si un campo es alfanumrico (-2).

Otras opciones
/PRINT

LINEsize=80. PAGE=70.

Numero de columnas utilizado en la salida y de lineas por pgina.


/PRINT

ECASE.

Imprime el nmero de caso que contiene el mximo y el mnimo de cada variable.


/PRINT

SK.

Imprime los estadsticos Simetra y Curtosis para cada variable. Comentados en 2D.
/SAVE

FILE = 'NUEVO.DAT'. CODE = NUEVO. NEW.

Crea un fichero BMDP guardando las variables originales, las nuevas, las
transformaciones, etc.
Salida ejemplo:
/PRINT

LINESIZE = 120. MISS.

CASE
1
NO. EDAD
---- -------1
21.00
2
21.00
3
21.00
4
21.00
190
22.00

2
SOBREPES
-------<- 5
- 5<+5
MISSING
MISSING
MISSING

3
TABTIPO
-------NOFUMA
NOFUMA
NEGRO
RUBIO
NORESP

4
TABCANT
-------0
0
T1-10
T>20
T11-20

5
6
7
8
9
10
11
12
13
ALCOHOL POSTBAS POSTEST MENTBAS MENTEST ESTABAS ESTAEST FRIOBAS FRIOEST
-------- -------- -------- -------- -------- -------- -------- -------- ------->200
108.00
102.00
102.00
122.00
108.00
128.00
104.00
114.00
< 33
120.00
122.00
122.00
122.00
110.00
132.00
110.00 MISSING
100<200
120.00
128.00
128.00
136.00
134.00
150.00
146.00
124.00
< 33
110.00
104.00
104.00
116.00
112.00
116.00
100.00
106.00
100<200
142.00
130.00
130.00
136.00
126.00
126.00
122.00
122.00

CASE
14
15
NO. DINABAS DINAEST
---- -------- -------1
102.00 MISSING
2
110.00
148.00
3
120.00
164.00
4
94.00
134.00
190
122.00
150.00
NUMBER OF CASES READ. . . . . . . . . . . . . .

355

DESCRIPTIVE STATISTICS OF DATA


----------- ---------- -- ---VARIABLE
NO. NAME
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

EDAD
SOBREPES
TABTIPO
TABCANT
ALCOHOL
POSTBAS
POSTEST
MENTBAS
MENTEST
ESTABAS
ESTAEST
FRIOBAS
FRIOEST
DINABAS
DINAEST

TOTAL
FREQ.
355
352
355
355
355
355
355
355
355
355
355
355
354
355
354

MEAN
21.473
4.0969
1.6056
2.5155
156.39
122.01
116.29
116.22
119.72
114.00
144.40
113.97
121.10
114.32
146.15

STANDARD ST.ERR
DEV.
OF MEAN
1.0689
9.9397
.98116
.99811
123.65
13.062
13.766
13.742
13.980
12.476
19.142
12.297
14.136
12.204
21.025

.05673
.52979
.05207
.05297
6.5626
.69327
.73064
.72936
.74199
.66216
1.0159
.65266
.75131
.64770
1.1175

COEFF
OF VAR

SMALLEST
VALUE Z-SCR

.04978 18.000 -3.25


2.4262 -23.100 -2.74
.61108 0.0000 -1.64
.39679 1.0000 -1.52
.79064 0.0000 -1.26
.10706 90.000 -2.45
.11838 82.000 -2.49
.11825 82.000 -2.49
.11678 88.000 -2.27
.10944 84.000 -2.40
.13256 102.00 -2.21
.10790 80.000 -2.76
.11673 84.000 -2.62
.10675 60.000 -4.45
.14386 60.000 -4.10

LARGEST
VALUE Z-SCR

RANGE

28.000
55.500
3.0000
5.0000
390.00
188.00
182.00
182.00
168.00
162.00
200.00
150.00
190.00
158.00
216.00

10.000
78.600
3.0000
4.0000
390.00
98.000
100.00
100.00
80.000
78.000
98.000
70.000
106.00
98.000
156.00

6.11
5.17
1.42
2.49
1.89
5.05
4.77
4.79
3.45
3.85
2.90
2.93
4.87
3.58
3.32

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

B M D P 2D
DESCRIPCIN DETALLADA DE LOS DATOS Y
FRECUENCIAS
OBJETIVO: Calcula estadsticas univariantes para cada variable, frecuencias
y porcentajes de cada valor, etc. Son posibles tres alternativas robustas de la
media y un estadstico para normalidad.

Nos muestra la siguiente informacin para cada variable:

Nmero de valores contabilizados (no missing) y no contabilizados (missing o fuera de


rango). Nmero de valores diferentes.

Estadsticos univariantes:
Mximo y mnimo observados y rango.
Varianza y desviacin estndar
Mitad del rango intercuartil
( Q3 Q1 ) 2
Donde Q1 y Q3 son los 25% y 75% percentiles respectivamente.
Representa la mitad de la longitud del intervalo que cubre el 50% de los
valores centrales. Es una medida de variacin que no se altera si una pequea
fraccin de los datos presenta valores muy altos o bajos. Se usa como
alternativa a la varianza en distribuciones con colas largas en una direccin.
(El percentil 100p% es un valor x p tal que al menos el 100p% de los datos
son x p y al menos el 100(1p)% de los datos son x p ).
Mximo y mnimo valor estandarizado.

Medidas de centralizacin y sus errores


Media y su error estndar SEM. Intervalo del 95% de confianza calculado por
x t n 1,0.975 SEM

Mediana y una estimacin de su error


Moda

Histograma reducido a un mximo de 40 caracteres de ancho y 10 lineas de altura.


Imprime el nmero de los casos que presentan el mximo y el mnimo.

La simetra (SKEWNESS) compara la distribucin con una normal. El valor esperado es


cero para una distribucin simtrica. El cociente por su error estndar (VALUE/S.E.)
puede compararse con una distribucin Normal. Por ejemplo un valor de 8.47 indica que
la distribucin es asimtrica hacia la derecha.

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Anlogamente el valor esperado de la Curtosis para una distribucin normal es 0. Un


cociente menor que -2 indica colas mas cortas que la distribucin Normal y mayor que 2
ms largas (ms achatada, menos concentracin en la media).

Intervalos centrales:
Q1
Q3
S
S+

percentil 25%
percentil 75%
media menos una desviacin
media ms una desviacin

El 50% central de valores est entre Q1 y Q3 .

Tabla con los diferentes valores, su frecuencia y porcentaje y el porcentaje acumulado de


observaciones a ese valor. Puede anularse la impresin de esta tabla as como truncar o
redondear los valores para limitar su extensin.

INFERENCIA
Media:
Observamos su intervalo de confianza para contrastar la hiptesis H : = 0
Proporcin
Si estamos interesados en un intervalo de confianza del porcentaje p observado en
una caracterstica o modalidad de una variable discreta calculamos:
p 1. 96 p(1 p) n
lo que nos permite contrastar la hiptesis H : p = p0

OPCIONES :
Pesos/frecuencias
Podemos especificar una variable que contenga la frecuencia o peso de cada caso. La
variable frecuencia tiene el efecto de casos repetidos.
/VARiable

FREQ= CONT.

Truncar/Redondear valores
Cuando hay muchos casos y muchos valores diferentes (hasta uno por caso) podemos
suprimir la salida de valores individuales o agruparles:

Pedro Cuesta

/COUNT

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

ROUND= (ingresos)10. TRUNC= (4)10.,100.

ROUND Especifica unidades para redondear variables. (Ej.: la variable ingresos se


redondea al nmero mas prximo divisible por 10.)
TRUNC Especifica unidades para truncar variables. (Ej.: la variable 4 se redondea al
nmero inferior mas prximo divisible por 10., lo mismo la variable 5 con 100.)
Medias robustas y test de normalidad
/PRINT ESTIM. WSTAT. LINESIZE = 80. NO COUNT.
Estimaciones robustas de la media. Cuando una variable tiene uno o ms valores
extremos o colas extremadamente ms largas que la distribucin normal, la media
puede estar influenciada por muy pocos valores y no ser representativa de la
generalidad de los casos. Las medidas robustas de localizacin son alternativas a la
media que estn poco influidas por estos valores extremos.
TRIM(.15) calcula la media dando igual peso a los casos pero eliminando el 15% de
valores en cada extremo.
HAMPEL y BWEIGHT dan ms peso a los valores centrales que a los extremos.
El estadstico W para normalidad es positivo con valor mximo de 1. Su valor
esperado bajo normalidad es siempre mayor que 0.9 y se incrementa con el tamao
muestral. Un valor bajo (p-value significativo) indica no normalidad. Se puede calcular
para muestras de tamao 3 n 2000.
Otras opciones
/PRINT

STEM.

Histogramas Stem-Leaf.
/GROUP

VARIABLE = SEXO.

Realiza el anlisis para cada uno de las categoras determinada por una variable.

Pedro Cuesta

(Servicios Informticos U.C.M)

************
* POSTEST *
************

VARIABLE NUMBER . . . . . .
NUMBER OF DISTINCT VALUES .
NUMBER OF VALUES COUNTED. .
NUMBER OF VALUES NOT COUNTED

EACH 'H' REPRESENTS

7
38
355
0

MAX
MIN

VALUE
182.0000000
82.0000000

SKEWNESS
KURTOSIS

VALUE
0.61
1.22

ZSCORE
4.773
-2.491

CASE #
300
265

VALUE/S.E.
4.660
4.705

5 COUNTS

HH
HHHH
HHHHH
HHHHHHH
HHHHHHHHH
HHHHHHHHH
HHHHHHHHHH
HHHHHHHHHHHHH
HHHHHHHHHHHHHHHHH H H
H
.....+....+....+....+....+..
100
140
180
120
160

MEAN
MEDIAN
MODE

ESTIMATE
116.2873230
116.0000000
112.0000000

TEST OF NORMALITY
W STATISTIC
SIGNIFICANCE LEVEL

0.9772
0.0457

ST.ERROR
0.7306382
0.5773506

ST.DEV.
VARIANCE
RANGE
(Q3-Q1)/2

ESTIMATE
13.7662792
189.5104370
100.0000000
9.0000000

LOWER 95% C.L. OF MEAN


UPPER 95% C.L. OF MEAN
Q1
Q3
SS+

114.8503876
117.7242584
106.0000000
124.0000000
102.5210419
130.0536041

S Q
Q
S
- 1
M M
3
+
M
. .
O E
.
.
M
I
. .
D A
.
.
A
N
. .
E N
.
.
X
..+.......+.......+.......+.......+.......+.......+.......+.......+.......+.......+.......+.....
81.
99.
117
135
153
171
90.
108
126
144
162
180

VALUE
COUNT
82.
1
84.
1
86.
1
88.
2
90.
2
92.
5
94.
4
96.
2
98.
7
100.
14
102.
15
104.
21
106.
18
108.
19
110.
19
112.
26
114.
19
116.
24
118.
19

PERCENTS
CELL
CUM
0.3
0.3
0.3
0.6
0.3
0.8
0.6
1.4
0.6
2.0
1.4
3.4
1.1
4.5
0.6
5.1
2.0
7.0
3.9 11.0
4.2 15.2
5.9 21.1
5.1 26.2
5.4 31.5
5.4 36.9
7.3 44.2
5.4 49.6
6.8 56.3
5.4 61.7

VALUE
COUNT
120.
16
122.
17
124.
15
126.
13
128.
18
130.
5
132.
14
134.
7
136.
7
138.
4
140.
4
142.
3
144.
3
146.
2
148.
3
150.
2
156.
1
164.
1
182.
1

PERCENTS
CELL
CUM
4.5 66.2
4.8 71.0
4.2 75.2
3.7 78.9
5.1 83.9
1.4 85.4
3.9 89.3
2.0 91.3
2.0 93.2
1.1 94.4
1.1 95.5
0.8 96.3
0.8 97.2
0.6 97.7
0.8 98.6
0.6 99.2
0.3 99.4
0.3 99.7
0.3 100.0

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

B M D P 5D
HISTOGRAMAS Y GRFICOS UNIVARIANTES
OBJETIVO: Histogramas de frecuencias y porcentajes para cada
variable. Grficos de normalidad. Cuando se especifica una variable grupo
pueden obtenerse grficos conjuntos o por separado de cada grupo.
Los histogramas nos muestran la distribucin de la variable. Podemos ver en ellos los
valores mas frecuentes, valores extremos, picos o subpoblaciones, simetras , etc.
El histograma de porcentajes acumulativos nos permite obtener aproximaciones de la
mediana y otros percentiles.
Si n es el nmero de observaciones n es un nmero adecuado de intervalos.
OPCIONES:
/PLOT
Obligatorio. Histograma de frecuencias para cada variable. Opciones de tamao y
etiquetado por defecto. Imprime frecuencias, frecuencias acumuladas, porcentajes y
porcentajes acumulados
Solicitamos histogramas acumulados de 60 caracteres de ancho y 40 lineas de alto. La
base del histograma corresponde a una frecuencia de 0 y cada carcter en las barras
representa 5 observaciones.
/PLOT

TYPE = CUM, CHIST. SIZE = 60,40. SCALE = 0, 5.

Grficos de normalidad.
Se obtienen tres tipos diferentes de grficos de normalidad. Estos grficos se
solicitarn frecuentemente para analizar los residuos de modelos como la Regresin Lineal.
NORMAL
En los grficos de probabilidad normal, los datos se estandarizan y se ordenan. Al
representarlos frente a los datos esperados de una distribucin N(0,1) deberamos
obtener puntos alineados en la diagonal del cuadro.
Si los extremos se curvan hacia abajo (arriba) indica una distribucin sesgada hacia la
dcha. (ida.). Una forma-S indica colas diferentes que una normal.
DETRENDED
Grfico similar al anterior pero eliminando la tendencia lineal. Si la variable tiene una
distribucin normal los puntos del grfico deben situarse cerca del cero y sin un patrn
determinado.
HALF-NORMAL
Examina residuales ignorando el signo.
/PLOT

VARIAB = V1,V5. TYPES = NORM, DNORM, HALFNORM.

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Transformaciones
Aplicando alguna transformacin a la variable del tipo

x,

x , log 10 ( x ), 1 / x , x 2

puede conseguirse que la distribucin sea ms simtrica o parecida a la normal.


Las transformaciones son ms efectivas cuando la desviacin estndar de la variable
sin transformar es grande respecto a la media. Si el coeficiente de variacin es menor que 1/4
la transformacin puede no ser necesaria.
Para decidir sobre una transformacin podemos realizar el anlisis con y sin
transformar. Si examinando los resultados, las conclusiones no cambian presentamos los
resultados en las unidades ms fcilmente interpretables para ese campo de investigacin. Si
se selecciona una transformacin todos los anlisis se ejecutarn con los datos transformados.
Los resultados e inferencias se presentarn en trminos de los valores transformados.
Hay que tener en cuenta que no hay garantas de que la transformacin seleccionada
para la muestra concreta que se analiza sea vlida para otras muestras.
Grupos
Histogramas para cada una de las subpoblaciones determinadas por una variable
grupo seleccionada en el prrafo /GROUP
/GROUP
....VARIAB = SOBREPES.
/PLOT VARIAB = 6 TO 15. TYPE = HIST,NORM. GROUP = EACH.
HISTOGRAM OF VARIABLE

7 POSTEST
SYMBOL COUNT
X
355
EACH SYMBOL REPRESENTS

MEAN
ST.DEV.
116.287
13.766
1 OBSERVATIONS
INTERVAL
FREQUENCY
NAME
5
10
15
20
25
30
35
40
45
50
55 INT. CUM.
+----+----+----+----+----+----+----+----+----+----+----+
*78
+
0
0
*81
+
0
0
*84
+XX
2
2
*87
+X
1
3
*90
+XXXX
4
7
*93
+XXXXX
5
12
*96
+XXXXXX
6
18
*99
+XXXXXXX
7
25
*102
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXX
29
54
*105
+XXXXXXXXXXXXXXXXXXXXX
21
75
*108
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
37 112
*111
+XXXXXXXXXXXXXXXXXXX
19 131
*114
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
45 176
*117
+XXXXXXXXXXXXXXXXXXXXXXXX
24 200
*120
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
35 235
*123
+XXXXXXXXXXXXXXXXX
17 252
*126
+XXXXXXXXXXXXXXXXXXXXXXXXXXXX
28 280
*129
+XXXXXXXXXXXXXXXXXX
18 298
*132
+XXXXXXXXXXXXXXXXXXX
19 317
*135
+XXXXXXX
7 324
*138
+XXXXXXXXXXX
11 335
*141
+XXXX
4 339
*144
+XXXXXX
6 345
*147
+XX
2 347
*150
+XXXXX
5 352
*153
+
0 352
*156
+X
1 353
*159
+
0 353
*162
+
0 353
*165
+X
1 354
*168
+
0 354
*171
+
0 354
*174
+
0 354
*177
+
0 354
*180
+
0 354
*183
+X
1 355
+----+----+----+----+----+----+----+----+----+----+----+
5
10
15
20
25
30
35
40
45
50
55

PERCENTAGE
INT. CUM.
0.0
0.0
0.0
0.0
0.6
0.6
0.3
0.8
1.1
2.0
1.4
3.4
1.7
5.1
2.0
7.0
8.2 15.2
5.9 21.1
10.4 31.5
5.4 36.9
12.7 49.6
6.8 56.3
9.9 66.2
4.8 71.0
7.9 78.9
5.1 83.9
5.4 89.3
2.0 91.3
3.1 94.4
1.1 95.5
1.7 97.2
0.6 97.7
1.4 99.2
0.0 99.2
0.3 99.4
0.0 99.4
0.0 99.4
0.3 99.7
0.0 99.7
0.0 99.7
0.0 99.7
0.0 99.7
0.0 99.7
0.3 100.0

Pedro Cuesta

(Servicios Informticos U.C.M)

NORMAL PLOT OF VARIABLE

E
X
P
E
C
T
E
D
N
O
R
M
A
L

-1
V
A
L
U
E

-2

-3

7 POSTEST
SYMBOL COUNT
MEAN
ST.DEV.
*
355
116.287
13.766
..+....+....+....+....+....+....+....+....+....+....+.....
+
+
//
*
/
*
/* *
/**
+
/**
+
/**
**
**
**
+
***
+
**
***
**
**/
+
**
+
**
***
**
**
+
**
+
**
/**
/**
**
+
/**
+
/**
- //**
- / *
-/ *
+
+
..+....+....+....+....+....+....+....+....+....+....+.....
90.
110
130
150
170
80.
100
120
140
160
180
POSTEST
VALUES FROM NORMAL DISTRIBUTION WOULD LIE
ON THE LINE INDICATED BY THE SYMBOL / .

DEVIATIONS FROM NORMAL PLOT OF VARIABLE


7 POSTEST
SYMBOL COUNT
MEAN
ST.DEV.
*
355
116.287
13.766
..+....+....+....+....+....+....+....+....+....+....+.....
D
E
V
I
.4
+
+
A
T
I
O
N
.2
+
+
F
****
R
******** *
O
************* *
M
************* **
*****************
E
0.
+------------******-*--*********-------------------------+
X
*******
** *****
P
*
***
* ***
E
** ***
*
**
C
* ***
*** *
T
*** ****
** *
E -.2
+
*****
**
+
D
* *
**
***
* * * **
*
N
*
O
R
-

17/12/99 BMDP-Esta

Pedro Cuesta

M
A
L

-.4

(Servicios Informticos U.C.M)

+ *
+
*
..+....+....+....+....+....+....+....+....+.L..+....+L....
90.
110
130
150
170
80.
100
120
140
160
180
POSTEST
VALUES FROM NORMAL DISTRIBUTION WOULD LIE
ON THE LINE INDICATED BY THE SYMBOL - .

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

B M D P 6D
CORRELACION
OBJETIVO: Relacin de dos variables continuas.
/PLOT

XVAR=ESTABAS,DINABAS. YVAR=ESTAEST,DINAEST.

Para cada grfico produce los siguientes estadsticos:

El nmero n de puntos representados.


El coeficiente de correlacin de Pearson (medida de asociacin lineal entre dos variables
continuas):
n

r=

( xi x )( yi y )
sx sy

El nivel de probabilidad del contraste de la hiptesis que la correlacin de la poblacin es


cero. Suponiendo que las variables x e y tienen una distribucin normal bivariante la
hiptesis nula se contrasta con el estadstico
t=

( n 1)

i =1

r n 2

t n 2
1 r2
La media de cada variable x , y y las desviaciones estndar sx , s y
La linea de regresin por mnimos cuadrados y = a + bx
La media de cuadrados residual (RES.MS) s 2y / x = ( y j yj ) 2 ( n 2)

Podemos identificar subpoblaciones con un caracter diferente para cada modalidad de una
variable grupo categrica:
/GROUP
/PLOT

....VARIAB = SOBREPES.
XVAR=DINABAS. YVAR=DINAEST.
GROUP = ALL. SYMBOLS = D,C,M,S.

OPCIONES ESPECIFICAS BSICAS:


PAIR. CROSS.
Opciones para combinar las variables de la lista XVAR con las de la lista YVAR.
XCOMMON YCOMMON.
Cuando varias variables se miden en las mismmas unidades o una variable en
diferentes tiempos solicitamos representaciones mltiples en el mismo grfico (utilizando
diferentes smbolos). XCOM representa todas las variables-x en el mismo eje-x. YCOM
representa todas las variables-y en el mismo eje-y.
SIZE = 40,25.
Determina el tamao del grfico.

Pedro Cuesta

(Servicios Informticos U.C.M)

PROGRAM INSTRUCTIONS
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CODES (EDAD) = 18 TO 28.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
CUTP(5)= 33.,100.,200.
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
/PRINT LEVEL = BRIEF. LINESIZE = 100. PAGESIZE = 75.
/PLOT XVAR=DINABAS. YVAR=DINAEST. CROSS. SIZE = 65,50.
/END

220

200

180

160
D
I
N
A
E
S
T

140

120

100

80.

60.

....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+...
+
+
1
1
1
1
1
Y
+
1
+
11 1
1
1
1
1
1
1
12
1
+
1 1 2
1
1
+
1
2
2
112 1 11
12 2
1
1
2
1 2 3
2
1 2 11 1 3 1 23
1
1
+
2 2 1 1 12
2
+
113 12115 2211 31 1 1
1 2 531 2 3
21 1 1
1
2 1142 5 11 21
1
1
112 5 14325 11
1
1
111 1 421 212 2
3
+
1
111 2212 1 14
+
1
211 22321 334 1 3 2
1
32 3 232 2
1112 2 23 111 1
1 1 3222
1
1 32153 21 21 11
+
1
2 1 2
+
1
212 1
1
1
2
1
22 1
1
2
1
1
1
11
1
+
+
1
+
+
Y
+
1
+

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

....+.....+.....+.....+.....+M....+.....+.....+.....+.....+.....+...
70.
90.
110
130
150
60.
80.
100
120
140
160
N = 354
R = .661
P < .001
--REGRESSION LINE-Y= 15.984 +1.1382*X

DINABAS

-RES.MS249.82

X
Y

MEAN
114.36
146.15

S.D.
12.203
21.025

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

En este ejemplo se ve grficamente la relacin de dos variables ACTDAESF y


ACTDAREP con una variable cualitativa DA:(N: Normal, L: Leve, G: Grave). Se observa
que ACTDAESF < 70 est asociada con el grupo G independientemente del valor de
ACTDAREP. Se deduce tambin la imposiilidad de discriminar entre N y L con las dos
variables.
...
/GROUP
CUTP (DA,CD,CX) = 49. , 74. NAMES (DA,CD,CX) = N,L,G.
VARIAB = DA.
/PLOT

XVAR = ACTDAREP. YVAR = ACTDAESF. CROSS. SIZE = 70 , 50. GROUP=ALL.


NO STAT.

/END

90

80

70

A
C
T
D
A
E
S
F

60

50

40

30

20

.+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....
+
+
G
N N N
G
N NN
N N L
G L
G
N
+
G
*
LL
L
+
L N L
NN N L
G
NL
G
G
NNLL* L
L
GN
G
L
L
L
L
*
+
* G
G
+
G G
G G G
G
G
G
GGG
NG
G
G
G GG G
G
+
L
G
G
+
G
G
G
G
G
G
G
G
G
G
G
G G
G
G
+
G
G G
+
GG
G
G
G
G
G
G
G
G
G
+
G
+
G
G
G
G
G
G
G
G
- G G
+ G
+
G
G
G
+
+
.+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....+.....
35
45
55
65
75
85
30
40
50
60
70
80

Pedro Cuesta

(Servicios Informticos U.C.M)

ACTDAREP

17/12/99 BMDP-Esta

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

B M D P 4F
TABLAS DE FRECUENCIAS
OBJETIVO: Analiza tablas de frecuencias de dos o mltiples
entradas, a partir de las frecuencias de las celdas o de casos
individuales.
Se analiza el grado de asociacin entre dos variables categricas.
Incorpora nmerosos estadsticos para tablas 22 de frecuencias,
tablas con categoras ordenadas, etc.
En las tablas de porcentajes hay que determinar la direccin en la que deben
calcularse (filas o columnas). Si una de las dos variables es la independiente o de control y la
otra dependiente o criterio, se calculan los porcentajes a lo largo de la variable dependiente.
En los porcentajes se interpretan cambios: absolutos, relativos relativos al posible
aumento.
Notacin
1

1
2
M
i
M
r
Frecuencias marginales

nij

ni

nj
n
ni = nij , n. j = nij
j

Proporciones marginales

pi = pij , p. j = pij
j

Perfil fila: Distribucin de la variable columna dentro de la categora fila i.


Perfil de columna j. Distribucin de la variable fila en columna j.

pij

pi j =1, ,c

pij

p
j i =1, ,r

La relacion entre las dos variables tiene dos puntos de vista: Homogeneidad entre
perfiles o Independencia (la distribucin observada corresponde a la esperada segn las
frecuencias marginales). En el caso extremo tendramos una relacin funcional perfecta entre
filas y columnas.
Significatvidad estadstica
Construida la tabla el estadstico CHI-DOS se utiliza para contrastar si la cantidad de
tabaco TABCANT es independiente de la variable ALCOHOL. Si estas dos variables son

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

independientes la probabilidad de una ocurrencia en una celda es el producto de la


probabilidad de las ocurrencias individuales de cada variable por separado.
Si en caso de independencia se tiene que pij = pi p j las frecuencias esperadas son
eij = np i p j =

nin j
n

Prob(ALCOHOL = i y TABCANT = j) = Prob(ALCOHOL = i)Prob(TABCANT = j)


Basado en estas probabilidades el nmero de ocurrencias esperado, por ejemplo,
para (ALCOHOL = 3 y TABCANT = 2) ser 355(96/355)(62/355) = 16.76. El nmero
observado en esta celda es 21.
La diferencia entre frecuencias observadas y esperadas se mide por la cantidad
r

CHI DOS =

( nij eij ) 2

i= 1 j = 1

eij

2(r 1)(c1)

El estadstico CHI-DOS es una medida de las diferencias entre los valores observados
en la realidad y los esperados en caso de independencia. La independencia implicara que los
perfiles de las filas, es decir los porcentajes por filas coinciden. Esto implicara que la variable
Alcohol no proporciona informacin relevante sobre la distribucin de cantidad de tabaco.
Para decidir si rechazamos la independencia (igualdad de porcentajes) se compara el
estadstico CHI-DOS con una distribucin 2 con df = (nf-1)(nc-1) grados de libertad.
El nivel de significatividad nos indica la probabilidad de cometer error si rechazamos la
independencia, es decir si admitimos que hay asociacin (porcentajes diferentes). Se suele
tomar esta decisin cuando esta probabilidad de error es pequea (< 0.05), es decir cuando
tenemos ms de un 95% de confianza en nuestra decisin.
Son de inters las cantidades siguientes:
Valores esperados Si son pequeos la aproximacin del estadstico por 2 no es buena .
Ninguna celda debe tener valor < 1 y no ms de un 20% de celdas con valor
< 5. En caso contrario se pueden agrupar categoras.
Desviaciones estndarizadas ajustadas
nij eij
eij (1 pi )(1 p j )

N ( 0,1)

Valores en valor absoluto mayor que 3. son tiles para descubrir celdas con
valores diferentes significativamente de los esperados en caso de
independencia.
Ejemplo del prrafo TABLE: Tabla de dos variables, Tabla con tres variables
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.

Pedro Cuesta

(Servicios Informticos U.C.M)

/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
CUTP(5)= 33.,100.,200.
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
/PRINT LEVEL=BRIEF.CASE=0.LIST=0.LINESIZE = 100.PAGESIZE = 75.
OBS.PERC=ROW,COL,TOT.ADJ.
/TABLE ROW = 5. COL = 4. CROSS.
/TABLE INDICES = TABCANT,ALCOHOL,EDAD.
/END

************************
* TABLE PARAGRAPH
1 *
************************
*** OBSERVED FREQUENCY TABLE

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
22
11
21
4 |
58
33<100
26
17
53
7 |
103
100<200
18
21
49
8 |
96
>200
12
13
54
19 |
98
--------------------------------------------|--------TOTAL
78
62
177
38 |
355
ALL CASES HAD COMPLETE DATA FOR THIS TABLE.

*** PERCENTS OF ROW TOTALS

-- TABLE

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
37.9
19.0
36.2
6.9 | 100.0
33<100
25.2
16.5
51.5
6.8 | 100.0
100<200
18.8
21.9
51.0
8.3 | 100.0
>200
12.2
13.3
55.1
19.4 | 100.0
--------------------------------------------|--------TOTAL
22.0
17.5
49.9
10.7 | 100.0
*** PERCENTS OF COLUMN TOTALS -- TABLE
ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
28.2
17.7
11.9
10.5 |
16.3

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

33<100
33.3
27.4
29.9
18.4 |
29.0
100<200
23.1
33.9
27.7
21.1 |
27.0
>200
15.4
21.0
30.5
50.0 |
27.6
--------------------------------------------|--------TOTAL
100.0
100.0
100.0
100.0 | 100.0

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

*** PERCENTS OF THE TABLE TOTAL -- TABLE

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
6.2
3.1
5.9
1.1 |
16.3
33<100
7.3
4.8
14.9
2.0 |
29.0
100<200
5.1
5.9
13.8
2.3 |
27.0
>200
3.4
3.7
15.2
5.4 |
27.6
--------------------------------------------|--------TOTAL
22.0
17.5
49.9
10.7 | 100.0

*****

ANALYSIS OF OBSERVED FREQUENCY TABLE

MINIMUM ESTIMATED EXPECTED VALUE IS

6.21

STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
26.537
9 0.0017
*** ADJUSTED STANDARDIZED DEVIATES

-- TABLE

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
-----------------------------------------------------< 33
3.2
0.3
-2.3
-1.0 |
0.2
33<100
1.0
-0.3
0.4
-1.5 |
-0.5
100<200
-0.9
1.3
0.3
-0.9 |
-0.2
>200
-2.7
-1.3
1.2
3.3 |
0.5
--------------------------------------------|--------TOTAL
0.5
0.1
-0.4
-0.2 |
0.0

************************
* TABLE PARAGRAPH
2 *
************************
*** OBSERVED FREQUENCY TABLE

EDAD
------

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21

< 33
10
7
14
2 |
33
33<100
13
10
25
3 |
51
100<200
10
10
30
5 |
55
>200
5
6
27
9 |
47
--------------------------------------------|--------TOTAL
38
33
96
19 |
186

EDAD>=21

< 33
12
4
7
2 |
25
33<100
13
7
28
4 |
52
100<200
8
11
19
3 |
41
>200
7
7
27
10 |
51
--------------------------------------------|--------TOTAL
40
29
81
19 |
169

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

TOTAL OF THE OBSERVED FREQUENCY TABLE IS


ALL CASES HAD COMPLETE DATA FOR THIS TABLE.

355

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

*** PERCENTS OF ROW TOTALS

-- TABLE

EDAD
------

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21

< 33
30.3
21.2
42.4
6.1 | 100.0
33<100
25.5
19.6
49.0
5.9 | 100.0
100<200
18.2
18.2
54.5
9.1 | 100.0
>200
10.6
12.8
57.4
19.1 | 100.0
--------------------------------------------|--------TOTAL
20.4
17.7
51.6
10.2 | 100.0

EDAD>=21

< 33
48.0
16.0
28.0
8.0 | 100.0
33<100
25.0
13.5
53.8
7.7 | 100.0
100<200
19.5
26.8
46.3
7.3 | 100.0
>200
13.7
13.7
52.9
19.6 | 100.0
--------------------------------------------|--------TOTAL
23.7
17.2
47.9
11.2 | 100.0

*** PERCENTS OF COLUMN TOTALS -- TABLE

EDAD
------

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21

< 33
26.3
21.2
14.6
10.5 |
17.7
33<100
34.2
30.3
26.0
15.8 |
27.4
100<200
26.3
30.3
31.3
26.3 |
29.6
>200
13.2
18.2
28.1
47.4 |
25.3
--------------------------------------------|--------TOTAL
100.0
100.0
100.0
100.0 | 100.0

EDAD>=21

< 33
30.0
13.8
8.6
10.5 |
14.8
33<100
32.5
24.1
34.6
21.1 |
30.8
100<200
20.0
37.9
23.5
15.8 |
24.3
>200
17.5
24.1
33.3
52.6 |
30.2
--------------------------------------------|--------TOTAL
100.0
100.0
100.0
100.0 | 100.0

*** PERCENTS OF THE TABLE TOTAL -- TABLE

EDAD
------

ALCOHOL
------

TABCANT
-----0
T1-10
T11-20
T>20
TOTAL
--------------------------------------------------------------EDAD<=21

< 33
2.8
2.0
3.9
0.6 |
9.3
33<100
3.7
2.8
7.0
0.8 |
14.4
100<200
2.8
2.8
8.5
1.4 |
15.5
>200
1.4
1.7
7.6
2.5 |
13.2
--------------------------------------------|--------TOTAL
10.7
9.3
27.0
5.4 |
52.4

EDAD>=21

< 33
3.4
1.1
2.0
0.6 |
7.0
33<100
3.7
2.0
7.9
1.1 |
14.6
100<200
2.3
3.1
5.4
0.8 |
11.5
>200
2.0
2.0
7.6
2.8 |
14.4
--------------------------------------------|--------TOTAL
11.3
8.2
22.8
5.4 |
47.6

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

NUMBER OF INTEGER WORDS USED IN PRECEDING


PROGRAM TERMINATED

PROBLEM

1898

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

OTRAS MEDIDAS ESTADSTICAS


Adems del estadstico 2 pueden obtenerse otras medidas de asociacin, prediccin,
correlacin ,etc., con el prrafo STATISTICS. Por ejemplo:
LRCHI
Estadstico CHI-DOS de razn de verosimilitud. Alternativa al usual CHI-DOS
de Pearson que se usa en el anlisis de tablas de mltiple entrada con los modelos logartmicolineales.
G = 2 nij ln (nij eij )
2

CONTINGENCY
Cuando hay asociacin entre filas y columnas el valor esperado del
estadstico CHI-DOS es proporcional al tamao muestral. Entonces, no podemos comparar
tablas basadas en diferentes tamaos. En ese caso usamos medidas no dependientes de n: C,
phi, V de Cramer.
TAUS, LAMBDA, UNCERTANTY
Miden la ganancia en la prediccin (o
reduccin de incertidumbre) de una variable categrica debida al conocimiento de otra,
relativa al no conocimiento.
Tablas 22 (Ver segunda salida)
/STATISTICS

FISHER. CONTINGENCY.

El test exacto de Fisher (2-TAIL) calcula la probabilidad exacta de obtener esas


observaciones. Recomendado cuando la frecuencia esperada mnima es < 5. La correcin de
Yates mejora el estadstico CHI-DOS pero pude ser muy conservador. Recomendado para n
40.
SIMETRIA RELATIVA:
La simetra exacta (Mcnemar) contrasta la hiptesis p12 = p21 mientras que la relativa
contrasta un proceso de cambio p12 / p1 = p21 / p2
Q y de Yule son medidas de asociacin. Son 1 cuando n11 n22 es igual a cero, 1 cuando
n12 n21 es igual a cero y 0 cuando n11 n22 = n12 n21 (odds ratio es uno).
La columna ASE1 es una estimacin asinttica del error estndar de un coeficiente y
puede usarse para un intervalo de confianza del 95% del parmetro: VALUE2ASE1.
Contrastamos si una medida es 0 dividiendo el estadstico por su error (T-VALUE).
Rechazamos si su valor absoluto excede 2.
CROSS-PRODUCT RATIO

Tambin llamado ODDS RATIO es el cociente

n11 n22 n22 n21 n22 n12


=
=
n12 n21 n12 n11 n21 n11

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Si no hay asociacin entre las dos variable categricas vale 1. En el ejemplo posterior
dentro de la categora Alcohol > 100 la tasa de fumar ms de 10 es 71/31. Dentro de
Alcohol < 100 la tasa es 44/40.
71 31
El odds.ratio para estas dos categoras es el cociente
= 2. 082
44 40
El riesgo relativo de fumar mucho es dos veces ms en los que beben mucho.
El 4F calcula el logaritmo neperiano del odds-ratio, su error estndar para un intervalo
de confianza y un t-value para contrastar si ln(cross-product) es cero o lo que es
equivalente si cross-product es uno.
Homogeneidad de odds-ratios.
En la segunda salida cruzamos dos variables binarias para cada grupo de edad.
Queremos contrastar si los odds-ratios son similares en cada nivel de edad y estimar un oddsratio comn.
Los dos odds-ratios son 2.082 y 1.570 y el test de homogeneidad no es significativo
(p = 0.52) lo que indicara que los odds-ratios son similares. (En contradiccin con los test en
cada grupo donde un t-value sale significativo y otro no).
Se combinan los odds-ratios por dos mtodos diferentes, obteniendo un valor
conjunto (RISK) que se contrasta si su valor es igual a 1. En el ejemplo el primer mtodo
indica diferencias de 1. (p = 0.009) y el segundo lo confirma con un intervalo de confianza
(1.17,2.82). Ambos estadsticos llevan a la conclusin que hay una asociacin positiva entre
beber > 100 y fumar > 10.
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
NAMES(5) = '< 100','< 100','> 100','> 100'.
/PRINT LEVEL=BRIEF.CASE=0.LIST=0.LINESIZE = 100.PAGESIZE = 75.
OBS. # PERC=ROW,COL,TOT.ADJ.
/TABLE ROW = 5. COL = 4. CONDITION = EDAD.
/STATISTICS
FISHER. CONTINGENCY.
/END
************************
* TABLE PARAGRAPH
1 *
************************
*** OBSERVED FREQUENCY TABLE 1
USING LEVEL
EDAD<=21
OF VARIABLE

EDAD

Pedro Cuesta

(Servicios Informticos U.C.M)

********
ALCOHOL
------

TABCANT
-----T0-10
T11-40
TOTAL
-----------------------------------< 100
40
44 |
84
> 100
31
71 |
102
--------------------------|--------TOTAL
71
115 |
186

********

17/12/99 BMDP-Esta

Pedro Cuesta

*****

(Servicios Informticos U.C.M)

ANALYSIS OF OBSERVED FREQUENCY TABLE

MINIMUM ESTIMATED EXPECTED VALUE IS

32.06

STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
5.792
1 0.0161
FISHER EXACT TEST(1-TAIL)
0.0121
FISHER EXACT TEST(2-TAIL)
0.0226
YATES CORRECTED CHISQ.
5.085
1 0.0241
ROW RELATIVE SYMMETRY CHISQ
8.365
1 0.0038
COL RELATIVE SYMMETRY CHISQ
0.331
1 0.5648
PHI = CRAMER'S V
0.176
MAXIMUM VALUE FOR PHI
0.866
CONTINGENCY COEF. C
0.174
MAX.VALUE FOR CONTINGEN.
0.655
STATISTIC
VALUE
ASE1 T-VALUE DEP.
--------------------------------------------------------YULE'S Q
0.351
0.134
2.315
CROSS-PRODUCT RATIO
2.082
YULE'S Y
0.181
0.074
2.391
LN(CROSS-PRODUCT RATIO)
0.733
0.307
2.418
*** OBSERVED FREQUENCY TABLE
USING LEVEL

EDAD>=21
********

OF VARIABLE

EDAD
********

ALCOHOL
------

TABCANT
-----T0-10
T11-40
TOTAL
-----------------------------------< 100
36
41 |
77
> 100
33
59 |
92
--------------------------|--------TOTAL
69
100 |
169

*****

ANALYSIS OF OBSERVED FREQUENCY TABLE

MINIMUM ESTIMATED EXPECTED VALUE IS


31.44
1PAGE
3 4F
14-MAR-95
17:04:58

STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
2.055
1 0.1517
FISHER EXACT TEST(1-TAIL)
0.1009
FISHER EXACT TEST(2-TAIL)
0.1610
YATES CORRECTED CHISQ.
1.629
1 0.2018
ROW RELATIVE SYMMETRY CHISQ
4.461
1 0.0347
COL RELATIVE SYMMETRY CHISQ
0.520
1 0.4706
PHI = CRAMER'S V
0.110
MAXIMUM VALUE FOR PHI
0.908
CONTINGENCY COEF. C
0.110
MAX.VALUE FOR CONTINGEN.
0.672
STATISTIC
VALUE
ASE1 T-VALUE DEP.
--------------------------------------------------------YULE'S Q
0.222
0.150
1.411
CROSS-PRODUCT RATIO
1.570

17/12/99 BMDP-Esta

Pedro Cuesta

YULE'S Y
LN(CROSS-PRODUCT RATIO)

(Servicios Informticos U.C.M)

0.112
0.451

0.078
0.315

17/12/99 BMDP-Esta

1.429
1.435

--------------------------------------------------------------------MANTEL-HAENSZEL STATISTICS FROM COMBINING THE TWO-BY-TWO TABLES ABOVE


RISK
1.81 CHI-SQUARE
6.82
TAIL-PROB.
0.0090
RISK OBTAINED AS ANTILOG OF WEIGHTED COMBINATION OF LN(RISK)
RISK
1.81
APPROX. 95% CONFIDENCE LIMITS
1.17 TO
2.82
TEST FOR HOMOGENEITY - CHI-SQUARE
0.41 DF 1 PROB. 0.5209
---------------------------------------------------------------------

Tablas R C con categoras ordenadas


/STATISTICS GAMMA. CORRELATION. SPEARMAN.
Calcula varias medidas de asociacin y correlacin para tablas cruzando variables con
categoras ordenadas. Los test nos indicaran si. por ejemplo, altos niveles de alcohol estn
asociados con altos niveles de tabaco.
Tablas R R (Ver tercera salida)
/STATISTICS MCNEMAR.
El test de simetra se usa cuando a los mismos sujetos se les mide una variable en dos
tiempos o en datos pareados. El test mide si los cambios en una direccin (SINO) son los
mismos que en la otra direccin (NOSI). Contrasta pues la hiptesis pij = p ji i , j . En el
ejemplo se rechaza la simetra (p = 0.0019).
El test de homogeneidad maginal contrasta la hiptesis de que las probabilidades
marginales en las filas coinciden con las marginales correspondientes en las columnas
H 0 : pi = pi i = 1, 2 , , r
El test de Kappa es una medida de fiabilidad o consistencia de dos variables
categricas. Por ejemplo pacientes diagnosticados por dos mdicos o por dos tcnicas (Si
KAPPA < 0.40, poca concordancia. Si > 0.75 fuerte concordancia). Contrasta si los valores
observados en la diagonal son mayores que los esperados si se distribuyen al azar. El
estadstico es
p pe
2
= 0
p0 = i nii n , pe = i ri ci n
1 pe
p0 es la proporcin de concordancia observada.
pe es la proporcin de concordancia esperada.
En el ejemplo siguiente no es signifcativo el t-value. En el fichero de instrucciones
damos directamente la tabla de frecuencias despues de /END.

PROGRAM INSTRUCTIONS
/INPUT VARIAB = 2 FORMAT = FREE. TABLE = 3,3.
/VARIAB NAMES = DESPUES, ANTES.
/CATEGORY
NAMES (ANTES,DESPUES) = ACUERDO,DESACUER,NOSEGURO.

Pedro Cuesta

(Servicios Informticos U.C.M)

/TABLE ROW = ANTES. COL = DESPUES.


/STATISTICS MCNEMAR.
/PRINT
PERCENT = TOTAL.
/END
47
56
38
28
61
31
26
47
10

17/12/99 BMDP-Esta

Pedro Cuesta

*****

(Servicios Informticos U.C.M)

OBSERVED FREQUENCY TABLE

17/12/99 BMDP-Esta

ANTES
------

DESPUES
-----ACUERDO DESACUER NOSEGURO
TOTAL
--------------------------------------------ACUERDO
47
56
38 |
141
DESACUER
28
61
31 |
120
NOSEGURO
26
47
10 |
83
-----------------------------------|--------TOTAL
101
164
79 |
344
*****

PERCENTS OF THE TABLE TOTAL -- TABLE

ANTES
------

DESPUES
-----ACUERDO DESACUER NOSEGURO
TOTAL
--------------------------------------------ACUERDO
13.7
16.3
11.0 |
41.0
DESACUER
8.1
17.7
9.0 |
34.9
NOSEGURO
7.6
13.7
2.9 |
24.1
-----------------------------------|--------TOTAL
29.4
47.7
23.0 | 100.0

*****

ANALYSIS OF OBSERVED FREQUENCY TABLE

MINIMUM ESTIMATED EXPECTED VALUE IS

19.06

STATISTIC
VALUE
D.F.
PROB.
----------------------------------------------------PEARSON CHISQUARE
11.584
4 0.0207
MCNEMAR TEST OF SYMMETRY
14.865
3 0.0019
MARGINAL HOMOGENEITY
14.778
2 0.0006
STATISTIC
VALUE
ASE1 T-VALUE DEP.
--------------------------------------------------------KAPPA, MEAS. RELIABILITY
0.001
0.036
0.039

OTRAS OPCIONES ESPECIFICAS BSICAS:


/INPUT

TABLE= 4, 3, 2.

Requerido cuando los datos de entrada son las propias tablas de frecuencia a analizar.
/TABLE

ROW = Lista. COL = Lista. PAIR o CROSS.

CROSS considera todos los posibles pares de una variable en ROW y una
variable en COL.
PAIR forma la tabla con la primera en ROW y la primera en COL, etc.
COND = EDAD.
Para estratificar tablas por los valores de una variable condicin,

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

B M D P 3D
TEST T
Medimos las diferencias entre dos conjuntos de datos:
Resultados producidos por dos procesos de
produccin, dos tratamientos mdicos, opiniones de
dos grupos de personas, etc.
Se realizan contrastes de localizacin de medias para una o dos muestras. En el
anlisis de dos muestras, stas pueden ser independientes o dependientes (datos pareados).
Dos muestras independientes pueden aparecer, bien en un experimento donde hay una
asignacin aleatoria a dos tratamientos o bien en diseos clnicos o encuestas donde se
compararn dos grupos. Muestras dependientes o pareadas son frecuentemente dos medidas
en el mismo sujeto realizadas en dos momentos de tiempo o bajo diferentes condiciones.
Tambien pueden ser dos sujetos diferentes que se seleccionan en un par por ser homogneos
respecto al resto de caractersticas que pueden influir en la que se contrasta.
El programa 3D proporciona informacin descriptiva de cada conjunto de datos y un
histograma de cada grupo. La comparacin de medias se realiza con el estadstico
t = ( x1 x2 ) S , donde S es el error estndar de la diferencia.
Dos muestras
/GROUP

. VARIAB = ALCOHOL.
/TWOGROUP VARIAB = 7 TO 15 BY 2. ROBUST. HOTEL.
El test de Levene contrasta la igualdad de varianzas. Calcula la desviacin absoluta de
cada observacin a la media de su grupo y ejecuta un t-test de dos muestras con estas
desviaciones. Un p-value pequeo indica varianzas desiguales. Si se rechaza la hiptesis nula
de igualdad de varianzas debemos considerar en la comparacin de medias el t-test de
varianzas diferentes (SEPARATE). Por otro lado puede ser una indicacin de falta de
normalidad o outliers, por lo que deberemos considerar transformaciones, opciones TRIM o
contrastes no paramtricos.
Los estadsticos T para las medias contrastan la hiptesis nula

H0 : 1 2 = 0 frente a H1 : 1 2 0

En POOLED T se estima una varianza conjunta como una media ponderada de las
varianzas dentro de cada grupo
( n 1) S12 + ( n2 1) S22
2
Sp = 1
n1 + n2 2

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

El estadstico t se calcula por


t=

( x1 x 2 )
t n1 + n2 2
S p 1 n1 + 1 n2

Un valor de p-value pequeo significa que las medias son significativamente diferentes.

En SEPARATE T no se asume igualdad de varianzas en las dos subpoblaciones. La


estimacin de la varianza de la diferencia de medias es la suma de las varianzas de cada
media muestral, por lo que le estadstico t vale
( x1 x2 )
t=
( S12 n1 ) + ( S22 n2 )

Contrastes Robustos y No Parmetricos

La opcin ROBUST ejecuta los "TRIM T" que consiste en reducir la influencia del mayor
y menor valor de cada grupo.

Para dos muestras independientes puede solicitarse el contraste no paramtrico de suma


de rangos de Wilcoxon-Mann-Whitney. Las observaciones se ordenan por orden de
tamao y se asignan rangos. Se realiza la inferencia calculando el valor esperado y error
estndar de R1 = (Suma de los rangos asignados al primer grupo).
Este test no asume normalidad, sin embargo las distribuciones deben ser similares
(histogramas con igual forma y varianza).

Contraste multivariante T2 de Hotelling


Contrasta la igualdad de medias en los grupos simultneamente para varias variables,
teniendo en cuenta la dependencia entre ellas, recogida en la matriz de varianzas-covarianzas
C. Suponiendo normalidad multivariante se calcula la distancia de Mahalanobis entre los
vectores de medias x1 y x2 :
D2 = ( x1 x2 ) t C1 ( x1 x2 )
y el estadstico de Hotelling
D2
2
T =
(1 n1 + 1 n1 + 1 n2 )
contrastando la hiptesis nula de igualdad de los vectores de medias con una distribucin F.
Ejemplo muestras independientes: Produccin con dos fertilizantes A y B. Se asigna
aleatoriamente el fertilizante A a 5 parcelas y el B a 6.
Parcela
FERTA
FERTB

1
29.9
26.6

11.4
23.7

3
25.3
28.5

4
16.5
14.2

5
21.1
17.9

6
24.3

La diferencia de medias es -1.693, que no es significativa. No se observan diferentes


efectos entre ambos fertilizantes.

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

Datos pareados
/MATCHED VARIAB = 6 TO 14 BY 2. CROSS. NONPAR.
La salida del programa incluye etadsticos descriptivos de cada grupo y de las
diferencias. El test pareado MATCHED T se calcula dividiendo la media de las diferencias
por su error estndar. En la salida ejemplo (POSTBAS-MENTBAS) tenemos

t=

d
S d2

5. 7944

=
n

12. 8162 355

5. 7944
= 8.52
0. 6802

Pueden obtenerse dos test no parmetricos:


1. El test de los signos (SIGN TEST) no usa rangos sino el nmero de diferencias
positivas N+ y negativas N , realizando un contraste binomial bajo la hiptesis
nula de igual probabilidad de obtener los signos + y . Imprime el valor N+ y NT =
N++N .
2. El test de WILCOXON (Signed Rank) calcula, en este caso, la suma de los
rangos de las N+ diferencias positivas, R+ , la suma de los rangos de las N
diferencias positivas, R y realiza la inferencia con Rmin = Minimo(R+,R)
suponiendo que la poblacin es continua y simtrica.
El programa tambien calcula el coeficiente de correlacin de Pearson y la correlacin
de Spearman que se basa en los rangos. En la salida ejemplo (ESTABAS-DINABAS) ambas
correlaciones (0.7243 y 0.7082) son significativas, lo que indica que valores altos en la
variable ESTABAS se corresponden con valores altos en DINABAS.
Ejemplo datos pareados: Se estudia el desgaste del calzado con dos materiales A y B. Se
prueba en 10 nios asignando a cada pi un tipo A B aleatoriamente:
Nio
MATERA
MATERB

1
13.2
14.0

2
8.2
8.8

3
10.9
11.2

4
5
14.3 10.7
14.2 11.8

6
6.6
6.4

7
9.5
9.8

8
10.8
11.3

9
8.8
9.3

10
13.3
13.6

La diferencia de medias es 0.410 con un valor-t significativo.


Una muestra
/ONEGROUP

VARIAB = POSTBAS. MEAN = 120.

El test t para una muestra contrasta si la media de la variable es igual a un valor


especfico. Es equivalente a un test pareado entre la variable (POSTBAS) y una variable
constante con el valor especificado (120.).

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

OTRAS OPCIONES:
/TWOGroup

GLIST = ED10,ED20,ED30.
Especifica el subconjunto de grupos, de la variable especificada en
/GROUP, que sern comparados entre s.
QQPLOT.
Grficos cuantil-cuantil para comparar la distribucin de los dos
conjuntos de datos.
CORRELATION.
Imprime la matriz de correlacin para cada grupo.

/MATChed VAR= 6 TO 15.


Variables cuyas medias sern comparadas. Se comparan los pares
(1,2) (3,4) etc.
FIRST = Pulso_1, BP1. SECOND = Pulso_2, BP2.
Puede usarse en lugar de VARIABLES para especificar los pares que
sern comparados. (La primera de la lista FIRST con la primera de la
lista SECOND, etc.).
PAIR. CROSS.
Se aplica a la lista de VARIABLES o alternativamente a las de FIRST
y SECOND. Si CROSS se comparan todos los posibles pares.
PROGRAM INSTRUCTIONS
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
#
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
#
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
NAMES(5) = '< 100','< 100','> 100','> 100'.
VARIAB = 5.
/PRINT LEVEL=BRIEF.CASE=0. LINESIZE = 100.PAGESIZE = 75.
/TWOGROUP VARIAB = 7 TO 15 BY 2. ROBUST. HOTEL.
/END

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

MULTIVARIATE STATISTICS FOR GROUP < 100


VS. GROUP > 100
THERE ARE
161 CASES,
160 OF THEM COMPLETE IN GROUP < 100
THERE ARE
194 CASES,
193 OF THEM COMPLETE IN GROUP > 100
NULL HYPOTHESIS IS THAT BOTH GROUPS HAVE EQUAL MEANS FOR ALL VARIABLES
MAHALANOBIS D SQUARE
HOTELLING T SQUARE
F VALUE
DEGREES OF FREEDOM

5,

0.0601
5.2854
1.0451
349

P-VALUE

0.3909

POSTEST
VARIABLE NUMBER
7
*****************************
GROUP

1 < 100

H
H H H
HHHH H
HHHHHHHH
HHHHHHHHHHHHHH
M--------------------M
I AN H=
7 CASES A
N
(N= 161)
X

2 > 100
X
X
X X X
XXXXX X
XXXXXXX
XXXXXXXXXXXXXXX X X
M--------------------M
I AN X=
7 CASES A
N
(N= 194)
X

GROUP
< 100
> 100
------------------------------MEAN
114.5342
117.7423
TRIM MEAN 114.5283
117.5833
STD DEV
12.5574
14.5665
S.E.M.
0.9897
1.0458
SAMPLE SIZE
161
194
MAXIMUM
148.0000
182.0000
MINIMUM
82.0000
84.0000
Z MAX
2.67
4.41
Z MIN
-2.59
-2.32
CASE (MAX)
210
300
CASE (MIN)
265
118
2ND MAX
146.0000
164.0000
2ND MIN
88.0000
86.0000

TEST STATISTICS
P-VALUE DF
-------------------------------LEVENE F FOR
VARIABILITY
0.95 0.3314 1, 353
POOLED
T
SEPARATE T
TRIM POOL.T
TRIM SEP. T

-2.20
-2.23
-2.11
-2.14

0.0286
0.0265
0.0355
0.0333

353
352.5
349
347.8

DINAEST
VARIABLE NUMBER 15
*****************************
GROUP

1 < 100

HH
H HHH
HHHHHH
HHHHHHHH
HHHHHHHHHHHHHHH
M--------------------M
I AN H=
6 CASES A
N
(N= 161)
X

2 > 100
X
XXX
X XXXX
XXXXXX
XXXXXXXXX
X
XXXXXXXXXXXXXXX
M--------------------M
I AN X=
6 CASES A
N
(N= 193)
X

GROUP
< 100
> 100
------------------------------MEAN
144.2236
147.7616
TRIM MEAN 144.1258
147.8639

TEST STATISTICS
P-VALUE DF
-------------------------------LEVENE F FOR
VARIABILITY
0.03 0.8558 1, 352

Pedro Cuesta

STD DEV
20.5633
S.E.M.
1.6206
SAMPLE SIZE
161
MAXIMUM
206.0000
MINIMUM
98.0000
Z MAX
3.00
Z MIN
-2.25
CASE (MAX)
137
CASE (MIN)
328
2ND MAX
200.0000
2ND MIN
104.0000
PROGRAM TERMINATED

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

21.3221
1.5348
193
216.0000
60.0000
3.20
-4.12
38
61
212.0000
104.0000

POOLED
T
SEPARATE T
TRIM POOL.T
TRIM SEP. T

-1.58
-1.59
-1.69
-1.69

0.1150
0.1139
0.0916
0.0914

352
344.7
348
337.4

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

PROGRAM INSTRUCTIONS
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
#
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
#
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
NAMES(5) = '< 100','< 100','> 100','> 100'.
/PRINT LEVEL=BRIEF.CASE=0. LINESIZE = 100.PAGESIZE = 75.
/MATCHED VARIAB = 6 TO 14 BY 2. CROSS. ROBUST. NONPAR.
/END

POSTBAS VS. MENTBAS (VAR. NO.


6 VS.
8)
********************************************
POSTBAS
H
H
HH H
HHHHHH
HHHHHHH
HHHHHHHHHHHHH H HH
M--------------------M
I AN H=
14 CASES A
N
(N= 355)
X

MENTBAS

X X
XXXX
XXXXX X
XXXXXXXX
XXXXXXXXXXXXXX X X
M--------------------M
I AN X=
14 CASES A
N
(N= 355)
X

POSTBAS
MENTBAS
------------------------------MEAN
122.0113
116.2169
TRIM MEAN 121.9150
116.1275
STD DEV
13.0622
13.7422
S.E.M.
0.6933
0.7294
SAMPLE SIZE
355
355
MAXIMUM
188.0000
182.0000
MINIMUM
90.0000
82.0000
Z MAX
5.05
4.79
Z MIN
-2.45
-2.49
CASE (MAX)
165
300
CASE (MIN)
96
265
2ND MAX
180.0000
164.0000
2ND MIN
90.0000
84.0000

POSTBAS - MENTBAS (VAR. NO.


6 8)
***************************************

H
H HHH
HHHHH
HHHHHHH
HHHHHHHHH
H HHHHHHHHHHHHHHH HH
M--------------------M
I AN H=
11 CASES A

POSTBAS - MENTBAS
------------------MEAN
5.7944
TRIM MEAN
5.8045
STD DEV
12.8162
S.E.M.
0.6802
SAMPLE SIZE
355
MAXIMUM
54.0000
MINIMUM
-46.0000
Z MAX
3.76

TEST STATISTICS
P-VALUE DF
-------------------------------MATCHED T
8.52 0.0000 354
TRIMMED T
8.64 0.0000 352
SIGN TEST*
0.0000
WILCOXON**
13882.0 0.0000
CORRELATION
SPEARMAN R

0.5438 0.0000
0.4949 0.0000

353
353

Pedro Cuesta

(N=

(Servicios Informticos U.C.M)

355)

Z MIN
-4.04
CASE (MAX)
165
CASE (MIN)
278
2ND MAX
44.0000
2ND MIN
-32.0000
2ND MIN
-20.0000

17/12/99 BMDP-Esta

* POSTBAS > MENTBAS IN 232


CASES OF 338 WITH NONZERO DIFS.
** TOTAL OF RANKS WITH LESS
FREQUENT SIGN =
13882.0

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

ESTABAS VS. DINABAS (VAR. NO. 10 VS. 14)


********************************************
ESTABAS
H
H H
H HHH
HHHHHH
HHHHHHHHH
HHHHHHHHHHHHHHHH
M--------------------M
I AN H=
13 CASES A
N
(N= 355)
X

DINABAS
XX
XX
XX X
XXXXXX
XXXXXXX
X
XXXXXXXXXXXXXX X
M--------------------M
I AN X=
13 CASES A
N
(N= 355)
X

ESTABAS
DINABAS
------------------------------MEAN
113.9972
114.3240
TRIM MEAN 113.9462
114.3541
STD DEV
12.4761
12.2035
S.E.M.
0.6622
0.6477
SAMPLE SIZE
355
355
MAXIMUM
162.0000
158.0000
MINIMUM
84.0000
60.0000
Z MAX
3.85
3.58
Z MIN
-2.40
-4.45
CASE (MAX)
300
300
CASE (MIN)
55
61
2ND MAX
154.0000
150.0000
2ND MIN
88.0000
82.0000

ESTABAS - DINABAS (VAR. NO. 10 - 14)


***************************************

HH
HHH
HHHHH
HHHHHH
HHHHHHHH
HH HHHHHHHHHHHHH H H
M--------------------M
I AN H=
12 CASES A
N
(N= 355)
X

PROGRAM TERMINATED

ESTABAS - DINABAS
------------------MEAN
-0.3268
TRIM MEAN
-0.3626
STD DEV
9.1667
S.E.M.
0.4865
SAMPLE SIZE
355
MAXIMUM
46.0000
MINIMUM
-34.0000
Z MAX
5.05
Z MIN
-3.67
CASE (MAX)
61
CASE (MIN)
95
2ND MAX
34.0000
2ND MIN
-32.0000

TEST STATISTICS
P-VALUE DF
-------------------------------MATCHED T
-0.67 0.5023 354
TRIMMED T
-0.76 0.4506 352
SIGN TEST*
0.7377
WILCOXON**
24436.5 0.3975
CORRELATION
SPEARMAN R

0.7243 0.0000
0.7082 0.0000

353
353

* ESTABAS > DINABAS IN 157


CASES OF 321 WITH NONZERO DIFS.
** TOTAL OF RANKS WITH LESS
FREQUENT SIGN =
24436.5

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

B M D P 7D
ANLISIS DE LA VARIANZA DE UNO
O DOS FACTORES
OBJETIVO: Realiza un anlisis de la varianza bsico de uno o dos
factores, incluyendo descriptiva en cada grupo, histogramas y diagnsticos
sobre los datos.
Extendemos la comparacin de dos medias del mdulo 3D al caso en el que una
variable categrica establece ms de dos grupos o se examina el efecto de ms de una
variable categrica (factores) en las medias de una variable respuesta.

Calcula los estadsticos de Welch y Brown-Forsythe que no asumen igualdad de varianzas


y un anlisis de la varianza a partir de medias depuradas para extremos.
Incorpora un amplio conjunto de test pareados y de comparaciones mltiples, as como la
posibilidad de contrastes especficos.
Son posibles grficos de diagnsticos para transformaciones.

Ejemplo: DIETA.DAT, consideramos el tiempo de coagulacin de la sangre en 25 animales


sometidos a 4 dietas.
Variables: TIEMPOC, DIETA(A,B,C,D), ORDEN (en la toma de datos).
Llamamos "tratamientos" a los niveles de la variable categrica (DIETA). En el
anlisis de la varianza contrastamos la hiptesis de que los tratamientos tienen el mismo efecto.
Suponemos que el mecanismo de respuesta de la variable TIEMPOC es
Y j = (media global)+(efecto tratamientoj )
Y j es el valor ajustado al j-simo tratamiento.
En ausencia de tratamientos la mejor representacin para una respuesta tpica es la
media global de la muestra. Si los tratamientos estn presentes hacemos ajustes en esta media
segn el efecto de cada tratamiento.
Si todos los tratamientos tienen el mismo efecto no es necesario hacer ajustes y el
efecto comn se incorporara a la media global y
variacin total = variacin debido al error (respecto a la media)
Si los efectos son diferentes
variacin total =(variacin debido a tratamientos)+(variacin debido al error)
Inspeccionamos grficamente los tiempos en cada dieta:
/HIST

VARIAB= TIEMPOC. GROUP = DIETA.

Se observa con los histogramas diferentes efectos de los tratamientos.

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

ANLISIS DE VARIANZA DE UN FACTOR


Se realiza un test estadstico comparando el valor F-VALUE con una distribucin F
con (k1,n1) grados de libertad.
El nivel de significatividad calculado nos indica la probabilidad de cometer error si
rechazamos la igualdad de efectos y decidimos que los tratamientos son diferentes.
Un anlisis de la varianza de un factor es similar a un modelo de regresin. El modelo
consiste en ajustar una media diferente a cada grupo. Comprobamos la validez de nuestro
modelo como en regresin: Analizando los residuales conjuntamente y en cada tratamiento
(Mdulo 2V para residuales).
Una hiptesis subyacente al anlisis de varianza es la igualdad de varianzas. El mdulo
7D contrasta esta hiptesis con el test de Levene . Si este test es significativo la hiptesis de
igualdad de varianzas en los grupos se rechaza y el test F del ANOVA estndar no
proporciona un test vlido para contrastar la igualdad de medias en los grupos. En ese caso
los procedimientos de Welch y Brown-Forsythe son dos test alternativos para la igualdad de
medias en los grupos que no asumen varianzas iguales.
Cuando el valor global F es significativo nos indica que las medias en los grupos no
son iguales. Los test de comparaciones pareadas y de rangos mltiples permiten analizar qu
medias especficas difieren.
Comparaciones pareadas
/HIST VARIAB= DINAEST. GROUP = SOBREPES.
/COMPARISON
TUKEY.BONFERRONI.SCHEFFE.
DUNNET.CONTROL='- 5<+5'. CONFIDENCE.
El test "TUKEY STUDENTIZED" compara los grupos de dos en dos. Muestra la
significatividad de las diferencias en forma de matriz, con los smbolos siguientes:
**
*

Podemos admitir que las dos medias son diferentes con una probabilidad de
error menor de 0.01.
Podemos admitir que las dos medias son diferentes con una probabilidad de
error menor de 0.05.
Podemos admitir que las dos medias son diferentes con una probabilidad de
error menor de 0.10.

Puede obtenerse informacin detallada de los test de Bomferroni con la sentencia


TTEST en /PRINT. Cuando el nmero de comparaciones pareadas es muy grande es ms
potente Tukey que Bomferroni, verificndose lo contrario cuando hay pocas comparaciones.
El mtodo de Scheff es ms conservador que el test de tukey.
Dunnet compara un grupo control con cada uno del los otros grupos. Los grupos
pueden ser de tamaos desiguales si el control tiene el mayor tamao muestral.

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Comparaciones por intervalos


/COMPARISON

DUNCAN. NK. CONFIDENCE.

Los test de rangos mltiples de Duncan y Student-Newman-Keuls ordenan


primeramente las medias de menor a mayor y a continuacin obtiene intervalos de medias que
no se diferencian estadsticamente. Cada intervalo se identifica por una raya continua y define
un conjunto de grupos que se comporta de manera similar respecto a la variable que se est
comparando.
Dos grupos sern diferentes segn estos contrastes si no hay una raya que les una. No
hay ninguna raya que una sobrepeso='< 5', ni '> 15' con algn otro grupo. Segn el test NK,
en la salida ejemplo, no hay diferencias significativas entre los sobrepesos ' 5<+5' y ' 5<15'.
Hay que recordar aqu que los test estadsticos son pruebas que se realizan para tomar
una decisin sobre un fenmeno o problema que se estudia a travs de una muestra de
observaciones. Como tales pruebas, las conclusiones de los test pueden no coincidir. Sin
embargo sern muy concluyentes las diferencias puestas de manifiesto por todos los test.
Opciones para Extremos
Valores muy extremos en un conjunto de datos tienen un efecto muy marcado en el
cociente F, puesto que un valor extremadamente alto aumenta la media y desviacin estndar.
El resultado puede ser un incorrecto rechazo de la hiptesis nula. La opcin TRIM permite
eliminar la influencia de los valores ms grandes y ms pequeos de cada grupo.

/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.


/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
#
CODES (EDAD) = 18 TO 28.
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
#
NAMES(4) = ' 0 ','T1-10','T11-20','T>20','T>20'.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
#
NAMES(5) = ' < 33',' 33<100','100<200','>200'.
NAMES(5) = '< 100','< 100','> 100','> 100'.
/HISTOGRAM GROUP = SOBREPES. VAR = 15. TRIM. PERC = 10.
/COMPARISON NK. DUNNET. CONTROL = '- 5<+5'. CONFIDENCE.

Pedro Cuesta

(Servicios Informticos U.C.M)

/PRINT LEVEL=BRIEF.CASE=0. LINESIZE = 100.PAGESIZE = 75. TTEST. COMP = 4.


/END

17/12/99 BMDP-Esta

Pedro Cuesta

************
HISTOGRAM OF * DINAEST * (
************

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

15)

GROUPED

BY

************
* SOBREPES * (
************

2)

CASES WITH
UNUSED
VALUES FOR
<- 5
- 5<+5
5<15
> 15
SOBREPES
MIDPOINTS.................+.................+.................+.................+.................+
224.000)
217.000)
*
210.000)
*
203.000)
**
*
*
196.000)
*
*
**
189.000)*
*
****
**
182.000)
***
***
*
175.000)*
****
****
***
168.000)
******
********
***
161.000)**
**************
**********
********
*
154.000)**********
***************18 ***********
M***
147.000)******
M**************31 M**************** ********
M
140.000)********
***************** ************
****
133.000)M********
***************23 ************
****
*
126.000)******
**********
********
***
119.000)*****
*************
***
**
112.000)***
****
****
105.000)***
**
*
98.000)*
91.000)
84.000)
77.000)
70.000)
63.000)*
56.000)
LEGEND FOR GROUP MEANS:
M - MEAN COINCIDES WITH AN ASTERISK
N - MEAN DOES NOT COINCIDE WITH ANY ASTERISK
MEAN
135.286
STD.DEV.
20.884
S. E. M.
2.791
MAXIMUM
190.000
MINIMUM
60.000
CASES EXCL. (
1)
CASES INCL.
56

144.658
18.757
1.537
206.000
104.000
(
0)
149

149.212
19.987
2.009
206.000
108.000
(
0)
99

157.191
24.118
3.518
216.000
116.000
(
0)
47

149.333
15.011
8.667
164.000
134.000
(
0)
3

---------------------------------------------------------------------------| ANALYSIS OF VARIANCE TABLE FOR MEANS


TAIL
|
|
SOURCE
SUM OF SQUARES
DF
MEAN SQUARE F VALUE PROBABILITY |
|
--------------------- -------------- ------- ----------- |
|
SOBREPES
13599.6904
3
4533.2300
11.08
0.0000
|
|
ERROR
141962.7942
347
409.1147
|
|--------------------------------------------------------------------------|
| EQUALITY OF MEANS TESTS; VARIANCES ARE NOT ASSUMED TO BE EQUAL
|
|
WELCH
3, 131
9.28
0.0000
|
|
BROWN-FORSYTHE
3, 204
10.00
0.0000
|
|--------------------------------------------------------------------------|
| LEVENE'S TEST FOR VARIANCES
3, 347
1.50
0.2132
|
----------------------------------------------------------------------------

---------------------------------------------------------------------------| ANALYSIS OF VARIANCE TABLE FOR MEANS WITH 10 PERCENT TRIMMING


TAIL
|
|
SOURCE
SUM OF SQUARES
DF
MEAN SQUARE F VALUE PROBABILITY |
|
--------------------- -------------- ------- ----------- |
|
SOBREPES
8696.2178
3
2898.7393
8.73
0.0000
|
|
ERROR
91900.3672
277
332.0100
|

Pedro Cuesta

(Servicios Informticos U.C.M)

|--------------------------------------------------------------------------|
| EQUALITY OF MEANS TESTS; VARIANCES ARE NOT ASSUMED TO BE EQUAL
|
|
WELCH
3, 104
7.40
0.0002
|
|
BROWN-FORSYTHE
3, 151
7.75
0.0001
|
----------------------------------------------------------------------------

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

TUKEY STUDENTIZED RANGE METHOD

95% CONFIDENCE INTERVALS


GROUP
NO. LABEL
1 <- 5
1 <- 5
1 <- 5
2 - 5<+5
2 - 5<+5
3 5<15

GROUP
NO. LABEL
2 - 5<+5
3 5<15
4 > 15
3 5<15
4 > 15
4 > 15

MEAN
DIFF
-9.37
-13.93
-21.91
-4.55
-12.53
-7.98

.
.
L_____M_____U
L_____M_____U .
L_____M_____U
.
L____M__._U
L_____M_____U .
L_____M____.U
-----+---------+---------+---------+---------+-----30.00
-15.00
0.00
15.00
30.00

TUKEY STUDENTIZED RANGE METHOD


SIGNIFICANCE AT
--------------1% LEVEL **
5% LEVEL *
10% LEVEL >10% LEVEL
FOR
6 TESTS

<
5

GROUP
NO. LABEL
-----------1 <- 5
2 - 5<+5
3 5<15
4 > 15

MEAN
-----135.29
144.66
149.21
157.19

SAMPLE
SIZE
---56
149
99
47

5
<
+
5

>
5
<
1
5

1
5

--- --- --- --*


** **
*
**
**
** **

DUNNETT CONTROL GROUP COMPARISON TEST


95% CONFIDENCE INTERVALS
GROUP
NO. LABEL
2 - 5<+5
2 - 5<+5
2 - 5<+5

GROUP
NO. LABEL
1 <- 5
3 5<15
4 > 15

MEAN
DIFF
9.37
-4.55
-12.53

.
.
.L____M____U
L___M__.U
L_____M_____U .
-----+---------+---------+---------+---------+-----30.00
-15.00
0.00
15.00
30.00

DUNNETT CONTROL GROUP COMPARISON TEST

GROUP
NO. LABEL
1 <- 5
2 - 5<+5
3 5<15
4 > 15

SAMPLE
MEAN SIZE
135.29
56
144.66 149
149.21
99
157.19
47

**
CONTROL GROUP
**

NOMENCLATURE
-------------------

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

1% SIGNIFICANCE **
5% SIGNIFICANCE *
>5% SIGNIFICANCE

17/12/99 BMDP-Esta

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

STUDENT-NEWMAN-KEULS MULTIPLE RANGE TEST


95% CONFIDENCE LEVEL
<- 5

MEANS

- 5<+5
5<15
> 15
_________________

135.29

SAMPLE SIZE

144.66

56.

149.

149.21
99.

157.19
47.

CONFIDENCE INTERVALS FOR EACH GROUP


T-DISTRIBUTION
95% CONFIDENCE INTERVALS
GROUP
NO. LABEL
1 <- 5
2 - 5<+5
3 5<15
4 > 15

MEAN
135.29
144.66
149.21
157.19

SAMPLE
SIZE
56 L_______M_______U
149
L____M____U
99
L_____M_____U
47
L__________M__________
+---------+---------+---------+---------+---------+
129.50
136.50
143.50
150.50
157.50
164.50

************
PAIRWISE T-TEST OF * DINAEST * (
************

SOBREPES
GROUP
--------------------<- 5

VS.
- 5<+5
5<15
> 15

- 5<+5
VS.
5<15
> 15
5<15
VS.
> 15

************
15) GROUPED BY * SOBREPES * (
************

SEPARATE VARIANCE
T-VAL DF P-VAL
------------------

POOLED VARIANCE
T-VAL DF P-VAL
------------------

2)

DIFF.
OF MEANS
--------

CELL
NO.
-----1

-2.94 90 0.0041*
-2.96 347 0.0033*
-4.05 110 0.0001*** -4.12 347 0.0000***
-4.88 91 0.0000*** -5.47 347 0.0000***

-9.372
-13.926
-21.906

-1.80 200 0.0732


-3.26 64 0.0018**

-1.74 347 0.0834


-3.70 347 0.0002***

-4.554
-12.534

-1.97

-2.23 347 0.0266

2
3
4
2
3
4
3

77 0.0525

NOTATION FOR BONFERRONI SIGNIFICANCE LEVELS


------------------------------------------A SINGLE COMPARISON MUST HAVE A P VALUE LESS THAN 0.012500 TO BE
SIGNIFICANT AT THE .05 LEVEL WHEN COMPARING
4 PAIRS OF MEANS.
0.1% SIGNIFICANCE ***
1% SIGNIFICANCE **
5% SIGNIFICANCE *
10% SIGNIFICANCE -

-7.979

Pedro Cuesta

(Servicios Informticos U.C.M)

>10%

SIGNIFICANCE

PROGRAM TERMINATED

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

OTRAS OPCIONES ESPECIFICAS


Contrastes especficos del tipo H0 = c11 + c2 2 +K + ck k = 0. Por ejemplo
/HIST VARIAB= DINAEST. GROUP = SOBREPES.
/CONTRAST = LINEAL. SIGNO.
LINEAL = -3, -1, 1, 3.
SIGNO
= -1, -1, 1, 1.
El contraste LINEAL contrasta si existe una tendencia lineal entre los niveles
ordenados de sobrepeso y la tensin DINAEST.
El contraste SIGNO contrasta si los individuos con sobrepeso bajo o control
tienen diferentes tensiones que los individuos con sobrepeso positivo.
/PRINT

TTEST. COMP = 4.

Test pareado de Bomferroni ajustando el nivel de significatividad por el factor


especificado en COMP.
/PRINT

PLOT. SIZE = 45,18.

Diagnostico de BOX-COX para seleccionar la transformacin adecuada para


estabilizar la varianza:
Para conseguir homogeneidad de varianzas puede ser necesario una transformacin.
Con esta opcin se realiza un grfico de las desviaciones si frente a las medias (o sus
logaritmos) y se ajusta la ecuacin
log ( si ) = B0 + B1 log ( X i )
La transformacin de Box-Cox sugerida es y 1 B1 , usando la siguiente tabla para
obtener una transformacin aproximada

B1
2
1
0.5
0
/PRINT

1 B1
1
0
0.5
1

Transformacin
Reciproca
Logaritmica
Raiz cuadrada
Ninguna

TRIM. CORR.

Puede imprimirse la matriz de correlacin dentro de cada grupo, as como tres niveles
de medias y desviaciones robustas (trimmed)

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

ANLISIS DE VARIANZA DE DOS FACTORES


Estudia el efecto de dos factores en una variable respuesta.
Por ejemplo analizamos el efecto de los factores SOBREPESO y TABCANT en la
variable respuesta DINAEST.

Sobrepeso

< 5
< 5 - 15
> 15

Tabaco
T0 - 10 T11-40
d0
d1
c0
c1
o0
o1

donde ij es la media de la celda en la fila i y la columna j.


Si a los niveles de SOBREPESO les llamamos tratamientos y a los de TABCANT
bloques el valor ajustado a cada combinacin bloque-tratamiento es
Yij = (media global)+(efecto bloquei )+(efecto tratamientoj ) +
+ (efecto de interaccinij )
con la correspondiente descomposicin de la varianza, que contrasta tres hiptesis:
H1 : Efectos debido SOBREPES
d 0 + d 1 = c0 + c1 = o0 + o1
No hay diferencias en la tensin media entre delgados, control y obesos.
H2 : Efectos debido TABCANT
d 0 + c0 + o0 = d 1 + c1 + o1
No hay diferencias en la tensin media entre fumar poco y mucho.
H3 : No hay efectos de interaccin.
El efecto del sobrepeso en la tensin es el mismo para muy fumadores que
para poco fumadores.
/HISTO

GROUP = SOBREPES, TABCANT. VAR = 15.

Se observa que el F-VALUE correspondiente a SOBREPESO es muy significativo,


mientras que TABCANT y la interaccin no son significativos al nivel 5%.
Podemos realizar un anlisis visual de los resultados representando las medias de cada
SOBREPESO y TABCANT (Se podra hacer con el BMDP9D):
<-5

-5<15

>15

165
165

160

160

155

155

150

150

145

145

140
135

T0-10

140

T11-40

135

130
125
<-5

130

-5<15

>15

125
T0-10

T11-40

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.


/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<15','- 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
NAMES(5) = '< 100','< 100','> 100','> 100'.
/HISTOGRAM GROUP = SOBREPES,TABCANT. VAR = 13,15.
/COMPARISON NK.
/PRINT LEVEL=BRIEF.CASE=0. LINESIZE = 100. PAGESIZE = 75.
/END

************
HISTOGRAM OF * DINAEST * (
************

15)

GROUPED

BY
AND

************
* SOBREPES * (
* TABCANT * (
************

2)
4)

<- 5
<- 5
- 5<15
T0-10
T11-40
T0-10
MIDPOINTS.....................+.....................+.....................+
224.000)
217.000)
210.000)
203.000)
*
196.000)
*
189.000)
*
**
182.000)
*
175.000)*
****
168.000)
****
161.000)*
*
**********
154.000)***
*******
*********
147.000)****
**
M*******************
140.000)***
*****
***********
133.000)M**
M*****
************
126.000)**
****
***********
119.000)**
***
******
112.000)
***
*****
105.000)**
*
*
98.000)*
91.000)
84.000)
77.000)
70.000)
63.000)
*
56.000)
MEAN
STD.DEV.

136.364
19.446

134.588
22.022

144.633
19.311

Pedro Cuesta

S. E. M.
4.146
MAXIMUM
174.000
MINIMUM
98.000
CASES EXCL. (
1)
CASES INCL.
22

(Servicios Informticos U.C.M)

3.777
190.000
60.000
(
0)
34

1.951
200.000
108.000
(
0)
98

17/12/99 BMDP-Esta

Pedro Cuesta

************
HISTOGRAM OF * DINAEST * (
************

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

15)

GROUPED

BY
AND

************
* SOBREPES * (
* TABCANT * (
************

2)
4)

- 5<15
> 15
> 15
T11-40
T0-10
T11-40
MIDPOINTS.....................+.....................+.................+
224.000)
217.000)
*
210.000)
*
203.000)**
*
196.000)*
**
189.000)***
**
182.000)*****
*
175.000)****
*
**
168.000)**********
*
**
161.000)**************
M*
******
154.000)******************** **
M*
147.000)M******************28 ****
****
140.000)******************
**
**
133.000)*******************23
****
126.000)*******
***
119.000)**********
*
*
112.000)***
105.000)**
98.000)
91.000)
84.000)
77.000)
70.000)
63.000)
56.000)

MEAN
147.680
STD.DEV.
19.340
S. E. M.
1.579
MAXIMUM
206.000
MINIMUM
104.000
CASES EXCL. (
0)
CASES INCL.
150

163.444
26.309
6.201
216.000
116.000
(
0)
18

153.310
22.241
4.130
204.000
122.000
(
0)
29

---------------------------------------------------------------------------| ANALYSIS OF VARIANCE


TAIL
|
|
SOURCE
SUM OF SQUARES
DF
MEAN SQUARE F VALUE PROBABILITY |
|
------------------------ -------------- ------- ----------- |
|
SOBREPES
12727.4978
2
6363.7489
15.52
0.0000
|
|
TABCANT
432.0595
1
432.0595
1.05
0.3054
|
|
INTERACTION
1709.6656
2
854.8328
2.08
0.1259
|
|
ERROR
141463.3931
345
410.0388
|
|--------------------------------------------------------------------------|
| ANALYSIS OF VARIANCE; VARIANCES ARE NOT ASSUMED TO BE EQUAL
|
|
WELCH
5, 73
5.24
0.0004
|
|
BROWN-FORSYTHE
|
|
SOBREPES
2, 75
16.83
0.0000
|
|
TABCANT
1, 75
0.80
0.3725
|
|
INTERACTION
2, 75
1.38
0.2585
|
|--------------------------------------------------------------------------|

Pedro Cuesta

(Servicios Informticos U.C.M)

| LEVENE'S TEST FOR EQUALITY OF VARIANCES


|
|
SOBREPES
2, 345
2.21
0.1115
|
|
TABCANT
1, 345
0.17
0.6795
|
|
INTERACTION
2, 345
0.23
0.7936
|
----------------------------------------------------------------------------

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

BMDP 3S
ESTADSTICOS
NO PARAMTRICOS
OBJETIVO: Calculo de estadsticos no paramtricos
Los anlisis no paramtricos contienen menos hiptesis acerca de las distribuciones de
los datos que los contrastes estadstico estndar. En particular no asumen normalidad de los
datos. Muchos test no paramtricos trabajan con rangos en lugar de los valores.
El programa 3S es apropiado para cuatro diferentes problemas:
1. Dos ms grupos independientes. Anlisis de la varianza con un factor, para
contrastar la hiptesis de que muestras independientes de dos o ms grupos
provienen de la misma poblacin: Test de suma de rangos de Mann-Whitney y de
Kruskal-Wallis, con la posibilidad de comparaciones pareadas.
2. Observaciones pareadas. Suma de rangos de Wilcoxon y test de los signos
para contrastar la hiptesis de no diferencias en las observaciones pareadas.
3. Bloques aleatorizados. Anlisis de la varianza con dos factores con una
observacin por celda, o medidas repetidas: Contraste de Friedman, con
comparaciones mltiples.
4. Correlaciones de rangos. Las correlaciones de Kendall y Spearman estiman la
correlacin entre dos variables basndose en los rangos de las observaciones.
Algunas de estas medidas aparecen en los mdulos 3D y 4F.

PROGRAM INSTRUCTIONS
/INPUT FILE='SA.DAT.'.VARIAB= 15. FORMAT = FREE.
/VARIAB
NAMES = EDAD,SOBREPES,TABTIPO,TABCANT,ALCOHOL,
POSTBAS,POSTEST,MENTBAS,MENTEST,ESTABAS,ESTAEST,
FRIOBAS,FRIOEST,DINABAS,DINAEST.
/GROUP
CUTP (EDAD) = 21.
NAMES (EDAD) = 'EDAD<=21','EDAD>=21'.
CUTP(2)=-5., 5., 15.
NAMES(2) = '<- 5','- 5<+5',' 5<15','> 15'.
CODES(3)=0 TO 3.
NAMES(3) = NOFUMA,RUBIO,NEGRO,NORESP.
CODES(4)=1 TO 5.
NAMES(4) = 'T0-10','T0-10','T11-40','T11-40','T11-40'.
CUTP(5)= 33.,100.,200.
NAMES(5) = '< 100','< 100','> 100','> 100'.
VARIAB = SOBREPES.
/TEST

VAR = 13,14,15. KRUSKAL. COMPARE.

Pedro Cuesta

(Servicios Informticos U.C.M)

/COMPARISON NK.
/PRINT LEVEL=BRIEF. LINESIZE = 100.PAGESIZE = 75.
/END

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

GROUPING VARIABLE . . . . . . . . . . . . . . .SOBREPES


USE ONLY COMPLETE CASES
COMPUTE KRUSKAL-WALLIS H TEST
COMPUTE MULTIPLE COMPARISONS FOR KRUSKAL-WALLIS TEST

NUMBER OF CASES READ. . . . . . . . . . . . . .


CASES WITH DATA MISSING OR BEYOND LIMITS . .
REMAINING NUMBER OF CASES . . . . . . . .

355
5
350

KRUSKAL-WALLIS ONE WAY ANALYSIS OF VARIANCE TEST RESULTS

VARIABLE
GROUP
NO. NAME
1 <- 5
2 - 5<+5
3 5<15
4 > 15

13 FRIOEST
FREQUENCY
56
148
99
47

RANK
SUM
7089.5
24159.0
19302.0
10874.5

KRUSKAL-WALLIS TEST STATISTIC =


USING CHI-SQUARE DISTRIBUTION WITH

33.36. P-VALUE = 0.0000


3 DEGREES OF FREEDOM

MULTIPLE COMPARISONS
THE NULL HYPOTHESIS IS REJECTED IF ZSTAT IS LARGER THAN
THE CRITICAL VALUE ZC, WHERE 1-PHI(ZC)= ALPHA/(K(K-1)),
PHI IS THE CUMULATIVE STANDARD NORMAL DISTRIBUTION FUNCTION,
ALPHA IS THE DESIRED OVERALL SIGNIFICANCE LEVEL, AND
K IS THE NUMBER OF GROUPS COMPARED.
WITH

4 GROUPS , THE CRITICAL Z VALUES ARE:


2.39 FOR OVERALL ALPHA OF .10 (*)
2.64 FOR OVERALL ALPHA OF .05 (**)

COMPARISONS
<- 5
- - 5<+5
<- 5
- 5<15
<- 5
- > 15
- 5<+5
- 5<15
- 5<+5
- > 15
5<15
- > 15

VARIABLE
GROUP
NO. NAME
1 <- 5
2 - 5<+5
3 5<15
4 > 15

ZSTAT
DIF
2.31
-36.64
4.05** -68.37
5.24** -104.77
2.42*
-31.73
4.03** -68.14
2.03
-36.40

15 DINAEST
FREQUENCY
56
148
99
47

SE
15.85
16.89
19.98
13.12
16.91
17.89

RANK
SUM
7174.0
24881.0
18984.5
10385.5

KRUSKAL-WALLIS TEST STATISTIC =


USING CHI-SQUARE DISTRIBUTION WITH

25.16. P-VALUE = 0.0000


3 DEGREES OF FREEDOM

MULTIPLE COMPARISONS
THE NULL HYPOTHESIS IS REJECTED IF ZSTAT IS LARGER THAN
THE CRITICAL VALUE ZC, WHERE 1-PHI(ZC)= ALPHA/(K(K-1)),
PHI IS THE CUMULATIVE STANDARD NORMAL DISTRIBUTION FUNCTION,
ALPHA IS THE DESIRED OVERALL SIGNIFICANCE LEVEL, AND

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

K IS THE NUMBER OF GROUPS COMPARED.


WITH

4 GROUPS , THE CRITICAL Z VALUES ARE:


2.39 FOR OVERALL ALPHA OF .10 (*)
2.64 FOR OVERALL ALPHA OF .05 (**)

COMPARISONS
<- 5
- - 5<+5
<- 5
- 5<15
<- 5
- > 15
- 5<+5
- 5<15
- 5<+5
- > 15
5<15
- > 15

ZSTAT
2.52*
3.77**
4.64**
1.80
3.12**
1.63

DIF
-40.01
-63.66
-92.86
-23.65
-52.85
-29.21

SE
15.86
16.91
20.00
13.13
16.93
17.91

17/12/99 BMDP-Esta

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

BMDP 2V
ANLISIS DE VARIANZA
Y COVARIANZA
OBJETIVO: Realiza anlisis de la varianza y covarianza para una
gran variedad de diseos de efectos fijos y medidas repetidas.

El anlisis de la varianza-covarianza combina anlisis de la varianza y regresin. Las


covarianzas son variables registradas conjuntamente con la variable respuesta. No estn
controladas por el investigador, slo observadas.
Si las covarianzas se relacionan linealmente con la variable respuesta se puede hacer
un ajuste previo.
Ejemplo: Se analiza la fuerza de una fibra producida por tres mquinas diferentes. Un anlisis
de la varianza determinara si hay diferencias en la fuerza debido al tipo de mquina.
Adicionalmente se registra el dimetro de la fibra. Variables: FUERZA, DIAMETRO,
MAQUINA.
MAQUINA
FUERZA
DIAMETRO

1
36
20

1
41
25

1
39
24

1
42
25

1
49
32

2
40
22

2
48
28

2
39
22

2
45
30

2
44
28

3
35
21

3
37
23

3
42
26

Realizamos los siguientes pasos

BMDP2V
El efecto mquina es significativo al 5%.
PROGRAM INSTRUCTIONS
/INPUT VARIAB = 3. FORMAT = FREE.
/VARIAB NAMES = MAQUINA,FUERZA,DIAMETRO.
/GROUPING
CODES (MAQUINA) = 1,2,3. NAMES (MAQUINA) = MAQ1,MAQ2,MAQ3.
VARIAB = MAQUINA.
/DESIGN DEPENDENT = FUERZA.
/PRINT LEVEL = BRIEF. CASE = 15. RESIDUAL.
/SAVE FILE = '2V.INT'. CODE = RESID. NEW.
/END

NUMBER OF CASES READ. . . . . . . . . . . . . .


GROUPING VARIABLE. . . MAQUINA
CATEGORY
-------MAQ1
MAQ2
MAQ3

FREQUENCY
--------5
5
5

15

3
34
21

3
32
15

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

DESCRIPTIVE STATISTICS OF DATA


----------- ---------- -- ---VARIABLE
NO. NAME

TOTAL
FREQ.

2 FUERZA
3 DIAMETRO

STANDARD ST.ERR
DEV.
OF MEAN

MEAN

15
15

40.200
24.133

4.9742
4.3238

1.2843
1.1164

COEFF SMALLEST LARGEST


OF VAR VALUE
VALUE
RANGE
.12374
.17916

METHOD OF ESTIMATING PREDICTED AND RESIDUALS.


PRINT PREDICTED AND RESIDUALS VALUES. . . . .
PRINT ANOVA TABLE FOR EACH ORTHOG. POLYNOMIAL
PRINT SPHERICITY TEST . . . . . . . . . . . .
PRINT CELL MEANS AND STANDARD DEVIATIONS. . .
PRINT UNWEIGHTED MARGINAL MEANS . . . . . . .
PRINT BONFERRONI TEST FOR TRIAL COMPARISONS .
PRINT CONFIDENCE INTERVALS. . . . . . . . . .
SAVE PREDICTED AND RESIDUALS ON BMDP FILE . .
BOX-COX DIAGNOSTIC PLOT . . . . . . . . . . .
MINIPLOTS . . . . . . . . . . . . . . . . . .
TOLERANCE FOR PIVOTING. . . . . . . . . . . .

32.000
15.000

49.000
32.000

17.000
17.000

.
MEAN
.
YES
.
NO
.
NO
.
YES
.
NO
.
NO
.
NO
.
YES
.
NO
.
NO
. 1.0E-02

DESIGN SPECIFICATIONS
--------------------GROUP =
DEPEND =

1
2

GROUP STRUCTURE
MAQUINA
MAQ1
MAQ2
MAQ3

COUNT
5
5
5

CELL MEANS
FOR
--------------------

1-ST DEPENDENT VARIABLE

MARGINAL
MAQUINA =

MAQ1

FUERZA
COUNT
1PAGE

MAQ2

41.40000
5
3

2V

43.20000
5

29-MAR-95

STANDARD DEVIATIONS FOR


-------------------MAQUINA =

MAQ1

FUERZA
1PAGE

2V

36.00000
5

40.20000
15

11:08:17

1-ST DEPENDENT VARIABLE

MAQ2

4.82701

MAQ3

3.70135

29-MAR-95

MAQ3
3.80789
11:08:17

A N A L Y S I S
O F
V A R I A N C E FOR
---------------------------------------THE TRIALS ARE REPRESENTED BY THE VARIABLES:
FUERZA

THE

1-ST DEPENDENT VARIABLE

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

SOURCE

SUM OF
SQUARES

MEAN
MAQUINA
1 ERROR

24240.60000
140.40000
206.00000

D.F.

1
2
12

MEAN
SQUARE
24240.60000
70.20000
17.16667

1412.07
4.09

TAIL
PROB.
0.0000
0.0442

-----------------------------------------BMDP FILE IS BEING WRITTEN


CODE. . . IS
RESID
FILE NAME IS
2V.INT
CONTENT . IS
DATA
LABEL . . IS
29-MAR-95
11:08:17
CASE
MAQUINA
PREDICTD
RESIDUAL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

MAQ1
MAQ1
MAQ1
MAQ1
MAQ1
MAQ2
MAQ2
MAQ2
MAQ2
MAQ2
MAQ3
MAQ3
MAQ3
MAQ3
MAQ3

41.40000
41.40000
41.40000
41.40000
41.40000
43.20000
43.20000
43.20000
43.20000
43.20000
36.00000
36.00000
36.00000
36.00000
36.00000

-5.40000
-0.40000
-2.40000
0.60000
7.60000
-3.20000
4.80000
-4.20000
1.80000
0.80000
-1.00000
1.00000
6.00000
-2.00000
-4.00000

BMDP
FILE HAS BEEN COMPLETED. FILE NAME IS
-----------------------------------------NUMBER OF CASES WRITTEN TO FILE
15
ERROR
TERM
1

SUM OF
SQUARES
206.00000

RECOMPUTED
FROM RESIDUALS
206.00000

2V.INT

RELATIVE
ERROR
0.00000

BMDP6D
Se observa relacin lineal, lo que sugiere la inclusin del dimetro en el modelo.
PROGRAM INSTRUCTIONS
/INPUT FILE = '2V.INT'. CODE = RESID.
/PLOT XVAR = DIAMETRO. YVAR = FUERZA,RESIDUAL. CROSS. SIZE = 35,25.
/END

50

45
F
U

...+.......+.......+.......+.......+..
+
Y
1 1
+
1
+
1
-

Pedro Cuesta

E
R
Z
A

40

35

(Servicios Informticos U.C.M)

1 1
1
+
1
+
1
1
1
1
+
1
+
1
-1
...Y.......+.......+.......+.......+..
20
28
16
24
32

N =
15
R = .939
P < .001
--REGRESSION LINE-Y= 14.143 +1.0797*X

DIAMETRO

-RES.MS3.1746

DIAMETRO VERSUS FUERZA

X
Y
3 VS.

MEAN
24.133
40.200
2 )

17/12/99 BMDP-Esta

Pedro Cuesta

4
R
E
S
I
D
U
A
L

-4

(Servicios Informticos U.C.M)

...+.......+.......+.......+.......+..
+
+
1 1
Y
1
+
+
1
1
1
1
+
+
1
1
1
1
1
+1
1
+
1
..Y+.......+.......+.......+.......+..
20
28
16
24
32

N =
15
R = .804
P < .001
--REGRESSION LINE-Y=-17.206 +.71294*X

DIAMETRO

-RES.MS5.6127

DIAMETRO VERSUS RESIDUAL

X
Y
3 VS.

MEAN
24.133
30E-9
5 )

BMDP2V
Ahora, el efecto mquina no es significativo
PROGRAM INSTRUCTIONS
/INPUT VARIAB = 3. FORMAT = FREE.
/VARIAB NAMES = MAQUINA,FUERZA,DIAMETRO.
/GROUPING
CODES (MAQUINA) = 1,2,3. NAMES (MAQUINA) = MAQ1,MAQ2,MAQ3.
VARIAB = MAQUINA.
/DESIGN DEPENDENT = FUERZA. COVARIATE = DIAMETRO.
/PRINT LEVEL = BRIEF. CASE = 15. RESIDUAL.
/SAVE FILE = '2V.INT'. CODE = RESID. NEW.
/END

CELL MEANS
FOR
--------------------

1-ST COVARIATE

MARGINAL

17/12/99 BMDP-Esta

Pedro Cuesta

MAQUINA =
DIAMETRO
COUNT

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

MAQ1

MAQ2

25.20000
5

MAQ3

26.00000
5

CELL MEANS
FOR
--------------------

21.20000
5

24.13333
15

1-ST DEPENDENT VARIABLE

MARGINAL
MAQUINA =
FUERZA
COUNT

MAQ1

MAQ2

41.40000
5

MAQ3

43.20000
5

36.00000
5

40.20000
15

A N A L Y S I S
O F
V A R I A N C E FOR
----------------------------------------

THE

1-ST DEPENDENT VARIABLE

THE TRIALS ARE REPRESENTED BY THE VARIABLES:


FUERZA
SOURCE

MAQUINA
DIAMETRO
1 ERROR

SUM OF
SQUARES

D.F.

13.28385
178.01411
27.98589

2
1
11

REG. COEFF.
DIAMETRO
CASE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

ESTIMATE
0.95399

MAQUINA
MAQ1
MAQ1
MAQ1
MAQ1
MAQ1
MAQ2
MAQ2
MAQ2
MAQ2
MAQ2
MAQ3
MAQ3
MAQ3
MAQ3
MAQ3

ERROR
TERM
1

MEAN
SQUARE

PREDICTD
36.43926
41.20920
40.25521
41.20920
47.88712
39.38405
45.10798
39.38405
47.01595
45.10798
35.80920
37.71718
40.57914
35.80920
30.08528

SUM OF
SQUARES
27.98589

ADJUSTED CELL MEANS FOR


--------------------

2.61
69.97

0.1181
0.0000

STD. ERROR
0.11405

T-VALUE
8.36

P-VALUE
0.0000

-0.43926
-0.20920
-1.25521
0.79080
1.11288
0.61595
2.89202
-0.38405
-2.01595
-1.10798
-0.80920
-0.71718
1.42086
-1.80920
1.91472
RELATIVE
ERROR
0.00000

1-ST DEPENDENT VARIABLE

MARGINAL
MAQUINA =
FUERZA
COUNT

MAQ1
40.38241
5

MAQ2
41.41922
5

MAQ3
38.79836
5

TAIL
PROB.

6.64193
178.01411
2.54417

RESIDUAL

RECOMPUTED
FROM RESIDUALS
27.98589

40.20000
15

Pedro Cuesta

(Servicios Informticos U.C.M)

STANDARD ERRORS OF ADJUSTED CELL MEANS FOR


-------------------------------------MAQUINA = MAQ1
MAQ2
MAQ3
FUERZA

0.72363

0.74442

0.78788

1-ST DEPENDENT VARIABLE

17/12/99 BMDP-Esta

Pedro Cuesta

17/12/99 BMDP-Esta

(Servicios Informticos U.C.M)

BMDP 2R
REGRESIN LINEAL
Mtodo estadstico para modelizar las relaciones entre variables continuas. Referimos
la respuesta de una variable dependiente a los valores de las variables independientes o
explicativas.
Cuando se usan la Regresin y Correlacin?
Los datos surgen de dos formas:
1. X fija : Aosventas, temperaturaconcentracin.
2. X variable: 2 variables aleatorias medidas en la poblacin
Regresin y correlacin se usan para dos propsitos:
1. Descriptiva: Tipo de relacin. Ecuaciones, representacin grfica, contrates de
hiptesis, intervalos de confianza.
1. Prediccin Predecir Y dado una valor de X.
El modelo general se escribe
Yi = a + b1 X i1 + b2 X i 2 + + bm X im + i i = 1, , n
con i variables aleatorias normales independientes N(0,), desconocido.
Se estiman los parmetros en la ecuacin anterior eligiendo los valores
0 , 1 , , m que minimizan la suma de errores al cuadrado
n

SSE = Yi Yi
i =1

con Yi = 0 + 1 X i1 + + m X im

Prrafo REGRESS

Ejemplo Sistema de distribucin. Tres variables, TIEMPO empleado en el reparto, nmero


de PUNTOS que tiene que recorrer y DISTANCIA mxima.
OBSERVAC.
PUNTOS
DISTANCIA
TIEMPO

1
10
30
24

2
15
25
27

3
10
40
29

4
20
18
31

5
25
22
25

6
18
31
33

7
12
26
26

8
14
34
28

9
16
29
31

10
22
37
39

Los coeficientes de ambas variables son significativos


Observar el comportamiento particular del caso 5.

11
24
20
33

12
17
25
30

13
13
27
25

14
30
23
42

15
24
33
40

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Sustituir TIEMPO(5)=35. y repetir el anlisis, comparando valores-t, R2 y grfico


NORM.

MEDIDAS DE INFLUENCIA
El ejemplo previo demuestra la necesidad de chequear el modelo, globalmente y
analizando observaciones influyentes o "raras". La sentencia DIAGNOSTICS proporciona
medidas tiles para identificar observaciones particulares:
Leverage
Un valor grande indica que la observacin est distante del centro del resto de
observaciones. Puede ser un "outliers" . Se compara con 2p/n , siendo p = m+1 el
nmero de parmetros calculado.
Distancia de Cook
Medida de influencia en los coeficientes de regresin. Se compara con F(p,np).
Residual estandarizado
Residual dividido por su error estndar. Se compara con una distribucin t o Normal.
Residual estandarizado suprimido
La observacin no interviene en la regresin ajustada para el resto. Se compara con
una t np1.
INTERPRETACIN DE LA SALIDA
La salida que genera BMDP puede utilizarse en los contextos de inferencia y
prediccin. La validez de las conclusiones est sujeta al chequeo que es necesario hacer del
modelo y sus hiptesis. Esta inspeccin del modelo se discute en los apartados Medidas de
influencia y Validacin del modelo
La ecuacin obtenida para el ejemplo es
TIEMPO = 2.311 + .877 PUNTOS + .456 DISTANCIA
Si queremos predecir la variable tiempo para la observacin 1 obtenemos
TIEMPO = 2.311 + .877 (10) + .456 (30) = 24.76
Pero tambin podemos predecir para otras combinaciones de valores no presentes en la
muestra. Por ejemplo para (20,30)
TIEMPO = 2.311 + .877 (20) + .456 (30) = 33.53
Es importante resaltar que si obtenemos otra muestra de 15 observaciones es normal
que la ecuacin cambie y por lo tanto las predicciones. Entonces es importante conocer para
nuestra muestra lo siguiente:
1. La cantidad de posible error presente en las predicciones.
2. La significatividad de las estimaciones de los parmetros.

Pedro Cuesta

(Servicios Informticos U.C.M)

3. Cunto explica la ecuacin de nuestros datos.

17/12/99 BMDP-Esta

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

Estimacin de la variacin de los trminos de error


Una estimacin de es

SSE
n p
Cuanto menor es s ms precisa es la prediccin de Y.
s=

Intervalo de confianza para una prediccin


Con la sentencia /PRINT DATA obtenemos los valores ajustados y sus errores. Para
observaciones no muestrales obtenemos tambin estos valores poniendo como Missing,
'*****', la variable dependiente Y.
Un intervalo de confianza del valor medio esperado para Y dados los valores de las X
es
Y ( std.errY ) ( t1 2,n p )
Significatividad de los parmetros
Podemos construir test de significatividad estadstica de los parmetros del modelo:
( estimacion ) ( valor hipotetico )
t=
tn p,
( Error std de la estimacion )
El valor-t en la salida corresponde a la hiptesis "parmetro = 0". Esto equivale a suponer
que la variable X correspondiente no influye en la Y.
La decisin de rechazar esta hiptesis tiene asociado un error o nivel de significatividad,
determinado por la correspondiente variable t de Student.
Variacin explicada
Una medida de cmo el modelo explica la variable respuesta es el cociente
R2 =

Suma de cuadrados debido a la regresin


331. 359
=
=. 7368 = 73. 7%
Suma de cuadrados total , ajustada por la media
449. 733

Este valor se usa como criterio en la seleccin del mejor modelo de regresin cuando hay
muchas variables explicativas o diferentes conjuntos alternativos de ellas. Como siempre
aumenta al incorporar nuevas variables al modelo, es necesario un ajuste que tenga en cuenta
el nmero de parmetros
n 1 Suma de cuadrados debido al error
2
RADJ
= 1

n p Suma de cuadrados total, ajustada

Pedro Cuesta

(Servicios Informticos U.C.M)

17/12/99 BMDP-Esta

VALIDACIN DEL MODELO


Para que la inferencia y prediccin realizada en el apartado anterior sean vlidas es
necesario comprobar si se producen desviaciones de las hiptesis del modelo. Esta
comprobacin se basa en el estudio de residuales:
Grficos de residuales:
PLOT ei ,Y$i
PLOT ei , X i
NORM
PLOT

Detecta varianzas no homogneas necesidad de transformacin


del tipo x 2 , x , Log ( x )
Determina variables X especficas que podran incluirse.
Grficos de probabilidad para ver la normalidad.
Cuando los datos se registran en el tiempo. Detecta varianzas no
homogneas o necesidad de trminos lineales, cuadrticos,
estacionales cclicos

Estadsticos de residuales:
a) Medidas de influencia: Leverage, Cook y Residuales estandarizados.
b) Aleatoriedad: El estadstico Durbin-Watson, Prrafo ACF (2T) para la autocorrelacin.

Potrebbero piacerti anche