Sei sulla pagina 1di 485

Anlisis de datos

en ciencias sociales y de la salud

Volumen II

Antonio Pardo
Rafael San Martn
Universidad Autnoma de Madrid
ndice de contenidos

Presentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1. La inferencia estadstica
La inferencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
El contraste de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Qu significa rechazar y no rechazar la hiptesis nula . . . . . . . . . . . . . . . . . . . . . . . 23
Contrastes bilaterales y unilaterales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Errores Tipo I y II, y potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Factores de los que depende la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Clasificacin de los contrastes de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Programas informticos para el anlisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38
Apndice 1
Clculo de la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Curva de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2. Inferencia con una variable


Contrastes sobre el centro de una distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
La prueba de Wilcoxon para una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
La prueba de los signos para una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
La prueba T, la de Wilcoxon y la de los signos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Los contrastes sobre el centro de una distribucin con SPSS . . . . . . . . . . . . . . . . . . . 56
Contrastes sobre la dispersin de una distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Contrastes sobre la forma de una distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
La prueba de Kolmogorov-Smirnov sobre bondad de ajuste . . . . . . . . . . . . . . . . . . . 61
Los contrastes sobre la forma de una distribucin con SPSS . . . . . . . . . . . . . . . . . . . 63
Apndice 2
La prueba de las rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
La prueba de los cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8 Anlisis de datos (vol. II)

3. Inferencia con dos variables categricas


Proporciones independientes y relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Homogeneidad marginal y simetra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Simetra con variables dicotmicas: la prueba de McNemar . . . . . . . . . . . . . . . . . . . 77
Simetra con variables politmicas: la prueba de Bowker . . . . . . . . . . . . . . . . . . . . . 81
Homogeneidad marginal y simetra con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
ndices de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Riesgo relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Relacin entre el riesgo relativo y la odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Consideraciones sobre la interpretacin de los ndices de riesgo . . . . . . . . . . . . . . . . 93
Los ndices de riesgo con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
ndices de acuerdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Acuerdo con variables nominales: kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
El ndice de acuerdo kappa con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Asociacin entre variables categricas ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Medidas de concordancia-discordancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Medidas de concordancia-discordancia con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Apndice 3
Simetra relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Combinacin de tablas 2 2 (Cochran y Mantel-Haenszel) . . . . . . . . . . . . . . . . . . . 111
La paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Medidas de asociacin basadas en la reduccin proporcional del error . . . . . . . . . . 115
Muestras pequeas: la prueba exacta de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Concordancias y discordancias en una tabla de contingencias . . . . . . . . . . . . . . . . . 120
Cmo reproducir una tabla de contingencias en SPSS . . . . . . . . . . . . . . . . . . . . . . . 122
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

4. Inferencia con una variable categrica y una cuantitativa


La prueba T de Student para muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 130
La prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
La prueba de Mann-Whitney con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
La prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
La prueba de Kruskal-Wallis con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Medidas del tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
El caso de ms de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Medidas del tamao del efecto con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Clculo de la potencia y del tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Contrastes de equivalencia y no-inferioridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Mtodos para demostrar equivalencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Doble contraste unilateral de Schuirmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Intervalo de confianza de Westlake . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Mtodos para demostrar no-inferioridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Limitaciones de los contrastes de equivalencia y no-inferioridad . . . . . . . . . . . . . . . 155
ndice de contenidos 9

Apndice 4
La prueba de Kolmogorov-Smirnov para dos muestras independientes . . . . . . . . . . 156
La prueba de las rachas de Wald-Wolfowitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
La prueba de reacciones extremas de Moses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

5. Inferencia con dos variables cuantitativas


La prueba T de Student para muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
La prueba de Wilcoxon para dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
La prueba de Wilcoxon para dos muestras con SPSS . . . . . . . . . . . . . . . . . . . . . . . . 166
La prueba de los signos para dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
La prueba de los signos para dos muestras con SPSS . . . . . . . . . . . . . . . . . . . . . . . . 170
El coeficiente de correlacin de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
El coeficiente de correlacin de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
El coeficiente de correlacin de Spearman con SPSS . . . . . . . . . . . . . . . . . . . . . . . . 177
Medidas del tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Clculo de la potencia y del tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Apndice 5
Correlaciones parciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

6. Anlisis de varianza (I). Un factor completamente aleatorizado


Modelos de anlisis de varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Nmero de factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Tipo de asignacin de las unidades de anlisis a las condiciones del estudio . . . . . . 186
Forma de establecer los niveles del factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Clasificacin de los modelos de anlisis de varianza . . . . . . . . . . . . . . . . . . . . . . . . 189
La lgica del anlisis de varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
ANOVA de un factor completamente aleatorizado (A-CA) . . . . . . . . . . . . . . . . . . . . . . 192
Supuestos del ANOVA de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Igualdad de varianzas (homocedasticidad) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Transformacin de las puntuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
Efectos fijos y aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Medidas del tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Clculo de la potencia y del tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Comparaciones mltiples entre medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Comparaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Tasa de error en las comparaciones mltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Comparaciones planeadas o a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Prueba de Dunn-Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Comparaciones de tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Prueba de Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
10 Anlisis de datos (vol. II)

Comparaciones post hoc o a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219


Prueba de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Prueba de Scheff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Comparaciones mltiples: qu procedimiento elegir . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
ANOVA de un factor con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Hiptesis de igualdad de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
Tamao del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Comparaciones post hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Comparaciones planeadas y de tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Apndice 6
Distribucin muestral del estadstico F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Tabla de la Distribucin F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
La distribucin F con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Estadsticos F robustos: Welch y Brown-Forsythe . . . . . . . . . . . . . . . . . . . . . . . . . 237
Comparaciones post hoc: procedimientos alternativos . . . . . . . . . . . . . . . . . . . . . . . 238
Mtodos secuenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Efectos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

7. Anlisis de varianza (II). Dos factores completamente aleatorizados


Estructura de los datos y notacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
La interaccin entre factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
ANOVA de dos factores completamente aleatorizados (AB-CA) . . . . . . . . . . . . . . . . . 253
Supuestos del ANOVA de dos factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
Efectos fijos y aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
Medidas del tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
Clculo de la potencia y del tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
Comparaciones mltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
Efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
Efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
Efecto de la interaccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
ANOVA de dos factores completamente aleatorizados con SPSS . . . . . . . . . . . . . . . . . 274
Hiptesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
Tamao del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Comparaciones mltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
Comparaciones mltiples: efecto de la interaccin . . . . . . . . . . . . . . . . . . . . . . . . . . 280
Apndice 7
Casillas con tamaos muestrales distintos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
Ms sobre los efectos simples y el efecto de la interaccin . . . . . . . . . . . . . . . . . . . 284
La sentencia LMATRIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
Modelos jerrquicos o anidados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
ndice de contenidos 11

8. Anlisis de varianza (III). Un factor con medidas repetidas


Caractersticas de los diseos con medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
ANOVA de un factor con medidas repetidas (A-MR) . . . . . . . . . . . . . . . . . . . . . . . . . . 298
Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
Alternativas al estadstico F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Estadstico F con los grados de libertad modificados . . . . . . . . . . . . . . . . . . . . . 304
Aproximacin multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Qu solucin elegir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
Medidas del tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Clculo de la potencia y del tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
Comparaciones mltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
ANOVA de un factor con medidas repetidas (A-MR) con SPSS . . . . . . . . . . . . . . . 308
Esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
Igualdad de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
Tamao del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
Comparaciones planeadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
Comparaciones post hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
La prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Apndice 8
Cmo estimar psilon () . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Prueba de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
Coeficiente de concordancia W de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Prueba de no-aditividad de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

9. Anlisis de varianza (IV). Dos factores con medidas repetidas


ANOVA de dos factores con medidas repetidas en ambos (AB-MR) . . . . . . . . . . . . . . 329
Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
Medidas del tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
Clculo de la potencia y del tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
Comparaciones mltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
ANOVA de dos factores con medidas repetidas en ambos (AB-MR) con SPSS . . . 335
Esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
Hiptesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . 339
Tamao del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Comparaciones mltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Comparaciones mltiples: efecto de la interaccin . . . . . . . . . . . . . . . . . . . . . . . 343
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) . . . . . . . . . . . . . 346
Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
Medidas del tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
Clculo de la potencia y del tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
Comparaciones mltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
12 Anlisis de datos (vol. II)

ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS . . 351
Esfericidad multi-muestra e igualdad de varianzas . . . . . . . . . . . . . . . . . . . . . . . 356
Hiptesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
Comparaciones mltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Comparaciones mltiples: efecto de la interaccin . . . . . . . . . . . . . . . . . . . . . . . 360
Apndice 9
La sentencia MMATRIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
Anlisis de los efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
Comparaciones entre los niveles de un mismo efecto simple . . . . . . . . . . . . . . . 364
Anlisis del efecto de la interaccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368

10. Anlisis de regresin lineal


Regresin lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
Diagramas de dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
La recta de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
Mnimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
Coeficientes de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
Coeficientes de regresin tipificados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Significacin de los coeficientes de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
Cmo efectuar pronsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
Regresin lineal mltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
La ecuacin de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
Coeficientes de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Coeficientes de regresin tipificados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
Significacin de los coeficientes de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
Importancia relativa de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
Variables independientes categricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
Regresin jerrquica o por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Criterios para seleccionar variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
Mtodos para seleccionar variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
Supuestos del modelo de regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
Linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
No colinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
Homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
Casos atpicos e influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
Casos atpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
Casos atpicos en Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
Casos atpicos en X j
ndice de contenidos 13

Casos influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408


Cambio en los coeficientes de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
Cambio en los pronsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Cambio en los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Qu hacer con los casos atpicos e influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Regresin lineal con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
Regresin mltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
Ecuacin de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
Significacin de los coeficientes de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
Pronsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
Importancia relativa de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
Chequeo de los supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
Casos atpicos e influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
Regresin jerrquica o por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
Regresin jerrquica o por pasos con variables categricas . . . . . . . . . . . . . . . . 424
Comentarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
Validez de una ecuacin de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
Consideraciones sobre el tamao muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
Apndice 10
Regresin curvilnea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429

Apndice final. Tablas estadsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433


Glosario de smbolos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
ndice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
Presentacin

Este manual de anlisis de datos es el segundo volumen de una serie dedicada a revisar los
procedimientos estadsticos comnmente utilizados en el mbito de las ciencias sociales
y de la salud.
En la presentacin del primer volumen hemos argumentado ya acerca de la necesidad
de un nuevo manual de anlisis de datos y acerca de qu contenidos seleccionar y cmo
organizarlos y exponerlos. Lo dicho all sirve tambin aqu.
Aunque este manual va dirigido, principalmente, a estudiantes de las disciplinas en-
globadas en las ciencias sociales y de la salud, no se trata de un material diseado exclusi-
vamente para ellos. Tambin pretende servir de ayuda a los profesores de anlisis de datos
y a los investigadores. Creemos que ambos pueden encontrar, en ste y en los dems vol-
menes, las respuestas a muchas de las preguntas que se formulan en su trabajo cotidiano.
Los Captulos 1 al 5 de este volumen sirven de complemento a los Captulos 7 al 12
del primer volumen. Se vuelve a prestar atencin a la inferencia estadstica, pero presen-
tando nuevos conceptos (errores Tipo I y II, potencia estadstica, tamao del efecto, etc.).
Y se vuelve a estudiar cmo analizar una y dos variables aadiendo nuevas herramientas
(pruebas no paramtricas, contrastes de equivalencia y no inferioridad, ndices de riesgo
y de acuerdo, etc.). El resto de los captulos se centran en las dos concreciones ms impor-
tantes del modelo lineal general: el anlisis de varianza y el anlisis de regresin lineal. Por
tanto, los contenidos de estos dos primeros volmenes coinciden, en esencia, con los conte-
nidos que incluyen muchos planes de estudios para formar en estadstica a los estudiantes
de los nuevos grados universitarios. En el tercer volumen prestaremos atencin a proce-
dimientos ms avanzados para satisfacer las necesidades de los estudiantes de posgrado y
de los investigadores que necesitan aplicar herramientas ms sofisticadas o tratar con un
mayor nmero de variables.
Un profesional o un investigador de las ciencias sociales y de la salud no es un esta-
dstico y, muy probablemente, tampoco pretende serlo. Consecuentemente, no necesita ser
un experto en los fundamentos matemticos de las herramientas estadsticas que aplica. En
la elaboracin de este manual y de los restantes de la coleccin hemos pretendido ofrecer
una exposicin asequible de los procedimientos disponibles y hemos intentado poner el
nfasis en (1) cmo razonar para elegir el procedimiento apropiado, (2) cmo aplicarlo con
una calculadora de bolsillo y con un programa informtico y (3) cmo interpretar correc-
tamente los resultados que ofrece. Esta es la razn que justifica que hayamos prestado ms
atencin a los aspectos prcticos o aplicados que a los tericos o formales, aunque sin des-
cuidar estos ltimos.
16 Anlisis de datos (vol. I)

Ya no es necesario invertir tiempo en hacer a mano clculos que no contribuyen en


absoluto a entender el significado de lo que se est haciendo (como, por ejemplo, calcular
sumas de cuadrados o estimar coeficientes de regresin). Esto es tanto ms as cuanto ms
complejas o sofisticadas son las herramientas que se utilizan. Y sirve para no tener que des-
viar la atencin de lo realmente importante, que, en nuestra opinin, no es saber hacer
clculos, sino aprender a elegir el procedimiento apropiado en cada caso y a interpretar
correctamente los resultados que ofrece. Aunque todos los procedimientos se presentan
con suficiente detalle como para poder ser aplicados con una calculadora de bolsillo, de
todos ellos se explica tambin cmo aplicarlos con un programa informtico llamado SPSS
Statistics (perteneciente al grupo de programas PASW).
Actualmente no tiene sentido analizar datos sin el apoyo de un programa informtico.
Ahora bien, conviene tener muy presente que, aunque las herramientas informticas pue-
den realizar clculos con suma facilidad, todava no estn capacitadas para tomar algunas
decisiones. Un programa informtico no sabe si la estrategia de recogida de datos utili-
zada es la correcta, o si las mediciones aplicadas son apropiadas; tampoco decide qu
prueba estadstica conviene aplicar en cada caso, ni interpreta los resultados del anlisis.
Los programas informticos todava no permiten prescindir del analista de datos. Es el
analista quien debe mantener el control de todo el proceso. El xito de un anlisis depen-
de de l y no del programa informtico. El hecho de que sea posible ejecutar las tcnicas
de anlisis ms complejas con la simple accin de pulsar un botn slo significa que es ne-
cesario haber atado bien todos los cabos del proceso (diseo, medida, anlisis, etc.) antes
de pulsar el botn.
No podemos dejar pasar la oportunidad que nos brinda esta presentacin para agrade-
cer a nuestro compaero Ludgerio Espinosa, y a muchos de nuestros alumnos y a no pocos
lectores de nuestros trabajos previos, las permanentes sugerencias hechas para mejorar
nuestras explicaciones y la ayuda prestada en la caza de erratas. Los errores y deficiencias
que todava permanezcan son, sin embargo, atribuibles slo a nosotros.

Antonio Pardo
Rafael San Martn
1
La inferencia estadstica

El anlisis de datos es una actividad que se desarrolla en fases: comienza con la seleccin y
recopilacin de los datos, contina con la aplicacin de herramientas descriptivas para explo-
rar, organizar y resumir la informacin contenida en los datos y termina (no necesariamente,
pero s habitualmente) con la aplicacin de herramientas inferenciales para llevar a cabo com-
paraciones y estudiar relaciones.
En el volumen I de Anlisis de datos en ciencias sociales y de la salud (Pardo, Ruiz y San
Martn, 2009) hemos estudiado ya lo relativo a la seleccin de casos (brevemente, pues esta
parte es objeto de los diseos de investigacin) y a las herramientas disponibles para abordar
la fase descriptiva (Captulos 3 al 6). Tambin hemos ofrecido ya una primera aproximacin
al concepto de inferencia estadstica y a su lgica (Captulos 7 y 8), y hemos estudiado algu-
nas herramientas inferenciales bsicas (Captulos 9 al 12). En este captulo vamos a revisar
la lgica de la inferencia estadstica (repasando algunos aspectos ya estudiados y prestando
atencin a otros nuevos) para terminar de familiarizarnos con el importantsimo rol que de-
sempea en el anlisis de datos.

La inferencia estadstica
La inferencia estadstica es un tipo de razonamiento que procede de lo particular a lo general.
Permite extraer conclusiones de tipo general sobre la forma de una poblacin o sobre alguno
de sus parmetros a partir de la informacin particular contenida en una muestra procedente
de esa poblacin.
El trabajo con herramientas inferenciales consiste, principalmente, en realizar compara-
ciones y estudiar relaciones con los datos disponibles y en trasladar los resultados de esas
comparaciones y relaciones a las poblaciones de donde proceden los datos.
Estas inferencias (comparaciones, relaciones) suelen llevarse a cabo utilizando dos estra-
tegias distintas: la estimacin de parmetros y el contraste de hiptesis. Al estudiar estas
estrategias en el primer volumen hemos visto que ofrecen informacin complementaria y que,
en muchos aspectos, son equivalentes (ambas permiten abordar el mismo tipo de problemas
y llegar a las mismas conclusiones, aunque con algunos matices que ya hemos estudiado y
sobre los que volveremos aqu).
18 Anlisis de datos (vol. II)

De momento, no es necesario seguir profundizando en lo relativo a la estimacin de par-


metros; ya conocemos los fundamentos de esta estrategia y cmo aplicarla (ver el Captulo
7 del primer volumen). Pero el contraste de hiptesis requiere ms atencin. No solo ha sido,
y sigue siendo, la estrategia que ms atencin ha recibido por parte de quienes desarrollan
herramientas estadsticas y por parte de quienes las utilizan para analizar sus datos, sino que,
durante dcadas, ha sido objeto de numerosas crticas que conviene conocer.

El contraste de hiptesis
En este apartado se repasa brevemente la lgica del contraste de hiptesis ya estudiada en el
Captulo 8 del primer volumen (en caso necesario, consultar ese captulo).
Recordemos que un contraste de hiptesis (hypothesis test), tambin llamado contraste
o prueba de significacin (significance test), es un proceso de toma de decisiones en el que
una afirmacin formulada en trminos estadsticos es puesta en relacin con los datos em-
pricos para determinar si es o no compatible con ellos1. Es decir, un contraste de hiptesis
es una estrategia diseada para tomar decisiones: permite decidir si una proposicin acerca
de una poblacin puede mantenerse o debe rechazarse2. Como tal, constituye una herramienta
esencial para ayudar a elegir entre hiptesis rivales y, de forma ms o menos directa, para
recoger evidencia emprica en apoyo de una cuestin cientfica.
Este proceso de decisin comienza con la formulacin de una afirmacin estadstica so-
bre la cual se desea tomar una decisin. A esta afirmacin se le llama hiptesis nula (H0 ) y
siempre se refiere a la forma de una o varias distribuciones poblacionales, o al valor de uno

1
El primer trabajo en el que se plantea la posibilidad de evaluar hiptesis cientficas a partir de datos muestrales se debe
a K. Pearson y se remonta a 1901. Pero fue R. Fisher (1925) quien present formalmente el mtodo que ha evolucionado
hasta lo que hoy conocemos como contrastes de hiptesis o pruebas de significacin. A la propuesta original de Fisher se
incorporaron rpidamente las aportaciones de J. Neyman y E. Pearson (1928) y, en los aos inmediatamente siguientes, los
avances en el propio mtodo y en las concepciones tericas subyacentes al mismo no fueron fruto de una reflexin pausada
y sistemtica sobre la forma correcta de llevar a cabo el trabajo cientfico, sino de acalorados debates con cambios de postura
e incorporaciones del adversario no siempre reconocidas como tales. Esta mezcla de aportaciones ha dado como resultado
el contraste de hiptesis tal como lo conocemos y aplicamos hoy: bsicamente, una mezcla de las aportaciones de Fisher
y de Neyman-Pearson (ver Gigerenzer, 1993; Oakes, 1986).
2
A pesar de que el contraste de hiptesis viene utilizndose de forma generalizada por la comunidad cientfica desde hace
ms de medio siglo, rara vez se ha visto libre de crticas (ver Morrison y Henkel, 1970). Estas crticas han alcanzado su m-
xima expresin en la pasada dcada de los noventa, la cual ha sido testigo de un agrio debate promovido por una corriente
muy beligerante con el uso y abuso de esta estrategia (para una revisin de este debate ver Balluerka, Gmez e Hidalgo,
2005; Harlow, Mulaik y Steiger, 1997; y, muy especialmente, Nikerson, 2000). Algunos autores han llegado a proponer,
incluso, el abandono del contraste de hiptesis por no considerarlo un mtodo vlido para generar conocimiento cientfico
(Cohen, 1990, 1994; Gigerenzer, 1993; Hunter, 1997; Oakes, 1986; Rozeboom, 1960, 1997; Schmidt, 1996; etc.). Algunas
de estas crticas se han dirigido al propio mtodo (nos iremos ocupando de ellas), pero la mayora de ellas, y han sido
muchas y muy duras en las formas, se han concentrado, sobre todo, en lo que el mtodo no puede hacer y en el mal uso que
se hace de l; y esto, obviamente, no tiene nada que ver con lo que s hace y con su buen uso. Por supuesto, todas las obje-
ciones formuladas al contraste de hiptesis han recibido cumplida respuesta (ver, por ejemplo Abelson, 1997a, 1997b;
Chow, 1996; Cortina y Dunlap, 1997; Hagen, 1997; Mulaik, Raju y Harshman, 1997); de ah que sigamos utilizndolo. De
hecho, nuestra impresin es que todas las crticas que ha recibido y sigue recibiendo sirven, ms que nada, para fortalecerlo.
La aplicacin de un mtodo, cualquiera que ste sea, como un ritual carente de reflexin puede terminar convirtiendo el
uso en abuso. La mejor manera de evitar que ocurra esto consiste en conocer a fondo el mtodo identificando con claridad
sus fortalezas y debilidades. se es el objetivo de este captulo. Intentaremos exponer el contraste de hiptesis tal como se
aplica actualmente, destacando sus posibilidades, llamando la atencin sobre lo que no puede hacer y, muy particularmente,
proponiendo todo aquello de lo que conviene acompaarlo para mejorarlo.
Captulo 1. La inferencia estadstica 19

o ms parmetros de esas distribuciones. Las hiptesis estadsticas estn relacionadas con las
hiptesis cientficas que se desea contrastar (es decir, con los enunciados que suelen hacer los
cientficos para resolver o aclarar algn problema de conocimiento), lo cual supone que una
hiptesis cientfica permite derivar algunas implicaciones acerca de la forma de una o varias
distribuciones poblacionales, o acerca del valor de uno o ms parmetros de esas distribucio-
nes. Por ejemplo, la hiptesis cientfica los tratamientos antidepresivos A y B son igualmente
eficaces implica3, en trminos estadsticos, A = B; es decir, la media de la variable depresin
en la poblacin de pacientes que han recibido el tratamiento A es igual que la media de la mis-
ma variable en la poblacin de pacientes que han recibido el tratamiento B. La hiptesis nula
(la hiptesis que se pone a prueba en un contraste de hiptesis) se plantea en trminos de no-
diferencias o no-relacin, es decir, en trminos de diferencias o relaciones nulas4 (esto es de-
bido a la naturaleza del argumento lgico en el que se basa el contraste de hiptesis modus
tollens y tiene que ver con el hecho de que la negacin o falsacin de enunciados es conclu-
yente, en tanto que la corroboracin de los mismos no lo es. Volveremos sobre esto.
Formulada la hiptesis estadstica, el siguiente paso de un contraste de hiptesis consiste
en buscar evidencia emprica capaz de informar sobre si la hiptesis formulada es o no soste-
nible. Esta bsqueda de evidencia se basa en un sencillo argumento: si una hiptesis concreta
referida a una distribucin poblacional es cierta, al extraer una muestra de esa poblacin es
razonable esperar encontrar un resultado muestral similar al que esa hiptesis propone para
la distribucin poblacional. Por ejemplo, si la hiptesis de que los tratamientos antidepresivos
A y B son igualmente eficaces (A = B) es cierta, al extraer una muestra aleatoria de la pobla-
cin de pacientes tratados con A y otra de la poblacin de pacientes tratados
_ _con B, cabe es-
perar que el nivel medio de depresin observado en ambas muestras, Y A y Y B , sea similar.
Recordemos que, en el contexto del contraste de hiptesis, la evidencia emprica se resume
en un valor numrico denominado estadstico del contraste; y recordemos tambin que este
estadstico es un valor muestral que, si se dan las condiciones apropiadas (condiciones a las
que nos hemos referido como supuestos del contraste), adems de informar sobre la hipte-
sis planteada, posee una distribucin muestral conocida.
Si la evidencia emprica (resultado muestral) difiere de la afirmacin establecida en H0,
pueden estar ocurriendo dos cosas: (1) la hiptesis no es cierta y, por tanto, es incapaz de
ofrecer predicciones correctas; (2) la hiptesis es cierta y la discrepancia observada entre H0
y los datos es debida a la variabilidad propia de los datos muestrales. La clave de este argu-
mento est, precisamente, en poder discernir cundo una discrepancia entre lo que afirma H0
y lo que dicen los datos es lo bastante grande como para poder considerar que el resultado
muestral observado es incompatible con H0, es decir, lo bastante grande como para conside-
rar que la discrepancia entre H0 y los datos no es explicable por la variabilidad debida al azar
muestral sino por el hecho de que la hiptesis planteada es realmente falsa.
3
En un contraste de hiptesis se pone a prueba una hiptesis estadstica, no una hiptesis cientfica. Las conclusiones que
pueden extraerse sobre la hiptesis cientfica de la que se deriva la hiptesis estadstica dependen del grado de conexin
existente entre ambas, el cual a veces es evidente y a veces no tanto (Meehl, 1967, 1978, 1990). En relacin con esta tem-
tica pueden consultarse las interesantes reflexiones de Chow (1996, Cap. 3).
4
Una de las crticas dirigidas al contraste de hiptesis se ha centrado justamente en el hecho de que la hiptesis nula es una
hiptesis de no diferencias o no relacin, es decir, una hiptesis, argumentan los crticos, que siempre es falsa (Bakan, 1966;
Meehl, 1978; Cohen, 1994; Schmidt, 1992, 1996; etc.) porque en el mundo real no existen poblaciones idnticas. Y qu
sentido tiene poner a prueba una hiptesis que se sabe que es falsa? Esta crtica olvida que la hiptesis nula no es una afir-
macin sobre el mundo real, sino una afirmacin estadstica cuya verdad o falsedad es irrelevante; se formula para poder
definir una distribucin muestral y construir un argumento a partir de ella (ver Chow, 1996, pgs. 56-57; Hagen, 1997).
20 Anlisis de datos (vol. II)

Hace falta, y este es el siguiente paso del proceso, una regla de decisin. Aunque podran
establecerse reglas de decisin muy diferentes, la teora de la decisin se ha encargado de
elaborar algunos argumentos que se han trasladado al contraste de hiptesis. La regla de deci-
sin que se utiliza se basa en el grado de compatibilidad existente entre la hiptesis nula y
los datos. Y para cuantificar el grado de compatibilidad hiptesis-datos se recurre a la teora
de la probabilidad. El hecho de tener que trabajar con muestras en lugar de poblaciones
introduce variabilidad en los datos y obliga a recurrir a la inferencia y a tener que establecer
una regla de decisin en trminos de probabilidad. Se obtiene as un nmero comprendido en-
tre 0 y 1, al que llamamos nivel crtico o valor p, que representa la probabilidad asociada a
los datos observados si se asume que la hiptesis planteada es cierta: un valor p alto indica
alta compatibilidad hiptesis-datos; un valor p bajo indica baja compatibilidad.
La cuestin clave en este momento est en decidir cundo un valor p debe considerarse
alto (alta compatibilidad) o bajo (baja compatibilidad). Para ello, la comunidad cientfica ha
consensuado un punto de corte arbitrario5, pero razonable, en 0,05. A este punto de corte se
le llama nivel de significacin. Si el valor p obtenido en una muestra concreta es menor que
el nivel de significacin consensuado (0,05), se considera que los datos son incompatibles con
la hiptesis nula planteada. Con esta regla de decisin se llega a dos posibles decisiones sobre
la hiptesis nula: mantenerla, por considerarla compatible con los datos, o rechazarla, por
considerarla incompatible con los datos. El rechazo de H0 implica afirmar lo que H0 niega.
As, si H0 afirma que el efecto estudiado es nulo (es decir, que no hay diferencias, que no hay
relacin), el rechazo de H0 permitir afirmar que el efecto estudiado no es nulo (es decir, per-
mitir afirmar que s hay diferencias, que s hay relacin). A esta afirmacin complementaria
de H0 se le llama hiptesis alternativa6 y se representa mediante H1.

Un ejemplo
Imaginemos que un profesor desea evaluar el conocimiento que un estudiante ha adquirido
de una determinada materia. Imaginemos, adems, que el profesor desea evaluar los conoci-
mientos del estudiante hacindole una pregunta con cuatro alternativas de respuesta de las que
5
El hecho de que un punto de corte sea arbitrario no le resta utilidad (los colores elegidos para las luces de los semforos
son arbitrarios y eso no les impide ser tiles). Los puntos de corte arbitrarios forman parte inherente de todo proceso de
decisin con incertidumbre: se fija un punto de corte para aprobar a los estudiantes, para determinar si se aplica un trata-
miento, para conceder un crdito, etc. Permiten tomar decisiones. Curiosamente, quienes critican la arbitrariedad de estable-
cer un punto de corte en 0,05 no tienen ningn inconveniente en admitir los puntos de corte arbitrarios que incluyen en sus
propuestas (por ejemplo, el valor en torno al cual debe estar la potencia idnea de un contraste, o los valores que permiten
caracterizar un efecto como de tamao pequeo, mediano o grande; ver Glass, McGraw y Smith, 1981).
Est justificado un punto de corte arbitrario? Si est claramente definido, sirve para tomar decisiones. No faltan quienes
defienden que ese punto de corte debera ser flexible y tener en cuenta los costes y beneficios de cada decisin (Labovitz,
1968; Oakes, 1986; Skipper, Guenther y Nass, 1967; ver, ms adelante, el apartado Errores Tipo I y II, y potencia de un con-
traste). Pero un punto de corte flexible estara introduciendo un elemento de subjetividad en el proceso al permitir, con unos
mismos datos, obtener conclusiones distintas a distintos investigadores (ver Chow, 1996, pg. 38; Frick, 1996).
6
En su propuesta original del contraste de hiptesis, Fisher (1925) nicamente habla de la hiptesis nula. La consideracin
simultnea de dos hiptesis complementarias, H0 y H1 , se debe a Neyman y Pearson (1928). En la propuesta de Fisher, el
contraste de hiptesis se concibe como una forma de resumir la informacin muestral y de elaborar un argumento a favor
de una cuestin cientfica. Con las aportaciones de Neyman y Pearson, el contraste de hiptesis empieza a interpretarse como
un mtodo de toma de decisiones en el que necesariamente se elige entre dos hiptesis rivales (H0 y H1) a partir de un nivel
de significacin prefijado (ver Chow, 1996, pgs. 21-24, para una reflexin sobre las coincidencias y diferencias entre la
propuesta inicial de Fisher y las aportaciones de Neyman y Pearson).
Captulo 1. La inferencia estadstica 21

solamente una es correcta. Si el estudiante no conoce la materia, cabe esperar que responda
al azar, en cuyo caso la probabilidad de acertar la pregunta valdr
Pacierto = 1 / 4 = 0,25
(Pues hay 1 manera de responder bien y 4 posibles maneras de responder). El profesor se
percata de que la probabilidad de acertar por azar es demasiado grande y comprende que con
una sola pregunta no puede distinguir si el estudiante est acertando por azar o porque real-
mente conoce la respuesta. Decide probar con dos preguntas y constata que la probabilidad
de acertar por azar las dos preguntas vale
Pacierto = 1 / 16 = 0,0625
(hay 1 manera de responder bien y 4 4 = 16 posibles maneras de responder). Aunque esta
probabilidad es ms pequea que la anterior, nuestro profesor considera que no es lo bastante
pequea como para poder confiar en que dos respuestas correctas sirvan para descartar que
el estudiante est respondiendo al azar. Decide probar con tres preguntas. La probabilidad de
acertar por azar las tres preguntas vale
Pacierto = 1 / 64 = 0,0156
(hay 1 manera de responder bien y 4 4 4 = 64 posibles maneras de responder). El profesor
considera, por fin, que esta probabilidad ya es lo bastante pequea como para poder confiar
en que un estudiante que acierte las tres preguntas no estar respondiendo al azar. Y, para
evaluar los conocimientos del estudiante, decide hacerle tres preguntas y aprobarlo si acierta
las tres.
En un contraste de hiptesis hacemos algo parecido a lo que acaba de hacer el profesor
con su estudiante, pero con la diferencia de que el proceso est mecanizado. Para evaluar los
conocimientos de un estudiante sobre una determinada materia (ste es el objetivo del estu-
dio), comenzamos formulando nuestra hiptesis de investigacin; por ejemplo: el estudiante
conoce la materia.
Para poder contrastar esta hiptesis, lo primero que tenemos que hacer es transformarla
en hiptesis estadstica. Puesto que hemos decidido utilizar preguntas con cuatro alternativas
de respuesta de las que solamente una es correcta, la hiptesis nula puede formularse tomando
como referencia el nmero o la proporcin de aciertos7:
$ 0,25
H0 : acierto <
Esta hiptesis afirma que la proporcin de acertar una pregunta es igual o menor que la pro-
porcin de acertar por azar. Y es la afirmacin estadstica que asumimos como equivalente
de la afirmacin no estadstica el estudiante no conoce la materia. La hiptesis nula suele
recoger la idea de que el efecto estudiado es nulo; aqu, el efecto estudiado es el conocimiento
de la materia; de ah que la hiptesis nula se haga corresponder con la afirmacin de que tal
efecto no existe.
La afirmacin complementaria de esta hiptesis nula, es decir, la hiptesis alternativa, se
obtiene a partir de la negacin de la hiptesis nula. Por tanto, adopta la forma
H1 : acierto > 0,25

7
Si estuviramos comparando dos grupos en una variable cuantitativa, H0 podra hacer referencia a los promedios; si
estuviramos estudiando la relacin entre dos variables, H0 podra hacer referencia a algn coeficiente de correlacin; etc.
22 Anlisis de datos (vol. II)

Esta hiptesis afirma que la proporcin de acertar es mayor que la esperable por azar. Y es
la afirmacin estadstica que asumimos que equivale a la afirmacin no estadstica (hiptesis
de investigacin) el estudiante conoce la materia.
Para poder tomar una decisin sobre esta hiptesis nula (mantenerla o rechazarla), op-
tamos por hacer cinco8 preguntas a nuestro estudiante. Si H0 es verdadera, es decir, si el es-
tudiante realmente no conoce la materia, cabe esperar encontrar pocos aciertos (no ms de
los esperables por azar). Por el contario, si H0 es falsa, es decir, si el estudiante s conoce la
materia, cabe esperar encontrar muchos aciertos (ms de los esperables por azar).
Ahora bien, si el estudiante acierta 3 de las 5 preguntas, podremos concluir que ese re-
sultado es mayor que el esperable por azar?, y si acierta 4?, tiene que acertar las 5 preguntas
para que podamos descartar que est respondiendo al azar? Es decir, con cuntos aciertos
podremos concluir que el estudiante ha superado el resultado ms alto esperable por azar?
Para responder esta pregunta, en lugar de basarnos en nuestras impresiones subjetivas, recurri-
mos a la teora de la probabilidad intentando establecer una regla de decisin que nos permita
llegar a alguna conclusin. Aplicando esta regla, un nmero de aciertos esperable por azar (un
resultado probable cuando se responde al azar), llevar a decidir que la hiptesis planteada
es compatible con los datos y a sospechar que el estudiante no conoce la materia. Por el con-
trario, un nmero de aciertos superior al esperable por azar (un resultado improbable cuando
se responde al azar), llevar a decidir que la hiptesis planteada es incompatible con los datos
y a concluir que el estudiante s conoce la materia (pues si acierto < $ 0,25 es una afirmacin
incorrecta, entonces la afirmacin correcta debe ser acierto 0,25).
Esta regla de decisin obliga a concretar cmo cabe esperar que se comporte la realidad
(los datos) cuando la hiptesis nula formulada es verdadera. Y lo que esto significa es que hay
que elegir el estadstico del contraste (que resume el comportamiento de la realidad) y su
distribucin muestral (que indica cmo cabe esperar que se comporte la realidad cuando H0
es verdadera). El estadstico ya lo hemos elegido: el nmero de aciertos. Su distribucin
muestral9 es la que ofrece la Tabla 1.1. La fila nacierto recoge el nmero de aciertos que pueden
darse al responder 5 preguntas (puede no acertarse ninguna, o una, o dos, ..., o las cinco). La
fila P (nacierto ) contiene la probabilidad asociada a cada valor nacierto cuando se realizan 5 ensa-
yos independientes (5 preguntas) con probabilidad terica de acertar igual a 0,25.

Tabla 1.1. Distribucin muestral del nmero de aciertos (n = 5; acierto = 0,25)

n acierto 0 1 2 3 4 5
P (n acierto ) 0,2373 0,3955 0,2637 0,0879 0,0146 0,0010

Para tomar una decisin sobre H0 se utiliza, como regla de decisin, un punto de corte prefi-
jado en 0,05: los resultados con probabilidad asociada menor que 0,05 se consideran impro-
bables y, consecuentemente, incompatibles con H0. Por tanto, cuando se obtiene un resultado

8
Podramos hacer diez preguntas, o quince, etc. Se trata de hacer tantas preguntas como sea necesario para poder descartar
la hiptesis del azar (acabamos de ver que con pocas preguntas no es posible hacerlo). Pero esto no es todo. Al recoger infor-
macin muestral se debe procurar hacer un barrido lo ms completo posible por la poblacin muestreada (en el ejemplo, el
conjunto de contenidos de la materia). Y esto es ms fcil hacerlo con muestras grandes que con muestras pequeas.
9
Puesto que se trata de n ensayos independientes de Bernoulli, con probabilidad constante 0,25 en cada ensayo, estas proba-
bilidades se obtienen de distribucin binomial con n = 10 y 1 = 0,25 (ver Captulo 6 del primer volumen).
Captulo 1. La inferencia estadstica 23

de stos, la decisin razonable es rechazar H0. La probabilidad de acertar las 5 preguntas, es


decir, el nivel crtico asociado a 5 aciertos, vale p = 0,001 (una probabilidad menor que 0,05).
La probabilidad de acertar al menos10 4 preguntas vale p = 0,0146 + 0,001 = 0,0156 (una pro-
babilidad menor que 0,05). El resto de resultados tienen probabilidades asociadas (niveles
crticos) mayores que 0,05. Ahora solamente falta hacer las cinco preguntas a nuestro estu-
diante y ver cuntas acierta. Decidiremos rechazar la hiptesis nula de que el estudiante res-
ponde al azar nicamente si acierta 4 o 5 preguntas.
Lo que acabamos de hacer con este sencillo ejemplo es exactamente lo mismo que hemos
hecho ya al estudiar los contrastes de hiptesis propuestos en los Captulos 9 al 12 del primer
volumen. La prueba binomial, o la prueba T de Student o la prueba X 2 de Pearson no son ms
que procedimientos estandarizados diseados para contrastar hiptesis nulas mediante estra-
tegias que se basan en la misma lgica que este sencillo ejemplo.

Qu significa rechazar y no rechazar la hiptesis nula

Para tomar una decisin sobre H0 , la distribucin muestral del estadstico del contraste se
divide en dos zonas exclusivas y exhaustivas (ver Figura 8.1 del primer volumen; pg. 231):
la zona de rechazo y la zona de aceptacin.
La zona de rechazo, tambin llamada zona crtica, es la zona de la distribucin muestral
correspondiente a los valores del estadstico del contraste que se encuentran tan alejados de
la afirmacin establecida en H0 que es muy poco probable que ocurran si H0, como se asume,
es verdadera; es decir, la zona en la que se encuentran los datos poco compatibles con H0. La
probabilidad asociada a esta zona de rechazo o crtica es el nivel de significacin o nivel de
riesgo y se representa con la letra griega (alfa).
La zona de aceptacin es la zona de la distribucin muestral correspondiente a los valo-
res del estadstico del contraste prximos a la afirmacin establecida en H0. Es, por tanto, la
zona en la que se encuentran los valores del estadstico que es probable que ocurran si H0,
como se supone, es verdadera; es decir, la zona en la que se encuentran los datos compatibles
con H0. La probabilidad asociada a esta zona de aceptacin es el nivel de confianza y se re-
presenta mediante 1 ! .
Una vez definidas las zonas de rechazo y de aceptacin, se aplica la siguiente regla de
decisin:
Rechazar H0 cuando el estadstico del contraste toma un valor perteneciente a la zona
de rechazo o crtica; mantener H0 cuando el estadstico del contraste toma un valor
perteneciente a la zona de aceptacin.

Por tanto, se rechaza una H0 particular porque eso significa que el valor del estadstico del
contraste se aleja demasiado de la prediccin establecida en esa hiptesis, es decir, porque,

10
Lo que se est intentando determinar es cunto se aleja cada posible resultado muestral (cada posible nmero de aciertos)
de su valor esperado (en el ejemplo, el valor esperado del nmero de aciertos es n acierto = 5(0,25) = 2,5). Esto puede saberse
ubicando cada resultado en la posicin exacta que ocupa en su distribucin muestral. Y esa posicin se conoce calculando,
no la probabilidad individual de cada resultado, sino la probabilidad que queda por encima de cada resultado (se trata de
un contraste unilateral derecho; si el contraste fuera unilateral izquierdo calcularamos la probabilidad que queda por debajo
de cada resultado; ver siguiente apartado). A esta probabilidad es a la que llamamos nivel crtico o valor p y es a la que nos
referimos de forma abreviada como probabilidad asociada.
24 Anlisis de datos (vol. II)

si esa H0 fuera verdadera, el estadstico del contraste no debera tomar ese valor (sera impro-
bable que lo tomara, aunque no imposible); si de hecho lo toma, lo razonable es concluir que
esa H0 no debe ser verdadera. Es importante reparar en el hecho de que la decisin siempre
se toma sobre H0 .
Con esta regla de decisin se est asumiendo que la probabilidad asociada al estadstico
del contraste indica el grado de compatibilidad existente entre la hiptesis nula y los datos.
A esta probabilidad (grado de compatibilidad) la llamamos nivel crtico (tambin se le llama
nivel de significacin observado) y la representamos mediante p:

p = nivel crtico = P (D | H0 ) (D = Datos)

Es decir, p representa la probabilidad de encontrar, en la distribucin muestral definida por


H0, los datos de hecho encontrados; ms concretamente, la probabilidad de encontrar datos
tan alejados, o ms alejados, de la afirmacin establecida en H0 como los de hecho encontra-
dos. Aplicando este criterio de compatibilidad entre la hiptesis nula y los datos, la regla de
decisin puede formularse de esta otra manera:

Rechazar H0 si p < ; mantenerla en caso contrario

El tamao de las zonas de rechazo y aceptacin se determina fijando el valor de , es decir,


fijando el nivel de significacin o nivel de riesgo con el que se desea trabajar. Por supuesto,
puesto que es la probabilidad que se va a considerar como lo bastante pequea para que va-
lores con esa probabilidad o menor no se den bajo H0, se comprender que debe ser, nece-
sariamente, un valor pequeo (generalmente, 0,05).
La regla de decisin en la que se basan los contrastes de hiptesis encierra un argumento
claro acerca del rol que desempea el azar en la variabilidad de los datos. Cuando se decide
no rechazar una H0 se est asumiendo que el efecto observado (diferencia, relacin) puede
explicarse sin necesidad de recurrir a factores distintos de la variabilidad debida al azar mues-
tral. Cuando se decide rechazar una H0 se est descartando el azar como nica explicacin
del efecto observado y, en consecuencia con ello, se est asumiendo que el efecto realmente
existe en la poblacin.
Por tanto, no rechazar H0 significa que el efecto estudiado (o, mejor, la cuantificacin que
hemos hecho del mismo) se encuentra dentro del rango de valores esperables por azar cuando
H0 se asume que es verdadera. Esto no quiere decir que H0 sea verdadera, pues un efecto, aun
estando presente, podra no ser detectado por diferentes razones (mal diseo, falta de poten-
cia; ver siguiente apartado); solamente significa que H0 se considera compatible con los datos.
Pensemos en el estudiante de nuestro ejemplo. Imaginemos que acierta 3 de las 5 preguntas
y que, de acuerdo con nuestra regla de decisin, decidimos no rechazar H0 . Con esta deci-
sin no estamos afirmando que el estudiante no conozca la materia; ni siquiera estamos afir-
mando que el estudiante haya respondido al azar. Lo que estamos afirmando es que no po-
demos descartar el azar como explicacin de lo que ha ocurrido y que, consecuentemente, no
podemos afirmar que el estudiante conozca la materia.
Por el contrario, rechazar H0 significa que el efecto estudiado excede el rango de valores
esperables por azar cuando H0 es verdadera; y esto implica que el efecto observado en los
datos no puede explicarse nicamente a partir de la variabilidad atribuible al azar. Cuando se
da esta circunstancia, consideramos que los datos son incompatibles con H0 (es decir, conside-
ramos que H0 es falsa) y que la hiptesis verdadera es H1 . Esto no es exactamente lo mismo
Captulo 1. La inferencia estadstica 25

que afirmar que el estudiate conoce la materia; lo que se est afirmando es que es improbable
que el estudiante haya respondido al azar. Cuando ocurre esto decimos que el resultado ob-
servado es estadsticamente significativo. Y, basndonos en la lgica del procedimiento, asu-
mimos que el efecto observado en la muestra est presente en la poblacin11.
Existe una asimetra evidente entre las dos conclusiones que se siguen de la decisin de
un contraste. Si se rechaza H0 se est afirmando que ha quedado probado que H0 es falsa (con
las limitaciones propias de una decisin basada en probabilidades; es decir, sin la certeza
absoluta de que las cosas sean as). Por el contrario, si se mantiene H0 , no se est afirmando
que ha quedado probado que H0 es verdadera, sino solamente que la evidencia emprica dis-
ponible no permite rechazarla. Por tanto:
Mantener una hiptesis nula significa que se considera que esa hiptesis es compatible
con los datos. Rechazar una hiptesis nula significa que se considera probado (con la
limitacin sealada) que esa hiptesis es falsa.
La razn de esta asimetra en la conclusin es doble. Por un lado, dada la naturaleza inespec-
fica de H1 (recordemos que H1 es una afirmacin inexacta), raramente es posible afirmar que
H1 no es verdadera; las desviaciones pequeas de H0 forman parte de H1, por lo que al
mantener una H0 particular, tambin se estn manteniendo, muy probablemente, algunos de
los valores incluidos en H1 (Tukey, 1991); debe concluirse, por tanto, que se mantiene o no
se rechaza H0 , pero no que se acepta como verdadera.
Por otro lado, en el razonamiento que lleva a tomar una decisin sobre H0, puede reco-
nocerse el argumento deductivo modus tollens (si a, entonces b; no b, luego no a), aunque de
tipo probabilstico:
Si H0 es verdadera (si a), entonces, muy probablemente, los datos sern compatibles con
ella (entonces, muy probablemente, b); los datos no son compatibles con H0 (no b); luego,
muy probablemente, H0 no es verdadera (luego, muy probablemente, no a).
Dicho de forma algo ms tcnica:
Si H0 es verdadera, entonces, muy probablemente, el estadstico del contraste tomar un
valor de la zona de aceptacin (si a, entonces, muy probablemente, b); el estadstico del
contraste no toma un valor de la zona de aceptacin (no b); luego, muy probablemente,
H0 no es verdadera (luego, muy probablemente, no a).
Este argumento es correcto desde el punto de vista lgico, y til12. Sin embargo, si una vez
establecida la primera premisa se contina de esta otra manera:
El estadstico del contraste cae en la zona de aceptacin (entonces b); luego, muy pro-
bablemente, H0 es verdadera (luego, muy probablemente, a),

11
En este salto de la hiptesis estadstica a la hiptesis cientfica o de investigacin debe tenerse siempre presente que una
hiptesis de investigacin puede ser afirmada nicamente en la medida en que se corresponde con la hiptesis estadstica
que la representa (ver Chow, 1996, Cap. 3).
12
El hecho de que este argumento cambie las premisas categricas del modus tollens por premisas probabilsticas ha llevado
a algunos autores, no solo a dudar de su validez lgica, sino a afirmar que no permite llegar a conclusiones correctas (ver,
por ejemplo, Cohen, 1994; Falk y Greenbaum, 1995). Sin embargo, estas objeciones han recibido cumplida respuesta que
han venido a destacar, no ya la utilidad del argumento, que la tiene, sino su validez lgica cuando se aplica correctamente
(ver Cortina y Dunlap, 1997; Hagen, 1997, 1998; McDonald, 1997).
26 Anlisis de datos (vol. II)

entonces se comete un error lgico llamado falacia de la afirmacin del consecuente, pues
el estadstico del contraste puede haber tomado un valor de la zona de aceptacin por razones
diferentes13 de las contenidas en H0.

Contrastes bilaterales y unilaterales


La forma de dividir la distribucin muestral en zona de rechazo y zona de aceptacin depende
de que el contraste sea bilateral o unilateral. En un contraste bilateral o bidireccional no se
tiene una idea previa acerca de la direccin en la que pueden aparecer resultados incompa-
tibles con H0. Esto es lo que ocurre, por ejemplo, cuando se desea comprobar si un parmetro
toma o no un determinado valor, o si dos grupos difieren en alguna variable, o si dos variables
son independientes:
1. H0 : acierto = 0,25.
H1 : acierto =/ 0,25.
2. H0 : A = B.
H1 : A =/ B.
3. H0 : XY = 0.
H1 : XY =/ 0.
En el caso 1 se rechazar H0 tanto si acierto > 0,25 como si acierto < 0,25; en el caso 2 se recha-
zar H0 tanto si A > B como si A < B; en el caso 3 se rechazar H0 tanto si XY > 0 como
si XY < 0. Todos estos contrastes son bilaterales: las hiptesis alternativas no hacen explcita
la direccin en la que se encuentran los resultados muestrales incompatibles con H0 (lo cual
se expresa con el signo =/).
En un contraste unilateral o unidireccional se tiene una idea previa sobre la direccin en
la que se encuentran los resultados incompatibles con H0. Esto es lo que ocurre, por ejemplo,
cuando se desea comprobar si el valor de un parmetro ha aumentado, o si un grupo supera
a otro en alguna variable, o si dos variables se encuentran positivamente relacionadas:
$ 0,25.
1. H0 : acierto <
H1 : acierto > 0,25.
$ B.
2. H0 : A <
H1 : A > B.
$ 0.
3. H0 : XY <
H1 : XY > 0.
En el caso 1 se rechazar H0 si acierto > 0,25, pero no si acierto < 0,25; en el caso 2 se rechazar
H0 si A > B , pero no si A < B ; en el caso 3 se rechazar H0 si XY > 0, pero no si XY < 0.
Todos estos contrastes son unilaterales: las hiptesis alternativas contienen una prediccin
concreta (expresada con los signos < y >) sobre la direccin en la que se encuentran los
resultados incompatibles con H0.

13
Buscar un efecto es como buscar un objeto en un cuarto trastero. Cuando se busca algo y se encuentra se puede afirmar
que estaba. Cuando se busca algo y no se encuentra no es posible afirmar que no est; puede ocurrir, desde luego, que real-
mente no est, pero tambin puede ocurrir que no se haya buscado bien.
Captulo 1. La inferencia estadstica 27

La zona de rechazo o crtica, por tanto, debe situarse all donde pueden aparecer los valo-
res muestrales incompatibles con H0, es decir, all donde indica H1. Y esto es algo que depen-
de nicamente de lo que interese estudiar en cada caso concreto. Por ejemplo, para comparar
la eficacia de dos tratamientos sin una expectativa justificada (estudios previos, intereses
concretos, etc.) sobre cul de los dos es ms eficaz, lo razonable es plantear un contraste bila-
teral (H1 : A =/ B). Lo cual significa que la zona crtica debe recoger los valores muestrales
que vayan tanto en la direccin A ! B > 0 como en la direccin A ! B < 0. Pues, si H0 es
falsa, lo ser tanto si A es mayor que B como si A es menor que B; y la zona crtica debe-
r recoger ambas posibilidades14. Por esta razn,
en los contrastes bilaterales, la zona crtica se encuentra repartida15, generalmente a
partes iguales, entre las dos colas de la distribucin muestral.
Sin embargo, para comprobar si un estudiante responde o no al azar, lo razonable es plantear
un contraste unilateral (H1 : acierto > 0,25), pues solamente interesa considerar el caso en el
que el estudiante obtiene una proporcin de aciertos mayor que la esperable por azar (no una
proporcin menor). En este caso, los nicos valores muestrales incompatibles con H0 son los
que van en la direccin acierto > 0,25, que es justamente la direccin apuntada en H0. Y la zo-
na crtica debe reflejar esta circunstancia quedando ubicada en la cola derecha de la distri-
bucin muestral. Por tanto,
en los contrastes unilaterales, la zona crtica se encuentra en una de las dos colas de la
distribucin muestral.
De acuerdo con esto, las reglas de decisin que corresponden a los contrastes de nuestros dos
ejemplos (el de las diferencias entre dos tratamientos y el del profesor que desea evaluar los
conocimientos de su estudiante) pueden concretarse de la siguiente manera:
1. Rechazar H0: A = B si el estadstico del contraste cae en la zona crtica, es decir, si toma
un valor mayor que el cuantil 100 (1 ! /2) o menor que el cuantil 100 ( /2) de su distri-
bucin muestral.
O bien: rechazar H0: A = B si el estadstico del contraste toma un valor tan grande o tan
pequeo que la probabilidad de obtener un valor tan extremo o ms que el obtenido es
menor que /2. Es decir, rechazar H0 si p /2 < /2; o, lo que es lo mismo, si p < .
$ 0,25 si el estadstico del contraste (el nmero de aciertos) cae en
2. Rechazar H0: acierto <
la zona crtica, es decir, si el estadstico del contraste toma un valor mayor que el percen-
til 100 (1 ! ) de su distribucin muestral.
O bien: rechazar H0: acierto <$ 0,25 si el estadstico del contraste toma un valor tan grande
que la probabilidad de obtener un valor como se o mayor es menor que . Es decir, re-
chazar H0 si p < .

14
Por supuesto, si se desea contrastar, no si dos tratamientos difieren, sino si uno es mejor que el otro, habr que plantear
un contraste unilateral.
15
Existen excepciones a esta regla. Cuando se utiliza la distribucin normal o la distribucin t de Student, la zona crtica
de los contrastes bilaterales se encuentra, efectivamente, repartida entre las dos colas de la distribucin muestral. Pero de-
pendiendo del estadstico utilizado y de su distribucin muestral, puede ocurrir que la zona crtica de un contraste bilateral
est, toda ella, ubicada en la cola derecha de la distribucin. Esto es lo que ocurre, por ejemplo, cuando se utiliza la distri-
bucin 2 o la distribucin F. Tendremos ocasin de estudiar esto con detalle ms adelante.
28 Anlisis de datos (vol. II)

Errores Tipo I y II, y potencia de un contraste


Acabamos de ver que todo contraste de hiptesis desemboca en la decisin de mantener o re-
chazar H0. La realidad tambin es doble: H0 puede ser verdadera o puede ser falsa; y si H0 es
falsa, entonces hay algn valor de los incluidos en H1 que es verdadero. Esto implica que la
decisin que se toma en un contraste de hiptesis puede conducir a cuatro resultados distintos:
si H0 es verdadera y se toma la decisin de mantenerla, se est tomando una decisin correcta;
y tambin se est tomando una decisin correcta si H0 es falsa y se decide rechazarla; pero,
tanto cuando H0 es verdadera y se decide rechazarla como cuando es falsa y se decide man-
tenerla, se est cometiendo un error16:
Llamamos error Tipo I al que se comete cuando se decide rechazar una H0 que en reali-
dad es verdadera. La probabilidad de cometer este error es (en la definicin de este
error nicamente interviene la distribucin definida por H0 ).
Llamamos error Tipo II al que se comete cuando se decide mantener una H0 que en rea-
lidad es falsa. La probabilidad de cometer este error es (en la definicin de este error
interviene tanto la distribucin definida por H0 como la definida por la verdadera H1 ).

Puesto que el rea de una distribucin de probabilidad se asume que vale 1, de las probabi-
lidades asignadas a cada tipo de error ( y ) se deduce: (1) que 1 ! es la probabilidad de
tomar una decisin correcta cuando H0 es verdadera y (2) que 1 ! es la probabilidad de to-
mar una decisin correcta cuando H0 es falsa (es decir, cuando H1 es verdadera; o, mejor
dicho, cuando es verdadero algn valor concreto de los muchos incluidos en H1 ).
Por tanto, y son las probabilidades de cometer errores Tipo I y II, respectivamente.
Ya sabemos que a la probabilidad se le llama nivel de riesgo o nivel de significacin. Y
tambin sabemos que a la probabilidad 1 ! se le llama nivel de confianza. A la probabili-
dad 1 ! se le llama potencia del contraste.
Es importante sealar que estas cuatro probabilidades son probabilidades condicionales.
Por definicin, un error Tipo I nicamente puede cometerse si H0 es verdadera; y un error
Tipo II nicamente puede cometerse si H0 es falsa. Por tanto, es la probabilidad de recha-
zar H0 si H0 es verdadera, es decir, P (rechazar H0 | H0 verdadera). Y 1 ! es la probabilidad
de mantener H0 si H0 es verdadera, es decir, P (mantener H0 | H0 verdadera). Lo mismo vale
decir de sus probabilidades complementarias. As, es la probabilidad de mantener H0 cuando
se asume que la hiptesis verdadera es H1 , es decir, P (mantener H0 | H1 verdadera); y 1 !
es la probabilidad de rechazar H0 cuando se asume que la hiptesis verdadera es H1, es decir,
P (rechazar H0 | H1 verdadera).

16
El proceso que se sigue hasta llegar a esa decisin se basa, todo l excepto la propia decisin, en el supuesto de que H0
es verdadera. Entre otras cosas, la distribucin muestral que ofrece las probabilidades en las que se basa la decisin se ob-
tiene asumiendo que H0 es verdadera. En su propuesta original del contraste de hiptesis, R. Fisher (1925) nicamente habla
de H0. La consideracin simultnea de dos hiptesis complementarias, H0 y H1, se empez a popularizar en los aos 40 gra-
cias a las aportaciones de Neyman y Pearson (1928). En la propuesta inicial de Fisher, el contraste de hiptesis se concibe
como una forma de resumir la informacin muestral y de elaborar un argumento a favor de una cuestin cientfica. Con las
aportaciones de Neyman y Pearson, el contraste de hiptesis se empieza a interpretar como un mtodo de toma de decisiones
en el que necesariamente se elige entre dos hiptesis rivales (H0 y H1 ) tomando como referencia un nivel de significacin
prefijado (ver Chow, 1996, pgs. 21-24, para una reflexin sobre las coincidencias y diferencias entre la propuesta inicial
de Fisher y las aportaciones de Neyman y Pearson).
Captulo 1. La inferencia estadstica 29

Recordemos que el nivel crtico o valor p (la probabilidad que se compara con el nivel
de significacin para tomar una decisin sobre H0 ) tambin es una probabilidad condicio-
nal. Representa la probabilidad de encontrar, en la distribucin muestral definida por H0 , los
datos de hecho encontrados, es decir, P (D | H0)17 (ms concretamente, la probabilidad de
encontrar datos, D, tan alejados, o ms alejados, de la afirmacin establecida en H0 como los
de hecho encontrados).
La Tabla 1.2 puede ayudar a aclarar todas estas ideas. En ella estn representadas las
cuatro posibles consecuencias asociadas a la decisin que se toma un contraste de hiptesis,
junto con sus correspondientes probabilidades.

Tabla 1.2. Posibles resultados de un contraste de hiptesis

Decisin sobre H0
Naturaleza de H0 Mantenerla Rechazarla
Decisin correcta Error Tipo I
Verdadera (P = 1 ! ) (P = )

Error Tipo II Decisin correcta


Falsa (P = ) (P = 1 ! )

La filas de la tabla representan sucesos mutuamente exclusivos: H0 es verdadera o es falsa.


Y la decisin siempre consiste en mantener o rechazar H0 . Las probabilidades de las casillas
(, , 1 ! y 1 ! ) son las probabilidades condicionales correspondientes a cada uno de los
cuatro posibles resultados de la decisin. Puesto que solamente cabe tomar una de las dos
decisiones posibles, las probabilidades de cada fila suman 1.
Quiz los resultados de la Tabla 1.2 puedan entenderse mejor si imaginamos el contraste
de hiptesis como una prueba diagnstica diseada para detectar la presencia de una determi-
nada enfermedad. Si la prueba diagnstica no es infalible (esto es lo habitual, como tampoco
es infalible la decisin que se toma en un contraste de hiptesis), al administrar la prueba a
una persona para decidir si padece o no la enfermedad puede darse uno de los cuatro resul-
tados que muestra la Tabla 1.3.
Estos cuatro resultados guardan una estrecha correspondencia con los de la Tabla 1.2 (ha-
ciendo H0 : la persona est sana y H1 : la persona est enferma). Hay dos maneras de obtener
un diagnstico correcto y dos de obtener un diagnstico equivocado. Los dos diagnsticos
correctos se obtienen cuando la prueba dice que una persona sana est sana (a este resultado
se le llama especificidad; equivale a mantener H0 cuando es verdadera) y cuando dice que una
persona enferma est enferma (a este resultado se le llama sensibilidad; equivale a rechazar
H0 cuando es falsa). Los dos diagnsticos equivocados se obtienen cuando la prueba dice que

17
Puesto que el valor p es una probabilidad condicional, no debe interpretarse como la probabilidad de que H0 sea verdade-
ra; por la misma razn, tampoco el valor 1! p debe interpretarse como la probabilidad de que sea verdadera H1 . En un
contraste de hiptesis, tanto P (H0) como P (H1) son valores desconocidos. No obstante, puede demostrarse que cuanto me-
nor es la probabilidad de que H0 sea verdadera (y, por tanto, mayor la probabilidad de que sea verdadera H1), menor es el
valor del nivel crtico p (en relacin con esta problemtica puede consultarse la excelente argumentacin de Nikerson, 2000,
pgs. 246-253).
30 Anlisis de datos (vol. II)

una persona sana est enferma ( falso positivo; equivale a rechazar H0 cuando es verdadera
es decir, a un error Tipo I) y cuando dice que una persona enferma est sana ( falso negativo;
equivale a mantener H0 cuando es falsa, es decir, a un error Tipo II).

Tabla 1.3. Posibles resultados de una prueba diagnstica

Grupo pronosticado
Grupo real Sano Enfermo
Acierto Error
Sano (especificidad) (falso positivo)

Error Acierto
Enfermo (falso negativo) (sensibilidad)

En la Figura 1.1 estn representadas las probabilidades correspondientes a los cuatro resul-
tados de la Tabla 1.2. Las curvas representan una situacin hipottica referida a un contraste
unilateral derecho sobre el parmetro (con H0: =_ 0 ; H1: = 1). La curva de la izquierda
representa la distribucin muestral18 del estadstico Y para H0: = 0 (0 se refiere a un valor
concreto
_ cualquiera). La curva de la derecha representa la distribucin muestral del estadstico
Y para H1 : = 1 ( 1 se refiere a un valor cualquiera mayor que 0)19.

Figura 1.1. reas correspondientes a las probabilidades , , 1! y 1! en un contraste unilateral dere-


cho sobre el parmetro

H0 H1

1 1

_
Y
0 1
Zona de aceptacin Zona de rechazo

18
La probabilidad asociada a una media cualquiera en su distribucin muestral es la misma que la asociada a su corres-
pondiente puntuacin tpica en la distribucin N (0, 1) o tn-1 (ver, en el Captulo 6 del primer volumen, el apartado Distri-
bucin muestral del estadstico media). En trminos de probabilidad, por tanto, es equivalente hablar de la distribucin
muestral de la media y de la distribucin muestral de la media transformada en Z o T.
19
No debe pasarse por alto el hecho de que esta representacin exige fijar para el parmetro un valor concreto de todos
los que le asigna H1. Aunque H0 define una nica curva (pues H0 es una afirmacin exacta), cada valor distinto de los inclui-
dos en H1 define una curva distinta (pues H1 es una afirmacin inexacta). Cada una de estas curvas tiene sus propios valores
y 1 ! .
Captulo 1. La inferencia estadstica 31

Factores de los que depende la potencia


Ya hemos definido la potencia (1 ! ) como la probabilidad de rechazar una hiptesis nula
cuando la hiptesis verdadera es H1 . Por tanto, la potencia de un contraste hace referencia a
la sensibilidad del contraste para detectar como falsa una hiptesis nula que realmente lo es.
Cuanto mayor es la potencia, mayor es la probabilidad de que una hiptesis nula falsa sea
reconocida como tal. Si la potencia de un contraste es baja, tambin ser baja la probabilidad
de detectar un efecto (una diferencia, una relacin) que realmente existe.
En la investigacin aplicada se suele prestar poca atencin a todo lo relacionado con el
error Tipo II y la potencia. La mayor parte de los estudios publicados en revistas cientficas
se limitan a prefijar el valor de (generalmente 0,05) ignorando por completo lo que ocurre
con . Probablemente, esto es todo lo que puede hacerse en algunos casos, pero es seguro que
en otros es posible hacer algo ms. En opinin de no pocos expertos, descuidar la potencia
de un contraste puede tener algunas consecuencias indeseables20.
La probabilidad de cometer un error Tipo I () es una probabilidad conocida; ya sabe-
mos que el valor de se fija, por convencin, en 0,05 (o en otro valor parecido que siempre
es conocido porque lo fija el propio investigador). Sin embargo, la probabilidad de cometer
un error Tipo II (y, por tanto, la potencia del contraste), es un valor desconocido que es nece-
sario calcular. Pero el valor de (y, por tanto, el valor de la potencia, 1 ! ), depende de tres
factores: (1) el valor de , (2) el tamao del error tpico de la distribucin muestral utiliza-
da para realizar el contraste y (3) el verdadero valor del parmetro entre todos los incluidos
en H1. Aclaremos esto:
1. En primer lugar, el valor de depende del valor de . Los valores de y se relacio-
nan de forma inversa: permaneciendo todo lo dems constante, al aumentar cualquiera
de ellos disminuye el otro. Desplazando la lnea vertical de la Figura 1.1 hacia la iz-
quierda se puede constatar que el rea va aumentando y el rea va disminuyendo.
Desplazando la lnea hacia la derecha ocurre justamente lo contrario.
2. En segundo lugar, el valor de depende del error tpico de la distribucin muestral del
estadstico utilizado para realizar el contraste. Para una distancia dada entre 0 y 1 , el
solapamiento entre las curvas correspondientes a uno y otro parmetro es tanto mayor
cuanto mayor es el error tpico de las distribuciones que representan esas curvas (cuan-
to mayor es el error tpico de una distribucin, ms ancha es la distribucin). Y cuanto
mayor es el solapamiento entre las dos curvas, mayor es el tamao del rea . En el caso
representado en la Figura 1.1 se est contrastando la hiptesis H0 : = 0._Por tanto, las
curvas representadas se refieren a la distribucin muestral del estadstico Y . Ahora bien,

20
En la tradicin fisheriana no tiene sentido hablar de la potencia de un contraste porque nicamente se contempla una hip-
tesis: la hiptesis nula (Fisher, 1925, 1935). La incorporacin de la hiptesis alternativa al proceso es lo que lleva a Neyman
y Pearson (1928) a definir la potencia y a incluirla como un aspecto ms del contraste de hiptesis. No obstante, solamente
en los ltimos aos se le ha empezado a prestar cierta atencin. Muchos autores consideran que la potencia debe desempear
un rol esencial en la planificacin de los estudios en los que se tiene intencin de aplicar algn contraste de hiptesis (Chase
y Tucker, 1977; Cohen, 1988, 1992a, 1992b, 1994; Lashley, 1998; Rossi, 1990, 1997; Schmidt, 1996; Schmidt y Hunter,
1997). Entre algunos de estos autores predomina, incluso, la opinin de que un contraste de hiptesis del que no se conoce
la potencia es un contraste intil, o incluso peor que intil, porque puede llevar a conclusiones equivocadas. Sin embargo,
no faltan quienes consideran que la potencia es un concepto mal definido y, en algunos contextos, innecesario (ver, por
ejemplo, Chow, 1996, Cap. 6; Grayson, 2004; Macdonald, 2002).
32 Anlisis de datos (vol. II)

la distribucin muestral de la media es normal con parmetros y . Esto significa


que al disminuir (la desviacin tpica de la poblacin) o al aumentar n (el tamao de
la muestra), se reduce el error tpico de la distribucin. La consecuencia de esto es que
con una operacin tan sencilla como aumentar n (tambin es posible disminuir , pero
esto es algo ms complicado21), se puede obtener una reduccin de la probabilidad de co-
meter errores Tipo II y, por tanto, un aumento de la potencia.
3. Por ltimo, la probabilidad depende de la distancia existente entre los valores 0 y 1.
Las curvas de la Figura 1.1 corresponden a un contraste unilateral derecho para el caso
concreto en el que H1 : = 1. Sin embargo, en un contraste unilateral derecho, la hip-
tesis alternativa afirma H1 : > 0 . Es decir, H1 atribuye al parmetro diferentes valo-
res, todos ellos mayores
_ que 0. Cada uno de estos valores genera una distribucin mues-
tral concreta para Y cuya ubicacin o grado de alejamiento de la curva de H0 depende del
valor de 1. Y esto significa que existe toda una familia de valores que dependen del
valor concreto que tome entre todos los incluidos en H1.
Volviendo a la Figura 1.1, podemos comprobar que, permaneciendo todo lo dems
igual, cuanto ms se aleja el valor 1 del valor 0, ms hacia la derecha se desplaza la
curva H1 y, en consecuencia, ms pequea se hace el rea (permaneciendo todo lo de-
ms igual). Y al contrario, cuanto ms se aproxima el valor de 1 al de 0, ms hacia la
izquierda se desplaza la curva H1 y ms grande se hace el rea (permaneciendo todo lo
dems igual). Por tanto, el tamao del rea depende de cul de todos los valores que
incluye H1 es el verdadero valor de .
La potencia de un contraste puede controlarse modificando cualquiera de los tres factores de
los que depende. Y, en principio, su valor debera fijarse intentando minimizar la probabilidad
asociada a los dos posibles errores inherentes a toda decisin.
Ya sabemos que la probabilidad de cometer errores Tipo I se establece arbitrariamente
procurando que sea un valor pequeo (habitualmente, 0,05). Por tanto, disminuir el valor de
es tan sencillo como asignarle un valor tan pequeo como se desee. No obstante, aunque
podra parecer que no hay nada errneo en fijar un nivel de significacin tan pequeo como
0,01 (o incluso menor), acabamos de ver que, permaneciendo lo dems igual, disminuir el
valor de tiene como consecuencia directa un aumento del valor de (una disminucin de
la potencia). Por tanto, no parece que disminuir el valor de sea una prctica recomendable.
Ms razonable parece detenerse a considerar cul de los dos errores podra resultar ms
grave en una situacin concreta y procurar disminuirlo a costa del otro. As, cuando es impor-
tante evitar cometer un error Tipo I (por ejemplo, decidir aplicar un tratamiento que conlleva
graves efectos secundarios cuando en realidad no sera necesario aplicarlo), podra selec-
cionarse un valor muy pequeo para (0,001, por ejemplo). Y cuando es importante evitar
cometer un error Tipo II (por ejemplo, mandar a alguien a casa cuando de hecho necesita
tratamiento inmediato), podra seleccionarse para un valor ms grande (0,10 por ejemplo).
No obstante, aunque esta estrategia puede tener algunas ventajas prcticas (Oakes, 1986;
Skipper, Guenther y Nass, 1967), sigue sin resolver el problema: al disminuir el valor de ,
tambin disminuye la potencia (aumenta la probabilidad de cometer errores Tipo II, ).

21
La variabilidad de un conjunto de puntuaciones puede reducirse mejorando el control sobre las condiciones del estudio
y, muy especialmente, mejorando la precisin de las mediciones que se llevan a cabo (ver, por ejemplo, Judd y Kenny, 1981,
pgs. 111 y siguientes).
Captulo 1. La inferencia estadstica 33

Entre los factores de los que depende el valor de y, por tanto, el valor de la potencia,
aumentar el tamao muestral, con la consiguiente reduccin del error tpico que esto implica,
no solo es la solucin ms eficaz, sino tambin, por lo general, la ms sencilla. Por tanto, no
debe sorprender que el tamao muestral desempee un rol destacado en la mayor parte del tra-
bajo relacionado con la potencia.
Cuando estudiemos los diferentes procedimientos estadsticos incluidos en este manual
prestaremos atencin a la potencia en dos sentidos. En un sentido a priori estudiaremos cmo
determinar el tamao muestral necesario para alcanzar, en un contraste concreto, una deter-
minada potencia (generalmente, un valor en torno a 0,80); esto, segn veremos, requiere fijar
el valor de todos los factores de los que depende la potencia excepto, lgicamente, el del ta-
mao muestral (determinar de antemano el tamao muestral tiene su importancia; si se utiliza
un tamao muestral demasiado pequeo se corre el riesgo de no detectar efectos importantes;
si se utiliza un tamao muestral demasiado grande se corre el riesgo de declarar significativos
efectos triviales). En un sentido a posteriori veremos cmo calcular la potencia observada,
es decir, la potencia de un contraste una vez llevado a cabo y, por tanto, dando a los factores
de los que depende el valor concreto que toman en el contraste realizado. En el Apndice 1
se explica cmo realizar ambas tareas en un caso parecido al representado en la Figura 1.1.
Trabajar con la potencia observada es relativamente sencillo porque se tiene informacin
sobre todos los factores de los que depende. Trabajar con la potencia a priori es otra historia.
Entre otras cosas, es necesario asignar un valor concreto a H1. Y esto exige, inevitablemente,
conocer o estimar el tamao del efecto que se est analizando.

Tamao del efecto


La expresin tamao del efecto se refiere a la magnitud del efecto estudiado. Ms concreta-
mente, al grado de alejamiento existente entre las distribuciones definidas por H0 y por la ver-
dadera H1 (el valor verdadero de todos los incluidos en H1 ). Ya sabemos que las herramien-
tas inferenciales permiten realizar comparaciones y estudiar relaciones: al realizar compara-
ciones, el tamao del efecto se refiere a la magnitud de la diferencia; al relacionar variables,
el tamao del efecto se refiere a la intensidad de la relacin.
Un contraste de hiptesis sirve para decidir si un determinado efecto (una diferencia, una
relacin) est presente en la poblacin. De acuerdo con la lgica del contraste de hiptesis,
la obtencin de un resultado estadsticamente significativo ( p < ) conduce al rechazo de H0.
Y el rechazo de H0 implica que el efecto sometido a contraste est presente en la poblacin.
La significacin estadstica posee una extraordinaria utilidad como argumento para elegir
entre hiptesis rivales. Descartar el azar como fuente de explicacin de los datos (aunque sea
mediante un argumento basado en probabilidades) es todo lo que se necesita en muchos con-
textos para poder seguir avanzando en la adquisicin de conocimiento.
Pero la significacin estadstica de un efecto es un concepto que no necesariamente coin-
cide con la relevancia (importancia terica o prctica) del mismo (ver Kirk, 1996). El valor
del estadstico utilizado en un contraste no depende nicamente del tamao real del efecto en
la poblacin (es decir, de la verdadera diferencia o de la verdadera relacin existentes), sino
del tamao de las muestras utilizadas y del grado de variabilidad de las puntuaciones.
El nivel crtico (valor p) aporta ms informacin que el mero rechazo de una hiptesis
tras obtener un resultado significativo (ver Apndice 8 del primer volumen). Pero su utilidad
34 Anlisis de datos (vol. II)

es algo limitada. Imaginemos que, al comparar un grupo experimental con un grupo control,
rechazamos la hiptesis H0: E = C con un nivel crtico tan pequeo como p = 0,0001. Puesto
que p toma un valor muy pequeo, seguramente nos sentiremos inclinados a pensar que H0
es muy falsa y que entre E y C existe una gran diferencia (un gran tamao del efecto). Pero
esa conclusin no necesariamente sera correcta. Por un lado, el valor p no es la probabilidad
de H0, sino la probabilidad asociada a los datos obtenidos cuando H0 es verdadera. Por otro,
puesto que la potencia de un contraste es tanto mayor cuanto mayor es el tamao muestral
(ver apartado anterior), tamaos muestrales muy grandes podran llevar a rechazar H0 incluso
con diferencias E ! C insignificantes (pues si los tamaos muestrales son muy grandes en
relacin con los tamaos de las varianzas, el valor del estadstico del contraste ser muy gran-
de incluso cuando la diferencia entre las medias muestrales sea muy pequea).
Parece, por tanto, que la significacin estadstica (el valor p), precisamente por su depen-
dencia del tamao muestral, no informa correctamente del tamao del efecto estudiado (de
la verdadera diferencia entre E y C)22.
Para valorar, no la significacin estadstica de un resultado, sino su relevancia, contamos
con diferentes estadsticos agrupados bajo la denominacin de medidas del tamao del efecto.
Existen multitud de estas medidas (ver Abelson, 1995, pgs. 39-77; Kirk, 1996). Todas ellas
han sido diseadas con el mismo objetivo, pero se basan en diferentes criterios. Y, aunque es-
tos criterios son muy variados (ver, por ejemplo, Richardson, 1996), la mayora de las me-
didas disponibles (al menos las ms utilizadas) pueden clasificarse atendiendo solamente a
dos: (1) las basadas en una estandarizacin de la diferencia entre las medias y (2) las basadas
en la proporcin de varianza comn o explicada23.
Lgicamente, estas medidas adoptan una u otra forma dependiendo de las caractersticas
de los datos analizados. Al estudiar los diferentes procedimientos que se incluyen en este ma-
nual tendremos ocasin de conocer cmo se calculan e interpretan en cada caso. De momen-
to, basta con saber que las medidas del tamao del efecto ofrecen informacin adicional a la
que ofrece un contraste de hiptesis:
1. Contribuyen a distinguir entre la significacin estadstica de un resultado y su relevancia
terica o prctica (Kirk, 1996).
2. Sirven para estimar la potencia de un contraste y para elegir el tamao muestral idneo
al planificar un estudio (Cohen, 1988; 1992a).
3. Facilitan la recopilacin de los resultados de diferentes estudios para realizar un meta-
anlisis (Hunter y Schmidt, 2004; Rosenthal, 1991).

stas son, sin duda, algunas de las razones por las que muchos expertos (tambin los editores
de las ms importantes revistas cientficas), recomiendan utilizar las medidas del tamao del
efecto e incluirlas en los informes de investigacin acompaando a la significacin estadstica
(Abelson, 1995; Cohen, 1988; Murphy, 1997; Thonsom, 1994, 1997). Especialmente relevan-

22
Sin embargo, el tamao de un efecto y el valor p obtenido al contrastarlo no son independientes. Permaneciendo todo lo
dems igual, cuanto mayor es el tamao del efecto, menor en el valor p. En relacin con esta problemtica puede consultarse
la excelente argumentacin de Nikerson (2000, pgs. 246-253).
23
A veces se distingue entre las primeras (a las que siempre se les llama medidas del tamao del efecto) y las segundas (a
las que se les suele llamar medidas de asociacin). Pero tanto unas como otras deben ser consideradas medidas del tamao
del efecto.
Captulo 1. La inferencia estadstica 35

tes en este sentido son las recomendaciones del informe de Wilkinson y la APA Task Force
on Statistical Inference (1999).
Sin embargo, estas recomendaciones no vienen acompaadas de una aclaracin del tipo
de medidas que conviene utilizar en cada caso (con cada diseo, con cada tipo de datos, etc.),
probablemente porque su aplicacin no est libre de problemas y porque no existe suficiente
consenso en torno a qu tipo de medida es la idnea en cada contexto24.
Por tanto, las medidas del tamao del efecto no deben ser consideradas una panacea en
el anlisis de datos. A pesar de que no faltan quienes han llegado a proponer sustituir la sig-
nificacin estadstica (es decir, los contrastes de hiptesis) por soluciones basadas, entre otras
cosas, en la estimacin del tamao del efecto (por ejemplo, Cohen, 1992a, 1994; Rossi, 1997;
Schmidt, 1996), tampoco faltan quienes han refutado sus argumentos con reconocida solven-
cia (por ejemplo, Abelson, 1997a, 1997b; Chow, 1996; Cortina y Dunlap, 1997; Mulaik, Raju
y Harshman, 1997).
Por nuestra parte, seguiremos considerando que la significacin estadstica que ofrece
un contraste de hiptesis posee una extraordinaria utilidad como argumento para elegir entre
hiptesis rivales. Y, al analizar nuestros datos, acompaaremos la significacin estadstica
de cada contraste, siempre que sea posible, de la informacin necesaria para mejorar nuestra
comprensin del efecto estudiado; y esto significa prestar atencin tanto a la potencia concreta
del contraste realizado como a la estimacin del tamao del efecto estudiado.

Clasificacin de los contrastes de hiptesis


Para poder aplicar un contraste de hiptesis, la primera decisin que es necesario tomar (quiz
la ms importante) es la de elegir correctamente el contraste concreto que permitir poner a
prueba la hiptesis que se desea contrastar. Lgicamente, si un estudio incluye varias hip-
tesis ser necesario utilizar varios contrastes, en cuyo caso, cada uno de ellos deber elegirse
pensando en una hiptesis concreta.
Este argumento sugiere que la clasificacin de los contrastes de hiptesis podra hacerse,
antes que nada, tomando como referencia el tipo de hiptesis que permiten contrastar. Con
este criterio, los contrastes podran clasificarse, por ejemplo, en funcin de que permitan com-
parar medias, o comparar proporciones, o estudiar relaciones, etc. Pero lo cierto es que este

24
Al igual que con otras muchas herramientas estadsticas, no existe un acuerdo generalizado sobre el significado real de
este tipo de medidas. No hay consenso sobre qu medida es ms apropiada en cada caso (Gorsuch, 1991; McGrath y Meyer,
2006; Olejnik y Algina, 2003; Parker, 1995). Un efecto cuantificado como pequeo puede ser relevante en algunos contextos
y un efecto cuantificado como grande puede ser poco relevante en otros (Lewandowsky y Maybery, 1998; Prentice y Miller,
1992; Rosental, 1990). Un efecto cuantificado como grande no garantiza que se trate de un efecto relevante o importante
ms de lo que lo hace un valor p pequeo (Chow, 1991; Shaver, 1985). OGrady (1982) ha sealado algunas cuestiones
tericas, metodolgicas y psicomtricas que pueden afectar de forma importante al significado y utilidad de las medidas que
intentan cuantificar el tamao de un efecto. Adems, el error tpico de las distribuciones muestrales de estas medidas es,
por lo general, muy grande (Carrol y Nordholm, 1975), especialmente cuando los tamaos muestrales son pequeos, y esto
implica que es posible que su valor sea grande cuando de hecho se est estudiando un efecto trivial, y pequeo cuando de
hecho se est estudiando un efecto relevante (Rosenthal y Rubin, 1982). Chow (1988, 1996) ha argumentado que la cuan-
tificacin de un efecto puede tener inters cuando un estudio est diseado justamente para conocer la magnitud de un
efecto y su relevancia prctica, pero no cuando el objetivo de un estudio es contrastar una prediccin concreta hecha por
una teora; en este segundo caso, lo que realmente interesa es poder determinar si la evidencia emprica que aporta el estudio
es o no consistente con la prediccin hecha; y, en este contexto, la cuantificacin del tamao del efecto no solo carece de
inters, sino que podra llevar a error.
36 Anlisis de datos (vol. II)

criterio, por s solo, no conduce a una clasificacin del todo satisfactoria porque no resulta
muy til a quienes se inician en el anlisis de datos.
Una clasificacin de los contrastes de hiptesis debe servir para cubrir, al menos, estos
dos objetivos: (1) ofrecer una panormica de los contrastes disponibles y (2) ayudar al analista
de datos a elegir el contraste apropiado en cada caso. Creemos que ambos objetivos pueden
conseguirse fcilmente si el criterio referido al tipo de hiptesis que cada contraste permite
poner a prueba se complementa con otros dos: (1) el nmero de las variables que intervienen
en el anlisis y (2) la naturaleza categrica o cuantitativa de las variables analizadas25.
El Cuadro 1.1 ofrece una clasificacin de los contrastes basada en todos o parte de estos
criterios. Incluye los contrastes ya estudiados en el primer volumen (en cursiva) y los que
estudiaremos en ste. En la clasificacin propuesta se utiliza, como primer criterio de clasi-
ficacin, el nmero de variables; a continuacin, la naturaleza categrica o cuantitativa de
las variables; por ltimo, el tipo de hiptesis que cada contraste permite poner a prueba.
En lo relativo a una y dos variables, este cuadro es el mismo que ya hemos presentado
en el Captulo 8 del primer volumen acompaado de una breve explicacin de las caracte-
rsticas de cada contraste. La parte nueva, aqu, se refiere al estudio de ms de dos varia-
bles, para lo cual se propone el anlisis de varianza y el anlisis de regresin lineal (junto con
alguna alternativa no paramtrica). Tanto el anlisis de varianza como el de regresin, son
expresiones del modelo lineal general (ver Captulo 1 del tercer volumen). Y ambos permiten
estudiar simultneamente una variable dependiente y una o ms variables independientes. La
variable dependiente debe ser cuantitativa en ambos casos (estudiaremos otros modelos en
el volumen 3). Lo que los distingue tiene que ver con la naturaleza de las variables indepen-
dientes: en el anlisis de varianza son categricas; en el de regresin pueder ser categricas
o cuantitativas. Para completar la clasificacin se han incluido algunas pruebas no paramtri-
cas que sirven para analizar diseos de un factor con medidas repetidas (J variables) cuando
no puede aplicarse el anlisis de varianza: la prueba de Friedman (para variables ordinales)
y la prueba de Cochran (para variables dicotmicas).

Cuadro 1.1. Clasificacin de los contrastes de hiptesis (los contrastes que aparecen en cursiva se han es-
tudiado en el primer volumen)

Una variable categrica (Captulo 9 del primer volumen):


! Si la variable es dicotmica:
Prueba binomial o contraste sobre una proporcin.
! Si la variable es politmica:
Prueba X 2 de Pearson sobre bondad de ajuste. (contina)

25
No falta quien considera (ver, en el Captulo 1 del primer volumen, el apartado Rol de las escalas de medida; pgs. 25-26)
que este criterio de clasificacin es inapropiado. Pero lo cierto es que la naturaleza categrica o cuantitativa de las variables
condiciona el tipo de estadsticos que permiten extraer informacin til de los datos. Con variables nominales como, por
ejemplo, el lugar de nacimiento, no tiene sentido calcular medias: cul es la media de Andaluca, Aragn, Asturias, ...,
Valencia? Y con variables cuantitativas como, por ejemplo, la edad, no tiene mucha utilidad preguntarse qu porcentaje de
sujetos tiene una determinada edad (si la variable est medida con suficiente precisin, no habr repeticiones o habr muy
pocas), es ms til conocer el centro, la dispersin y la forma de la distribucin. Por tanto, los estadsticos que permiten ob-
tener informacin til con variables categricas y con variables cuantitativas no son los mismos. La clasificacin propuesta
tiene en cuenta esta circunstancia incorporando la naturaleza de las variables como un criterio ms.
Captulo 1. La inferencia estadstica 37

Una variable cuantitativa (Captulo 2):


! Para estudiar el centro de la distribucin:
Prueba T de Student para una muestra.
Prueba de Wilcoxon para una muestra.
Prueba de los signos para una muestra.
! Para estudiar la dispersin de la distribucin:
Contraste sobre una varianza.
! Para estudiar la forma de la distribucin:
Prueba de Kolmogorov-Smirnov sobre bondad de ajuste.
Dos variables categricas (Captulo 3):
! Para contrastar la hiptesis de independencia:
Prueba X 2 de Pearson sobre independencia o igualdad de proporciones.
ndices de riesgo y odds ratio.
! Para contrastar la hiptesis de homogeneidad marginal en tablas 2 2:
Prueba de McNemar.
! Para cuantificar el grado de asociacin:
Medidas de asociacin (variables nominales, variables ordinales, acuerdo).
Una variable categrica y una cuantitativa (Captulo 4):
! Si la variable categrica tiene 2 niveles:
Prueba T para muestras independientes.
Prueba U de Mann-Whitney.
! Si la variable categrica tiene ms de dos niveles:
Anlisis de varianza de un factor (Captulo 6).
Prueba H de Kruskal-Wallis.
Dos variables cuantitativas (Captulo 5):
! Para compararlas:
Prueba T de Student para muestras relacionadas.
Prueba de Wilcoxon para dos muestras.
Prueba de los signos para dos muestras.
! Para relacionarlas:
Coeficiente de correlacin RXY de Pearson.
Coeficientes de correlacin para variables ordinales.
Ms de dos variables:
! Una variable dependiente cuantitativa y dos variables independientes categricas:
Anlisis de varianza de dos factores (Captulos 7 y 9).
! Una variable dependiente cuantitativa y una o ms variables independientes:
Anlisis de regresin lineal (Captulo 10).
! J variables cuantitativas:
Anlisis de varianza de un factor con medidas repetidas (Captulo 8).
Prueba de Friedman (Captulo 8).
! J variables dicotmicas:
Prueba de Cochran (Captulo 8).
38 Anlisis de datos (vol. II)

Programas informticos para el anlisis de datos


Hasta hace no muchos aos, la mayor parte de los procedimientos estadsticos se aplicaban
con la ayuda de una calculadora de bolsillo. Afortunadamente los tiempos han cambiado y
ya es posible analizar datos mediante ordenadores y programas informticos capaces de efec-
tuar los clculos ms complejos con suma rapidez y con el mnimo esfuerzo.
La lista de programas informticos disponibles para el anlisis de datos es interminable.
Muchos de ellos son generales: incluyen la mayora de las tcnicas estadsticas que un ana-
lista puede necesitar; otros muchos son especficos: se centran en una tcnica concreta o en
un conjunto reducido de tcnicas. Los que a nosotros nos interesan ms aqu son los de tipo
general, pues son los que permiten aplicar las diferentes tcnicas que estudiaremos en este
manual. Entre stos, algunos de los ms recomendables son SPSS, SAS, R/S-Plus, Minitab
y Stata. Y entre ellos, quiz el SPSS (recientemente renombrado PASW) sea el de mayor im-
plantacin tanto en el mbito acadmico como en el profesional: a su innegable potencial para
el anlisis hay que aadir sus prestaciones como base de datos y su facilidad de manejo. Por
tanto, los ejemplos de cmo se aplican las diferentes tcnicas estadsticas se basarn en l.
Al utilizar un programa informtico es conveniente seguir algunas recomendaciones. En
primer lugar, aunque el objetivo sea aplicar alguna herramienta estadstica, suele resultar bas-
tante til estar algo familiarizado con el funcionamiento del programa como herramienta in-
formtica (estructura bsica de los mens, de los cuadros de dilogo, etc.; para esto, en el caso
concreto del SPSS, ver Pardo y Ruiz, 2009).
En segundo lugar, la primera vez que se utilice un procedimiento desconocido, es muy
recomendable aplicarlo a datos de los que ya se conoce la respuesta (por ejemplo, a los datos
que se utilizan en este manual). Esto puede ser de gran ayuda a la hora de identificar y com-
prender la informacin que se obtiene.
En tercer lugar, conviene tener presente que no siempre es apropiado ejecutar un procedi-
miento estadstico con las especificaciones que el programa tiene establecidas por defecto.
Muchas veces hay que personalizar la ejecucin del procedimiento (eligiendo opciones, utili-
zando la sintaxis) para poder obtener los resultados que se buscan.
En cuarto lugar, a pesar de que los programas estadsticos suelen incluir la mayora de
los procedimientos estadsticos ms utilizados, puede ocurrir que el programa utilizado no in-
cluya algn clculo de los que se desea obtener; generalmente, en las contadas ocasiones que
esto ocurra, los resultados obtenidos incluirn informacin para realizar clculos a mano de
forma sencilla. Relacionado con esto, no debe sorprender que los resultados que ofrece el pro-
grama incluyan ms informacin de la que se necesita; no es infrecuente que un programa co-
mo el SPSS ofrezca informacin que, aun siendo irrelevante para nuestros intereses, sea til
para otro usuario con intereses distintos o para expertos que utilizan el programa, no para
analizar datos, sino para investigar el comportamiento de alguna tcnica de anlisis.
Finalmente, al informar del anlisis llevado a cabo con un programa informtico, es reco-
mendable informar con precisin del tipo de anlisis realizado, no del nombre que da el pro-
grama al procedimiento que permite obtener ese anlisis. A veces, un mismo procedimiento
realiza varios tipos de anlisis y, otras, el procedimiento que permite realizar un tipo particu-
lar de anlisis recibe nombres distintos dependiendo del programa utilizado.
Salvo alguna rara excepcin, de todas las herramientas estadsticas que se estudian en este
manual se explica cmo aplicarlas con el SPSS y cmo interpretar los resultados que ofrece
el programa.
Captulo 1. La inferencia estadstica 39

Apndice 1
Clculo de la potencia 26
Retomemos el ejemplo del profesor que desea evaluar los conocimientos de un estudiante sobre una
determinada materia administrndole preguntas de 4 alternativas de respuesta con solamente una correc-
ta. Al realizar el contraste (ver el apartado El contraste de hiptesis) hemos formulado las siguientes
hiptesis estadsticas:
$ 0,25; H1 : acierto > 0,25
H0 : acierto <
Para poder calcular la potencia de un contraste es necesario elegir un valor concreto de los mltiples
incluidos en H1 . En nuestro ejemplo, debemos elegir un valor concreto para acierto. Esto puede hacer-
se de varias maneras. Una de ellas consiste en hacer las preguntas al estudiante y calcular su propor-
cin de aciertos. Supongamos que hacemos 10 preguntas al estudiante y que ste acierta 6. Y suponga-
mos que, basndonos en este dato, deseamos calcular la potencia del contraste cuando acierto = 0,60.
Con esta informacin podemos calcular la potencia observada.
El clculo de la potencia se basa en las distribuciones muestrales del estadstico del contraste bajo
H0 y bajo H1 . En nuestro ejemplo, hemos elegido nacierto como estadstico del contraste. Por tanto,
necesitamos conocer las distribuciones muestrales de nacierto bajo H0 y bajo H1 , es decir, las probabi-
lidades asociadas a los diferentes valores de nacierto cuando acierto vale 0,25 y cuando acierto vale 0,60. La
Tabla 1.4 ofrece estas probabilidades (recordemos que el estadstico nacierto sigue el modelo de distribu-
cin binomial con parmetros n y acierto ).

Tabla 1.4. Distribuciones muestrales del estadstico nacierto bajo H0: acierto = 0,25 y H1: acierto = 0,60

nacierto 0 1 2 3 4 5 6 7 8 9 10

P (nacierto | acierto = 0,25) 0,056 0,188 0,282 0,250 0,146 0,058 0,016 0,003 0,000 0,000 0,000
P (nacierto | acierto = 0,60) 0,000 0,002 0,011 0,,42 0,111 0,201 0,251 0,215 0,121 0,040 0,006

De acuerdo con la regla de decisin estndar de un contraste de hiptesis, rechazaremos H0 si el nme-


ro de aciertos que obtiene el estudiante, asumiendo H0 verdadera, tiene una probabilidad asociada
menor que 0,05. Es decir, rechazaremos H0 si el resultado muestral (el nmero de aciertos) est tan
alejado de la prediccin formulada en H0 que la probabilidad de obtener resultados como se o mayo-
res es menor que 0,05.
En el ejemplo, esta regla de decisin supone rechazar H0 si el estudiante obtiene 6 aciertos o ms
(a cualquier nmero de aciertos menor que 6 le corresponde un nivel crtico mayor que 0,05). Las
curvas de la Figura 1.2 representan el escenario recin descrito.

26
Trabajar con una calculadora de bolsillo es, quiz, la mejor manera de entender las cosas. En este apartado vamos a ha-
cer precisamente eso. No obstante, los clculos relacionados con la potencia se van complicando sensiblemente a medida
que lo va haciendo el diseo. Afortunadamente, los programas informticos tienen resuelto este problema. En los siguien-
tes captulos veremos cmo calcular la potencia asociada a los diferentes contrastes que vayamos estudiando. Tambin vere-
mos cmo solicitar al SPSS este tipo de clculos. No obstante, el SPSS no calcula la potencia de muchos de los contrastes
que estudiaremos. Para cubrir esta laguna puede utilizarse un excelente programa informtico llamado GPOWER (Erdfelder,
Faul y Buchner, 1996) que, adems de ser muy sencillo de manejar, puede descargarse de forma gratuita en la siguiente
direccin http://www.psycho.uni-duesseldorf.de/aap/projects/gpower.
40 Anlisis de datos (vol. II)

Figura 1.2. Distribuciones muestrales del estadstico nacierto bajo H0: acierto = 0,25 y H1: acierto = 0,60
P(nacierto )
0,30 H0: = 0,25
H1: = 0,60

0,20 1

1
0,10


0,00 nacierto
0 1 2 3 4 5 6 7 8 9 10

Zona de aceptacin Zona de rechazo

La potencia de este contraste es la probabilidad de rechazar H0 : acierto = 0,25 cuando la hiptesis ver-
dadera es H1: acierto = 0,60. Y nicamente tomaremos la decisin de rechazar H0 cuando nos encontre-
mos con un resultado muestral (nacierto) perteneciente a la zona de aceptacin (es decir, 6 aciertos o ms).
Ahora bien, si H1 es verdadera, la probabilidad de tomar la decisin de rechazar H0 (es decir, 1 ! se-
r la probabilidad de encontrar 6 o ms aciertos en la distribucin muestral correspondiente a H1 .
Sumando las probabilidades individuales desde nacierto = 6 hasta nacierto = 10, obtenemos

$ 6) = 0,251 + 0,215 + 0,121 + 0,040 + 0,006 = 0,633


1 ! = P (nacierto >

Por tanto, si asumimos que el verdadero valor del parmetro acierto es 0,60, al contrastar H0: = 0,25
con = 0,05, la probabilidad de que el contraste detecte que H0 es falsa vale 0,633.

Curva de potencias
Teniendo en cuenta que suelen recomendarse valores en torno a 0,80 para la potencia de un contras-
te (Cohen, 1988), el valor obtenido en el contraste del apartado anterior (0,633) es un valor ms bien
bajo. Cuando ocurre esto, qu puede hacerse para aumentar la potencia del contraste? Sabemos que
la potencia depende de tres factores: (1) el valor de , (2) el tamao del error tpico de la distribucin
muestral utilizada para realizar el contraste y (3) el verdadero valor del parmetro estudiado entre to-
dos los incluidos en H1.
Al aumentar el valor de , aumenta la potencia; por ejemplo, fijando el valor de en 0,10 (en lugar
de 0,05) y dejando todo lo dems igual, la potencia sube a 0,834. Al modifica r el valor de acierto en H1,
cambia la potencia (al aumentar la distancia entre H0 y H1, aumenta la potencia); por ejemplo, fijando
el valor de acierto en 0,70 (en lugar de 0,60) y dejando todo lo dems igual, la potencia sube a 0,850.
Por ltimo, al aumentar el tamao muestral, aumenta la potencia; por ejemplo, utilizando 20 preguntas
(en lugar de 10) y dejando todo lo dems igual, la potencia sube a 0,943.
Tomando como referencia el ejemplo del apartado anterior (ver Figura 1.2), la Tabla 1.5 muestra
los valores que toma la potencia del contraste cuando, permaneciendo todo lo dems igual, se modifi-
ca el valor de : la potencia (1 ! ) va aumentando conforme lo hace (estos valores se han calculado
siguiendo la estrategia propuesta en el apartado anterior).
La Tabla 1.6 recoge los valores que toma la potencia del contraste cuando, permaneciendo todo
lo dems igual, se modifican los valores de acierto en H1 (por supuesto, H0 permanece con acierto = 0,25):
la potencia (1 ! ) va aumentando conforme el valor de acierto en H1 se va alejando del valor de acierto
en H0 .
Captulo 1. La inferencia estadstica 41

Por ltimo, la Tabla 1.7 muestra los valores que toma la potencia del contraste cuando, perma-
neciendo todo lo dems igual, se modifican los valores del tamao muestral n, es decir, del nmero de
preguntas: la potencia (1 ! ) va aumentando conforme lo hace el valor de n.

Tabla 1.5. Valores de 1 ! en funcin de (H1: acierto = 0,60; n = 10)

0,001 0,01 0,05 0,10 0,25

1! 0,167 0,382 0,633 0,834 0,945

Tabla 1.6. Valores de 1 ! en funcin del valor de acierto en H1 ( = 0,05; n = 10)

acierto 0,30 0,40 0,50 0,60 0,70 0,80 0,90

1! 0,047 0,166 0,377 0,633 0,850 0,967 0,998

Tabla 1.7. Valores de 1 ! en funcin del tamao muestral n (H1: acierto = 0,60; = 0,05)

n 4 5 6 8 10 15 20 30 40

1! 0,130 0,337 0,544 0,594 0,633 0,787 0,943 0,979 0,997

Una buena forma de apreciar cmo va cambiando la potencia conforme lo hacen los valores de los que
depende consiste en construir grficos de lneas colocando los valores de los que depende la potencia
en el eje horizontal y los valores de la potencia en el vertical. Se obtienen as las llamadas curvas de
potencia. La Figura 1.3 muestra dos de estas curvas. La curva de la izquierda se ha obtenido a partir
de los datos de la Tabla 1.6; por tanto, muestra cmo va aumentando la potencia conforme lo va ha-
ciendo la distancia entre H0 y H1 . La curva de la derecha se ha obtenido a partir de los datos de la Ta-
bla 1.7; por tanto, muestra cmo va aumentando la potencia conforme lo va haciendo n (el nmero de
preguntas)27.

Figura 1.3. Valores de 1 ! en funcin del valor de acierto H1 (izquierda) y en funcin del tamao muestral n (derecha)
1,0 1,0

0,8 0,8

0,6 0,6
1

0,4 0,4

0,2 0,2

0,0 0,0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 5 10 15 20 25 30 35 40
acierto | H1 n

27
Las curvas aparecen escalonadas porque la distribucin muestral que se est utilizando, la binomial, es una distribucin
discreta. Por la misma razn, los valores de las Tablas 1.5 a la 1.7 son aproximados: no hay un punto de corte que deje exac-
tamente por encima de s una probabilidad igual a 0,05.
42 Anlisis de datos (vol. II)

La Figura 1.4 (grfico de la izquierda) se ha construido a partir de los datos de la Tabla 1.5. A la curva
que se obtiene con los valores de y 1 ! se le suele llamar curva COR (curva caracterstica de ope-
racin del receptor)28. En el contexto de los contrastes de hiptesis, la curva COR indica cmo va
aumentando la potencia a medida que lo hace , es decir, a medida que se va modificando el punto de
corte en el que se basa la decisin del contraste (no olvidemos que el punto de corte depende del valor
asignado a ). Por tanto, la curva COR permite formarse una idea bastante precisa sobre la capacidad
de un contraste para discriminar entre H0 y H1. Esta capacidad es tanto mayor cuanto ms se acerca la
curva a la esquina superior izquierda. Solamente de esa manera es posible obtener, simultneamente,
valores iguales o menores que 0,05 y potencias iguales o mayores que 0,80 (que son los valores co-
mnmente considerados aceptables).
El punto en el que la curva corta la diagonal trazada en el grfico representa el punto en el que
ambos errores (Tipo I y Tipo II) toman el valor ms pequeo. En la curva de la izquierda (que corres-
ponde a los datos de la Tabla 1.5), este punto de corte ofrece valores aproximados de 0,14 para y de
0,85 para la potencia (es decir, 0,15 para ). Tomando para la potencia un valor de 0,80 ( = 0,20), el
valor de baja hasta aproximadamente 0,08. Estos valores indican que, al contrastar H0: acierto = 0,25
frente a H1 : acierto = 0,60 con n = 10, la capacidad del contraste para discriminar entre H0 y H1 no es
lo bastante buena.
La Tabla 1.8 contiene la misma informacin que la 1.5, pero para el caso H1 : acierto = 0,70. La
Figura 1.4 (grfico de la derecha) representa esta nueva situacin. Al aumentar la distancia entre H0
y H1, la curva COR se aproxima ms a la esquina superior izquierda. Y esto indica que la capacidad
de discriminacin del contraste ha aumentado. De hecho, ahora, cuando vale 0,05, la potencia al-
canza 0,85. Y estos valores ya son aceptables. El punto que minimiza ambos errores (punto en el que
la diagonal trazada en el grfico corta la curva) ofrece un valor aproximado de 0,08 para y de 0,95
para la potencia (0,05 para ).

Tabla 1.8. Valores de 1 ! en funcin de (H1: acierto = 0,70; n = 10)

0,001 0,01 0,05 0,10 0,25

1! 0,383 0,650 0,850 0,953 0,990

Figura 1.4. Valores de 1 ! en funcin de (curvas COR). Izquierda: H1: acierto = 0,60. Derecha: H1: acierto = 0,70
1,0 1,0

0,8 0,8

0,6 0,6
1
1

0,4 0,4

0,2 0,2

0,0 0,0
0,0 0,20 0,40 0,60 0,80 1,0 0,0 0,20 0,40 0,60 0,80 1,0

28
Es muy utilizada en contextos en los que es necesario tomar decisiones con incertidumbre porque ayuda a encontrar el
punto de corte que minimiza los dos tipos de error inherentes a toda decisin. Por ejemplo, en una situacin como la des-
crita en la Tabla 1.3, permite identificar el punto de corte que maximiza la sensibilidad y la especificidad de la prueba
diagnstica (ver Franco y Vivo, 2007).
Captulo 1. La inferencia estadstica 43

Ejercicios Soluciones en www.sintesis.com

1.1. En un contraste de hiptesis, la probabilidad de rechazar una hiptesis nula que es verdadera se deno-
mina:
a. Error tipo I.
b. Nivel crtico.
c. Nivel de confianza.
d. Potencia.
e. Nivel de significacin.

1.2. Supongamos que se desea evaluar la eficacia de un tratamiento. Para ello, se selecciona aleatoriamen-
te una muestra de pacientes y se forman, tambin aleatoriamente, dos grupos: experimental y control.
Al grupo experimental se le aplica el tratamiento; al grupo control se le aplica un placebo. Tras recoger
los datos y comparar los grupos se obtiene un resultado significativo ( p = 0,001). Teniendo en cuenta
este escenario, sealar como verdadera o falsa cada una de las siguientes afirmaciones:
a. Se ha conseguido probar definitivamente la eficacia del tratamiento.
b. Se conoce o puede deducirse la probabilidad de que la hiptesis nula sea verdadera.
c. Se conoce o puede deducirse la probabilidad de que la hiptesis nula sea falsa.
d. Si se decide rechazar la hiptesis nula, se conoce la probabilidad de que la decisin sea incorrecta.
e. Si se repitiera el experimento un gran nmero de veces, cabra esperar encontrar un resultado sig-
nificativo en el 99,9 % de las veces.
f. Si se mantiene la hiptesis nula, puede concluirse que los grupos no difieren.

1.3. La siguiente tabla ofrece los valores y las distribuciones del estadstico W :

W !2 !1 0 1 2 3 4
f (W ) | H0 0,00 0,03 0,10 0,20 0,50 0,10 0,07
f (W ) | H1 0,05 0,25 0,30 0,20 0,10 0,10 0,00

Si establecemos, como regla de decisin, Rechazar H0 si W toma un valor menor que 0; mantenerla
en caso contrario,
a. Cul es la probabilidad de mantener H0 siendo falsa?
b. Cul es la probabilidad de rechazar H0 siendo verdadera?

1.4. La siguiente tabla muestra las funciones de probabilidad acumuladas del estadstico V bajo H0 y bajo
una determinada H1. En un contraste unilateral izquierdo se ha obtenido V = !1.

V !1 !0,5 0 0,5 1 1,5 2


F (V ) | H0 0,03 0,05 0,37 0,65 0,90 0,97 1,00
F (V ) | H1 0,15 0,35 0,63 0,77 0,85 0,94 1,00

a. Establecer una regla de decisin en trminos de probabilidad.


b. Qu decisin debe tomarse sobre H0? Por qu?
c. Cunto vale el nivel crtico (valor p)?
d. Cunto vale la potencia del contraste si = 0,05?
44 Anlisis de datos (vol. II)

1.5. El estadstico se distribuye segn muestra en la siguiente tabla:

n1 0 1 2 3 4
f (n1 ) con = 0,40 0,130 0,345 0,345 0,154 0,026
f (n1 ) con = 0,60 0,026 0,154 0,345 0,345 0,130

Si utilizamos n1 para contrastar, con = 0,05, las hiptesis H0 : = 0,40 y H1 : = 0,60,


a. Cul ser la decisin sobre H0 si n1 = 3?
b. Qu tipo de error se podra estar cometiendo con esta decisin?
c. Cunto vale la probabilidad de cometer ese error?
d. Cunto vale la potencia del contraste?

1.6. Un test de aptitud consta de 5 preguntas, cada una con 5 alternativas de las que solamente una es correc-
ta. La tabla ofrece la distribucin muestral de la variable naciertos = nmero de aciertos cuando un su-
jeto responde al azar (H0) y cuando responde de acuerdo con lo que sabe (H1):

naciertos 0 1 2 3 4 5
f (nacierto ) | H0 0,328 0,409 0,205 0,051 0,006 0,001
f (nacierto ) | H1 0,168 0,360 0,309 0,132 0,029 0,002

a. Cuntas preguntas cabe esperar que acierte el sujeto si contesta al azar?


b. Cul es la probabilidad de que el sujeto acierte ms de 3 preguntas si responde al azar?
c. Cul es la probabilidad de que el sujeto acierte ms de 3 preguntas si responde de acuerdo con lo
que sabe?
d. Si = 0,002, qu nmero mnimo de aciertos son necesarios para poder rechazar H0?

1.7. Un investigador ha utilizado dos estadsticos de contraste diferentes, T1 y T2, para contrastar la misma
hiptesis de igualdad de medias. La siguiente tabla muestra los posibles valores de estos estadsticos
junto con sus funciones de probabilidad acumuladas bajo H0 :

T1 , T2 0 1 2 3 4 5 6 7 8
F (T1) 0,070 0,236 0,399 0,456 0,544 0,601 0,764 0,930 1,000
F (T2) 0,000 0,126 0,250 0,366 0,500 0,634 0,750 0,874 1,000

Sabiendo que el contraste es unilateral derecho y que en una determinada muestra aleatoria se ha ob-
tenido T1 = T2 = 7,
a. Si el investigador decide utilizar un nivel de significacin de 0,10, deber rechazar la hiptesis nula:
( ) solo con T1, ( ) solo con T2, ( ) con ninguno de los dos, ( ) con ambos. Por qu?
b. Si se asume que las distribuciones muestrales de T1 y T2 son simtricas, cules son los valores
esperados de T1 y T2 ?

1.8. (Indicar cul de las siguientes afirmaciones es verdadera.) En un contraste unilateral derecho, con un
nivel de significacin de 0,05,
a. La probabilidad de mantener H0 siendo falsa vale 0,05.
b. La probabilidad de rechazar H0 siendo falsa vale 0,05.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. La probabilidad de mantener H0 siendo falsa vale 0,95.
e. La probabilidad de rechazar H0 siendo verdadera vale 0,95.
Captulo 1. La inferencia estadstica 45

1.9. Un investigador afirma que, entre los estudiantes universitarios, la proporcin de fumadoras es mayor
que la de fumadores. Tras efectuar una encuesta, ha comparado la proporcin de fumadoras con la pro-
$ ellos; H1: ellas > ellos ) y ha obtenido, para el estadstico del contras-
porcin de fumadores (H0: ellas <
te, un valor T = 2,681. La siguiente tabla ofrece la funcin de distribucin (probabilidades acumula-
das) de algunos valores del estadstico T:

T !0,539 0,000 0,539 1,356 1,782 2,179 2,681 3,055


F (T ) | H0 0,300 0,500 0,700 0,900 0,950 0,975 0,990 0,995

a. Puede afirmarse que los datos confirman la hiptesis del investigador? Por qu? ( = 0,05)
b. Qu valores del estadstico T llevarn a rechazar H0 con = 0,05?

1.10. Un terapeuta afirma que una determinada terapia antidepresiva consigue recuperaciones aceptables en
ms del 80 % de los pacientes tratados. Un colega suyo piensa que la proporcin de recuperaciones
aceptables es menor que el 80 %. Ambos realizan un estudio para contrastar sus respectivas hiptesis
con = 0,05:
a. Qu hiptesis estadsticas debe plantear cada terapeuta?
b. Al contrastar su hiptesis nula el primer terapeuta obtiene un nivel crtico p = 0,818. Utilizando
un nivel de confianza de 0,95, qu decisin debe tomar? Por qu?
c. Al contrastar su hiptesis nula el segundo terapeuta obtiene un nivel crtico p = 0,002. Utilizando
un nivel de confianza de 0,95, qu decisin debe tomar? Por qu?
d. Cul de los dos terapeutas tiene razn?, tienen razn los dos?, ninguno de los dos?

1.11. En 1990 fumaba el 30 % de los universitarios madrileos. Un investigador cree que en los ltimos aos
ese porcentaje ha aumentado. Para comprobarlo, selecciona una muestra aleatoria y obtiene un esta-
dstico al que, en la distribucin correspondiente a F = 0,30, le corresponde el centil 93.
a. Plantea las hiptesis estadsticas del contraste.
b. Qu decisin debe tomarse sobre H0 con = 0,05? Por qu?

1.12 Al comparar dos medias independientes en un contraste unilateral izquierdo se ha obtenido, para el
$ !0,92) = 0,20 y utilizando = 0,05 (elegir la al-
estadstico T un valor de !0,92. Sabiendo que P (T <
ternativa correcta):
a. Debe rechazarse H0 porque T cae en la zona crtica.
b. Debe mantenerse H0 porque 0,20 > 0,05.
c. Debe rechazarse H0 porque !0,92 < 0,20.
d. No se puede concluir nada porque se desconocen los grados de libertad de la distribucin de T.
e. Debe concluirse que las medias poblacionales comparadas no son iguales.

1.13. La potencia de un contraste aumenta cuando, permaneciendo lo dems igual:


a. Aumenta el nivel de confianza.
b. Aumenta la varianza de la poblacin.
c. Disminuye el nivel crtico.
d. Aumenta la probabilidad de cometer errores Tipo II.
e. Disminuye la probabilidad de cometer errores Tipo I.

1.14 Queremos averiguar si los hombres y las mujeres opinan de forma distinta sobre la normativa relati-
va al carn por puntos. Para ello se ha seleccionado una muestra aleatoria de 200 personas (100 de
cada sexo) y se les ha preguntado si estn a favor o en contra del carn por puntos. Todos los sujetos
han respondido en una escala de 0 (muy en contra) a 100 (muy a favor):
46 Anlisis de datos (vol. II)

a. Con cuntas variables se est trabajando? Cul o cules son estas varaibles?
b. Qu hiptesis nula plantearas?
c. Qu contraste aplicaras para analizar los datos?
d. Si el estadstico del contraste tomara un valor de 5, debera rechazarse H0? Por qu?

1.15. Al comparar las medias de dos grupos mediante un contraste unilateral derecho el estadstico del con-
traste T ha tomado el valor 2,63. Sabiendo que P (T > 2,63) = 0,075 y utilizando un nivel de signifi-
cacin = 0,05:
a. Se debe rechazar H0 porque T cae en la zona crtica.
b. Se debe mantener H0 porque 0,075 > 0,05.
c. Se debe rechazar H0 porque 0,075 > 0,05.
d. Se debe concluir que las medias poblacionales difieren entre s.
e. Se debe concluir que las medias muestrales son iguales.

1.16. En un contraste unilateral derecho se ha obtenido para el estadstico del contraste H un valor de 6,13.
Sabiendo que P (H < 6,13) = 0,05:
a. La decisin razonable es mantener H0.
b. La decisin razonable es rechazar H0.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. Se puede rechazar H0 con una probabilidad de equivocarse de 0,05.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarse vale al menos 0,05.

1.17. Para contrastar una determinada hiptesis nula se han utilizado dos estadsticos: V y W. Se sabe que
V se distribuye segn el modelo de probabilidad t de Student y que W se distribuye segn el modelo
de probabilidad normal N (0, 1). En una muestra aleatoria concreta se ha obtenido V = W = k. Segn es-
to, siendo k un valor cualquiera y dado un mismo nivel de significacin (elegir la/s alternativa/s correc-
ta/s):
a. Si se mantiene H0 con V, es imposible rechazarla con W.
b. Si se rechaza H0 con V, necesariamente se rechazar con W.
c. Es ms probable rechazar H0 con V que con W.
d. Si se mantiene H0 con V, necesariamente se mantendr con W.
e. Si se rechaza H0 con V, es posible mantenerla con W.
2
Inferencia con una variable

En el Captulo 9 del primer volumen ya hemos empezado a estudiar qu puede hacerse con
una sola variable desde el punto de vista inferencial. En concreto, hemos estudiado qu puede
hacerse (1) con una variable dicotmica: contrastar hiptesis sobre una proporcin con la
prueba binomial y construir intervalos de confianza sobre el parmetro 1; (2) con una varia-
ble politmica: contrastar hiptesis acerca de cmo se distribuyen las frecuencias asociadas
a cada categora de la variable (bondad de ajuste con la prueba X 2 de Pearson) y construir
intervalos de confianza para la proporcin terica de cada categora; y (3) con una variable
cuantitativa: contrastar hiptesis sobre el valor de su media poblacional con la prueba T de
Student y construir intervalos de confianza sobre el parmetro Y. No presentaremos nuevos
procedimientos para el anlisis de una variable categrica (dicotmica o politmica); los ya
estudiados sirven para responder las preguntas que suelen plantearse con este tipo de varia-
bles. Pero con una variable cuantitativa es posible hacer ms cosas.
Recordemos que, para describir correctamente una variable cuantitativa debemos prestar
atencin a tres propiedades de su distribucin: centro, dispersin y forma. Pues bien, desde
el punto de vista inferencial tambin es posible estudiar esas mismas tres propiedades. En
relacin con el centro de la distribucin, estudiaremos la prueba de Wilcoxon y la prueba de
los signos. Para estudiar la dispersin presentaremos el contraste sobre una varianza y ten-
dremos ocasin de comprobar que, en determinadas circunstancias, puede resultar bastante
til. Y en lo relativo a la forma de la distribucin estudiaremos la prueba de Kolmogorov-
Smirnov, que sirve para contrastar hiptesis sobre bondad de ajuste con variables cuantitativas
(de modo similar a como hace la prueba X 2 de Pearson con variables categricas).

Contrastes sobre el centro de una distribucin


Aunque ya hemos visto cmo contrastar hiptesis sobre la media de una distribucin con la
prueba T de Student para una muestra (ver, en el Captulo 9 del primer volumen, el aparta-
do Contraste sobre una media), en este captulo estudiaremos la prueba de Wilcoxon y la
prueba de los signos, ambas para una muestra. Estas pruebas pueden utilizarse para contras-
tar hiptesis sobre el centro de una distribucin cuando no se dan las condiciones idneas
para poder aplicar la prueba T de Student.
48 Anlisis de datos (vol. II)

La prueba de Wilcoxon para una muestra


La prueba T de Student para una muestra sirve para contrastar hiptesis sobre el parmetro
Y, es decir, sobre el centro de la distribucin de una variable cuantitativa. Posee excelentes
propiedades que hacen de ella la mejor eleccin para estudiar el centro de una distribucin
cuando se dan las condiciones idneas para su aplicacin: independencia de las observacio-
nes y normalidad de la poblacin muestreada.
El problema es que esas condiciones no siempre se dan. En particular, en las ciencias so-
ciales y de la salud es relativamente frecuente tener que trabajar con poblaciones que no son
normales. Ya sabemos que, con tamaos muestrales grandes, la ausencia de normalidad no
constituye un problema importante. Pero, si adems de tener que trabajar con poblaciones que
no son normales, hay que hacerlo con muestras pequeas, la prueba T pierde precisin. La
prueba de Wilcoxon (1945, 1949) permite contrastar hiptesis sobre el centro de una varia-
ble cuantitativa (igual que la prueba T ) sin necesidad de asumir normalidad.
Consideremos una variable Y medida con una escala de intervalos o razn. Supongamos
que la mediana poblacional de Y, es decir, MdnY, vale k0. Supongamos, adems, que seleccio-
namos una muestra aleatoria de m observaciones Yi y que calculamos las diferencias entre ca-
da valor Yi y la mediana k0:
D i = Y i ! k0 (i = 1, 2, ..., m) [2.1]
Desechemos las diferencias nulas (si existen) y consideremos nicamente las n diferencias
no nulas (n <$ m). Asignemos rangos (Ri) de 1 a n al valor absoluto de esas diferencias no nu-
las: el rango 1 a la |Di | ms pequea, el rango 2 a la |Di | ms pequea de las restantes, ..., el
rango n a la |Di | ms grande (i = 1, 2, ..., n). Si existen diferencias empatadas, es decir, |Di |
iguales, se asigna a cada una de ellas el promedio de los rangos que les hubiera correspon-
dido de no estar empatadas (por ejemplo, si a tres diferencias empatadas les corresponden los
rangos 5, 6 y 7, asignaremos a cada una de ellas el rango promedio (5 + 6 + 7) / 3 = 6).
Sumemos ahora, por un lado, los rangos positivos R i (+) , es decir, los rangos correspon-
dientes a las diferencias en las que Yi > k0 , y llamemos S+ a esta suma; sumemos, por otro
lado, los rangos negativos Ri (!), es decir, los rangos correspondientes a las diferencias en las
que Yi < k0 y llamemos S! a esta otra suma.
Si k0 es el verdadero valor de la mediana poblacional, habr tantos valores Yi por deba-
jo de k0 como por encima. O, lo que es lo mismo: P (Yi < k0) = P (Yi > k0). Y esto significa
que, en una muestra aleatoria de valores Yi, habr tantas diferencias Di positivas como nega-
tivas (salvando, por supuesto, las fluctuaciones atribuibles al azar muestral). Pero, adems,
si la distribucin de la variable Yi es simtrica, el tamao de las diferencias D i correspon-
dientes a los valores Yi > k0 ser, en la poblacin, idntico al de las diferencias correspondien-
tes a los valores Yi < k0, de donde cabe deducir que

= . = [2.2]

En este escenario, una fuerte discrepancia entre los valores muestrales S+ y S! estara indi-
cando que k0 no es el verdadero valor de la mediana poblacional de Y. Por tanto, las sumas
S+ y S! pueden utilizarse para contrastar hiptesis del tipo MdnY = k0.
Ahora bien, para que esto sea posible, es necesario conocer la distribucin muestral de
S+ (o de S!). Con muestras pequeas es relativamente fcil obtener esta distribucin muestral
(ver, por ejemplo, Pardo y San Martn, 1998, pgs. 421-422): la Tabla M del Apndice final
Captulo 2. Inferencia con una variable 49

ofrece algunos cuantiles de las distribuciones exactas de S+ correspondientes a tamaos mues-


trales comprendidos entre 4 y 40. Y el Cuadro 2.1 ofrece un resumen de los pasos que pue-
den seguirse para contrastar la hiptesis nula H0 : MdnY = k0 utilizando el estadstico S+ y su
distribucin muestral1.

Cuadro 2.1. Resumen de la prueba de Wilcoxon para una muestra

1. Hiptesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY < $ k0; H1: MdnY > k0 .
c. Contraste unilateral izquierdo: H0: MdnY > $ k0; H1: MdnY < k0 .
(k0 se refiere al valor concreto de MdnY que interesa contrastar)
2. Supuestos: muestra aleatoria de m observaciones de una variable cuantitativa Yi (de
las que se desechan los valores Yi = k0) procedente de una distribucin simtrica (el
supuesto de simetra implica que las inferencias efectuadas sobre la mediana son tras-
ladables a la media).
3. Estadstico del contraste: = . [2.6]
4. Distribucin muestral: los puntos crticos de la distribucin muestral de S+ se encuen-
tran tabulados en la Tabla M del Apndice final.
5. Zonas crticas:
a. Contraste bilateral: S+ < s/2 y S+ > s1 ! /2 .
b. Contraste unilateral derecho: S+ > s1 ! .
c. Contraste unilateral izquierdo: S+ < s .
6. Decisin: se rechaza H0 si S+ cae en la zona crtica; en caso contrario, se mantiene.

1
Conforme aumenta el tamao muestral, el espacio muestral correspondiente a los posibles valores S+ va aumentando rpi-
damente y la obtencin de su distribucin exacta se va haciendo ms complicada. En estos casos se puede recurrir al teorema
del lmite central y utilizar la aproximacin normal (sta es la solucin que utiliza el SPSS, aunque con una variante que
veremos ms adelante).
Sabemos (ver, por ejemplo, Conover, 1980, pgs. 36-40) que la suma y la suma al cuadrado de los n primeros nmeros
enteros (1 + 2 + + n) valen, respectivamente:

y [2.3]

A partir de aqu, y teniendo en cuenta que S+ es la suma de la mitad aleatoria de los n primeros enteros, se obtiene:

y [2.4]

Por tanto, conforme el tamao muestral va aumentando, la transformacin:

[2.5]

tiende a distribuirse segn el modelo de probabilidad normal N(0, 1). Lo cual significa que con muestras grandes es posible
utilizar el estadstico Z y su distribucin aproximada N (0, 1) para contrastar la hiptesis MdnY = k0.
50 Anlisis de datos (vol. II)

7. Nivel crtico (valor p):


a. Contraste bilateral: p = 2 [P (S+ < S )], donde S se refiere al menor de S+ y S! .
b. Contraste unilateral derecho: p = P (S+ > Sh), donde Sh se refiere al valor muestral
concreto que toma S+ .
c. Contraste unilateral izquierdo: p = P (S+ < Sh).

Ejemplo. La prueba de Wilcoxon para una muestra


Algunos datos sugieren que el peso (Y ) de los recin nacidos de madres fumadoras es ms
bajo que el de los recin nacidos de madres no fumadoras. Pero esta informacin no indica
si el peso de los recin nacidos de madres fumadoras es, en promedio, menor que el nivel con-
siderado normal (2,50 kg ). La Tabla 2.1 contiene el peso de una muestra aleatoria de 14 re-
cin nacidos de madres fumadoras (ordenados de menor a mayor para facilitar los clculos).
La mediana de estos 14 pesos vale 2,19. Permiten estos datos concluir que el peso promedio
de los recin nacidos de madres fumadoras es menor que 2,50 kg? ( = 0,05).

Tabla 2.1. Peso en kg (Yi ) de 14 recin nacidos de madres fumadoras


Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64

Tenemos una variable cuantitativa y estamos interesados en estudiar el centro de su distribu-


cin. Podramos utilizar la prueba T de Student para una muestra (ya estudiada en el Captulo
9 del primer volumen), que con estos datos, toma un valor de !0,28 y tiene asociado un nivel
crtico p = 0,394 (lo cual nos habra llevado a tomar la decisin de mantener la hiptesis nula
de que la media poblacional vale 2,50). Pero como no sabemos si la variable peso se distribu-
ye normalmente y el tamao de la muestra es pequeo, optamos por la prueba de Wilcoxon
para una muestra, que no exige normalidad.
1. Hiptesis: H0: MdnY > $ 2,50; H1: MdnY < 2,50 (contraste unilateral izquierdo).
2. Supuestos: muestra aleatoria de 14 diferencias obtenidas al medir una variable cuantitativa
cuya distribucin se asume que es simtrica.
3. Estadstico del contraste: S+ = j R i (+) = 10 + 12 + 14 = 36.
Para obtener S+ hemos comenzado calculando las diferencias Di = Yi ! 2,50 y asignando
rangos, R i, a los valores absolutos de cada diferencia Di (ver Tabla 2.2).

Tabla 2.2. Diferencias y rangos correspondientes a los datos de la Tabla 2.1

Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
Di !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
| Di | 1,02 0,70 0,57 0,52 0,48 0,42 0,32 0,30 0,20 0,05 0,03 0,65 0,96 2,14
Ri 13 11 9 8 7 6 5 4 3 2 1 10 12 14
Captulo 2. Inferencia con una variable 51

4. Distribucin muestral: los puntos crticos de la distribucin muestral exacta de S+ estn


tabulados en la Tabla M del Apndice final.
5. Zona crtica (con n = 14 y = 0,05): S+ < s0,05 = 26.
6. Decisin: como el valor del estadstico del contraste (36) es mayor que el punto crtico
(26), se mantiene H0. Por tanto, los datos no aportan evidencia suficiente para pensar que
la mediana (la media si asumimos simetra) del peso de los recin nacidos de madres fu-
madoras es menor que 2,5 kg.
7. Nivel crtico: p = P (S+ < 36) . 0,15 (este valor se ha obtenido interpolando los valores
s0,10 = 32 y s0,20 = 39).

La prueba de los signos para una muestra


Ya hemos presentado dos procedimientos para estudiar el centro de una variable cuantitati-
va: la prueba T de Student para una muestra (ver Captulo 9 del primer volumen) y la prueba
de Wilcoxon para una muestra (ver apartado anterior). La prueba T asume normalidad; la
prueba de Wilcoxon asume simetra. Y ambas exigen datos obtenidos con una escala de inter-
valo o razn. En este apartado se presenta un procedimiento que no requiere establecer ningn
supuesto sobre la forma de la poblacin original y que nicamente exige nivel de medida or-
dinal: la prueba de los signos para una muestra. Esta prueba, tambin llamada binomial, no
solo es una de las ms antiguas, sino que ha servido de base para el desarrollo de otras mu-
chas. Su lgica es ms bien elemental y los clculos necesarios para su obtencin son trivia-
les. Ya la hemos presentado en el Captulo 9 del primer volumen aplicada al estudio de una
variable dicotmica (para contrastar hiptesis sobre una proporcin). Aqu la estudiaremos
para efectuar inferencias sobre la mediana2 de una variable cuantitativa3.
Consideremos una variable Y medida con una escala al menos ordinal. Supongamos que
la mediana poblacional de Y, es decir, MdnY , vale k0. Supongamos, adems, que selecciona-
mos una muestra aleatoria de m observaciones Yi y que calculamos las diferencias entre cada
valor Yi y k0:
D i = Y i ! k0 (i = 1, 2, ..., m) [2.7]
Desechemos las diferencias nulas (si existen) y consideremos nicamente las n diferencias
$ m). Calculemos el nmero de diferencias positivas (n+) y el nmero de diferen-
no nulas (n <
cias negativas (n!). Si k0 es el verdadero valor poblacional de MdnY, en la poblacin habr
tantos valores Yi por encima de k0 como por debajo, es decir,
+ = ! [2.8]

2
Esto supone restringir su aplicacin al caso en el que se verifica + = 0,50. En el Apndice 2 se incluye una descripcin
de la prueba de los signos para el caso general, es decir para cuando + = k0 (a esta variante de la prueba de los signos se le
suele llamar prueba de los cuantiles).
3
La prueba de los signos permite, al igual que la de Wilcoxon, contrastar hiptesis sobre el centro de una distribucin (en
concreto, sobre la mediana). La diferencia ms evidente entre ambas es que la prueba de Wilcoxon aprovecha la informacin
ordinal de los datos mientras que la de los signos nicamente aprovecha la informacin nominal. Como contrapartida, la
prueba de Wilcoxon exige nivel de medida de intervalos o razn (pues asume simetra de la distribucin) mientras que la
de los signos nicamente exige nivel de medida ordinal (la mediana es un estadstico ordinal).
52 Anlisis de datos (vol. II)

Por tanto, al extraer aleatoriamente n observaciones de esa poblacin y clasificarlas depen-


diendo de que su puntuacin en Y sea mayor (+) o menor (!) que k0 , cabe esperar encontrar
tantos signos positivos como negativos (salvando, por supuesto, las fluctuaciones propias del
azar muestral). Es decir,

n+ . n! [2.9]

Una fuerte discrepancia entre n+ y n! estara indicando que el valor de la mediana poblacional
no es k0. La clave est precisamente en poder determinar cundo una discrepancia entre n+ y
n! es lo bastante grande como para poder afirmar que, efectivamente, el valor de la mediana
poblacional no es k0. Para esto es necesario conocer las distribuciones muestrales de n+ y n!.
Ahora bien, recordemos4 que si se realizan n ensayos independientes de una variable alea-
toria que solamente puede tomar dos valores (1= xito, 0 = fracaso), la variable n1 = n-
mero de xitos en los n ensayos se distribuye segn el modelo de probabilidad binomial con
parmetros n y 1. Por tanto, bajo la hiptesis H0: MdnY = k0, la variable aleatoria n+ se
distribuir segn el modelo de probabilidad binomial con parmetros n y + = 0,50 (decimos
+ = 0,50 porque, si H0 es verdadera, entonces + = !). Esto tambin sirve para n+.
El modelo binomial, en consecuencia, ofrece las probabilidades asociadas al estadstico
n+ y eso es todo lo que necesitamos para poder disear un contraste sobre MdnY basado en ese
estadstico. Pero tambin sabemos5 que, a medida que n va aumentando, la distribucin de n+
(binomial) se va aproximando a la normal con parmetros:

E (n +) = = n + = n / 2
[2.10]
V (n +) = = n + (1 ! +) = n / 4 =

por lo que, conforme n va aumentando, la transformacin

Z = = [2.11]

tiende a distribuirse N (0, 1). Esto significa que tambin es posible utilizar la transformacin
Z y la distribucin normal tipificada para contrastar la hiptesis MdnY = k0 . El cuadro 2.2
ofrece un resumen del procedimiento.

Cuadro 2.2. Resumen de la prueba de los signos para una muestra

1. Hiptesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY <$ k0; H1: MdnY > k0 .
$ k0; H1: MdnY < k0 .
c. Contraste unilateral izquierdo: H0: MdnY >
2. Supuestos: muestra aleatoria de m observaciones resultado de medir una variable Y al
menos ordinal. Cada valor de la variable es clasificado como mayor, menor o igual
que k0 para obtener:

4
Ver, en el Captulo 3 del primer volumen, el apartado sobre la distribucin binomial.
5
Ver, en el Captulo 5 del primer volumen, el apartado Aproximacin de la distribucin binomial a la normal.
Captulo 2. Inferencia con una variable 53
678

n+ = nmero de valores Yi mayores que k0 (n de diferencias positivas).


n! = nmero de valores Yi menores que k0 (n de diferencias negativas).
n = = nmero de valores Yi iguales que k0 (n de empates).
De la muestra de m observaciones se eliminan los n= empates y se trabaja con las res-
tantes n = n+ + n! observaciones6.
3. Estadsticos del contraste7:
3.1. n+ = nmero de diferencias Di positivas.

3.2. Z = (ver ecuacin [2.11])

4. Distribuciones muestrales:
4.1. n+ se distribuye segn el modelo de probabilidad binomial con parmetros n y
+ = 0,50.
4.2. Z se aproxima al modelo de distribucin de probabilidad normal N (0, 1) a medi-
da que el tamao muestral n va aumentando8.
5. Reglas de decisin:
a. Contraste bilateral:
a.1. Se rechaza H0 si n+ toma un valor tan alejado de su valor esperado bajo H0
que la probabilidad de obtener un valor tan alejado como se o ms es me-
nor que / 2.
a.2. Se rechaza H0 si Z $ $ Z1!/2 .
< Z/2 o Z >
b. Contraste unilateral derecho:
b.1. Se rechaza H0 si n+ toma un valor tan grande que la probabilidad de obtener
un valor como se o mayor es menor que .
b.2. Se rechaza H0 si Z $
> Z1! .
c. Contraste unilateral izquierdo:
c.1. Se rechaza H0 si n+ toma un valor tan pequeo que la probabilidad de obte-
ner un valor como se o ms pequeo es menor que .
c.2. Se rechaza H0 si Z $
< Z .

6
Conviene que la variable estudiada sea continua para evitar que aparezcan valores iguales a la mediana (empates). Aun
as, la variable puede no ser continua. Y tanto si lo es como si no, los empates se desechan porque no informan sobre H0.
7
Recordemos que, si n no es muy grande, la aproximacin es un poco ms exacta aplicando una pequea modificacin lla-
mada correccin por continuidad, que consiste en sumar (si n+ es menor que n +) o restar (si n+ es mayor que n +) 0,5 a n+
para hacer el contraste algo ms conservador:

[2.12]

8
Tenemos dos estadsticos. El primero de ellos (n+) tiene distribucin muestral exacta (la binomial); el segundo (Z) tiene
una distribucin muestral aproximada (la normal tipificada). El primero es preferible con muestras pequeas (por ejemplo,
con n $
< 20, que es el tope de la tabla binomial del Apndice final). Z solamente debe utilizarse con muestras grandes (ver,
en el Captulo 5 del primer volumen, el apartado Aproximacin de la distribucin binomial a la normal).
54 Anlisis de datos (vol. II)

6. Nivel crtico (valor p):


a. Contraste bilateral:
a.1. Con el estadstico n+, el nivel crtico es el doble de la probabilidad de obte-
ner un valor n+ tan alejado de su valor esperado bajo H0 como el obtenido.
a.2. Con el estadstico Z, p = 2 [P (Z > $ *Zh*)], siendo Zh el valor concreto que
toma el estadstico Z.
b. Contraste unilateral derecho:
b.1. Con el estadstico n+, el nivel crtico es la probabilidad de obtener un valor
n+ tan grande como el obtenido o mayor.
b.2. Con el estadstico Z, p = P (Z >$ Zh).
c. Contraste unilateral izquierdo:
c.1. Con el estadstico n+, el nivel crtico es la probabilidad de obtener un valor
n+ tan pequeo como el obtenido o menor.
c.2. Con el estadstico Z, p = P (Z <$ Zh).

Ejemplo. La prueba de los signos para una muestra


En el primer ejemplo de este captulo hemos aplicado la prueba de Wilcoxon a los datos de
la Tabla 2.1 para averiguar si la mediana del peso de los recin nacidos de madres fumadoras
es menor de 2,50 kg. Los resultados obtenidos nos han llevado a concluir que no es posible
afirmar que la mediana sea menor de 2,50 kg.
El problema de aplicar la prueba de Wilcoxon a los datos de la Tabla 2.1 es que es nece-
sario asumir que la distribucin de la variable peso es simtrica. Y ocurre que, en principio,
no parece razonable asumir tal cosa. En primer lugar, el histograma de la variable peso parece
indicar que la distribucin de la variable es asimtrica positiva (ver Figura 2.1). En segundo
lugar, el ndice de asimetra vale 1,75 con un error tpico de 0,60. Y el cociente entre este
ndice y su error tpico vale 1,75 / 0,60 = 2,92, lo cual est indicando, al igual que el histogra-
ma, que la distribucin de la variable peso adolece de asimetra positiva (ver, en el Captu-
lo 4 del primer volumen, el apartado ndices de asimetra y curtosis).

Figura 2.1. Histograma correspondiente a los datos de la Tabla 2.1


Captulo 2. Inferencia con una variable 55

Dadas las caractersticas de la variable peso, parece razonable aplicar un procedimiento que
no asuma asimetra. Veamos a qu conclusin llegamos con la prueba de los signos (segui-
mos utilizando = 0,05):
1. Hiptesis: H0: MdnY > $ 2,50; H1: MdnY < 2,50 (contraste unilateral izquierdo).
2. Supuestos: muestra aleatoria de 14 observaciones de una variable al menos ordinal.
3. Estadstico del contraste: n+ = 3 (nmero de diferencias positivas entre cada peso y el
valor 2,50 hipotetizado para la mediana; ver Tabla 2.2).
4. Distribucin muestral: n+ se distribuye segn el modelo de probabilidad binomial con
parmetros n = 14 y + = 0,50.
5. Regla de decisin: se rechaza H0 si n+ toma un valor tan pequeo que la probabilidad de
obtener un valor como se o ms pequeo es menor que = 0,05. En la distribucin bino-
$ 3) = 0,029.
mial (Tabla A del Apndice final), con n = 14 y + = 0,50, se obtiene: P (n+ <
6. Decisin: puesto que 0,029 < 0,05, se rechaza H0. Podemos concluir que el valor pobla-
cional del la mediana del peso de los recin nacidos de madres fumadoras es menor que
2,50 kg.
$ 3) = 0,029.
7. Nivel crtico: p = P (n+ <

Prueba T, la de Wilcoxon y la de los signos


Al analizar los datos de la Tabla 2.1 hemos podido comprobar que con la prueba de los sig-
nos no se llega a la misma conclusin que con la prueba de Wilcoxon y con la prueba T. Este
resultado puede parecer sorprendente, pero en ningn caso debe considerarse un argumen-
to a favor de quienes creen que las conclusiones que se obtienen con la estadstica dependen
de quin la aplica o de quin interpreta los resultados. Debe considerarse, ms bien, como
una llamada de atencin sobre la necesidad de elegir correctamente los procedimientos es-
tadsticos que se aplican, pues la eleccin de procedimientos inapropiados puede conducir a
conclusiones equivocadas.
Lo que nos est diciendo la prueba de los signos es: (1) que en 14 diferencias aleatorias
se han encontrado 3 positivas y 11 negativas, es decir, 3 valores mayores que la mediana y
11 valores menores que la mediana; (2) que ese resultado es improbable que ocurra por azar
si el verdadero valor de la mediana es 2,50 ( p = 0,029); y (3) que, como consecuencia de ello,
lo razonable es concluir que el verdadero valor de la mediana tiene que ser menor de 2,50.
Al analizar estos mismos datos con la prueba de Wilcoxon se llega a una conclusin dis-
tinta ( p = 0,150) por una sencilla razn: aunque la cantidad de valores menores que la me-
diana propuesta (2,50) es mucho mayor que la cantidad de valores mayores (11 frente a 3;
esto es lo que se est valorando con la prueba de los signos), las distancias de los primeros
a la mediana son menores que las distancias de los segundos. Y esto es as porque la distri-
bucin de los pesos es asimtrica positiva, lo cual significa que se est incumpliendo la prin-
cipal condicin que debe darse para la aplicacin de la prueba de Wilcoxon.
Algo parecido ocurre con la prueba T. El hecho de que la distribucin analizada sea asi-
mtrica positiva est inflando el valor de la media (desplazndola hacia la derecha de la dis-
tribucin) y esto impide llegar a un resultado estadsticamente significativo.
56 Anlisis de datos (vol. II)

Si se dan las condiciones apropiadas para aplicar la prueba T (normalidad) o la prueba


de Wilcoxon (simetra), estas pruebas deben ser preferidas a la prueba de los signos porque
aprovechan ms informacin (la prueba de los signos nicamente aprovecha informacin
nominal) y eso las hace ms potentes (ver Conover, 1980, pg. 128). Pero si no se dan esas
condiciones, la prueba de los signos representa una excelente alternativa para realizar infe-
rencias sobre el centro de una distribucin.

Los contrastes sobre el centro de una distribucin con SPSS

La prueba de Wilcoxon
Aunque el SPSS no incluye la prueba de Wilcoxon para una muestra, un sencillo truco per-
mite utilizar la prueba de Wilcoxon para dos muestras relacionadas para contrastar hip-
tesis referidas a una sola mediana (la prueba de Wilcoxon para dos muestras relacionadas se
estudia en el siguiente captulo). Este truco consiste en crear una nueva variable en la que
todos los casos tomen el valor propuesto para la mediana en la hiptesis nula.
El SPSS tampoco incluye el estadstico S+ y su distribucin muestral exacta (es decir, no
incluye el procedimiento descrito en el Cuadro 2.1); nicamente ofrece una aproximacin
normal parecida al estadstico Z propuesto en la nota a pie de pgina n 1. En concreto, utili-
za la transformacin:

Z = [2.13]

donde S se refiere al menor de S+ y S!, k al nmero rangos distintos en los que existen empa-
tes y ti al nmero de puntuaciones empatadas en el rango i (si al asignar rangos no existen em-
pates, el sumatorio del denominador vale cero). Como S es el menor de S+ y S!, el resultado
de la ecuacin [2.13] siempre es negativo. El SPSS ofrece el nivel crtico bilateral resultante
de multiplicar por 2 la probabilidad de obtener valores menores o iguales que Z.
Retomemos los datos de la Tabla 2.1 sobre el peso de 14 recin nacidos de madres fu-
madoras (los datos se encuentran en el archivo Tabla 2.1 peso bajo, en la pgina web del
manual). Para aplicar [2.13] a los datos de la Tabla 2.1:
' Reproducir en el Editor de datos los datos de la Tabla 2.1 (o abrir el archivo Tabla 2.1
peso bajo) y asignar a la nueva variable el nombre peso o cualquier otro nombre vlido.
' Utilizar la opcin Calcular del men Transformar para crear una variable en la que todos
los casos tomen el valor 2,50 (valor propuesto para la mediana en la hiptesis nula) y
asignar a esa nueva variable el nombre mediana o cualquier otro nombre vlido.
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon est seleccionada por defecto).
' Trasladar las variables peso y mediana a la lista Contrastar pares (en caso necesario, reor-
denar las variables colocando la variable mediana antes que la variable peso).
Captulo 2. Inferencia con una variable 57

' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras relacionadas: Estadsticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botn Continuar para volver al cuadro de dilogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 2.3 a 2.5. La
Tabla 2.3 ofrece algunos estadsticos descriptivos: el nmero de casos vlidos (N ), la media,
la desviacin tpica, los valores mnimo y mximo, y los tres cuartiles (percentiles 25, 50 y
75). La mediana (percentil 50) de la variable peso (peso al nacer en kg) vale 2,19.
Lo que estamos intentando averiguar con la prueba de Wilcoxon es si ese valor (2,19)
es lo bastante pequeo como para poder afirmar que el peso mediano de los recin nacidos
de madres fumadoras es menor que 2,50 kg, es decir, menor que el valor propuesto en la hi-
ptesis nula.

Tabla 2.3. Estadsticos descriptivos


Percentiles
N Media Desv. tpica Mnimo Mximo 25 50 75
Peso al nacer en kg 14 2,44 ,81 1,48 4,64 1,97 2,19 2,64

La Tabla 2.4 ofrece el nmero, media y suma de los rangos negativos y positivos (las notas
a pie de tabla indican qu rangos se estn considerando positivos y negativos; debe tenerse
en cuenta que el SPSS calcula las diferencias entre la segunda variable y la primera del par
seleccionado en el cuadro de dilogo; por eso hemos colocado la variable mediana antes).
La tabla tambin ofrece el nmero de empates (casos excluidos del anlisis) y el nmero total
de rangos asignados (incluidos los empates).

Tabla 2.4. Rangos


N Rango promedio Suma de rangos
a
Peso al nacer en kg Rangos negativos 11 6,27 69,00
- mediana Rangos positivos b
3 12,00 36,00
Empates c
0
Total 14
a. Peso al nacer en kg < mediana
b. Peso al nacer en kg > mediana
c. Peso al nacer en kg = mediana

Por ltimo, la Tabla 2.5 muestra el estadstico de Wilcoxon (Z ) y su nivel crtico bilateral
(sig. asintt. bilateral). Puesto que estamos planteando un contraste unilateral izquierdo, el
nivel crtico bilateral hay que dividirlo entre 2. Por tanto: p = 0,300 / 2 = 0,150. Y como el
valor del nivel crtico (0,150) es mayor que = 0,05, lo razonable es no rechazar la hiptesis
de que el valor de la mediana poblacional es 2,50 kg.

Tabla 2.5. Prueba de Wilcoxon


Peso al nacer en kg - mediana
a
Z -1,036
Sig. asintt. (bilateral) ,300
a. Basado en los rangos positivos.
58 Anlisis de datos (vol. II)

La prueba de los signos


Al presentar la prueba de los signos para una muestra hemos propuesto dos estrategias distin-
tas: la primera (recomendada para muestras pequeas) se basa en el estadstico n+ y utiliza las
probabilidades exactas de la distribucin binomial; la segunda (recomendada para muestras
grandes) se basa en el estadstico Z y utiliza las probabilidades aproximadas de la distribucin
normal. El SPSS ofrece ambas soluciones. Si n < $ 25, toma el valor r = mn (n+, nS) y,
utilizando las probabilidades de la distribucin binomial, calcula el nivel crtico bilateral re-
sultante de multiplicar por 2 la probabilidad de obtener valores iguales o menores que r. Si
n > 25, utiliza la distribucin normal para obtener las probabilidades asociadas al estadstico
Z (ver ecuacin [2.11]) aplicando la correccin por continuidad (restando 0,5 al valor de r;
ver nota a pie de pgina nmero 7). Para aplicar la prueba de los signos para una muestra:
' Seleccionar la opcin Pruebas no paramtricas > Binomial del men Analizar para acceder
al cuadro de dilogo Prueba binomial. La lista de variables del archivo de datos ofrece
un listado de todas las variables con formato numrico (no estn disponibles las varia-
bles con formato de cadena, si existen).
' Seleccionar una o ms variables y trasladarlas a la lista Contrastar variables. Si se trasla-
da ms de una variable, se obtiene un contraste por cada variable.
El valor de la mediana (el valor que se desea contrastar) hay que introducirlo en el cuadro
de texto de la opcin Punto de corte del recuadro Definir dicotoma. El cuadro de texto Propor-
cin de prueba permite especificar el cuantil sobre el que se desea realizar el contraste. El valor
0,50 (valor que el procedimiento utiliza por defecto) indica que el punto de corte se refiere
a la mediana (pues la mediana es el valor que acumula el 50 % de los casos). Cambiando este
valor es posible contrastar hiptesis sobre cualquier otro cuantil9. El botn Opciones ofrece
la posibilidad de solicitar algunos estadsticos descriptivos: el nmero de casos vlidos, la me-
dia, la desviacin tpica, los valores mnimo y mximo, y los percentiles 25, 50 y 75. Vea-
mos cmo utilizar el SPSS para analizar los datos de la Tabla 2.1 aplicando la prueba de los
signos para una muestra (los datos se encuentran en el archivo Tabla 2.1 peso bajo, el cual
puede descargarse de la pgina web del manual):
' En el cuadro de dilogo Prueba binomial, trasladar la variable peso a la lista Contrastar
variables e introducir el valor 2,50 en el cuadro de texto Punto de corte para especificar
el valor de la mediana en la hiptesis nula.
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 2.6. La tabla
comienza identificando la variable utilizada en el contraste y los dos grupos definidos por el
punto de corte: grupo 1 = peso al nacer < $ 2,5 y grupo 2 = peso al nacer > 2,5. A continua-
cin muestra el nmero de valores iguales o menores que la mediana (11; que representan un
79% del total) y mayores que la mediana (3; que representan un 21% del total). El SPSS toma
el menor de estos dos valores (3) y multiplica por dos la probabilidad acumulada hasta ese
valor en la distribucin binomial (n = 14, + = 0,50). Esta probabilidad (0,057) corresponde
a un contraste bilateral. Como en el ejemplo se est planteando un contraste unilateral izquier-
do, esta probabilidad hay que dividirla entre 2 para obtener el nivel crtico unilateral correcto:
p = 0,057 / 2 = 0,029. Y, puesto que p = 0,029 < 0,05, lo razonable es rechazar H0.
9
En el Apndice 2 se explica cmo utilizar este procedimiento para contrastar hiptesis sobre un cuantil distinto de la
mediana (ver el apartado La prueba de los cuantiles).
Captulo 2. Inferencia con una variable 59

Tabla 2.6. Prueba binomial (prueba de los signos)


Proporcin Prop. de Sig. exacta
Categora N observada prueba (bilateral)
Peso al nacer en kg Grupo 1 <= 2,5 11 ,79 ,50 ,057
Grupo 2 > 2,5 3 ,21
Total 14 1,00

Contrastes sobre la dispersin de una distribucin


Cuando se analizan datos referidos a una variable cuantitativa, lo habitual es dirigir la aten-
cin al centro de la distribucin. Esto es lo que se hace al aplicar la prueba T de Student, o la
de Wilcoxon o la de los signos y, por lo general, sta es la estrategia adecuada para dar res-
puesta a las cuestiones que suelen plantearse referidas a una sola variable cuantitativa: puede
afirmarse que el cociente intelectual medio de un determinado colectivo es mayor que 100?,
se parece la media estandarizada que se obtiene con una nueva prueba de rendimiento a la
que se viene obteniendo tradicionalmente?, es cierto que el peso medio de los recin nacidos
de madres fumadoras no alcanza los 2,5 kg?, etc.
Pero ocurre que el centro de una distribucin no siempre est informando de los cambios
que se producen en un conjunto de datos. Por ejemplo, sabemos que, en la poblacin general,
el cociente intelectual (CI) se distribuye normalmente con media 100 y desviacin tpica 15.
Tambin sabemos que los sujetos afectados de problemas perceptivos disminuyen su rendi-
miento en algunas de las tareas que incluyen las pruebas que miden el CI. Supongamos que
el CI medio de una determinada poblacin de sujetos con problemas perceptivos vale 90 con
una desviacin tpica de 10. Y supongamos que un psiclogo est convencido de que sabe c-
mo entrenar a estos sujetos para mejorar su CI. Para comprobarlo, selecciona una muestra
aleatoria de esa poblacin, aplica su entrenamiento y, al medir el CI de los sujetos entrenados,
obtiene una media de 90 y una desviacin tpica de 12,6. Puesto que el CI no se ha alterado,
un anlisis de estos resultados basado en el centro de la distribucin estara indicando que el
CI medio de los sujetos entrenados no ha mejorado; y esto llevara a concluir que el entrena-
miento no parece afectar al CI de los sujetos con problemas perceptivos. Sin embargo, el au-
mento de la desviacin tpica en un conjunto de datos cuya media no cambia est indicando
que unas puntuaciones aumentan y otras disminuyen Lo cual significa que unos sujetos han
mejorado su CI mientras que otros lo han empeorado. Determinar qu tipo de sujetos se be-
nefician del entrenamiento o por qu razn ocurre esto es otra cuestin. El hecho relevante
en este momento es que las puntuaciones han cambiado y que ese cambio no puede detectarse
con un anlisis del centro de la distribucin, sino con un anlisis de su dispersin. Por tanto,
nicamente acompaando el contraste sobre el centro de la distribucin con un contraste sobre
su dispersin podra obtenerse informacin realista sobre lo que est ocurriendo.
Para llevar a cabo un contraste sobre el grado de dispersin de una distribucin de pun-
tuaciones contamos con un excelente estadstico, la varianza, el cual, adems de informar
sobre el grado de dispersin, posee distribucin muestral conocida. Recordemos (ver, en el
apndice del Captulo 6 del primer volumen, el apartado sobre la Distribucin muestral de
la varianza) que la transformacin

= [2.14]
60 Anlisis de datos (vol. II)

se distribuye segn el modelo de probabilidad ji-cuadrado con n ! 1 grados de libertad. Esto


significa que

P( $
< $
< ) = 1! [2.15]

Unas sencillas transformaciones (ver Pardo y San Martn, 1998, pg. 106) permiten utilizar
[2.14] y [2.15] para contrastar hiptesis y construir intervalos de confianza sobre el parmetro
. El cuadro 2.3 ofrece un resumen del procedimiento.

Cuadro 2.3. Resumen del contraste sobre una varianza

1. Hiptesis:
a. Contraste bilateral: H0: = k 0 ; H 1: =/ k0 .
b. Contraste unilateral derecho: H0: $
< k 0 ; H 1: > k0 .
c. Contraste unilateral izquierdo: H0: $
> k 0 ; H 1: < k0 .
(k0 se refiere al valor concreto de que interesa contrastar).
2. Supuestos: muestra aleatoria de tamao n extrada de una poblacin normal.
3. Estadstico del contraste (ver ecuacin [2.14]): = .
4. Distribucin muestral: se distribuye segn el modelo de probabilidad ji-cuadrado
con n ! 1 grados de libertad: .
5. Zona crtica:
a. Contraste bilateral: $
< y $
> .
b. Contraste unilateral derecho: $
> .
c. Contraste unilateral izquierdo: $
< .
6. Regla de decisin: se rechaza H0 si el estadstico del contraste cae en la zona crtica;
en caso contrario, se mantiene.
7. Intervalo de confianza (basado en [2.15]): Li =
[2.16]
Ls =

Ejemplo. El contraste sobre una varianza


Sabemos que, en la poblacin general, el cociente intelectual (CI) se distribuye normalmente
con media 100 y desviacin tpica 15. Tambin sabemos que los sujetos afectados de proble-
mas perceptivos disminuyen su rendimiento en algunas de las tareas que incluyen las prue-
bas que miden el CI. En concreto, sabemos que el CI medio de una determinada poblacin
de sujetos con problemas perceptivos vale 90, con una desviacin tpica de 10. Un psiclogo
est convencido de que sabe cmo entrenar a estos sujetos para mejorar su CI. Para contras-
tar su sospecha, selecciona una muestra aleatoria de 25 sujetos y, tras entrenarlos, obtiene un
CI medio de 90, con una desviacin tpica de 12,6. Con este resultado, y considerando que
Captulo 2. Inferencia con una variable 61

la distribucin original es normal, es posible afirmar que el entrenamiento ha tenido algn


efecto sobre el CI de los sujetos entrenados? ( = 0,05).
1. Hiptesis: H0: $
< 100; H1: > 100 (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 30 observaciones procedentes de una poblacin normal.
3. Estadstico del contraste: = = (25 !1) (12,6)2 / 102 = 38,10.
4. Distribucin muestral: X 2 se distribuye segn ji-cuadrado con 24 grados de libertad.
5. Zona crtica (contraste unilateral derecho): $
> = = 36,42.
5. Regla de decisin: puesto que el valor del estadstico del contraste (38,10) es mayor que
el punto crtico (36,42) se rechaza H0. Por tanto, la varianza de las puntaciones ha au-
mentado con el entrenamiento. El aumento de la varianza en un conjunto de datos cuya
media no cambia est indicando que unas puntuaciones han aumentado y otras han dis-
minuido. Y esto significa que en unos sujetos ha mejorado el CI mientas que en otros ha
empeorado.

Contrastes sobre la forma de una distribucin


A las pruebas que permiten valorar la forma de una distribucin se les suele llamar pruebas
de bondad de ajuste, pues sirven para valorar si la distribucin de una variable se ajusta o no
(se parece o no) a una determinada distribucin de probabilidad terica.
El estudio de la forma de una distribucin ya lo hemos iniciado en el Captulo 9 del pri-
mer volumen con la Prueba X 2 de Pearson sobre bondad de ajuste. Pero, a diferencia de la
prueba X 2, que ha sido diseada ms bien para valorar el ajuste de variables discretas (noso-
tros la hemos presentado para valorar el ajuste de variables categricas), las pruebas que va-
mos a estudiar en este apartado sirven tambin para valorar el ajuste de variables continuas.

La prueba de Kolmogorov-Smirnov sobre bondad de ajuste


La prueba de Kolmogorov-Smirnov (Kolmogorov, 1933) sirve para contrastar hiptesis de
bondad de ajuste con una variable cuantitativa (Yi). Se basa en la comparacin de dos funcio-
nes de distribucin (funciones de probabilidad acumuladas): una funcin emprica F (Yi ) y
una funcin terica F0(Yi). La funcin de distribucin emprica se estima a partir de los datos,
es decir, a partir de una muestra aleatoria de n observaciones de la variable Yi . Para ello, se
comienza ordenando los valores de Yi de forma ascendente (es decir, desde el valor ms pe-
queo hasta el ms grande) y, una vez ordenados, la probabilidad acumulada hasta cada valor
Yi (es decir, la funcin de distribucin emprica) se obtiene mediante F (Yi ) = i/n (donde i se
refiere la posicin que ocupa cada valor Yi tras la ordenacin).
La forma de obtener la funcin de distribucin terica depende de la distribucin concreta
propuesta en la hiptesis nula. Por ejemplo, si la distribucin terica propuesta es la normal
con parmetros Y y Y, la funcin de distribucin terica se obtiene tipificando cada valor
Yi mediante Z i = (Yi ! Y)/Y y asignando a cada puntuacin Z i la probabilidad acumulada que
le corresponde en la curva normal tipificada N (0, 1).
62 Anlisis de datos (vol. II)

Una vez obtenidas las distribuciones emprica y terica, el estadstico de Kolmogorov-


Smirnov se calcula a partir de la diferencia ms grande en valor absoluto entre ambas distri-
buciones:
DKS = mx |D i | = mx | F (Yi ) ! F0 (Yi ) | [2.17]

La Tabla N del Apndice final ofrece algunos cuantiles d de las distribuciones muestrales
de DKS correspondientes a tamaos muestrales comprendidos entre 4 y 40 (Smirnov, 1948).
Si la variable estudiada es discreta, las decisiones basadas en estos cuantiles tienden a ser con-
servadoras (Noether, 1967). Y si en la hiptesis nula no se especifica el valor de los parme-
tros de la distribucin propuesta y, consecuentemente, hay que estimarlos a partir de los datos,
la prueba tambin se vuelve conservadora (Conover, 1980). El Cuadro 2.4 ofrece un resumen
del procedimiento.

Cuadro 2.4. Resumen de la prueba de Kolmogorov-Smirnov sobre bondad de ajuste

1. Hiptesis: H0: F (Yi) = F0 (Yi); H1: F (Yi) =/ F0 (Yi).


2. Supuestos: muestra aleatoria de n observaciones de una variable cuantitativa Yi.
3. Estadstico del contraste (ver ecuacin [2.17]): DKS = mx | F (Yi) ! F0 (Yi) |.
4. Distribucin muestral: los puntos crticos d de la distribucin exacta del estadstico
DKS se encuentran tabulados en la Tabla N del Apndice final.
5. Zona crtica: DKS > d .
6. Decisin: se rechaza H0 si DKS cae en la zona crtica; en caso contrario, se mantiene.
7. Nivel crtico (valor p): p = P (DKS > k), donde k se refiere al valor concreto que toma
el estadstico DKS.

Ejemplo. La prueba de Kolmogorov-Smirnov sobre bondad de ajuste


Retomemos los datos de la Tabla 2.1 referidos al peso de 14 recin nacidos de madres fuma-
doras. Es razonable asumir que estos datos proceden de una distribucin normal con media
2,5 y desviacin tpica 1? ( = 0,05).
Tenemos una variable cuantitativa ( peso) y estamos interesados en averiguar si, a partir
de las 14 observaciones que tenemos de esa variable, es razonable asumir que su distribucin
es normal con parmetros 2,5 y 1:
1. Hiptesis: H0: F (Yi ) = N (2,5, 1); H1: F (Yi ) =/ N (2,5, 1).
2. Supuestos: muestra aleatoria de 14 observaciones de una variable cuantitativa.
3. Estadstico del contraste (ver ecuacin [2.17]): DKS = mx |D i | = 0,30.
Para obtener el estadstico DKS hemos realizado los clculos que muestra la Tabla 2.7. Las
puntuaciones Yi son las mismas que las de la Tabla 2.1. La funcin de distribucin em-
prica, F (Yi), se ha obtenido dividiendo la posicin i de cada valor Y entre el nmero de
puntuaciones (n = 14); las puntuaciones Z i se han calculado utilizando la media y la des-
Captulo 2. Inferencia con una variable 63

viacin tpica propuestas en la hiptesis nula (2,5 y 1); y la funcin de distribucin te-
rica, F0 (Yi ), se ha obtenido calculando la probabilidad acumulada hasta cada valor Z i en
la curva normal tipificada N (0, 1).

Tabla 2.7. Transformaciones basadas en los datos de la Tabla 2.1

Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
F (Yi ) 0,07 0,14 0,21 0,29 0,36 0,43 0,50 0,57 0,64 0,71 0,79 0,86 0,93 1,00
Zi !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
F0 (Yi ) 0,15 0,24 0,28 0,30 0,32 0,34 0,37 0,38 0,42 0,48 0,49 0,74 0,83 0,98
| Di | 0,08 0,10 0,07 0,01 0,03 0,09 0,13 0,19 0,22 0,23 0,30 0,12 0,10 0,02

4. Distribucin muestral: los puntos crticos d de la distribucin muestral del estadstico


DKS estn tabulados en la Tabla N del Apndice final.
5. Zona crtica (con n = 14 y = 0,05): DKS > d0,05 = 0,349.
6. Decisin: como el valor del estadstico del contraste (0,30) es menor que el punto crti-
co (0,349), se mantiene H0. Esto no significa que pueda afirmarse que la distribucin de
la variable Yi es normal con parmetros 2,5 y 1 (recordemos que mantener una hipte-
sis nula no implica afirmar que es verdadera), pero s que, con los datos disponibles, es
razonable asumir que la distribucin de la variable Yi podra tener esas caractersticas.
7. Nivel crtico: p = P (DKS > 0,30) > 0,10.

Los contrastes sobre la forma de una distribucin con SPSS


El SPSS incluye la prueba de bondad de ajuste de Kolmogorov-Smirnov dentro de dos pro-
cedimientos distintos: Pruebas no paramtricas y Explorar.
Con el procedimiento Pruebas no paramtricas se puede valorar el ajuste a cuatro distri-
buciones tericas: Normal, Uniforme, Poisson y Exponencial (puede seleccionarse ms de
una). Los parmetros de estas distribuciones se estiman a partir de los datos. Si se desea es-
pecificar los parmetros de la distribucin elegida (por ejemplo, el valor mnimo y mximo
de una distribucin uniforme, o la media y la desviacin tpica de una distribucin normal),
es necesario utilizar la sintaxis (ver siguiente ejemplo). El procedimiento tambin permite
seleccionar algunos estadsticos descriptivos (nmero de casos vlidos, media, desviacin
tpica, valores mnimo y mximo, y cuartiles) y decidir qu tratamiento se desea dar a los va-
lores perdidos. No es posible obtener el ajuste a una distribucin normal si la varianza de la
variable vale cero; ni a una distribucin de Poisson si la media de la variable vale cero o los
valores no son, todos ellos, enteros no negativos.
La forma de obtener la funcin de distribucin terica depende de la distribucin concreta
propuesta en la hiptesis nula. Si la distribucin propuesta es, por ejemplo, la uniforme, la
funcin de distribucin terica para cada valor de Yi se obtiene mediante:
= [2.18]
64 Anlisis de datos (vol. II)

Y si la distribucin terica propuesta es, por ejemplo, la de Poisson, la funcin de distribucin


terica se obtiene mediante:

= [2.19]

(donde se refiere a la media de la distribucin y k a cada uno de los valores de Yi desde 0


hasta i).
Una vez obtenidas las distribuciones emprica y terica, el estadstico de Kolmogorov-
Smirnov se calcula tipificando la diferencia Di = [F (Yi ) ! F0 (Yi )] ms grande en valor abso-
luto entre ambas distribuciones:

ZKS = [2.20]

La distribucin de este estadstico se aproxima al modelo de probabilidad normal N(0, 1); por
tanto, las probabilidades asociadas a cada uno de sus posibles valores pueden obtenerse a par-
tir de la tabla de la curva normal tipificada. No obstante, el SPSS calcula esas probabilidades
aplicando el mtodo de Smirnov (1948), el cual difiere del basado en las probabilidades de
la curva normal tipificada (si bien arroja resultados parecidos).
Aunque el SPSS permite utilizar la prueba de Kolmogorov-Smirnov para valorar el ajuste
de una variable cuantitativa a diferentes distribuciones tericas (uniforme, normal, Poisson
y exponencial), lo cierto es que lo ms habitual es verse en la necesidad de valorar el ajuste
a la distribucin normal. La razn de esto es que varios de los procedimientos estadsticos
ms utilizados han sido diseados para analizar datos procedentes de distribuciones normales.
Para contrastar con la prueba de Kolmogorov-Smirnov la hiptesis de que la variable peso
al nacer (ver ejemplo anterior) se distribuye normalmente con parmetros Y = 2,5 y Y = 1
(los datos se encuentran en el archivo Tabla 2.7 Kolmogorov):
' Seleccionar la opcin Pruebas no paramtricas > K-S de una muestra del men Analizar para
acceder al cuadro de dilogo Prueba de Kolmogorov-Smirnov para una muestra.
' En el cuadro de dilogo principal, seleccionar la variable peso (peso al nacer) y trasla-
darla a la lista Contrastar variables. Para efectuar el ajuste a la distribucin normal, dejar
marcada la opcin Normal del recuadro Distribucin de contraste.
' Pulsar el botn Pegar para generar la sintaxis correspondiente a las elecciones hechas y,
en el Editor de sintaxis, cambiar la lnea K-S(NORMAL) = peso aadiendo el valor de los
parmetros media y desviacin tpica: K-S(NORMAL 2.5, 1) = peso (si no se aplica esta
correccin, el SPSS utiliza como parmetros los valores muestrales).
Ejecutando la sintaxis, el Visor ofrece los resultados que muestra la Tabla 2.8. La tabla in-
cluye la siguiente informacin: (1) el nmero de casos vlidos (N ); (2) los parmetros de la
distribucin terica seleccionada (es decir, los parmetros que hemos fijado: media = 2,5 y
desviacin tpica = 1); (3) las diferencias ms extremas entre las distribuciones acumuladas
emprica y terica (la diferencia ms grande de las positivas, la ms pequea de las negati-
vas y la ms grande de las dos en valor absoluto); (4) el estadstico ZKS (Z = 1,114); y (5) el
nivel crtico o valor p (significacin asinttica bilateral = 0,167). Puesto que el valor del ni-
vel crtico es mayor que 0,05, la decisin razonable es mantener la hiptesis nula. Por tanto,
es razonable asumir que los datos analizados podran proceder de una distribucin normal con
media 2,5 y desviacin tpica 1.
Captulo 2. Inferencia con una variable 65

Tabla 2.8. Prueba de Kolmogorov-Smirnov para una muestra (ajuste a una distribucin normal)
Peso al nacer
N 14
Parmetros normales a,b Media 2,5
Desviacin tpica 1
Diferencias ms extremas Absoluta ,30
Positiva ,30
Negativa -,17
Z de Kolmogorov-Smirnov 1,11
Sig. asintt. (bilateral) ,167
a. La distribucin de contraste es la Normal.
b. Especificado por el usuario

El procedimiento Explorar incluye dos pruebas de significacin para valorar el ajuste de una
variable cuantitativa a una distribucin normal: la prueba de Kolmogorov-Smirnov con la
correccin del nivel crtico mediante el mtodo de Lilliefors (Kolmogorov, 1933; Smirnov,
1948; Lilliefors, 1967; ver tambin Dallal y Wilkinson, 1986) y la prueba de Shapiro-Wilk
(Shapiro y Wilk, 1965).
El problema de estos y otros estadsticos de normalidad es que, con muestras grandes, son
demasiado sensibles a pequeas desviaciones de la normalidad. Por esta razn, estos estads-
ticos suelen acompaarse con algn grfico de normalidad. El procedimiento Explorar ofrece
dos de estos grficos: el Q-Q normal y el Q-Q normal sin tendencias.
Para obtener los estadsticos de Kolmogorov-Lilliefors y de Shapiro-Wilk, y grficos de
normalidad del procedimiento Explorar:
' Seleccionar la opcin Estadsticos descriptivos > Explorar del men Analizar para acceder
al cuadro de dilogo Explorar y trasladar la variable peso (peso al nacer) a la lista Depen-
dientes.
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Explorar: Grficos y mar-
car la opcin Grficos con pruebas de normalidad. Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
Aceptando estas selecciones se obtienen, entre otros, los resultados que muestran la Tabla 2.9
y la Figura 2.2. La Tabla 2.9 incluye los estadsticos de Kolmogorov-Smirnov y de Shapiro-
Wilk acompaados de sus correspondientes niveles crticos (sig.). Ambos estadsticos permi-
ten contrastar la hiptesis nula de que los datos muestrales proceden de poblaciones norma-
les: se rechaza la hiptesis de normalidad cuando el nivel crtico (sig.) es menor que el nivel
de significacin establecido (generalmente 0,05).

Tabla 2.9. Contrastes de normalidad


a
Kolmogorov-Smirnov Shapiro-Wilk
Estadstico gl Sig. Estadstico gl Sig.
Peso al nacer ,27 14 ,006 ,82 14 ,010
a. Correccin de la significacin de Lilliefors

En el ejemplo, tanto el estadstico de Kolmogorov-Smirnov como el de Shapiro-Wilk tienen


asociados niveles crticos menores que 0,05; por tanto, ambos estadsticos coinciden en sea-
66 Anlisis de datos (vol. II)

lar que la hiptesis de normalidad debe ser rechazada (este resultado contrasta con el obteni-
do al aplicar la prueba de Kolmogorov-Smirnov del procedimiento Pruebas no paramtricas;
pero debe tenerse en cuenta que all se utilizaron otros parmetros y que los niveles crticos
se calculan de forma distinta).
Estos estadsticos adolecen de ser excesivamente sensibles a pequeas desviaciones de
la normalidad cuando se utilizan con muestras grandes. En estos casos (muestras grandes),
es recomendable acompaarlos con algn grfico de normalidad. El procedimiento Explorar
incluye dos de estos grficos: el Q-Q normal y el Q-Q normal sin tendencias. La Figura 2.2
muestra ambos grficos referidos a la variable peso al nacer.
En un grfico Q-Q normal (Figura 2.2, grfico de la izquierda), cada valor observado (Yi)
se compara con la puntuacin tpica N Z i correspondiente en la curva normal tipificada a la
proporcin acumulada hasta cada valor Yi (esta proporcin acumulada se calcula asignando
rangos a los valores Yi y dividiendo cada rango entre el nmero de casos ms uno). En el eje
horizontal estn representados los valores observados ordenados desde el ms pequeo al ms
grande (Yi); en el vertical estn representadas las puntuaciones tpicas normales N Z i. Cuan-
do una distribucin emprica se aproxima a una distribucin terica normal, los puntos del
diagrama se encuentran agrupados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad.
Un grfico Q-Q normal sin tendencia (Figura 2.2, grfico de la derecha) muestra las di-
ferencias existentes entre la puntuacin tpica de cada valor observado (Z i) y su correspon-
diente puntuacin tpica normal (N Z i). Es decir, muestra las distancias verticales existentes
entre cada punto y la diagonal del grfico Q-Q normal. En el eje horizontal estn represen-
tados los valores observados (Yi) y en el vertical ordenadas el tamao de las diferencias entre
las puntuaciones tpicas observadas y las esperadas (Zi ! N Zi). Si las puntuaciones proceden
de una poblacin normal, esas diferencias deben oscilar de forma aleatoria en torno al valor
cero (lnea recta horizontal). La presencia de pautas de variacin no aleatorias indica des-
viaciones de la normalidad.

Figura 2.2. Grficos de normalidad: Q-Q normal (izquierda) y Q-Q normal sin tendencia (derecha)
Grfico Q-Q normal (var. peso al nacer) Grfico Q-Q normal sin tendencia (var. peso al nacer)

Los diagramas de las Figuras 2.3, 2.4 y 2.5 ofrecen algunos ejemplos que pueden ayudar a
comprender el significado de los grficos de normalidad. Estos diagramas muestran el com-
portamiento de tres muestras de puntuaciones aleatoriamente extradas de tres distribuciones
tericas de probabilidad: una distribucin normal, una distribucin uniforme y una distribu-
cin ji-cuadrado (para obtener estas muestras de puntuaciones se han utilizado las funciones
RV.NORMAL, RV.UNIFORM y RV.CHISQ del procedimiento Calcular del men Transformar).
Captulo 2. Inferencia con una variable 67

Puede observarse que, cuando una muestra de puntuaciones se distribuye normalmente


(Figura 2.3), los puntos del diagrama Q-Q normal se ajustan a la lnea diagonal del grfico
y los puntos del diagrama Q-Q normal sin tendencia se distribuyen aleatoriamente por en-
cima y por debajo de la lnea horizontal del grfico sin mostrar una pauta clara. Por el con-
trario, cuando una muestra de puntuaciones procede de una distribucin que no es normal
(uniforme en el caso de la Figura 2.4; ji-cuadrado en el caso de la Figura 2.5), los puntos del
diagrama Q-Q normal no se ajustan a la lnea diagonal y los puntos del diagrama Q-Q normal
sin tendencia muestran una pauta de variacin claramente no aleatoria.

Figura 2.3. Grficos de normalidad: muestra extrada de una distribucin normal (media=10, desv. tpica=3)
Grfico Q-Q normal (var. normal) Grfico Q-Q normal sin tendencia (var. normal)

Figura 2.4. Grficos de normalidad: muestra extrada de una distribucin uniforme (rango 0, 1)
Grfico Q-Q normal (var. uniforme) Grfico Q-Q normal sin tendencia (var. uniforme)

Figura 2.5. Grficos de normalidad: muestra extrada de una distribucin ji-cuadrado (gl = 10)
Grfico Q-Q normal (var. ji-cuadrado) Grfico Q-Q normal sin tendencia (var. ji-cuadrado)
68 Anlisis de datos (vol. II)

Apndice 2
La prueba de las rachas
La mayor parte de los procedimientos estadsticos que se utilizan para realizar inferencias asumen que
las muestras con las que se trabaja son aleatorias; o, lo que es lo mismo, que las observaciones mues-
treadas son independientes entre s. Esto hemos tenido ocasin de comprobarlo con todos los procedi-
mientos inferenciales ya estudiados y tendremos ocasin de seguir comprobndolo a lo largo de todos
los captulos que siguen. El incumplimiento de este supuesto puede acarrear graves consecuencias so-
bre las conclusiones de un contraste (ver Kenny y Judd, 1986).
En la prctica, la independencia entre observaciones se consigue seleccionndolas al azar. En una
secuencia temporal, por ejemplo, las observaciones no suelen ser independientes entre s: lo que ocurre
con una observacin concreta depende, generalmente, de las caractersticas de alguna observacin pre-
via. En una muestra aleatoria, por el contrario, debe esperarse que lo que ocurre con cada observacin
sea independiente de lo que ocurre con las dems. La prueba de las rachas permite valorar si las ob-
servaciones seleccionadas son realmente independientes entre s.
El concepto de racha se refiere a una secuencia de observaciones de un mismo tipo. Supongamos
que se lanza una moneda al aire 10 veces y que se obtiene el siguiente resultado: CCCXCCXXXC. En
este resultado hay 5 rachas: CCC, X, CC, XXX y C. A simple vista, el resultado obtenido parece
aleatorio. Pero si en lugar de ese resultado se hubiera obtenido este otro: CCCCCXXXXX (2 rachas),
no resultara difcil ponerse de acuerdo en que la secuencia obtenida no parece aleatoria. Como tampo-
co parece aleatoria una secuencia con demasiadas rachas: CXCXCXCXCX (10 rachas). Pues bien, la
prueba de las rachas permite determinar si el nmero de rachas (R) observado en un conjunto de ob-
servaciones es lo suficientemente grande o lo suficientemente pequeo como para poder rechazar la
hiptesis de independencia (o aleatoriedad) entre las observaciones.
Es importante no confundir la hiptesis de aleatoriedad con la hiptesis de bondad de ajuste
estudiada a propsito del contraste sobre una proporcin o prueba binomial (ver Captulo 9 del primer
volumen). Obtener 5 caras y 5 cruces al lanzar una moneda 10 veces es un resultado que se ajusta
perfectamente a la hiptesis de equiprobabilidad (cara = cruz = 0,5), pero si las 5 caras salen al princi-
pio y las 5 cruces al final, esto hara dudar de la hiptesis de independencia o aleatoriedad.
Para obtener el nmero de rachas de un conjunto de n observaciones es necesario que stas estn
clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotmica). Si no lo estn,
se deber utilizar algn criterio (por ejemplo, colocando un punto de corte en la media, en la media na,
en la moda o en cualquier otro valor) para hacer que lo estn. Una vez clasificadas las n observaciones
en dos grupos (de tamaos n1 y n2), la hiptesis de aleatoriedad o independencia puede ponerse a
prueba utilizando una tipificacin10 del nmero de rachas (R):

=
Z = con [2.21]
=

10
Si el tamao muestral es menor que 50, el estadstico Z se obtiene utilizando la correccin por continuidad de la siguiente
manera (as es como aplica la correccin el PSSS):
Si [R ! E (R )] < !0,5, se suma 0,5 a R. Es decir: Z = [R + 0,5 ! E (R )] / R.
Si [R ! E (R )] > 0,5, se resta 0,5 a R. Es decir: Z = [R ! 0,5 ! E (R )] / R.
Si | R ! E (R ) | < 0,5, entonces Z = 0.
Captulo 2. Inferencia con una variable 69

El estadstico Z se distribuye segn el modelo de probabilidad normal N (0, 1). Las probabilidades
asociadas al estadstico Z pueden utilizarse para tomar decisiones sobre la hiptesis nula de aleatorie-
dad en un contraste bilateral.
Retomemos los datos de la Tabla 2.1 referidos al peso de 14 recin nacidos de madres fumadoras.
La primera fila de la Tabla 2.10 muestra las puntuaciones originales (ahora no estn ordenadas de
menor a mayor, como en la Tabla 2.1). Qu puede decirse sobre la hiptesis de independencia o
aleatoriedad de esta secuencia de observaciones? ( = 0,05).

Tabla 2.10. Peso en kg (Yi ) de 14 recin nacidos de madres fumadoras

Yi 2,45 1,80 3,15 1,98 2,04 2,08 4,64 2,20 2,30 1,48 2,47 1,93 3,46 2,18
Rachas % & % & & & % % % & % & % &

Puesto que se trata de una variable cuantitativa, lo primero que debemos hacer para poder aplicar la
prueba de las rachas es convertirla en dicotmica creando dos grupos: uno con los valores menores que
la mediana y otro con los valores mayores. El valor de la mediana es 2,19. En la Tabla 2.10 se ha colo-
cado un signo ! a los valores menores que 2,19 y un signo + a los valores mayores. Como resulta-
do de esta clasificacin se obtienen R = 10 rachas (es decir, 10 secuencias de signos del mismo tipo).
Hay n1 = n2 = 7 signos de cada tipo.
La hiptesis nula que vamos a contrastar es que la muestra es aleatoria (frente a la alternativa de
que no lo es). El nico supuesto que necesitamos establecer es que tenemos 14 observaciones de una
variable dicotmica o dicotomizada. Aplicando la ecuacin [2.21] obtenemos11:
R = 10; E (R ) = 2 n1 n2 / n + 1 = 2 (7) (7) / 14 +1 = 8.
R = = = 1,797.
Z = [R ! E (R)] / R = (10 ! 8) / 1,797 = 1,11.
Puesto que el estadstico Z se distribuye aproximadamente N (0, 1), la zona crtica est formada por los
valores menores que Z0,025 = !1,96 y mayores que Z0,975 = 1,96. El valor del estadstico del contraste
(1,11) no cae en la zona crtica. Por tanto, se mantiene H0. No hay razn para pensar que la secuencia
de observaciones analizada no es aleatoria.
La prueba de las rachas se encuentra en la opcin Pruebas no paramtricas del men Analizar.
Recordemos que, para poder aplicar la prueba, es necesario que las observaciones estn clasificadas
en dos grupos (variable dicotmica). Si no lo estn, debe utilizarse algn criterio para hacer que lo
estn. El SPSS permite elegir como criterio de dicotomizacin (Punto de corte), la mediana, la moda,
la media o cualquier otro valor. Los valores menores que el punto de corte pasan a formar parte del
primer grupo; los valores iguales o mayores que el punto de corte pasan a formar parte del segundo. El
botn Opciones conduce a un subcuadro de dilogo que permite obtener algunos estadsticos descrip-
tivos y decidir qu tratamiento se desea dar a los valores perdidos.
El SPSS, tras contar el nmero de rachas, utiliza el estadstico Z propuesto en [2.21] (aplicando
la correccin por continuidad propuesta en la nota a pie de pgina nmero 9) y ofrece el nivel crtico
bilateral resultante de multiplicar por 2 la probabilidad de encontrar, en la distribucin N (0, 1), pun-
tuaciones Z menores que la obtenida si R < E(R ), o mayores que la obtenida si R > E(R ).
Para contrastar la hiptesis de independencia o de aleatoriedad referida la variable peso de la Ta-
bla 2.10 con el SPSS:
' Reproducir en el Editor de datos los datos de la Tabla 2.10 (o abrir el archivo Tabla 2.10 rachas
que se encuentra en la pgina web del manual).

11
Incluyendo la correccin por continuidad propuesta en la nota a pie de pgina nmero 10 de la pgina anterior se obtiene:
Z = [R ! 0,5 ! E (R )] / R = (10 ! 0,5 ! 8) / 1,797 = 0,835 (con: p ' 2 [P (Z > $ *0,83*)] ' 2 (0,2033) = 0,4066).
70 Anlisis de datos (vol. II)

' Seleccionar la opcin Pruebas no paramtricas > Rachas del men Analizar para acceder al cuadro
de dilogo Prueba de las rachas y trasladar la variable peso a la lista Contrastar variables (si se tras-
lada ms de una variable, se obtiene un contraste por variable).
' Dejar marcada la opcin Mediana del recuadro Punto de corte para categorizar la variable utilizan-
do la mediana (este criterio es el que suele utilizarse como punto de corte).
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 2.11. La tabla comienza
identificando el valor que se ha utilizado como punto de corte para la dicotomizacin: valor de prueba
= 2,19. Una nota a pie de tabla recuerda que ese punto de corte es la mediana. A continuacin aparece
el nmero de casos del primer grupo (casos < valor de prueba = 7), el nmero de casos del segundo
grupo (casos >= valor de prueba = 7), el nmero de casos vlidos (casos en total = 14) y el nmero de
rachas contabilizadas (10).
La tabla ofrece, por ltimo, el valor del estadstico de contraste (Z = 0,835) y su nivel crtico (sig-
nificacin asinttica bilateral = 0,404). Puesto que el nivel crtico es mayor que 0,05, la decisin
razonable es mantener H0. Por tanto, nada impide asumir que la secuencia de observaciones analizada
es aleatoria.

Tabla 2.11. Prueba de las rachas


Peso al nacer
Valor de pruebaa 2,19
Casos < Valor de prueba 7
Casos >= Valor de
7
prueba
Casos en total 14
Nmero de rachas 10
Z ,835
Sig. asintt. (bilateral) ,404
a. Mediana

La prueba de los cuantiles


Un cuantil es un valor de la variable que deja por debajo de s un determinado porcentaje de casos.
El cuantil CP es el valor de la variable que deja por debajo de s una proporcin de casos igual a P. La
mediana, que deja por debajo de s al 50 % de los casos, es el cuantil C0,50; el primer cuartil, que es el
valor que deja por debajo de s al 25 % de los casos, es el cuantil C0,25; etc.
La prueba de los signos estudiada en este mismo captulo para contrastar hiptesis sobre la me-
diana (un cuantil) tambin sirve para contrastar hiptesis sobre cualquier otro cuantil.
Consideremos una variable Y medida con una escala al menos ordinal. Supongamos que, en la
poblacin de Y, el cuantil CP vale k0. Supongamos, adems, que seleccionamos una muestra aleatoria
de m observaciones Yi y que calculamos las diferencias entre cada valor Yi y el valor k0:
Di = Yi ! k0 (i = 1, 2, ..., m) [2.22]
Desechemos las diferencias nulas (en el caso de que existan) y consideremos nicamente las n dife-
rencias no nulas (n <$ m). Calculemos el nmero de diferencias positivas (n+) y el nmero de diferen-
cias negativas (n!). Si k0 es el verdadero valor poblacional del cuantil CP, en la poblacin habr una
proporcin P de valores Yi menores que k0, es decir,
$ k0)
! = P = P (Yi < [2.23]
lo cual significa que, al extraer una muestra aleatoria de n observaciones de esa poblacin y clasificar-
las dependiendo de que su puntuacin en Y sea mayor (+) o menor (!) que k0, cabe esperar encontrar
Captulo 2. Inferencia con una variable 71

una proporcin P de signos negativos (salvando, por supuesto, las fluctuaciones atribuibles al azar
muestral). O, lo que es lo mismo,
n! . n P [2.24]
Una fuerte discrepancia entre n ! y n P estara indicando que el verdadero valor poblacional del cuantil
CP no es k0. La clave est precisamente en poder determinar cundo una discrepancia entre n ! y n P
es lo bastante grande como para pensar que, efectivamente, el valor poblacional del cuantil CP no es
k0. Para esto es necesario conocer la distribucin muestral de n!. Pero la distribucin muestral de n!
sabemos que es la binomial con parmetros n y ! = P (ver el apartado Prueba de los signos para una
muestra). Por tanto, tenemos todo lo necesario para contrastar hiptesis sobre el cuantil CP .
La prueba de los cuantiles se obtiene en el SPSS exactamente igual que la prueba de los signos ya
estudiada en este mismo captulo. La nica diferencia est en que la proporcin que se contrasta ahora
no es 0,50 (como cuando la hiptesis se refiere a la mediana) sino la proporcin P correspondiente al
cuantil que se desea estudiar.
Recordemos el ejemplo sobre 14 recin nacidos de madres fumadoras (ver Tabla 2.1). Imagine-
mos que un investigador tiene la hiptesis de que el 70 % de estos bebs pesa menos de 2,50 kg al na-
cer. Esta hiptesis puede contrastarse haciendo exactamente lo mismo que hemos hecho a propsito de
la prueba de los signos, con la nica diferencia de que, ahora, la Proporcin de prueba es 0,70 en lugar
de 0,50 (ahora estamos interesados en el cuantil C0,70 percentil 70 y no en la mediana). El proce-
dimiento ofrece un nivel crtico p = 0,355 que no permite rechazar la hiptesis nula de que el cuantil
C0,70 vale 2,50 kg. Por tanto, la informacin muestral disponible es compatible con la hiptesis de
nuestro investigador.

Ejercicios Soluciones en www.sintesis.com

2.1. Un grupo de educadores considera que los estudiantes de bachillerato deben dedicar, para rendir satis-
factoriamente, un promedio de 12 horas de estudio a la semana. En una muestra aleatoria de 14 estu-
diantes de bachillerato de un determinado instituto se han obtenido los datos que ofrece la siguiente
tabla (la variable Yi es una medida cuantitativa del rendimiento):

Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Yi 9 11 7 16 10 8 3 12 6 15 9 5 12 20

a. Puede asumirse que estos datos proceden de una poblacin distribuida normalmente? (la media
vale 10,21 y la desviacin tpica 4,59).
b. Aplicar la prueba T, la prueba de Wilcoxon y la prueba de los signos para averiguar si estos datos
permiten afirmar que el promedio de horas de estudio semanales de los estudiantes de este instituto
es menor que 12 ( = 0,05).

2.2. Con el mtodo utilizado en los ltimos aos en un determinado colegio para ensear matemticas los
estudiantes de enseanza primaria consiguen una calificacin media de 6,4. Un educador convence al
director del centro de que existe un mtodo ms eficaz y decide aplicarlo durante un ao en dos aulas
de 25 estudiantes cada una. Al final del curso, los 50 estudiantes obtienen una calificacin media de
6,8 y una varianza de 2. Se puede concluir, con un nivel de confianza de 0,95, que el nuevo mtodo
de enseanza ha mejorado la calificacin media que se vena obteniendo con el mtodo tradicional?
72 Anlisis de datos (vol. II)

2.3. Las puntuaciones del WAIS (Escala de Inteligencia para Adultos de Wechsler) se distribuyen normal-
mente con media 100. Un psiclogo ha construido una nueva prueba de inteligencia (Y ) y desea saber
si la media que se obtiene con ella se parece o no a la del WAIS. Para ello, selecciona una muestra
aleatoria de 100 sujetos y, tras pasarles la prueba, obtiene una media de 104 y una desviacin tpica
insesgada de 16. Qu concluir el psiclogo con un nivel de confianza de 0,95?

2.4. A qu conclusin se habra llegado en el ejercicio anterior si, permaneciendo todo lo dems igual, se
hubiera utilizado una muestra de 25 estudiantes en lugar de la que ha utilizado de 100?

2.5. La informacin que ofrece el editor de una escala de madurez indica que las puntuaciones en la escala
se distribuyen normalmente con media 5 en la poblacin de estudiantes de enseanza secundaria. La
escala tiene ya 10 aos, lo que hace sospechar a un educador que el promedio de la escala ha podido
aumentar. Para comprobarlo, selecciona una muestra aleatoria de 25 estudiantes de enseanza secunda-
ria y, tras pasarles la prueba, obtiene una media de 5,6 y una desviacin tpica de 2. Podr el educador
concluir, con = 0,05, que el promedio de la escala de madurez ha aumentado?
_
2.6. En un contraste bilateral de H0: Y = 420, qu valores de Y llevarn a rechazar H0 con una muestra
aleatoria de tamao 36 extrada de una poblacin normal cuya desviacin tpica vale 18? ( = 0,05).

2.7. (Elegir la/s alternativa/s correcta/s) En un estudio se ha obtenido, para el estadstico del contraste, un
valor T = 7,3 tal que P(T < 7,3) = 0,025. Si el contraste es unilateral derecho, esto significa que:
a. Hay que rechazar H0.
b. La probabilidad de rechazar H0, siendo verdadera, vale 0,025.
c. Lo razonable es mantener H0.
d. Puede rechazarse H0 con una probabilidad de 0,025 de cometer un error en la decisin.
e. Si H0 es verdadera y se decide mantenerla, la probabilidad de cometer un error vale al menos 0,025.

2.8. Supongamos que se contrasta H0: Y >$ 0 frente a H1: Y < 0 y, en una muestra aleatoria, se obtiene un
estadstico T = !2. Sabiendo que P (T < !2) = 0,005 y utilizando = 0,01, qu decisin debe tomar-
se sobre H0 y por qu?
a. Rechazarla porque !2 < 0.
b. Mantenerla porque 0,01 < 0,995.
c. Mantenerla porque !2 < 0,01.
d. Rechazarla porque 0,005 < 0,01.
c. Mantenerla porque P (T < !2) > .

2.9. Un investigador desea comprobar si un test se distribuye N (0, 1) en la poblacin de estudiantes univer-
sitarios. En una muestra obtiene un estadstico de contraste KS con valor igual al centil 95. Teniendo
en cuenta la siguiente funcin de distribucin de algunos de los valores del estadstico de contraste:

KS 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,4 104,2
F (KS | H0) 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995

Utilizando = 0,01:
a. Con qu valores del estadstico KS se tomar la decisin de rechazar H0?
b. Qu decidiremos sobre H0? ( ) Mantenerla ( ) Rechazarla, porque...
$ 95) < 0,01; ( ) P (KS >
( ) 90,53 < 100,4; ( ) 95 < 100; ( ) P (KS > $ 95) > 0,01; ( ) 0,95 > 0,01.
c. Qu se puede concluir?
d. Cunto vale el nivel crtico p?
3
Inferencia con
dos variables categricas

En nuestra clasificacin de los contrastes de hiptesis (ver el Cuadro 1.1 al final del primer
captulo) hemos propuesto diferentes procedimientos para abordar el anlisis de dos varia-
bles categricas: (1) la prueba X 2 de Pearson sobre independencia o igualdad de proporcio-
nes, (2) los ndices de riesgo, (3) la prueba de McNemar para el contraste de la hiptesis de
simetra y (4) las medidas de asociacin. Para decidir cul de ellos aplicar en una situacin
concreta hay que prestar atencin a dos detalles: las categoras de las variables analizadas y
la hiptesis que se desea contrastar.
Las categoras de las variables pueden ser o no las mismas. Por ejemplo, al analizar las
variables sexo (hombres, mujeres) y tabaquismo (fumadores, exfumadores, no fumadores),
o las variables clase social (baja, media, alta) y nivel de estudios (primarios, secundarios, me-
dios superiores), las categoras de las variables son distintas. Pero al analizar las variables opi-
nin sobre la eutanasia (a favor, indiferente, en contra) y opinin sobre el aborto (a favor,
indiferente, en contra), o las variables bebedor (s, no) y fumador (s, no), las categoras de
ambas variables son las mismas. En el primer caso (categoras distintas), el anlisis suele diri-
girse casi de forma exclusiva al estudio de la relacin entre las variables mediante el contraste
de la hiptesis de independencia; en el segundo caso (categoras iguales), adems de estudiar
si existe relacin, es posible y suele interesar estudiar otros aspectos mediante el contraste de
diferentes hiptesis: homogeneidad marginal, simetra absoluta, simetra relativa, acuerdo,
cuasi-independencia, etc.
El anlisis de dos variables categricas ya lo hemos iniciado en el Captulo 10 del primer
volumen construyendo tablas de contingencias bidimensionales y contrastando la hiptesis
de independencia o igualdad de proporciones con la prueba X 2 de Pearson. En este captulo
estudiaremos el resto de los procedimientos propuestos en el Cuadro 1.1.
Algunos de ellos, como los ndices de riesgo, tambin sirven para contrastar la hiptesis
de independencia, pero con especial atencin a los diseos longitudinales y poniendo el n-
fasis en la cuantificacin del efecto estudiado. Otros, como la prueba de McNemar, sirven
para contrastar la hiptesis de homogeneidad marginal en tablas 2 2. Tendremos ocasin de
comprobar que la independencia y la homogeneidad marginal son cosas muy distintas. Y tam-
74 Anlisis de datos (vol. II)

bin estudiaremos varias medidas de asociacin diseadas para intentar resumir en un solo
nmero el grado o intensidad de la relacin presente en una tabla de contingencias bidimen-
sional, incluyendo el acuerdo como un caso especial de la asociacin.

Proporciones independientes y relacionadas


La hiptesis de independencia es, probablemente, la hiptesis que con mayor frecuencia se
contrasta al analizar dos variables categricas. Precisamente esta hiptesis es la que hemos
aprendido a contrastar con la prueba X 2 de Pearson (ver Captulo 10 del primer volumen) para
analizar datos como los de la Tabla 3.1. La tabla resume los resultados obtenidos al clasificar
una muestra de 200 personas en dos variables categricas: sexo y tabaquismo.
La pregunta que suele interesar responder en una tabla de estas caractersticas es si la pro-
porcin de fumadores difiere o no de la proporcin de fumadoras, lo cual es equivalente a
preguntarse si las variables sexo y tabaquismo estn o no relacionadas. Para responder a esta
pregunta hemos aprendido a comparar la distribucin condicional de la variable tabaquismo
en los hombres (33/110 = 0,30 y 77/110 = 0,70) con la distribucin condicional de la variable
tabaquismo en las mujeres (36/90 = 0,40 y 54/90 = 0,60). Si estas distribuciones no son igua-
les, entonces las variables sexo y tabaquismo no son independientes. De otra forma, si la pro-
porcin de fumadores (33 /110 = 0,30) difiere de la proporcin de fumadoras 36 / 90 = 0,40,
entonces las variables sexo y tabaquismo estn relacionadas (por supuesto, sera equivalente
centrarse en la proporcin de no fumadores y de no fumadoras).

Tabla 3.1. Frecuencias conjuntas y marginales de sexo por tabaquismo


Tabaquismo
Sexo Fumadores No fumadores Total
Hombres 33 77 110
Mujeres 36 54 90
Total 69 131 200

Pero la hiptesis de independencia no es la nica hiptesis que puede interesar contrastar al


analizar dos variables categricas. Consideremos una situacin diferente. Supongamos que
al preguntar a una muestra de 200 personas su opinin sobre la eutanasia (a favor, en contra)
en dos momentos distintos (por ejemplo, antes y despus de un debate televisado) se obtienen
los datos que muestra la Tabla 3.2.

Tabla 3.2. Opinin sobre la eutanasia en dos momentos distintos


Opinin despus
Opinin antes A favor En contra Total
A favor 60 20 80
En contra 30 90 120
Total 90 110 200
Captulo 3. Inferencia con dos variables categricas 75

Aqu, como en el caso anterior, tambin podra contrastarse la hiptesis de independencia para
averiguar si la opinin que se tiene en el momento antes est relacionada con la opinin que
se tiene en el momento despus. Esto podra hacerse comparando, como antes, las proporcio-
nes 60 / 80 = 0,75 y 30 / 120 = 0,25. Pero en un estudio de estas caractersticas, el hecho de
saber que existe relacin entre ambos momentos suele tener poco de inters: puesto que se
est haciendo la misma pregunta a los mismos sujetos, es lgico esperar que exista relacin;
y saber esto no aporta gran cosa.
Lo que suele interesar en una situacin de estas caractersticas es, ms bien, saber si la
opinin ha cambiado; es decir, saber si la opinin que se tiene en el momento antes difiere
o no de la opinin que se tiene en el momento despus. Y esto no puede saberse contrastan-
do la hiptesis de independencia, sino otra hiptesis llamada de homogeneidad marginal.
Y contrastar esta hiptesis implica comparar la proporcin de personas que estn a favor en
el momento antes (80 / 200 = 0,40) con la proporcin de personas que estn a favor en el
momento despus (90 / 200 = 0,45), lo cual no tiene nada que ver con las proporciones que
se comparan cuando se contrasta la hiptesis de independencia (0,75 y 0,25). Por supuesto,
sera equivalente centrarse en la proporcin de personas que estn en contra.
Entre las proporciones que se comparan en la hiptesis de independencia y las que se
comparan en la hiptesis de homogeneidad marginal existe una diferencia muy importante.
En la hiptesis de independencia (ver Tabla 3.1) se estn comparando dos proporciones que
son independientes entre s: en las proporciones 33 / 110 = 0,30 y 36 / 90 = 0,40, los 33 hom-
bres fumadores son personas distintas (independientes) de las 36 mujeres fumadoras; de otra
manera: los 110 hombres que intervienen en la primera proporcin son distintos de las 90
mujeres que intervienen en la segunda. Por el contrario, en la hiptesis de homogeneidad mar-
ginal (ver Tabla 3.2) se estn comparando dos proporciones relacionadas: en las proporcio-
nes 80 / 200 = 0,40 (a favor en el momento antes) y 90 / 200 = 0,45 (a favor en el momento
despus), hay 60 personas que son las mismas, es decir, 60 personas que no son indepen-
dientes entre s.
La situacin representada en la Tabla 3.2 es una forma de diseo longitudinal que consis-
te en medir una variable categrica en dos momentos distintos: se toma una medida de la va-
riable, se realiza una intervencin o simplemente se deja pasar el tiempo, y se vuelve a tomar
una medida de la misma variable a los mismos sujetos. Estos diseos antes-despus son tiles
para valorar si se produce algn cambio entre los dos momentos. Y el escenario es similar si
en lugar de tomar dos medidas a los mismos sujetos se toma una medida a pares de sujetos
igualados en algn criterio relevante para el anlisis. Esto es lo que ocurre, por ejemplo, cuan-
do se utilizan casos y controles en un estudio clnico, o padres e hijos en un estudio socio-
lgico, o gemelos en un estudio sobre la problemtica herencia-ambiente, etc. La Tabla 3.3
muestra los resultados obtenidos al preguntar la opinin sobre la eutanasia (a favor, en contra)
a los miembros de una misma pareja (marido, mujer).

Tabla 3.3. Opinin sobre la eutanasia de miembros de una misma pareja


Opinin mujer
Opinin marido A favor En contra Total
A favor 60 20 80
En contra 30 90 120
Total 90 110 200
76 Anlisis de datos (vol. II)

Quiz la diferencia entre proporciones independientes (las que se utilizan para contrastar la
hiptesis de independencia) y proporciones relacionadas (las que se utilizan para contrastar
la hiptesis de homogeneidad marginal) pueda entenderse mejor en la situacin propuesta
en la Tabla 3.4. La tabla ofrece el resultado de clasificar una muestra de 200 personas tras res-
ponder a dos preguntas distintas (opinin sobre la eutanasia y opinin sobre el aborto), ambas
con las mismas categoras de respuesta (a favor, en contra). En esta nueva clasificacin se es-
tn midiendo dos variables distintas (igual que en la Tabla 3.1), pero ambas tienen las mismas
categoras (igual que en las Tablas 3.2 y 3.3). Las caractersticas de las variables utilizadas
hacen que las Tablas 3.2, 3.3 y 3.4 sean cuadradas (filas = columnas).
Ahora podra interesar contrastar ambas hiptesis: (1) el contraste de la hiptesis de inde-
pendencia estara informando acerca de si ambas opiniones estn o no relacionadas, lo cual
permitira saber si las personas que estn a favor de la eutanasia tienden o no a estar tambin
a favor del aborto; (2) el contraste de la hiptesis de homogeneidad marginal estara infor-
mando acerca de si la proporcin de personas que estn a favor de la eutanasia difiere (es ma-
yor o menor) de la proporcin de personas que estn a favor del aborto.
Para poder contrastar la hiptesis de independencia habra que comparar las proporciones
60 / 80 = 0,75 y 30 / 120 = 0,40; para poder contrastar la hiptesis de homogeneidad marginal
habra que comparar las proporciones 80 / 200 = 0,40 y 90 / 200 = 0,45. Y lo que conviene
advertir es, no solo que cada hiptesis informa sobre un aspecto distinto de la tabla, sino que
las proporciones que se comparan en el primer caso son proporciones independientes, mien-
tras que las que se comparan en el segundo caso son proporciones relacionadas.

Tabla 3.4. Opinin sobre la eutanasia y el aborto


Opinin aborto
Opinin eutanasia A favor En contra Total
A favor 60 20 80
En contra 30 90 120
Total 90 110 200

En tablas 2 2, la hiptesis de homogeneidad marginal es una hiptesis de simetra que per-


mite valorar el cambio: indica si el nmero de personas que cambian en una direccin (20)
difiere del de personas que cambian en la otra direccin (30). Reordenando los datos de la
Tabla 3.2 tal como muestra la Tabla 3.5, en lugar de analizar el nmero de cambios (20 frente
a 30) es posible analizar el nmero relativo de cambios (20/80 frente a 30/120). Al abordar
la situacin de esta otra manera se estara contrastando la hiptesis de simetra relativa me-
diante la comparacin de dos proporciones independientes (ver Apndice 3).

Tabla 3.5. Opinin sobre la eutanasia en dos momentos distintos


Opinin despus
Opinin antes La misma Distinta Total
A favor 60 20 80
En contra 90 30 120
Total 150 50 200
Captulo 3. Inferencia con dos variables categricas 77

Homogeneidad marginal y simetra


Contrastar la hiptesis de homogeneidad marginal (es decir, de igualdad de proporciones mar-
ginales) referida a dos variables dicotmicas implica, segn acabamos de ver, analizar propor-
ciones relacionadas en uno de estos tres escenarios: (1) una variable dicotmica medida en
los mismos sujetos en dos momentos distintos (ver Tabla 3.2); (2) una variable dicotmica
medida en pares de sujetos (ver Tabla 3.3); (3) dos variables dicotmicas distintas con las
mismas categoras (ver Tabla 3.4).
Los datos relativos a este tipo de variables suelen organizarse en tablas de contingencias
2 2 en las cuales las categoras de las filas son las mismas que las categoras de las columnas
(tablas cuadradas como la 3.2, la 3.3 y la 3.4). La Tabla 3.6 muestra la notacin que utiliza-
remos para identificar cada elemento de la tabla. La variable X se refiere al momento antes,
o a los primeros sujetos de cada par o a la primera de las dos variables medidas. La variable
Y se refiere al momento despus, o a los segundos sujetos de cada par o a la segunda de las
dos variables medidas. Simplemente sustituyendo cada valor n por se obtiene la notacin
relativa a las proporciones tericas o poblacionales de cada casilla y de cada total.

Tabla 3.6. Notacin utilizada en tablas de contingencias antes-despus

Y (despus) n1+ ' n de casos con X ' 1


X (antes) 1 2 Total n+1 ' n de casos con Y ' 1
n11 , n22 ' n de casos con X ' Y
1 n11 n12 n1+
n12 ' n de casos con X < Y
2 n21 n22 n2+
n21 ' n de casos con X > Y
Total n+1 n+2 n n ' n total de casos

En cualquiera de los tres escenarios descritos (todos ellos representados en la Tabla 3.6), la
hiptesis nula de homogeneidad marginal puede formularse como:
H0 : 1+ = +1 [3.1]
Con palabras: la proporcin de unos en X es igual a la proporcin de unos en Y. Y apli-
cada al ejemplo de la Tabla 3.2: la proporcin de personas que estn a favor de la eutanasia
en el momento antes es igual a esa misma proporcin en el momento despus.
Sera equivalente referir la hiptesis [3.1] a la proporcin de doses, pues si 1+ y +1
son iguales, entonces 2+ y +2 tambin lo son. Por esta razn a la hiptesis que estamos con-
trastando se le llama hiptesis de homogeneidad marginal: se est afirmando que las propor-
ciones marginales de X e Y son iguales.

Simetra con variables dicotmicas: la prueba de McNemar


Unas sencillas transformaciones permiten comprobar que
1+ ! +1 = (11 + 12) ! (21 ! 22) = 12 ! 21 [3.2]
Por tanto, con variables dicotmicas, la hiptesis de homogeneidad marginal equivale a la hi-
ptesis de simetra, es decir, a la hiptesis de que la proporcin de cambios que se observan
78 Anlisis de datos (vol. II)

en una direccin (12) es igual a la proporcin de cambios que se observan en la otra direccin
(21):
H0 : 12 = 21 [3.3]
Esto implica que, en una tabla de contingencias 2 2, n12 y n21 contienen la informacin ne-
cesaria y suficiente para contrastar la hiptesis de homogeneidad marginal. Si H0 es verda-
dera, cabe esperar que n12 y n21 tomen valores parecidos. Una fuerte discrepancia entre n12 y
n21 har dudar de H0. Por tanto, conociendo las probabilidades asociadas a n12 y n21, podre-
mos determinar cundo la diferencia entre ambos valores es lo bastante grande (lo bastante
improbable si H0 fuera verdadera) como para poder rechazar H0.
Ahora bien, como cada uno de los n* = n12 + n21 casos representa un ensayo de Bernou-
lli que puede pertenecer a n12 o de n21 con la misma probabilidad (pues H0 afirma que 12 y
21 son iguales), n12 y n21 son variables aleatorias que se distribuyen segn el modelo de pro-
babilidad binomial con parmetros = 0,50 y n* = n12 + n21 (ver, en el Captulo 6 del primer
volumen, el apartado Distribucin muestral del estadstico proporcin). Y como n12 y n21 son
complementarios respecto de n, conocer la probabilidad asociada a cualquiera de ellos implica
conocer la probabilidad asociada al otro. Esto significa que es innecesario trabajar con am-
bos; basta con utilizar n12.
Por tanto, tenemos un estadstico (n12) con distribucin muestral conocida que puede uti-
lizarse para contrastar la hiptesis de homogeneidad marginal (hiptesis que equivale a la
de simetra cuando, como es el caso, ambas variables son dicotmicas). Y ocurre que este
contraste es idntico al contraste sobre una proporcin ( prueba binomial ) ya estudiado en
el Captulo 9 del primer volumen; nicamente hay que tener en cuenta la siguiente equiva-
lencia entre la notacin utilizada aqu y la utilizada all: n12 = nmero de xitos, n* = n-
mero de ensayos y 12 = 0,50 = proporcin de xitos.
No repetiremos aqu este contraste, pero recordemos que la distribucin binomial tiende
a la distribucin normal conforme el tamao muestral va aumentando. En lo que ahora nos
ocupa, conforme n* va aumentando, el estadstico n12 se va aproximando a la distribucin
normal con valor esperado n* (0,5) y varianza n* (0,5) (0,5) (ver, en el Captulo 4 del primer
volumen, el apartado Aproximacin de la distribucin binomial a la normal). Basndose en
esta aproximacin, McNemar (1947) ha diseado un estadstico que no es ms que una tipi-
ficacin de n12 elevada al cuadrado1:

= [3.4]

La distribucin muestral de este estadstico se aproxima al modelo de probabilidad ji-cua-


drado con 1 grado de libertad ( ). La aproximacin es tanto mejor cuanto mayor es n, pero
como la distribucin binomial est centrada en 12 = 21 = 0,50, la aproximacin empieza a
ser muy buena con tamaos muestrales relativamente pequeos.
En la aproximacin propuesta por McNemar tambin es posible utilizar las proporciones
muestrales P1+ = n1+ /n y P+1 = n+1 /n para estimar las proporciones poblacionales 1+ y +1.
McNemar ha demostrado que la varianza de la diferencia P1+ ! P+1 vale:

1
La ecuacin incluye correccin por continuidad. En Pardo y San Martn (1998, pg. 501) puede encontrarse una sencilla
demostracin de cmo se obtiene el estadstico de McNemar a partir de los valores esperados de n12 y n21.
Captulo 3. Inferencia con dos variables categricas 79

= [3.5]

Lo cual significa que es posible construir un intervalo de confianza para la diferencia 1+ ! +1


mediante:
= [3.6]

(Z/2 es el cuantil /2 de la distribucin normal tipificada). El Cuadro 3.1 ofrece un resumen


de cmo utilizar el estadstico de McNemar para contrastar las hiptesis de homogeneidad
marginal o simetra. El resumen incluye cmo calcular el nivel crtico (valor p) y cmo cons-
truir un intervalo de confianza para la diferencia entre las dos proporciones comparadas.

Cuadro 3.1. Resumen de la prueba de McNemar sobre homogeneidad marginal o simetra (tablas 2 2)2

1. Hiptesis:
a. Contraste bilateral: H0 : 1+ = +1 ; H1: 1+ =/ +1 .
b. Contraste unilateral derecho: H0 : 1+ <$ +1 ; H1: 1+ > +1 .
c. Contraste unilateral izquierdo: H0 : 1+ >$ +1 ; H1: 1+ < +1 .
2. Supuestos: muestra aleatoria de n sujetos en la que se ha medido una variable dicot-
mica en dos momentos distintos (X e Y ) o dos variables dicotmicas (X e Y ) con las
mismas categoras; o bien, muestra aleatoria de n pares (X e Y ) de sujetos en la que se
ha medido una variable dicotmica.
3. Estadstico del contraste (ver [3.4]): = .
4. Distribucin muestral: se aproxima a la distribucin ji-cuadrado con 1 grado
de libertad ( ). La aproximacin es buena incluso con muestras pequeas.
5. Zonas crticas:
a. Contraste bilateral: $
> .
b. Contraste unilateral derecho : 2
$
> .
c. Contraste unilateral izquierdo2: $
> .
6. Decisin: se rechaza H0 si el estadstico del contraste cae en la zona crtica; en caso
contrario, se mantiene.
7. Nivel crtico (valor p):
a. Contraste bilateral: p = [P ( $
> )].
b. Contraste unilateral derecho: p = 2 [P ( $
> )].
c. Contraste unilateral izquierdo: p = 2 [P ( $
> )].
8. Intervalo de confianza (ver [3.6]): = .

2
En un contraste bilateral, toda la zona crtica (de tamao ) est a la derecha de la distribucin muestral (pues las diferen-
cias entre n12 y n21 estn elevadas al cuadrado). En un contraste unilateral (sea derecho o izquierdo), la zona crtica sigue
estando en la cola derecha de la distribucin muestral, pero su tamao es el doble de grande (2 ) que en el caso bilateral.
80 Anlisis de datos (vol. II)

Ejemplo. La prueba de McNemar


Este ejemplo muestra cmo aplicar la prueba de McNemar para contrastar la hiptesis de
homogeneidad marginal referida a dos variables dicotmicas. Recordemos que, en tablas de
contingencias 2 2, esta hiptesis equivale a la de simetra.
La Tabla 3.7 ofrece el resultado obtenido al clasificar una muestra de 250 sujetos por su
preferencia entre dos lderes polticos (A y B) antes y despus de un debate televisado. Esta-
mos interesados en averiguar si las preferencias de los sujetos han cambiado tras el debate,
es decir, si la proporcin de personas que prefieren al lder A y la de personas que prefieren
al lder B son o no las mismas antes y despus del debate ( = 0,05).

Tabla 3.7. Preferencia entre dos lderes polticos antes y despus de un debate televisado
Preferencia despus
Preferencia antes Lder A Lder B Total
Lder A 49 21 70
Lder B 63 117 180
Total 112 138 250

Se est midiendo una variable categrica (preferencia) con dos categoras (lder A, lder B)
en dos momentos distintos (antes y despus de un debate televisado). Y el inters del anlisis
no est en saber si lo que ocurre en el momento antes est o no relacionado con lo que ocurre
en el momento despus (hiptesis de independencia), sino en averiguar si la proporcin de
personas que prefieren al lder A (o al B) ha cambiado tras el debate (hiptesis de simetra
o de homogeneidad marginal).
1. Hiptesis: H0 : 1+ = +1; H1: 1+ =/ +1.
Se est planteando un contraste bilateral porque se quiere saber si la preferencia por el
lder A ha cambiado, no si ha aumentado o si ha disminuido.
2. Supuestos: muestra aleatoria de n = 250 sujetos en la que se ha medido una variable di-
cotmica (lder A, lder B) en dos momentos distintos.
3. Estadstico del contraste (con n12 = 21 y n21 = 63):

= = = .

4. Distribucin muestral: se distribuye segn .


5. Zona crtica: $
> = 3,84.
6. Decisin: puesto que el estadstico del contraste (20,01) es mayor que el punto crtico
(3,84), se rechaza H0. Puede concluirse, por tanto, que la proporcin de personas que
prefiere al lder A en el momento antes difiere de esa misma proporcin en el momento
despus (en la muestra, ha pasado de P1+ = 70 / 250 = 0,28 a P+1 = 112 / 250 = 0,45).
7. Nivel crtico (valor p): p = [P ( $
> )] = [P ( $ 20,01)] < 0,001.
>
Captulo 3. Inferencia con dos variables categricas 81

8. Intervalo de confianza (ver [3.6]):


P1+ = 0,28, P+1 = 0,45, V (P1+ ! P+1) = (21 + 63) / 2502 = 0,0013, | Z0,25 | = 1,96,
= = =
= = .
Podemos estimar, con una confianza del 95 %, que, en la poblacin, la proporcin de
personas que prefiere al lder A ha cambiado tras el debate (en concreto, ha aumentado)
entre 0,10 y 0,24 puntos.

Simetra con variables politmicas: la prueba de Bowker


En el caso de que las variables tengan ms de dos categoras (por ejemplo, tres lderes pol-
ticos en lugar de dos), la hiptesis de simetra puede contrastarse aplicando una modifica-
cin del estadstico de McNemar propuesta por Bowker (1948):

= [3.7]

Este estadstico se distribuye segn el modelo de probabilidad ji-cuadrado con un nmero de


grados de libertad igual a la mitad del nmero de casillas fuera de la diagonal principal de
la tabla (i se refiere a las filas; j se refiere a las columnas).
Es importante sealar que, con variables politmicas, la hiptesis de simetra no es equi-
valente a la de homogeneidad marginal. La simetra (frecuencias idnticas en espejo respec-
to de la diagonal principal) implica homogeneidad marginal, pero la homogeneidad marginal
no implica simetra. Y la hiptesis nula que se contrasta con [3.7] no es la de homogeneidad
marginal, sino la de simetra: 12 = 21, 13 = 31, 23 = 32, etc. Es decir:
H 0 : i j = j i (con i =/ j) [3.8]
Para ver cmo se aplica la ecuacin [3.7] consideremos los datos de la Tabla 3.8 referidos
a una muestra de 250 sujetos clasificados por sus preferencias entre tres lderes polticos (A,
B y C ) antes y despus de un debate televisado (las casillas que intervienen en [3.7] son las
que estn fuera de la diagonal):

Tabla 3.8. Preferencia entre tres lderes polticos antes y despus de un debate televisado
Preferencia despus
Preferencia antes Lder A Lder B Lder C Total
Lder A 38 8 4 50
Lder B 24 46 10 80
Lder C 18 16 86 120
Total 80 70 100 250
82 Anlisis de datos (vol. II)

Aplicando la ecuacin [3.7] a los datos de la Tabla 3.8 se obtiene:

= = =

$ 18,29)] < 0,001. Este resultado permite rechazar la hiptesis de simetra


En la distribucin ji-cuadrado con 3 grados de libertad (ver Tabla C del Apndice final), se
obtiene p = P ( >
y concluir que los cambios de preferencia no se reparten de igual forma entre los tres lderes.
Tras rechazar la hiptesis de simetra, podra interesar averiguar qu pauta siguen los
cambios observados, es decir, hacia qu lder o lderes se dirigen los cambios en las preferen-
cias. Para esto hay que contrastar la hiptesis de simetra con cada pareja de lderes (A-B, A-C
y B-C ) aplicando la prueba de Mcnemar tal como hemos hecho en el ejemplo anterior con los
datos de la Tabla 3.7. En el ejemplo del siguiente apartado veremos cmo hacer esto con el
SPSS.

Homogeneidad marginal y simetra con SPSS


La prueba de McNemar est disponible en dos procedimientos SPSS distintos: Pruebas no
paramtricas y Tablas de contingencias. La prueba de Bowker solamente est disponible en el
segundo. Por tanto, el primero de ellos (Pruebas no paramtricas) nicamente permite con-
trastar la hiptesis de simetra con variables dicotmicas (lo cual equivale a la hiptesis de
homogeneidad marginal o igualdad de proporciones antes-despus). El segundo (Tablas de
contingencias) permite contrastar la hiptesis de simetra tanto con variables dicotmicas
(prueba de McNemar) como con variables politmicas (prueba de Bowker).
En el primer caso (procedimiento Pruebas no paramtricas), cuando el nmero de cambios
(n12 + n21) es igual o menor que 25 el SPSS utiliza la distribucin binomial (con parmetros
n* = n12 + n21 y = 0,5) para obtener la probabilidad exacta asociada al nmero observado de
cambios; si el nmero de cambios es mayor de 25, utiliza el estadstico de McNemar (ecua-
cin [3.4]) y su aproximacin a la distribucin ji-cuadrado con 1 grado de libertad. En el se-
gundo caso (procedimiento Tablas de contingencias) se utiliza siempre la aproximacin bino-
mial. En ambos casos la ecuacin binomial est multiplicada por 2, lo cual significa que el
SPSS ofrece el nivel crtico bilateral:
n12 = n de casos en los que X < Y
n21 = n de casos en los que X > Y
p = n* = n12 + n21 [3.9]
r = el menor de n1 y n2
i = 0, 1, 2, ..., r

Por ejemplo, en los datos de la Tabla 3.7 se tiene: n12 = 21, n21 = 63, n* = 21 + 63 = 84, r = 21,
i = todos los valores de 0 a 21. Para contrastar la hiptesis de simetra (prueba de McNe-
mar) con los datos de la Tabla 3.7:
' Reproducir en el Editor de datos los datos de la Tabla 3.7 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.7 simetra mcnemar que se encuentra en
la pgina web del manual).
Captulo 3. Inferencia con dos variables categricas 83

' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar
para acceder al cuadro de dilogo Tablas de contingencias y trasladar la variable antes
(preferencia antes del debate) a la lista Filas y la variable despus (preferencia despus
del debate) a la lista Columnas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingen-
cias: Estadsticos y marcar la opcin McNemar. Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
Aceptando estas elecciones, el Visor ofrece, adems de la correspondiente tabla de contin-
gencias, los resultados que muestra la Tabla 3.9. La tabla informa del nivel crtico asociado
al nmero de cambios observados (sig. exacta bilateral) y del nmero de casos vlidos. La
tabla no incluye el valor del estadstico de McNemar (ecuacin [3.4]) porque el nivel crti-
co se ha obtenido aplicando la ecuacin [3.9] para obtener la probabilidad exacta que ofrece
la distribucin binomial (se indica en una nota a pie de tabla).
Cualquiera que sea la forma de obtener el nivel crtico, su significado siempre es el mis-
mo: indica el grado de compatibilidad existente entre los datos muestrales y la hiptesis nula.
En el ejemplo, puesto que el nivel crtico es menor que 0,05 (sig. exacta bilateral < 0,0005),
se puede rechazar la hiptesis nula de simetra y concluir que el nmero de cambios a favor
del lder A difiere del nmero de cambios a favor del lder B. O, lo que es lo mismo, que la
proporcin de sujetos que prefiere al lder A antes del debate (70 / 250 = 0,28) ha cambiado
significativamente ha aumentado tras el debate (112 / 250 = 0,45).

Tabla 3.9. Prueba de simetra de McNemar


Sig. exacta
Valor (bilateral)
a
Prueba de McNemar ,000
N de casos vlidos 250
a. Utilizada la distribucin binomial

La opcin McNemar del procedimiento Tablas de Contingencias tambin permite trabajar con
variables politmicas. Si las variables seleccionadas tienen ms de dos categoras, el SPSS
ofrece, en lugar del estadstico de McNemar, el de Bowker (lo llama estadstico de McNemar-
Bowker). Para contrastar la hiptesis de simetra con los datos de la Tabla 3.8:
' Reproducir en el Editor de datos los datos de la Tabla 3.8 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.8 simetra bowker que se encuentra en la
pgina web del manual).
' Repetir los mismos pasos del ejemplo anterior (procedimiento Tablas de contingencias)
para obtener la prueba de McNemar-Bowker.
Ahora, el Visor ofrece los resultados que muestra la Tabla 3.10. La tabla incluye el valor del
estadstico de McNemar-Bowker (valor = 18,29) junto con los grados de libertad de su distri-
bucin muestral (gl = 3) y el correspondiente nivel crtico (sig. asinttica bilateral < 0,0005).
Puesto que el nivel crtico es menor que 0,05, se puede rechazar la hiptesis nula de simetra
y concluir que los cambios de preferencia observados no se reparten de igual forma entre los
tres lderes.
84 Anlisis de datos (vol. II)

Tabla 3.10. Prueba de simetra de Bowker


Sig. asinttica
Valor gl (bilateral)
Prueba de McNemar-Bowker 18,29 3 ,000
N de casos vlidos 250

El problema de este contraste es que, dado que la variable categrica analizada tiene ms de
dos categoras, el rechazo de la hiptesis de simetra no permite determinar en qu direccin
se producen cambios significativos. Para conocer esto es necesario aplicar la prueba de Mc-
Nemar a cada par de categoras: primero comparando los lderes A y B, a continuacin los
lderes A y C, y por ltimo los lderes B y C. Estas comparaciones pueden hacerse aplican-
do varios filtros al archivo de datos (con la opcin Seleccionar casos del men Datos), de tal
manera que en cada contraste nicamente intervengan las dos categoras (lderes) que se de-
sea comparar. La Figura 3.1 muestra los tres filtros creados para efectuar los tres contrastes.
La variable filtro_AB permite aislar a los lderes A y B; la variable filtro_AC, a los lderes A
y C; la variable filtro_BC, a los lderes B y C.

Figura 3.1. Datos correspondientes a la Tabla 3.8 con tres variables filtro aadidas

Aplicando la prueba de McNemar tras activar consecutivamente cada uno de los tres filtros
definidos se obtienen los resultados que muestran las Tablas 3.11 a la 3.13. Los niveles cr-
ticos obtenidos con cada filtro (sig. exacta bilateral) indican que los cambios significativos
se producen desde los lderes B y C hacia el A ( p = 0,007 en el primer caso y p = 0,004 en
el segundo; ver Tablas 3.11 y 3.12). El resultado de la comparacin entre los lderes B y C
no es significativo (p = 0,327; ver Tabla 3.13). Se obtiene idntico resultado si los filtros se
llevan a las capas (un filtro por capa).

Tabla 3.11. Preferencia entre dos lderes polticos antes y despus de un debate televisado (izquierda) y
prueba de McNemar (derecha). Lderes A y B
Recuento
Preferencia Sig. exacta
despus Valor (bilateral)
Lder A Lder B Total a
Prueba de McNemar ,007
Preferencia Lder A 38 8 46 N de casos vlidos 116
antes Lder B 24 46 70 a. Utilizada la distribucin binomial
Total 62 54 116
Captulo 3. Inferencia con dos variables categricas 85

Tabla 3.12. Preferencia entre dos lderes polticos antes y despus de un debate televisado (izquierda) y
prueba de McNemar (derecha). Lderes A y C
Recuento
Preferencia Sig. exacta
despus Valor (bilateral)
a
Lder A Lder C Total Prueba de McNemar ,004
Preferencia Lder A 38 4 42 N de casos vlidos 146
antes Lder C 18 86 104 a. Utilizada la distribucin binomial
Total 56 90 146

Tabla 3.13. Preferencia entre dos lderes polticos antes y despus de un debate televisado (izquierda)
y prueba de McNemar (derecha). Lderes B y C
Recuento
Preferencia Sig. exacta
despus Valor (bilateral)
a
Lder B Lder C Total Prueba de McNemar ,327
Preferencia Lder B 46 10 56 N de casos vlidos 158
antes Lder C 16 86 102 a. Utilizada la distribucin binomial
Total 62 96 158

Cuando las variables analizadas son dicotmicas, la hiptesis de simetra (12 = 21) es equi-
valente a la de homogeneidad marginal (i + = + j). Esta equivalencia no se sostiene cuando
las variables tienen ms de dos categoras. La simetra implica homogeneidad marginal, pe-
ro la homogeneidad marginal no implica simetra. Del rechazo de la hiptesis de simetra no
se sigue que las distribuciones marginales sean distintas. Por tanto, al analizar situaciones
como la representada en la Tabla 3.8 es muy importante tener claro qu es lo que interesa
analizar: (1) centrar la atencin en la hiptesis de simetra significa valorar la pauta que si-
guen los cambios observados (esto es lo que hemos hecho en el ejemplo anterior: ver hacia
qu lder se dirigen los cambios observados); (2) centrar la atencin en la hiptesis de ho-
mogeneidad marginal significa valorar si las proporciones antes-despus han cambiado (es
decir, valorar si las proporciones de personas que prefieren a cada lder son o no iguales an-
tes y despus del debate).
Veamos cmo contrastar con el SPSS la hiptesis de homogeneidad marginal referida
a los mismos datos del ejemplo anterior (ver Tabla 3.8 y Figura 3.1):
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas.
' Trasladar las variables antes (preferencia antes del debate) y despus (preferencia des-
pus del debate) a la lista Contrastar pares.
' Marcar la opcin Homogeneidad marginal del recuadro Tipo de prueba.

Aceptando estas elecciones, el Visor ofrece, adems de la correspondiente tabla de contingen-


cias, los resultados que muestra la Tabla 3.14. La tabla ofrece informacin sobre: (1) el n-
mero de categoras de las variables analizadas (valores distintos = 3); (2) el nmero de casos
que hay fuera de la diagonal principal (casos no diagonales = 80); (3) el valor del estadstico
de homogeneidad marginal (estadstico de HM observado = 182); (4) su valor esperado y su
86 Anlisis de datos (vol. II)

error tpico (media del estadstico HM = 157 y desviacin tpica del estadstico HM = 6,04);
(5) el valor tipificado del estadstico de homogeneidad marginal (estadstico de HM tipifica-
do = 4,14); este valor tipificado se obtiene restando al valor del estadstico su valor esperado
y dividiendo la diferencia entre su error tpico: (182 ! 157) / 6,04 = 4,14; y (6) el nivel crtico
bilateral (valor p) que corresponde al valor tipificado obtenido (significacin asinttica bilate-
ral < 0,0005; esta probabilidad se calcula multiplicando por 2 la probabilidad de obtener, en
la distribucin normal tipificada, valores mayores o iguales que el obtenido.
Puesto que el nivel crtico es muy pequeo, lo razonable es rechazar la hiptesis de ho-
mogeneidad marginal. Para saber qu proporciones marginales difieren se puede aplicar la
prueba de McNemar a cada pareja de lderes tal como se ha hecho en el ejemplo anterior.

Tabla 3.14. Prueba de homogeneidad marginal


Preferencia antes y
despus del debate
Valores distintos 3
Casos no diagonales 80
Estadstico de HM observado 182,00
Media del estadstico HM 157,00
Desviacin tpica del estadstico de HM 6,04
Estadstico de HM tipificado 4,14
Sig. asintt. (bilateral) ,000

ndices de riesgo
Seguimos analizando dos variables dicotmicas. Pero a diferencia de lo que hemos hecho en
el apartado anterior (medir la misma variable dos veces o en pares de sujetos, o medir dos
variables con las mismas categoras), el inters ahora se centra en estudiar la relacin entre
dos variables dicotmicas distintas. La Tabla 3.15 muestra un ejemplo tpico de la situacin
que nos proponemos analizar. En una muestra aleatoria de 1.150 personas mayores de 40
aos se ha registrado la presencia o no de infarto de miocardio en fumadores y no fumadores
durante un periodo de seguimiento de 15 aos (infarto = s significa al menos un infarto).

Tabla 3.15. Frecuencias conjuntas y marginales de tabaquismo e infarto


Infarto
Tabaquismo S No Total
Fumadores 51 374 425
No fumadores 29 696 725
Total 80 1.070 1.150

Estamos interesados en analizar el grado de relacin existente entre una variable dicotmi-
ca a la que llamaremos factor (en el ejemplo, tabaquismo) y otra variable dicotmica a la que
llamaremos desenlace o respuesta (en el ejemplo, infarto). La variable factor suele elegir-
se porque se sabe o se sospecha que puede estar relacionada con la variable respuesta que
Captulo 3. Inferencia con dos variables categricas 87

interesa estudiar. Los datos recogidos al estudiar este tipo de situaciones suelen organizarse
en tablas de contingencias 2 2 como la representada en la Tabla 3.15. La Tabla 3.16 mues-
tra la notacin que utilizaremos para referirnos a cada elemento de la tabla. Sustituyendo n
por o por P se obtiene la notacin correspondiente a las proporciones tericas y muestra-
les de cada casilla y de cada total.

Tabla 3.16. Notacin utilizada en tablas de contingencias 2 2

Respuesta n1+ ' n de casos expuestos


Factor S No Total n2+ ' n de casos no expuestos
Expuestos n11 n12 n1+ n11 ' n de respuestas entre expuestos
No expuestos n21 n22 n2+ n21 ' n de respuestas entre no expuestos
Total n+1 n+2 n n ' n total de casos

Este tipo de datos son habituales en estudios longitudinales, los cuales pueden hacerse de dos
formas: hacia delante o hacia atrs (para ms detalles, ver Kleinbaum, Kupper y Morgens-
tern, 1982, pgs. 63-70). En los diseos hacia delante, llamados prospectivos o de cohortes,
se clasifica a los sujetos en dos grupos dependiendo de la presencia o ausencia de algn fac-
tor de inters (por ejemplo, el hbito de fumar) y se hace seguimiento durante un periodo de
tiempo para determinar la proporcin de sujetos de cada grupo en los que se da la respues-
ta o desenlace objeto de estudio (por ejemplo, infarto). En los diseos longitudinales hacia
atrs, llamados retrospectivos o de casos y controles, se forman dos grupos de sujetos a par-
tir de la presencia o ausencia de la respuesta o desenlace objeto de estudio (por ejemplo, su-
jetos sanos y sujetos que han sufrido infarto) y se hace seguimiento hacia atrs intentando
encontrar informacin sobre la proporcin en la que aparece en cada grupo un determinado
factor de inters (por ejemplo, el hbito de fumar).

Riesgo relativo
En los diseos prospectivos o de cohortes es posible decidir si las variables factor y respues-
ta estn relacionadas contrastando la hiptesis de independencia con la prueba X 2 de Pear-
son (ver Captulo 10 del primer volumen). Aplicando esta prueba a los datos de a Tabla 3.15
se obtiene un valor de 26,49 con un nivel crtico asociado p < 0,0005. Puesto que el nivel
crtico es muy pequeo (menor que 0,05), se puede concluir que las variables tabaquismo e
infarto estn relacionadas.
Pero en este tipo de diseos, ms que el hecho de saber si existe o no relacin, lo que
suele interesar es comparar lo que ocurre con los sujetos expuestos y los no expuestos. De
hecho, en este tipo de diseos lo habitual es utilizar un estadstico que permite comparar la
proporcin de respuestas o desenlaces del grupo de sujetos expuestos (P1 = n11 / n1+) con esa
misma proporcin en el grupo de sujetos no expuestos (P2 = n21 / n2+). Al cociente entre estas
dos proporciones (ver Miettinen, 1976) se le llama ndice de riesgo relativo RR :

= = [3.10]
88 Anlisis de datos (vol. II)

El numerador del riesgo relativo recoge la proporcin de desenlaces entre los sujetos expues-
tos. El denominador, la proporcin de desenlaces entre los sujetos no expuestos. El cocien-
te entre ambas proporciones indica cunto mayor es la proporcin de desenlaces en el grupo
de sujetos expuestos que en el de sujetos no expuestos.
El valor (siempre no negativo) del ndice de riesgo relativo se interpreta tomando como
referencia el valor 1. Un riesgo relativo de 1 indica que la proporcin de desenlaces es la mis-
ma en ambos grupos. El valor de RR es mayor que 1 cuando la proporcin del numerador es
mayor que la del denominador; un RR = 2 indica que la proporcin de desenlaces del nume-
rador es el doble que la del denominador; un RR = 5 indica que la proporcin del numerador
es 5 veces la del denominador. El valor de RR es menor que 1 cuando la proporcin del nu-
merador es menor que la del denominador; un RR = 0,75 indica que la proporcin de de-
senlaces del numerador es un 25 % menor que la del denominador; un RR = 0,50 indica que
la proporcin del numerador es un 50 % menor (la mitad) que la del denominador. En el
ejemplo de la Tabla 3.15:

= = = =

El numerador (0,12) refleja la proporcin de infartos (incidencia) en el grupo de fumadores;


el denominador (0,04), la proporcin de infartos en el de no fumadores. El cociente (RR = 3)
indica que la proporcin de infartos en el grupo de fumadores (numerador) es 3 veces la
proporcin de infartos en el grupo de no fumadores (denominador). En muchos contextos
(muy especialmente en contextos clnicos y epidemiolgicos) es habitual interpretar RR uti-
lizando, no el trmino proporcin, sino el trmino riesgo. As, un RR = 3 indica que el riesgo
de sufrir infarto entre los fumadores es 3 veces el riesgo de sufrirlo entre los no fumadores.
La distribucin muestral de RR es muy asimtrica. No obstante, para valorar si un ndi-
ce de riesgo es significativamente distinto de 1, puede calcularse un intervalo de confianza
para RR mediante:

= [3.11]

donde e se refiere a la base de los logaritmos naturales (2,71828) y al error tpico del
logaritmo de RR:

= [3.12]

Este intervalo de confianza sirve para contrastar la hiptesis nula de que el riesgo es el mis-
mo en los dos grupos comparados (RR = 1 en la poblacin). Si el valor 1 no se encuentra en-
tre los lmites del intervalo de confianza definido en [3.11], puede concluirse que el riesgo
de experimentar el desenlace no es el mismo en los dos grupos comparados. Aplicando la
ecuacin [3.11] a los datos de la Tabla 3.15 se obtiene:

= =
= =

Puesto que el valor 1 no se encuentra dentro de los lmites del intervalo, podemos estimar, con
una confianza del 95 %, que el riesgo poblacional es mayor que 1. Y como el lmite inferior
Captulo 3. Inferencia con dos variables categricas 89

vale 1,93, puede concluirse que la proporcin de desenlaces (infartos) en el grupo de fuma-
dores es al menos 1,93 veces la proporcin de desenlaces en el de no fumadores.
En los estudios epidemiolgicos, el riesgo relativo suele acompaarse del porcentaje de
riesgo atribuible o fraccin etiolgica (PRA) en un intento de cuantificar en qu medida los
desenlaces observados pueden ser atribuidos al factor de riesgo. Puesto que en el grupo de no
expuestos tambin se observan desenlaces, la incidencia en el grupo de expuestos no sirve
como cuantificacin del porcentaje de desenlaces atribuibles al hecho de estar expuestos. Es
decir, como entre los no fumadores tambin se dan infartos (0,04), la proporcin de infartos
del grupo de fumadores (0,12) no puede ser atribuida, toda ella, al hecho de fumar. El riesgo
atribuible se obtiene restando la proporcin de desenlaces de ambos grupos: RA = P1 ! P2. Y
el porcentaje de riesgo atribuible se calcula como una fraccin de RA respecto de P1:

PRA = 100 (P1 ! P2 ) / P1 [3.13]


En el ejemplo sobre tabaquismo e infarto, el riesgo atribuible vale RA = 0,12 ! 0,04 = 0,08.
Y el porcentaje de riesgo atribuible, PRA = 100 (0,08) / 0,12 = 67 %. Este valor se interpreta
en epidemiologa como que el 67 % de los desenlaces (infartos) que se producen en el gru-
po de sujetos expuestos (fumadores) son atribuibles al factor de riesgo (fumar). Ahora bien,
para poder hacer esta interpretacin es necesario que el factor de riesgo sea la causa del de-
senlace estudiado. Y ya hemos sealado que esto es algo muy difcil de determinar en un
estudio de cohortes. La conclusin razonable es que el 67 % de los infartos del grupo de
fumadores (34 de los 51 casos observados) es atribuible a todo en lo que difieren fumadores
y no fumadores (que, probablemente, no es nicamente en el hecho de fumar).

Odds ratio
En este apartado vamos a estudiar un estadstico muy utilizado para cuantificar la relacin
entre dos variables dicotmicas y como componente de algunos modelos estadsticos. Aqu,
de momento, nos limitaremos a utilizarlo como una estimacin del riesgo relativo cuando s-
te no puede calcularse. Comencemos con el concepto de odds. Siendo P la probabilidad de
un suceso cualquiera, la odds de ese suceso se define como:
odds = P (1 ! P ) [3.14]
Es decir, la odds de un suceso es el cociente entre la probabilidad de ese suceso (por ejem-
plo, acierto) y la de su complementario (error). Si la probabilidad del suceso acierto vale
0,75, entonces su odds vale 0,75 / (0,25) = 3. Lo cual significa que la probabilidad del suce-
so acierto es 3 veces la del suceso error.
Una odds siempre toma un valor no negativo: odds = 1 cuando la probabilidad del suce-
so es igual que la de su complementario (esto solamente ocurre cuando la probabilidad del
suceso vale 0,50); odds > 1 cuando la probabilidad del suceso es mayor que la de su com-
plementario (si la probabilidad de un suceso vale 0,80, ese suceso es cuatro veces ms pro-
bable que su complementario: 0,80 / 0,20 = 4); y odds < 1 cuando la probabilidad del suceso
es menor que la de su complementario (si la probabilidad de un suceso vale 0,20, ese suceso
es cuatro veces menos probable que su complementario: 0,20 / 0,80 = 1/ 4).
La probabilidad de un suceso puede conocerse a partir de su odds: P = odds / (odds + 1).
Por ejemplo, si la odds de un suceso vale 3, su probabilidad vale 3 / (3 + 1) = 0,75.
90 Anlisis de datos (vol. II)

En los diseos retrospectivos o de casos y controles, tras formar dos grupos de sujetos
a partir de algn desenlace de inters, se va hacia atrs buscando la presencia de algn fac-
tor de riesgo. El estudio sobre tabaquismo e infarto del apartado anterior (ver Tabla 3.15)
podra disearse seleccionando dos grupos de sujetos (con y sin infarto) y buscando hacia
atrs (por ejemplo, en la historia clnica de los sujetos) la presencia del hbito de fumar. La
Tabla 3.17 reproduce esta nueva situacin3.

Tabla 3.17. Frecuencias conjuntas y marginales de tabaquismo e infarto


Infarto
Tabaquismo S (casos) No (controles) Total
Fumadores 51 374 425
No fumadores 29 696 725
Total 80 1.070 1.150

Los diseos de casos y controles son muy utilizados en las ciencias de la salud porque tienen
algunas ventajas sobre los diseos de cohortes: no es necesario hacer seguimiento durante
aos para poder identificar factores de riesgo y garantizan que el estudio incluya una muestra
suficientemente grande de pacientes con la enfermedad o el desenlace que interesa estudiar.
Pero se diferencian de los diseos de cohortes en un aspecto importante desde el punto de
vista estadstico: mientras que en un diseo de cohortes se fijan las frecuencias marginales
de las filas, en un diseo de casos y controles se fijan las frecuencias marginales de las co-
lumnas (generalmente eligiendo entre 1 y 4 controles por cada caso). Como consecuencia de
esto, las frecuencias marginales de las filas son resultado del muestreo: puesto que a cada
caso se le puede asignar distinto nmero de controles, los totales marginales de las filas no
dependen nicamente de la verdadera proporcin de desenlaces (es decir, de la verdadera
incidencia del desenlace estudiado), sino de la decisin subjetiva o arbitraria del investiga-
dor (es decir, del nmero de controles que el investigador decida utilizar).
En este escenario no tiene sentido calcular las proporciones de desenlaces de las filas,
pues esas proporciones no reflejan incidencias reales. Y si no tiene sentido calcular las inci-
dencias, tampoco tiene sentido calcular el ndice de riesgo relativo definido en [3.10]. La
solucin a este problema pasa por intentar estimar el riesgo relativo utilizando alguna es-
trategia que no se base en las frecuencias marginales de las filas. Aqu es donde intervienen
las odds que acabamos de presentar.
Consideremos los datos de la Tabla 3.17 y asumamos que se han obtenido utilizando un
diseo de casos y controles (es decir, asumamos que, ahora, las frecuencias marginales fijas
son las de las columnas). Podemos calcular la odds del suceso fumar entre los casos y entre
los controles, es decir, entre los sujetos que han sufrido infarto (oddss) y entre los sujetos que
no han sufrido infarto (oddsno):
oddss = (51 / 80) /(29 / 80) = 51 / 29 = 1,7586
oddsno = (374 / 1.070) / (696 / 1.070) = 374 / 696 = 0,5374
3
Hemos conservado en la Tabla 3.17 las mismas frecuencias que en la Tabla 3.15 para reflejar mejor el paralelismo que
existe entre ambos tipos de estudio (a pesar de que en un diseo de casos y controles el nmero de controles suele fijarse
en no ms de 4 por cada caso).
Captulo 3. Inferencia con dos variables categricas 91

Lo cual significa que, entre los casos (sujetos que han sufrido infarto), el suceso fumar es ms
probable que el suceso no fumar; en concreto, un 76 % ms probable. Y entre los controles
(sujetos que no han sufrido infarto), el suceso fumar es menos probable que el suceso no fu-
mar; en concreto, un 46 % menos probable.
El cociente entre ambas odds indica cunto mayor o menor es la odds del suceso fumar
en el grupo s (casos) que en el grupo no (controles):
oddss / oddsno = 1,7586 / 0,5374 = 3,27
La odds del suceso fumar entre los casos es 3,27 veces la odds del suceso fumar entre los con-
troles. Ahora bien, esto no es lo que estbamos buscando. La informacin que buscamos es
la misma que nos ofrece el ndice de riesgo, a saber: cunto ms se da el desenlace infarto
entre los fumadores que entre los no fumadores (no cunto ms se da el suceso fumar entre
los casos que entre los controles). Pero este problema tiene fcil solucin cuando se trabaja
con el cociente entre dos odds. Ocurre que ese cociente no cambia cuando, en lugar de dividir
las odds de las columnas, se dividen las odds de las filas:
oddsfumadores = (51/ 425) / (374 / 425) = 51 / 374 = 0,1364
oddsno fumadores = (29 / 725) / (696 / 725) = 29 / 696 = 0,0417
oddsfumadores / oddsno fumadores = 0,1364 / 0,0417 = 3,27
Este resultado es idntico al anterior y est indicando que la odds del suceso infarto entre los
fumadores es 3,27 veces las odds del suceso infarto entre los no fumadores.
Cuando se trabaja con sucesos cuyas odds son pequeas, el cociente entre odds toma un
valor muy parecido al del ndice de riesgo relativo (recordemos que, con estos mismos datos,
RR = 3). Por esta razn, en los diseos de casos y controles (que no permiten calcular las in-
cidencias del desenlace estudiado), se utiliza el cociente entre odds como una estimacin del
riesgo relativo. A este cociente entre odds se le llama odds ratio4 (OR ) (Cornfield, 1951) y
se define mediante

= = = = [3.15]

De la propia definicin de la odds ratio se deduce que su valor no se altera si se cambia el


orden de las filas y el de las columnas. Y tampoco se altera si se intercambian las filas y las
columnas (da igual cul de las dos variables se coloque en las filas o en las columnas).
Para interpretar una odds ratio hay que referirla al valor 1. OR toma un valor igual a 1
cuando la odds del desenlace es la misma en las filas y en las columnas; toma un valor ma-
yor que 1 cuando la odss del desenlace es mayor en las filas que en las columnas; y toma un
valor menor que 1 cuando la odds del desenlace es menor en las filas que en las columnas.
La distribucin muestral de OR es, al igual que la de RR, muy asimtrica incluso con ta-
maos muestrales grandes. No obstante, el logaritmo natural de OR permite corregir la asi-
metra de su distribucin y definir un intervalo de confianza basado en una aproximacin a
la distribucin normal:
4
Este estadstico ha sido objeto de diferentes traducciones (razn de oportunidades, razn de posibilidades, razn de dis-
paridades, razn de productos cruzados, etc.), pero ninguna de ellas parece haber cuajado lo suficiente como para ser usada
de forma generalizada. En el SPSS, la odds ratio est traducida como razn de ventajas.
92 Anlisis de datos (vol. II)

= [3.16]

donde e se refiere a la base de los logaritmos naturales (2,71828) y al error tpico del
logaritmo de OR:

= [3.17]

Este intervalo de confianza sirve para contrastar la hiptesis nula de que la odds ratio vale 1
en la poblacin muestreada. Si el valor 1 no se encuentra entre los lmites del intervalo de
confianza, puede concluirse que la odds de la respuesta o desenlace estudiado no es la mis-
ma en las dos poblaciones comparadas. Aplicando las ecuaciones 3.15 y 3.16 a los datos de
la Tabla 3.17 se obtiene

= =

= =

Puesto que el valor 1 no se encuentra dentro de los lmites del intervalo, podemos estimar,
con una confianza del 95 %, que la odds ratio poblacional es mayor que 1. Y como el lmite
inferior vale 2,04, podemos concluir que la odds del suceso infarto en el grupo de fumado-
res es al menos 2,04 veces la odds del suceso infarto en el grupo de no fumadores.

Relacin entre el riesgo relativo y la odds ratio


Una odds ratio de 3,27 no significa que P1 es 3,27 veces P2. sta sera la interpretacin del
riesgo relativo (ver ecuacin [3.10]). Lo que significa una odds ratio de 3,27 es que la odds
P1 / (1 ! P1) es 3,27 veces la odds P2 / (1 ! P2), pues, segn [3.15],

Ahora bien, aunque una odds ratio no es lo mismo que un ndice de riesgo relativo, ambos
estadsticos se encuentran estrechamente relacionados:

= = [3.18]

Esto significa que cuando P1 y P2 toman valores muy parecidos, la fraccin final de la ecua-
cin [3.18] se aproxima a 1 y el valor de OR se aproxima al de RR. Ciertamente esto no condu-
ce a nada interesante porque cuando se disea un estudio de casos y controles es justamen-
te porque se sospecha que P1 y P2 son diferentes. Ahora bien, en muchos de los estudios que
se llevan a cabo, P1 y P2 suelen ser valores pequeos. Aunque P1 y P2 sean diferentes, si son
lo bastante pequeos, la fraccin final de la ecuacin [3.18] se aproximar a 1 y el valor de
OR se aproximar al de RR. Bajo estas circunstancias, el valor de la odds ratio puede utilizar-
se como una estimacin del riesgo relativo que no es posible calcular (ver Rigby, 1999). Con
los datos de la Tabla 3.17 se obtiene OR = 3,27 y RR = 3. Puesto que las proporciones de
Captulo 3. Inferencia con dos variables categricas 93

desenlaces son ms bien pequeas, no se comete un error importante si se afirma que el riesgo
de experimentar el suceso infarto es 3,27 veces mayor en el grupo de fumadores que en el de
no fumadores.

Consideraciones sobre la interpretacin de los ndices de riesgo


Los diseos de cohortes y de casos y controles que estamos revisando en este apartado son
muy utilizados en las ciencias sociales y de la salud. Acabamos de ver que en epidemiologa
sirven para identificar factores de riesgo asociados a determinadas enfermedades. En socio-
loga se pueden utilizar para identificar caractersticas grupales bajo las que es ms frecuen-
te determinada conducta (la abstencin en unas elecciones, el consumo de drogas, etc.). En
seguridad vial se pueden utilizar para valorar la relacin entre el uso del cinturn de seguri-
dad y las muertes por accidente. Las aseguradoras utilizan estos diseos para identificar ba-
jo qu circunstancias son ms probables los accidentes, o los incendios, o los robos, etc. Las
entidades financieras los utilizan para decidir qu caractersticas de sus clientes aumentan o
disminuyen el riesgo de morosidad. Etctera.

Riesgo no es causalidad
En todos los ejemplos del prrafo anterior se calculan ndices de riesgo que se utilizan para
tomar decisiones que, muchas veces, afectan de forma importante a las personas: recomen-
daciones sobre comportamientos saludables, precios de los seguros, concesin de crditos,
etc. Sin embargo, no debe perderse de vista el hecho de que un ndice de riesgo no es ms
que un cociente de proporciones (o de odds). Su valor indica cunto mayor o menor es una
proporcin que otra. Y sustituir el trmino proporcin por el de riesgo no cambia la natu-
raleza del ndice. Un factor de riesgo no es lo mismo que un factor causal.
Tanto los diseos de cohortes como los de casos y controles son diseos observaciona-
les (ver Captulo 1 del primer volumen). Dado que no existe asignacin aleatoria de los suje-
tos a las condiciones del estudio (fumar, no fumar), con estos diseos es posible situarse en
un nivel de indagacin de tipo relacional, pero no explicativo. Esto significa que estos dise-
os no permiten determinar si una relacin es o no de tipo causal. Sirven para detectar di-
ferencias y relaciones, pero no para determinar si la variable factor es o no la responsable del
desenlace estudiado. Recordemos que para poder afirmar que una relacin es de naturaleza
causal es necesario utilizar diseos experimentales (con asignacin aleatoria que es imposi-
ble llevar a cabo en los diseos de cohortes y de casos y controles) o fundamentar tal afir-
macin en teoras slidas (ver, en el Captulo 12 del primer volumen, el apartado Relacin
y causalidad). Conviene no pasar esto por alto porque el trmino riesgo, tan caracterstico
de este tipo de diseos, puede llevar fcilmente a conclusiones equivocadas.
En el ejemplo sobre tabaquismo e infarto hemos visto que un riesgo relativo de 3 indica
que el riesgo de sufrir infarto si se fuma es 3 veces mayor que si no se fuma. Del hecho de
interpretar un cociente de proporciones utilizando el trmino riesgo no se sigue que el hbito
de fumar sea la causa de la diferencia observada. Y no se sigue tal cosa porque los sujetos
no se han asignado aleatoriamente a las condiciones del estudio (los grupos de fumadores
y no fumadores vienen dados). En un estudio de estas caractersticas, la diferencia observada
podra deberse a causas distintas del hecho de fumar. De hecho, podra deberse a cualquier
94 Anlisis de datos (vol. II)

variable en que los fumadores difieran de los no fumadores (si es que difieren en algo aparte
del hecho de fumar). A estas terceras variables que podran estar contaminando el resultado
de un estudio se les llama factores de confusin. Y lo ideal, lgicamente, es poder identificar
y controlar estos factores para eliminar su efecto.
La forma ms segura de hacer esto es mediante la asignacin aleatoria de los sujetos a las
condiciones del estudio. Pero la asignacin aleatoria no siempre es posible. Por ejemplo, no
es posible seleccionar aleatoriamente dos grupos de sujetos no fumadores, convertir en fuma-
dores a los sujetos de un grupo y hacer seguimiento a ambos grupos para averiguar en cul
de ellos se producen ms infartos. Y no es posible hacer esto por razones ticas y porque pro-
bablemente sera muy difcil encontrar sujetos que se prestaran a ello. Pero, incluso aunque
esto fuera posible, tampoco servira de mucho, pues no bastara con hacer dos grupos equi-
valentes al principio del estudio, sino que habra que mantenerlos equivalentes a lo largo del
estudio controlando sus hbitos alimentarios, la cantidad de ejercicio fsico, el tipo de traba-
jo, las enfermedades sobrevenidas, etc.
Muchos de los problemas que nos interesa estudiar no pueden abordarse planteando un
diseo experimental. En estos casos, no queda ms remedio que recurrir a diseos correla-
cionales (como los de cohortes y los de casos y controles) donde la equivalencia entre grupos
se intenta establecer, no mediante asignacin aleatoria, sino controlando las variables de con-
fusin que se sabe o se sospecha que pueden alterar los resultados del estudio (hipertensin,
obesidad, nivel de colesterol, sedentarismo, etc.). Si no se consigue controlar estas variables,
es muy difcil aislar factores causales. Y aun cuando se consigue controlarlas, difcilmente
se tiene la certeza de estar controlando todos los posibles factores de confusin. sta es la ra-
zn principal por la cual, al interpretar los ndices de riesgo, debe evitarse realizar afirma-
ciones que atribuyan connotaciones causales a la relacin encontrada.

Los ndices de riesgo tienden a sobrestimar el verdadero riesgo


La diferencia entre dos proporciones es ms importante cuando ambas se encuentran cerca
del valor cero que cuando toman un valor intermedio. Por ejemplo, si la incidencia de una en-
fermedad en dos grupos es de 0,05 y 0,01, el riesgo de padecer esa enfermedad en el primer
grupo es 0,05 / 0,01 = 5 veces mayor que en el segundo. Si la incidencia de una enfermedad
en dos grupos es de 0,25 y de 0,21, el riesgo de padecer esa enfermedad en el primer grupo
es 0,25 / 0,21 = 1,19 veces mayor que en el segundo. Por tanto, la misma diferencia de 0,04
puntos entre dos proporciones supone un incremento desigual en el riesgo relativo: un 400%
en el primer caso y un 19 % en el segundo. La parte positiva de esto es que el riesgo relati-
vo permite detectar diferencias que de otra forma podran pasar desapercibidas. La parte ne-
gativa es que se corre el riesgo de magnificar diferencias muy pequeas.
Adems, puesto que la odds ratio siempre toma un valor ms alejado de 1 que el riesgo
relativo (ver ecuacin [3.18]), cuantificar el riesgo mediante la odds ratio supone sobresti-
mar (inflar) el grado de relacin entre el factor y la respuesta. El grado en el que una odds
ratio sobrestima el verdadero riesgo es tanto mayor cuanto ms distintas y alejadas de cero
estn las verdaderas proporciones subyacentes de desenlaces. De ah la recomendacin ya
hecha de limitar la utilizacin de la odds ratio como estimacin del riesgo relativo a los casos
en los que se trabaja con desenlaces poco probables.
Especial cuidado hay que poner al interpretar el porcentaje de riesgo atribuible o fraccin
etiolgica. Ya hemos sealado que este ndice no permite aislar el porcentaje de desenlaces
que se deben al hecho de estar expuesto al factor de riesgo. Lo mximo que permite estimar
Captulo 3. Inferencia con dos variables categricas 95

tal ndice es el porcentaje de desenlaces que se deben a todo aquello en lo que puedan diferir
el grupo de sujetos expuestos y el grupo de sujetos no expuestos (los cuales, recordemos, no
sabemos en qu difieren exactamente porque no hay forma de saber si son o no equivalentes).
La consecuencia ms llamativa de sobrestimar el verdadero porcentaje de riesgo atribuible
se produce cuando la estimacin de ese porcentaje se utiliza para calcular los miles de per-
sonas afectadas por el factor de riesgo o las miles de muertes que se evitaran si la pobla-
cin de sujetos expuestos dejara de estarlo. No es infrecuente encontrar en los informes de
resultados y en los medios de comunicacin cifras disparatadas (supuestamente basadas en
estudios epidemiolgicos serios) que se escapan a toda lgica.

La falacia ecolgica
Una falacia es un error lgico, un error en la argumentacin. La falacia ecolgica es un error
que consiste en atribuir al individuo las caractersticas del grupo. A pesar de que este tipo de
error fue detectado hace ms de medio siglo (Robinson, 1950), todava sigue apareciendo en
las conclusiones de no pocos estudios. Y es particularmente frecuente en la interpretacin del
riesgo relativo.
Recordemos de nuevo el ejemplo sobre tabaquismo e infarto. Hemos visto que un riesgo
relativo de 3 indica que la proporcin de infartos en el grupo de fumadores es 3 veces mayor
que en el grupo de no fumadores. Tambin puede interpretarse este dato como que el riesgo
de sufrir infarto entre los fumadores es 3 veces mayor que entre los no fumadores (sin perder
de vista las consideraciones hechas en el apartado anterior). Se cae en la falacia ecolgica
cuando se afirma que la probabilidad de que un fumador sufra un infarto es 3 veces mayor que
la de un no fumador. En esta interpretacin se est convirtiendo un dato grupal (una propor-
cin referida al grupo) en una caracterstica individual, es decir, en una especie de propen-
sin del individuo a sufrir infarto con una determinada probabilidad.

Los ndices de riesgo con SPSS


Tanto el ndice de riesgo relativo (RR) como la odds ratio (OR) estn disponibles en el proce-
dimiento Tablas de contingencias del SPSS. Y en ambos casos se utilizan las mismas ecuacio-
nes que hemos presentado en los apartados anteriores. Para obtener el riesgo relativo y la odds
ratio con los datos de la Tabla 3.15 (o 3.17):
' Reproducir en el Editor de datos los datos de la Tabla 3.15 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.15
riesgo tabaco infarto que se encuentra en la pgina web del manual.
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar
para acceder al cuadro de dilogo Tablas de contingencias y trasladar la variable taba-
co a la lista Filas y la variable infarto a la lista Columnas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingen-
cias: Estadsticos y marcar la opcin Riesgo. Pulsar el botn Continuar para volver al cua-
dro de dilogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 3.18. Puesto
que el SPSS ignora si los datos de la tabla han sido recogidos con un diseo de cohortes o con
96 Anlisis de datos (vol. II)

un diseo de casos y controles, ofrece tanto el riesgo relativo como la odds ratio (la cual apa-
rece con el nombre razn de las ventajas). Hay que elegir el ndice apropiado en cada caso.
La primera fila de la tabla indica que el riesgo estimado se refiere al de fumadores frente
al de no fumadores ( fumadores / no fumadores) en un diseo de casos y controles (razn de
las ventajas). Su valor indica que la odds del suceso infarto en el grupo de fumadores es 3,27
veces la odds del grupo de no fumadores. Y los lmites del intervalo de confianza indican que
la odds del suceso infarto es significativamente mayor que 1: estimamos, con una confianza
del 95 %, que es al menos 2,04 veces mayor en los fumadores que en los no fumadores.
Las dos filas siguientes ofrecen dos estimaciones del riesgo relativo para un diseo de
cohortes (dos estimaciones porque el desenlace de inters puede encontrarse en cualquiera
de las dos categoras de la variable colocada en las columnas). Si el desenlace que interesa
estudiar es la presencia de infarto (infarto = s), la conclusin es que la proporcin de infartos
es 3 veces mayor en los fumadores que en los no fumadores. Si el desenlace que interesa es-
tudiar es la ausencia de infarto (infarto = no), la conclusin es que tal desenlace se da menos
entre los fumadores: en concreto, la proporcin de sujetos sin infarto es un 8,3 % (100 ! 91,7)
menor en el grupo de fumadores que en el de no fumadores. Puesto que el valor 1 no est in-
cluido entre los lmites de los correspondientes intervalos de confianza, puede concluirse que
el valor poblacional del riesgo relativo difiere de 1.

Tabla 3.18. ndices de riesgo


Intervalo de confianza
al 95%
Valor Inferior Superior
Razn de las ventajas para Tabaquismo (Fumadores / No fumadores) 3,27 2,04 5,25
Para la cohorte Infarto = S 3,00 1,93 4,66
Para la cohorte Infarto = No ,92 ,88 ,95
N de casos vlidos 1150

Es importante tener presente que los ndices de riesgo siempre se calculan dividiendo la infor-
macin de la primera fila de la tabla entre la informacin de la segunda fila (en el ejemplo,
la fila fumadores entre la fila no fumadores; ver Tabla 3.15 o 3.17). Como el orden en el que
el SPSS coloca en la tabla las categoras de las filas (tambin las de las columnas) viene deter-
minado por los cdigos que tienen asignados (se ordenan de menor a mayor), es importante
vigilar que la categora cuyo riesgo se desea evaluar reciba un cdigo menor que la otra ca-
tegora (en nuestro ejemplo hemos utilizado el cdigo 1 para los fumadores y el cdigo 2 para
los no fumadores). Reparar en este detalle es importante debido a que este tipo de variables
suelen codificarse como variables indicador, con el cdigo 1 para la presencia y el cdigo
0 para la ausencia (por ejemplo: 1 = fumadores y 2 = no fumadores); una codificacin
tipo indicador hara que el SPSS construyera la tabla con los no fumadores en la primera fila
(con las consiguientes consecuencias sobre los resultados y su interpretacin).
Por supuesto, siempre es posible utilizar ms de dos grupos (factores con ms de dos ni-
veles). Pero debe tenerse en cuenta que las comparaciones siempre se llevan a cabo entre dos
filas. Si se tienen tres filas (fumadores, no fumadores y exfumadores), se puede agrupar a los
exfumadores y a los no fumadores y calcular el riesgo del grupo fumadores respecto del res-
to de grupos tomados juntos. Y si lo que interesa es calcular el riesgo del grupo fumadores
respecto de cada grupo por separado, se tendr que aplicar un filtro al archivo de datos.
Captulo 3. Inferencia con dos variables categricas 97

ndices de acuerdo
Un aspecto interesante de la asociacin entre dos variables categricas tiene que ver con el
grado de acuerdo (parecido, concordancia) existente entre ambas variables5.
Una situacin tpica en la que suele interesar estudiar el grado de acuerdo es la que se de-
riva de aplicar dos criterios de clasificacin (dos jueces o expertos, dos escalas de medida, dos
pruebas diagnsticas, etc.) a una serie de sujetos u objetos. Las categoras utilizadas para la
clasificacin pueden ser nominales (como el tipo de trastorno) u ordinales (como la gravedad
del trastorno). En el primer caso suele utilizarse el ndice de acuerdo kappa de Cohen (1960)
o alguna variante del mismo (Cohen, 1968). En el segundo, alguna medida de asociacin para
variables ordinales; en el siguiente apartado estudiaremos tres: gamma (Goodman y Kruskal,
1979), tau-b (Kendall, 1970) y d (Somers, 1962). Estas medidas de asociacin sirven para
valorar el grado de relacin positiva o negativa existente entre dos variables; por tanto, sus
valores positivos tambin permiten cuantificar el grado de acuerdo. Para una revisin de otros
ndices de acuerdo, puede consultarse Shroukri (2004) o Von Eye y Mun (2005).
La Tabla 3.19 muestra la forma de presentar los datos en una tabla de contingencias bidi-
mensional y la notacin que utilizaremos para identificar cada elemento de la tabla. Ni la es-
tructura de la tabla ni la notacin cambian por el hecho de que las variables codificadas sean
nominales u ordinales. Esta notacin es la misma que ya hemos empezado a utilizar en el Ca-
ptulo 10 del primer volumen y es generalizacin directa de la ya utilizada para tablas 2 2
en apartados anteriores de este mismo captulo (ver Tabla 3.16).
Las I categoras de la variable X (juez 1, prueba diagnstica 1, etc.) definen las filas de
la tabla; para identificar cada una de estas categoras (cada fila), utilizamos el subndice i; por
tanto: i = 1, 2, ..., I. Las J categoras de la variable Y definen las columnas de la tabla; para
identificar cada una de estas categoras (cada columna) utilizamos el subndice j: por tanto:
j = 1, 2, ..., J. El signo + se refiere a todos los valores del subndice al que sustituye; por
tanto, cuando sustituye al subndice i, se refiere a todos los valores de i (es decir, 1, 2, ..., I );
y cuando sustituye al subndice j, se refiere a todos los valores de j (es decir, 1, 2, ..., J ).

Tabla 3.19. Notacin utilizada en tablas de contingencias bidimensionales

Y
X 1 2 AAA j AAA J ni+
1 n11 n12 AAA n1 j AAA n1J n1+ n i j = frecuencias conjuntas de X e Y
2 n21 n22 AAA n2 j AAA n1J n2 + n i+ = frecuencias marginales de X
AAA AAA AAA AAA AAA AAA AAA AAA
i n i1 n i2 AAA nij AAA n iJ n i+ n + j = frecuencias marginales de Y
AAA AAA AAA AAA AAA AAA AAA AAA n = nmero total de casos
I nI 1 nI 2 AAA nI j AAA nI J nI +
n+j n+1 n+2 AAA n+j AAA n+J n

5
Conviene recordar dos cosas: (1) en una tabla de contingencias bidimensional pueden darse diferentes pautas de aso-
ciacin; (2) los diferentes estadsticos disponibles para estudiar esas pautas de asociacin se han diseado para valorar un
determinado tipo de pauta, incluso varias, pero no todas ellas. De ah la importancia de elegir en cada caso el estadstico
capaz de capturar justamente la pauta de asociacin que se desea estudiar.
98 Anlisis de datos (vol. II)

Acuerdo con variables nominales: kappa


La Tabla 3.20 recoge el resultado obtenido por dos expertos al clasificar una muestra de 200
pacientes afectados de trastorno neurtico. Ambos expertos han intentado identificar el tipo
de neurosis dominante en cada paciente (fbica, histrica, obsesiva o depresiva). Por tanto,
las categoras de las filas son las mimas que las de las columnas.
Cuando el inters del anlisis est en valorar el grado de acuerdo o coincidencia entre dos
criterios de clasificacin (en el ejemplo, dos expertos), no tiene sentido contrastar la hiptesis
de independencia con la prueba X 2 de Pearson (ver Captulo 10 del primer volumen). Esta
prueba permite comparar las distribuciones condicionales de cualquiera de los dos criterios
de clasificacin bajo el supuesto de que son iguales: cualquier frecuencia observada que se
aleje suficientemente de su valor esperado bajo la hiptesis de igualdad de distribuciones con-
dicionales llevar al rechazo de la hiptesis de independencia sin importar en qu casilla de
la tabla se produzca el alejamiento. Pero ocurre que, de las diferentes pautas de asociacin a
las que es sensible la prueba X 2, aqu nicamente estamos interesados en valorar una de ellas:
la que permite capturar al grado de acuerdo o coincidencia entre ambos criterios de clasifi-
cain (es decir, entre ambos expertos).

Tabla 3.20. Resultado obtenido por dos expertos al clasificar a 200 pacientes con neurosis

Segundo experto
Primer experto Fbica Histrica Obsesiva Depresiva Total
Fbica 20 8 6 1 35
Histrica 7 36 14 4 61
Obsesiva 1 8 43 7 59
Depresiva 2 6 4 33 45
Total 30 58 67 45 200

El acuerdo o coincidencia est reflejado en las casillas de la diagonal principal (la que va des-
de la parte superior izquierda de la tabla hasta la parte inferior derecha; casillas con i = j). Esta
diagonal contiene el nmero de casos que ambos expertos clasifican de la misma manera. Por
tanto, una forma sencilla e intuitiva de cuantificar el grado de acuerdo consiste simplemente
en valorar en qu medida las frecuencias de la tabla tienden a concentrarse en esa diagonal.
Sumando las frecuencias de las casillas de la diagonal principal se obtienen 132 coinciden-
cias, lo que representa una proporcin de acuerdo de 132 / 200 = 0,66.
El problema es que, al utilizar esta proporcin como una medida del grado de acuerdo,
no se est teniendo en cuenta el hecho de que es posible obtener cierto grado de acuerdo sim-
plemente por azar. Si se asume que ambos expertos realizan la clasificacin de forma inde-
pendiente, los casos que cabra encontrar por azar en las casillas de la diagonal pueden obte-
nerse multiplicando las correspondientes frecuencias marginales y dividiendo ese producto
por el nmero total de casos (ver, en el Captulo 10 del primer volumen, la ecuacin [10.6]).
As, en la primera casilla de la diagonal cabra esperar, por azar, 35(30)/200 = 5,25 casos; en
la segunda casilla, 61(58)/200 = 17,69 casos; etc. Repitiendo la operacin para todas las casi-
llas de la diagonal se obtiene un total de 52,83 casos, lo que representa una proporcin de
acuerdo esperado por azar de 52,83 / 200 = 0,26.
Captulo 3. Inferencia con dos variables categricas 99

Tenemos, por tanto, la proporcin de acuerdo observado (0,66) y la proporcin de acuer-


do esperado por azar6 (0,26). La diferencia entre ambas proporciones representa el acuerdo
neto: 0,66 ! 0,26 = 0,40. Pues bien, el ndice de acuerdo kappa (Cohen, 1960) se obtiene di-
vidiendo esa diferencia (acuerdo neto) entre la proporcin de acuerdo mximo que es posible
alcanzar. Esta proporcin se estima restando a 1 la proporcin de acuerdo esperado por azar:
1 ! 0,26 = 0,74. Y dividiendo la proporcin de acuerdo observado (0,40) entre la de acuerdo
mximo posible (0,74), se obtiene una proporcin de acuerdo real de 0,40 / 0,74 = 0,54, que
es justamente el valor de la kappa de Cohen si se aplica la ecuacin:

= = [3.19]

(ni i se refiere a las frecuencias de las casillas de la diagonal principal, es decir, de las casi-
llas en las que se verifica: i = j). Aplicando [3.19] a los datos de la Tabla 3.20 se obtiene:

= =

= =

= =

El valor del ndice kappa debe interpretarse teniendo en cuenta que toma valores entre 0
(acuerdo nulo) y 1 (acuerdo mximo). Si el grado de acuerdo es menor que el esperado por
azar, kappa toma un valor negativo.
Fleiss, Cohen y Everitt (1969) han demostrado que la varianza del coeficiente kappa debe
estimarse de forma ligeramente distinta para el caso general (es decir, para cualquier valor
poblacional de ) y para el caso particular en el que se asume = 0 (en Wickens, 1989, pgs.
241-243, puede encontrarse una excelente descripcin de ambas estimaciones). Para el caso
particular en el que se asume = 0, la varianza de [3.19] se obtiene mediante:

= [3.20]

La hiptesis nula de que el coeficiente kappa vale cero en la poblacin puede contrastarse
dividiendo el valor de kappa entre su error tpico (raz cuadrada de [3.20]). Se obtiene as un
valor tipificado que se distribuye de forma aproximadamente normal, con media 0 y des-
viacin tpica 1:

= N (0, 1) [3.21]

6
Esta forma de estimar la proporcin de acuerdo por azar no es del todo correcta porque incluye no solo acuerdo por azar
sino acuerdo verdadero. La separacin de estas dos fuentes de acuerdo requiere utilizar modelos loglineales que no estudia-
remos aqu. No obstante, el ndice de acuerdo kappa tal como est definido en [3.19] suele resultar satisfactorio en la mayor
parte de los contextos en los que se aplica.
100 Anlisis de datos (vol. II)

Para contrastar la hiptesis de acuerdo nulo (H0: = 0) comenzamos estimando el error tpi-
co de kappa (raz cuadrada de [3.20]) y calculando a continuacin (ecuacin [3.21]):

= =

= =
=

= =

= =

= = =

En la distribucin normal tipificada, P (Z >$ 12,93) . 0. Y siendo el nivel crtico tan prximo
a cero, la decisin razonable ser rechazar H0 y concluir que el acuerdo entre ambos exper-
tos es significativamente mayor que el esperable por azar.
Saber que el grado de acuerdo entre dos criterios de clasificacin es significativamente
mayor que el esperable por azar no dice gran cosa (aunque s saber que no lo es). Por esta
razn, Landis y Koch (1977) han argumentado que, por lo general, valores por encima de
0,80 reflejan un acuerdo excelente; valores entre 0,60 y 0,80, un buen acuerdo; valores en-
tre 0,40 y 0,60 un acuerdo moderado; y valores por debajo de 0,40, un acuerdo ms bien
pobre. Pero estos puntos de corte no parecen estar suficientemente bien justificados.
Al interpretar el coeficiente kappa hay que tener en cuenta que, aunque permite cuan-
tificar el grado de acuerdo global, no sirve para reflejar la verdadera naturaleza del acuerdo
y del desacuerdo subyacentes. De hecho, puede obtenerse el mismo valor kappa con distin-
tas pautas de variacin entre las frecuencias de la diagonal principal; y pueden obtenerse
valores kappa distintos con la misma pauta de variacin en la diagonal principal (misma pau-
ta de acuerdo) pero con distinta pauta de variacin fuera de ella (distintas pautas de desa-
cuerdo) (Grayson, 2004). sta es la razn por la cual suele recomendarse no comparar coefi-
cientes obtenidos en diferentes estudios o en diferentes poblaciones (Feinstein y Cicchetti,
1990; Thompson y Walter, 1988).
Adems, dependiendo de los criterios de clasificacin utilizados, algunos desacuerdos
pueden ser ms fuertes que otros (puede haber categoras que se parezcan entre s ms que
otras). Y si las categoras de clasificacin son ordinales (por ejemplo, trastorno leve, mode-
rado y severo), el desacuerdo por clasificar al mismo sujeto en categoras adyacentes (leve,
moderado) es menos grave que el desacuerdo por clasificar al mismo sujeto en categoras
ms alejadas (leve, severo). Para resolver estos problemas puede utilizarse una versin
ponderada del ndice kappa (Cohen, 1968; Spitzer, Cohen, Fleis y Endicott, 1967).
La ponderacin consiste en asignar un peso (w) entre 0 y 1 a cada casilla. Por lo gene-
ral, a las casillas de la diagonal principal se les asigna un peso de 1 (wi = j = 1) y al resto de
las casillas se les asigna un peso tanto menor cuanto ms grave se considera el desacuerdo
(siempre con wi j = wj i). En el caso de que la gravedad del desacuerdo sea tanto mayor cuan-
to ms alejada de la diagonal principal se encuentre una casilla, Fleiss y Cohen (1973) pro-
ponen calcular los pesos de las casillas de la siguiente manera:
Captulo 3. Inferencia con dos variables categricas 101

= [3.22]

Por ejemplo, para la casilla (i = 1, j = 1) de la Tabla 3.20, w11 = 1! |1 ! 1| / (4 !1) = 1 (la ecua-
cin [3.22] asigna un peso de 1 a todas las casillas de la diagonal principal). Para la casilla
(i = 1, j = 2), w12 = 1! |1! 2| / (4 ! 1) = 0,667. Para la casilla (i = 1, j = 3), w12 = 1! |1! 3| / (4 ! 1)
= 0,333. Para la casilla (i = 1, j = 4), w12 = 1! |1! 4| / (4 ! 1) = 0. Etctera. Las casillas ms ale-
jadas de la diagonal principal (los desacuerdos ms graves) reciben un peso menor.
Tras asignar los pesos a las casillas, la versin ponderada del coeficiente kappa se obtie-
ne aplicando la ecuacin [3.19] a la tabla resultante de multiplicar cada frecuencia ni j por su
correspondiente peso wi j.
Supongamos que dos tutores de un centro de acogida de nios hurfanos hacen una valo-
racin del comportamiento global de cada uno de sus 43 tutelados durante una determinada
semana. Ambos tutores realizan su evaluacin clasificando el comportamiento de cada nio
en una de 4 categoras ordenadas: malo, regular, bueno y excelente. La Tabla 3.21
resume los resultados obtenidos. Entre parntesis aparecen los coeficientes o pesos que la
ecuacin [3.22] asigna a cada casilla. Con esta forma de asignar los coeficientes de ponde-
racin, las casillas ms alejadas de la diagonal principal reciben un peso menor. Al proceder
de esta manera se est considerando que las frecuencias ms alejadas de la diagonal princi-
pal representan un desacuerdo ms grave que las menos alejadas. Multiplicando la frecuencia
de cada casilla por su correspondiente coeficiente, la nueva tabla de contingencias toma los
valores que muestra la Tabla 3.22.

Tabla 3.21. Resultado obtenido por dos tutores al evaluar el comportamiento de 84 nios (entre parntesis
aparecen los coeficientes de ponderacin que resultan de aplicar la ecuacin [3.22])

Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12 (1,00) 8 (0,67) 4 (0,33) 0 (0,00) 24
Regular 7 (0,67) 24 (1,00) 5 (0,67) 0 (0,33) 36
Bueno 0 (0,33) 2 (0,67) 14 (1,00) 3 (0,67) 19
Muy bueno 0 (0,00) 0 (0,33) 2 (0,67) 3 (1,00) 5
Total 19 34 25 6 84

Tabla 3.22. Frecuencias ponderadas correspondientes a las no ponderadas de la Tabla 3.21

Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12,00 5,36 1,32 0,00 18,68
Regular 4,69 24,00 3,35 0,00 32,04
Bueno 0,00 1,34 14,00 2,01 17,35
Muy bueno 0,00 0,00 1,34 3,00 4,34
16,69 30,7 20,01 5,01 72,41
102 Anlisis de datos (vol. II)

El ndice kappa se obtiene aplicando la ecuacin [3.19] a las frecuencias no ponderadas de


la Tabla 3.21. El ndice kappa ponderada se obtiene aplicando la ecuacin [3.19] a las fre-
cuencias ponderadas de la Tabla 3.22. En el primer caso se obtiene = 0,47. En el segundo:

= =

= =

= = =

Al ponderar la gravedad de los desacuerdos, el valor de kappa pasa de 0,47 a 0,61. Por
tanto, al ponderar las frecuencias, aumenta el grado de acuerdo estimado.
El ndice de acuerdo kappa no es el nico ndice disponible para valorar el acuerdo en-
tre dos criterios de clasificacin7. Existen varios ndices que difieren entre s y de kappa en
aspectos importantes como, por ejemplo, la forma concreta definir e interpretar el acuerdo o
la manera de cuantificar la proporcin de acuerdos por azar (ver Zwick, 1988). Tambin
existen ndices para valorar el acuerdo entre ms de dos criterios de clasificacin, es decir,
entre ms de dos jueces o entre ms de dos variables (ver, por ejemplo, Posner, Sampson,
Caplan, Ward y Cheney, 1990). Para una revisin de todos estos ndices puede consultarse
Shroukri (2004) o Von Eye y Mun (2005).

El ndice de acuerdo kappa con SPSS


El SPSS incluye el ndice de acuerdo kappa en el procedimiento Tablas de contingencias. Pa-
ra obtener kappa con los datos de la Tabla 3.20:
' Reproducir en el Editor de datos los datos de la Tabla 3.20 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.20
acuerdo kappa que se encuentra en la pgina web del manual.
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar
para acceder al cuadro de dilogo Tablas de contingencias y trasladar la variable ex-
perto_1 a la lista Filas y la variable experto_2 a la lista Columnas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingen-
cias: Estadsticos y marcar la opcin Kappa.

7
Especialmente til puede resultar un ndice de acuerdo asimtrico propuesto por Kvlseth (1991):

= [3.23]

Mientras kappa permite evaluar el grado de acuerdo mutuo entre dos criterios de clasificacin, (trata ambos criterios de for-
ma equivalente), el ndice permite valorar el acuerdo entre dos criterios de clasificacin cuando el primero de ellos
se considera un referente para la comparacin (cambiando en el denominador n+j por ni+ se obtiene el valor del coeficiente
para el caso en el que el juez de referencia sea el segundo). Esta forma de cuantificar el grado de acuerdo es til, por ejem-
plo, para valorar la calidad diagnstica de un nuevo mtodo en comparacin con otro estndar que ya se sabe que funciona
bien; o para valorar cmo clasifica un juez novato en comparacin con un juez experto; etc.
Captulo 3. Inferencia con dos variables categricas 103

Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 3.23. La tabla
incluye: (1) el valor del coeficiente kappa (0,538), el cual coincide con el que hemos obteni-
do aplicando [3.19]; (2) el error tpico asinttico de kappa cuando no se asume acuerdo nulo;
(3) el cociente entre el valor del coeficiente y su error tpico, calculado ste bajo el supuesto
de acuerdo nulo (se indica en una nota a pie de tabla); y (4) el nivel crtico (sig. aproximada)
asociado al estadstico T. Puesto que el nivel crtico es muy pequeo, se puede rechazar la
hiptesis de acuerdo nulo y concluir que el grado de acuerdo entre los dos expertos es mayor
que el esperable por azar.
Con tamaos muestrales grandes, el error tpico asinttico que ofrece la Tabla 3.23 pue-
de utilizarse para construir un intervalo de confianza para el parmetro (el valor de kappa
en la poblacin) siguiendo la misma lgica que se utiliza para construir cualquier otro inter-
valo de confianza basado en la distribucin normal:

= = =

Este resultado permite estimar, con una confianza del 95 %, que el verdadero acuerdo entre
ambos expertos (el valor poblacional de kappa) se encuentra entre 0,45 y 0,63 (un buen acuer-
do segn el criterio propuesto por Landis y Koch).

Tabla 3.23. ndice de acuerdo kappa


Error tp. T Sig.
a b
Valor asint. aproximada aproximada
Medida de acuerdo Kappa ,538 ,046 12,921 ,000
N de casos vlidos 200
a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis nula.

En el caso de que se desee dar distinta importancia a los desacuerdos de una tabla (es decir,
a las frecuencias que se encuentran fuera de la diagonal), pueden asignarse coeficientes de
ponderacin para obtener la versin ponderada del ndice kappa. Para ello:
' Reproducir en el Editor de datos los datos de la Tabla 3.20 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.21
acuerdo kappa ponderada que se encuentra en la pgina web del manual.
' Crear dos nuevas variables en el archivo de datos: (1) la primera (con nombre w u otro
nombre vlido) con los valores de los coeficientes de ponderacin (valores entre parnte-
sis de la Tabla 3.21); (2) la segunda (con nombre ncasos_w u otro nombre vlido), mul-
tiplicando las frecuencias originales (ncasos) por los coeficientes de ponderacin (w).
' Seleccionar la opcin Ponderar casos del men Datos para ponderar el archivo de datos
con la variable ncasos_w.
' Seguir los pasos del ejemplo anterior para obtener el ndice de acuerdo kappa utilizando
el procedimiento Tablas de contingencias (para obtener el valor exacto de kappa es necesa-
rio marcar, en el subcuadro de dilogo Casillas, la opcin No efectuar correcciones).
Tras la ponderacin, las frecuencias originales de la Tabla 3.21 se convierten en las frecuen-
cias ponderadas de la Tabla 3.22. Y al aplicar el ndice de acuerdo kappa a estas nuevas fre-
cuencias se obtiene el ndice de acuerdo kappa ponderada que muestra la Tabla 3.24. Su
104 Anlisis de datos (vol. II)

valor ha pasado de 0,47 (valor no ponderado) a 0,61 (valor ponderado), que es justamente
el valor obtenido anteriormente al aplicar la ecuacin [3.19] a los datos de la Tabla 3.22.

Tabla 3.24. ndice de acuerdo kappa


Error tp. T Sig.
a b
Valor asint. aproximada aproximada
Medida de acuerdo Kappa ,607 ,076 8,052 ,000
N de casos vlidos 72
a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis nula.

Asociacin entre variables categricas ordinales


En este apartado nos vamos a ocupar de un tipo particular de variables categricas: aquellas
cuyas categoras se encuentran cuantitativamente ordenadas. Tal es el caso de variables co-
mo el nivel d estudios (primarios, secundarios, medios, superiores), o la clase social (baja,
media alta), etc.; o el de variables originalmente cuantitativas (como la edad) cuyos valores
se han agrupado en unas pocas categoras (grupos de edad).
Consideremos los datos de la Tabla 3.25 referidos a una muestra de 258 sujetos clasifi-
cados a partir de sus respuestas a dos criterios ordinales: opinin sobre la eutanasia y opinin
sobre el aborto. En una tabla de estas caractersticas tiene sentido contrastar diferentes hipte-
sis y cada hiptesis requiere aplicar diferentes pruebas estadsticas. Algunas de las pruebas
que podran aplicarse aqu ya las hemos estudiado: la prueba X 2 de Pearson, la prueba de
McNemar-Bowker, la prueba de homogeneidad marginal y el ndice de acuerdo kappa.
El contraste de la hiptesis de independencia con la prueba X 2 de Pearson (ver Captulo
10 del primer volumen) permitira saber si las distribuciones condicionales de una de las dos
variables son o no iguales en cada nivel de la otra. Cualquier casilla de la tabla cuya frecuen-
cia se alejara suficientemente del valor esperado de esa casilla bajo la hiptesis de igualdad
de distribuciones condicionales llevara al rechazo de la hiptesis de independencia y, con-
secuentemente, a concluir que existe relacin entre ambas opiniones sin importar en qu
casilla se produce el alejamiento de lo esperado. Con los datos de la Tabla 3.25 se rechaza la
hiptesis de independencia: X 2 = 163,36 con p < 0,0005.
El contraste de la hiptesis e homogeneidad marginal (distinta de la de independencia)
permitira saber si la proporcin de personas que elige cada categora de opinin (a favor,
indiferente, en contra) es o no la misma cuando se trata de la eutanasia y cuando se tra-
ta del aborto. Con los datos de la Tabla 3.25 no se rechaza la hiptesis de homogeneidad
marginal: ZHM = 1,73 con p = 0,083.
El contraste de la hiptesis de simetra (distinta de la de independencia y distinta de la
de homogeneidad marginal) permitira estudiar la pauta que siguen las frecuencias de las ca-
sillas que representan opiniones distintas hacia la eutanasia y hacia el aborto. Con los datos
de la Tabla 3.25 no se rechaza la hiptesis de simetra: = 3,59 con p = 0,309.
Por ltimo, el ndice de acuerdo kappa permitira cuantificar el grado de acuerdo, es decir
el grado en que la opinin que se tiene sobre la eutanasia tiende a coincidir con la que se tiene
sobre el aborto. Con los datos de la Tabla 3.25 se obtiene un buen grado de acuerdo: = 0,57
con p < 0,0005; ponderada = 0,77 con p < 0,0005.
Captulo 3. Inferencia con dos variables categricas 105

Tabla 3.25. Opinin sobre la eutanasia y el aborto

Opinin aborto
Opinin eutanasia 1. En contra 2. Indiferente 3. A favor Total
1. En contra 73 16 3 92
2. Indiferente 18 30 12 60
3. A favor 8 18 80 106
Total 99 64 95 258

No cabe duda de que todos estos contrastes (independencia, homogeneidad marginal, sime-
tra y acuerdo) ofrecen informacin interesante sobre diferentes aspectos de una tabla de
contingencias. Es ms, dependiendo de los objetivos del anlisis, cualquiera de ellos podra
ser la eleccin idnea. No obstante, cuando las dos variables analizadas son ordinales (cate-
goras cuantitativamente ordenadas), lo que suele interesar estudiar es si el aumento de los va-
lores de la primera tiende a ir o no acompaado del aumento (o disminucin) de los valores
de la segunda. Y esta tendencia no est contemplada ni en la hiptesis de independencia, ni
en la de homogeneidad marginal, ni en la de simetra (el acuerdo tiene algo que ver con esto,
pero solo en parte).
Con variables cuantitativas (de intervalo o razn), el estudio de esta tendencia suele
abordarse con el coeficiente de correlacin de Pearson (ver Captulo 12 del primer volumen),
el cual ya sabemos que permite cuantificar el grado de relacin lineal entre variables. Con
variables ordinales no tiene mucho sentido hablar de relacin lineal porque las variables
ordinales no tienen una mtrica definida; sin embargo, dado que sus categoras se encuentran
ordenadas, s es posible hablar de relacin montona. Cuando se da este tipo de relacin, las
frecuencias de la tabla tienden a concentrarse en una de las dos diagonales: en la principal
en el caso de relacin positiva o creciente y en la secundaria en el caso de relacin negativa
o decreciente. Por tanto, estudiar la relacin entre variables ordinales requiere utilizar esta-
dsticos (medidas de asociacin) capaces de valorar en qu medida las frecuencias tienden
a concentrarse en una de las dos diagonales de la tabla.
El ndice de acuerdo kappa (ver Tablas 3.21 y 3.22) hace algo parecido a lo que hacen
las medidas de asociacin ordinales, pero kappa nicamente tiene en cuenta el grado de con-
centracin de las frecuencias en la diagonal principal y se basa en el porcentaje de acuerdo
global; adems, solamente tiene sentido aplicarlo cuando las categoras de las dos variables
son las mismas. Las medidas de asociacin que se incluyen en este apartado se basan en la
comparacin individual de cada caso con cada otro y en los conceptos de concordancia y
discordancia; y no es necesario que las dos variables tengan las mismas categoras.

Medidas de concordancia-discordancia

Dos casos son concordantes (C ) cuando el primero punta ms alto (o ms bajo) que el se-
gundo tanto en X como en Y. Dos casos son discordantes (D ) cuando el primero punta ms
alto (o ms bajo) que el segundo en la variable X y ms bajo (o ms alto) en la variable Y. Dos
casos estn empatados en X (EX ) cuando sus valores son iguales en X y distintos en Y. Dos
106 Anlisis de datos (vol. II)

casos estn empatados en Y (EY ) cuando sus valores son iguales en Y y distintos X. Dos ca-
sos estn empatados en X e Y (EXY ) cuando sus valores son los iguales en ambas variables.
Cuando predominan las concordancias, la relacin es positiva: los valores altos (bajos)
de una de las variables tienden a ir acompaados de valores altos (bajos) de la otra variable.
Cuando predominan las discordancias, la relacin es negativa: los valores altos (bajos) de
una de las variables tienden a ir acompaados de valores bajos (altos) de la otra variable.
Todas las medidas de asociacin que se describen en este apartado utilizan en el nume-
rador la diferencia entre el nmero de concordancias (nC ) y discordancias (nD ) resultantes
de comparar cada caso con cada otro; pero se diferencian en el tratamiento que dan a los em-
pates. En el Apndice 3 se explica cmo se calcula el nmero de concordancias, discordan-
cias y empates en una tabla de contingencias.
Si todas las comparaciones entre casos dan como resultado pares concordantes o discor-
dantes (es decir, si no existen pares empatados), las probabilidades de concordancia (PC ) y
de discordancia (PD ) pueden estimarse dividiendo el nmero de pares concordantes y
discordantes entre el nmero total de comparaciones (que viene dado por las combinaciones
sin repeticin de n elementos tomados de dos en dos):

= y = [3.24]

Y como las concordancias reflejan relacin positiva y las discordancias relacin negativa,
una forma directa y sencilla de cuantificar la relacin entre dos variables consiste simple-
mente en restar ambas proporciones. Esto es precisamente lo que hace el coeficiente tau-a
(Kendall 1938, 1970):

= = [3.25]

Pero esta diferencia, til cuando no existen empates, pasa por alto el hecho de que en una ta-
bla de contingencias existen muchos empates. Para resolver este problema, el coeficiente
gamma (ver Goodman y Kruskal, 1979) excluye del anlisis el nmero de empates:

= [3.26]

Cuando la relacin entre las variables es perfecta y positiva, todos los pares son concordantes
(nC ) y gamma vale 1. Cuando la relacin entre las variables es perfecta pero negativa, todos
los pares de casos son discordantes (nD ) y gamma vale !1. Cuando las variables son inde-
pendientes, hay tantos pares concordantes como discordantes (nC = nD) y gamma vale 0. Por
tanto, gamma oscila, entre !1 y 1. Cuando dos variables son independientes, gamma vale
cero; sin embargo, una gamma de cero no implica independencia (excepto en tablas de con-
tingencias 2 2)8.

8
En tablas de contingencias 2 2, la ecuacin [3.26] equivale a: = (n11 n22 ! n12 n21) / (n11 n22 + n12 n21). Esta expresin fue
inicialmente propuesta por Yule (1900, 1912) como una forma de cuantificar el grado de asociacin existente en una tabla
de contingencias 2 2. Yule, que llam Q a su coeficiente, lleg a l a partir de la odds ratio estudiada en el apartado ante-
rior: Q = (OR ! 1) / (OR + 1). Puesto que en tablas 2 2 se verifica Q = , lo que realmente est haciendo es transformar
un valor como la odds ratio, que vara en el rango [0, 4], en otro valor, ms interpretable, que vara en el rango [!1, 1].
Captulo 3. Inferencia con dos variables categricas 107

La exclusin, sin ms, de los pares empatados suele inflar en exceso la estimacin que
se obtiene de la verdadera relacin subyacente. El coeficiente tau-b de Kendall (1945, 1970)
tiene esto en cuenta incorporando a la ecuacin el nmero de pares empatados en X o en Y
(quedan fuera los pares empatados en ambas variables):

= [3.27]

La inclusin del nmero de empates en X y del nmero de empates en Y hace que el valor
de tau-b sea menor que el de gamma. El coeficiente tau-b toma valores entre !1 y +1 sola-
mente en tablas de contingencias cuadradas y si ninguna frecuencia marginal vale cero. El
coeficiente tau-c (Stuart, 1953) intenta corregir esta limitacin (aunque no lo consigue del
todo; y no faltan quienes, como Freeman, 1986, desaconsejan su uso):

= [3.28]

donde m se refiere al valor menor del nmero de filas (I ) y del nmero de columnas (J ). El
coeficiente tau-c toma valores entre aproximadamente !1 y 1 independientemente del nmero
de categoras de las variables.
Por ltimo, el coeficiente d de Somers (1962) incorpora una ligera modificacin al coefi-
ciente gamma para cuando una de las variables se considera independiente (X ) y la otra de-
pendiente (Y ). Esta modificacin consiste en aadir en el denominador de gamma (ecuacin
[3.26]) el nmero de pares empatados en la variable dependiente:

= [3.29]

El coeficiente d de Somers tiene tres versiones: dos asimtricas y una simtrica. La versin
simtrica se obtiene utilizando en el denominador de [3.29] el promedio de los denomina-
dores correspondientes a las dos versiones asimtricas.
Existen otros coeficientes basados en el concepto de pares concordantes y discordantes
(ver, por ejemplo, Agresti, 1984), pero el SPSS nicamente incluye los cuatro mencionados
en [3.26], [3.27], [3.28] y [3.29].
Para aplicar estas cuatro ecuaciones a las frecuencias de la Tabla 3.25 debemos comenzar
calculando el nmero de pares concordantes, discordantes y empatados (en el Apndice 3 se
explica cmo realizar estos clculos):

= 15.856, = 1.190, = 4.775, = 4.586, = 6.746


= 15.856 ! 1.190 = 14.666, = 15.856 + 1.190 = 17.046
= 17.046 + 4.775 = 21.821, = 17.046 + 4.586 = 21.632

= 14.666 /17.046 = 0,86


= 14.666 / [21.821(21.632)] = 0,68
108 Anlisis de datos (vol. II)

= 2(3) (14.666) / [2582 (3 !1)] = 0,66


d = 14.666 / [(21.821 + 21.632) / 2] = 0,68
Todos estos valores estn indicando que la relacin entre ambas opiniones es alta y positiva,
lo cual significa que los sujetos que se manifiestan a favor (en contra) de la eutanasia tambin
tienden a mostrarse a favor (en contra) del aborto.
Para poder contrastar la hiptesis de que no existe asociacin ordinal, Kendall (1970) ha
demostrado que la varianza de nC ! nD (numerador de todas las medidas de asociacin ordi-
nal propuestas) puede estimarse, si se asume que no existe asociacin, mediante:

= [3.30]

La hiptesis nula de no asociacin ordinal en la poblacin ( = b = c = d = 0) puede contras-


tarse dividiendo nC ! nD entre su error tpico (es decir, entre la raz cuadrada de la ecuacin
[3.30]). Se obtiene as un valor tipificado que se distribuye de forma aproximada-
mente normal, con media 0 y desviacin tpica 1:

= N (0, 1) [3.31]

Para contrastar la hiptesis nula de no asociacin ordinal con los datos de la Tabla 3.25,
comenzamos estimando el error tpico de nC ! nD y calculando a continuacin :

= =

= =

= =

= =
= = =

En la distribucin normal tipificada, P (Z $


> 12,13) . 0. Y siendo el nivel crtico tan pequeo,
la decisin razonable es rechazar H0 y concluir que el grado de relacin ordinal (montona)
entre ambas opiniones es significativamente mayor que cero.

Medidas de concordancia-discordancia con SPSS


El procedimiento Tablas de contingencias incluye las cuatro medidas de asociacin estudiadas
en el apartado anterior: gamma, tau-b, tau-c y d. Este ejemplo muestra cmo obtener estos
coeficientes con los datos de la Tabla 3.25:
' Reproducir en el Editor de datos los datos de la Tabla 3.25 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.25
asociacin ordinal que se encuentra en la pgina web del manual).
Captulo 3. Inferencia con dos variables categricas 109

' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar
para acceder al cuadro de dilogo Tablas de contingencias y trasladar la variable euta-
nasia (opinin sobre la eutanasia) a la lista Filas y la variable aborto (opinin sobre el
aborto) a la lista Columnas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingen-
cias: Estadsticos y marcar las cuatro opciones del recuadro Ordinal: gamma, d de Somers,
tau-b y tau-c.
Aceptando estas elecciones, el Visor ofrece los resultados que recogen las Tablas 3.26 y 3.27.
La Tabla 3.26 contiene las medidas de asociacin simtricas, es decir, los coeficientes tau-b,
tau-c y gamma. La Tabla 3.27 contiene las tres versiones del coeficiente d de Somers: (1) sin
hacer distincin entre variable independiente y dependiente; sta es la opcin apropiada para
nuestro ejemplo porque en ningn momento hemos hecho tal distincin; (2) tomando la varia-
ble opinin sobre la eutanasia como variable dependiente; y (3) tomando la variable opinin
sobre el aborto como variable dependiente.
Cada coeficiente de correlacin aparece con su correspondiente nivel crtico (sig. aproxi-
mada), el cual permite decidir sobre la hiptesis nula de independencia. Puesto que todos es-
tos niveles crticos son menores que 0,05, se puede rechazar la hiptesis de independencia y
afirmar que las variables opinin sobre la eutanasia y opinin sobre el aborto estn monto-
namente relacionadas. Y puesto que el signo de los coeficientes es positivo, podemos concluir
que las personas que tienden a estar a favor (o en contra) de la eutanasia tienden tambin a
estar a favor (o en contra) del aborto.
Junto con el valor de cada coeficiente de correlacin aparece tambin su valor tipificado
(T aproximada), es decir, el valor del coeficiente dividido por su error tpico. La tabla tambin
ofrece una estimacin del error tpico de cada coeficiente (error tpico asinttico). Estas esti-
maciones se obtienen sin asumir independencia entre las variables y pueden utilizarse para
construir intervalos de confianza de idntica manera a como hemos hecho con el ndice de
acuerdo kappa en el apartado anterior.

Tabla 3.26. Medidas de asociacin simtricas (tau-b, tau-c y gamma)


Error tp. T Sig.
a b
Ordinal por ordinal Valor asint. aproximada aproximada
Tau-b de Kendall ,675 ,036 19,219 ,000
Tau-c de Kendall ,661 ,034 19,219 ,000
Gamma ,860 ,030 19,219 ,000
N de casos vlidos 258
a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis nula.

Tabla 3.27. Medidas de asociacin direccionales (d de Somers)


Error tp. T Sig.
a b
Ordinal por ordinal Valor asint. aproximada aproximada
d de Somers Simtrica ,675 ,036 19,219 ,000
Opinin sobre la eutanasia dependiente ,672 ,036 19,219 ,000
Opinin sobre el aborto dependiente ,678 ,037 19,219 ,000
a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis nula.
110 Anlisis de datos (vol. II)

Apndice 3
Simetra relativa
El contraste de simetra estudiado al comienzo del captulo (ver, en el apartado Homogeneidad mar-
ginal y simetra, el ejemplo sobre la prueba de McNemar; Tabla 3.7), nos ha llevado a concluir que,
de las 21 + 63 = 84 personas que han cambiado su preferencia, la proporcin que lo ha hecho a favor
del lder A (63 / 84 = 0,75) es mayor que la que lo ha hecho a favor del lder B (21 / 84 = 0,25).
Esta diferencia de 50 centsimas en la proporcin de cambios a favor del lder A tambin est re-
flejada en las proporciones marginales de la tabla (al tratarse de una tabla 2 2, la hiptesis de sime-
tra equivale a la de homogeneidad marginal): la proporcin de personas que prefieren al lder A ha
cambiado de 70 / 250 = 0,28 a 112 / 250 = 0,45; una diferencia de 17 centsimas.
Es importante no olvidar que en la valoracin estadstica de la hiptesis de simetra no intervienen
las personas que no han cambiado su preferencia (49 + 117 = 166). La relevancia del resultado obtenido
debe ser valorada sin perder de vista esta circunstancia. Si, en lugar de encuestar a 250 personas, se
hubiera encuestado a 2.500 y se hubiera obtenido el mismo nmero de cambios (84) con la misma
proporcin inicial de personas a favor (0,28), el contraste de la hiptesis de simetra estara basado en
los 84 cambios observados y llevara a la misma conclusin que con 250 encuestados (a pesar de que
ahora se estaran quedando fuera del anlisis los 2.416 encuestados que no cambian su preferencia).
Con 2.500 encuestados, una proporcin inicial de 0,28 a favor del lder A y un nmero de cambios
total de 84 personas (63 de los cuales prefieren al lder A), la proporcin inicial a favor del lder A ya
no cambia de 0,28 a 0,45 (como en el caso de 250 encuestados), sino de 0,28 a 0,30 (2 centsimas). El
contraste de la hiptesis de simetra con la prueba de McNemar seguir indicando que este cambio es
estadsticamente significativo (pues se basa nicamente en las 84 personas que cambian). Pero los
responsables de disear los debates de sus respectivos lderes probablemente tendrn otra impresin.
Estas consideraciones sugieren que, en situaciones como las descritas en la Tabla 3.7, cabe la po-
sibilidad de que la informacin que proporciona el contraste de la hiptesis de simetra no resulte del
todo satisfactoria. En estos casos puede interesar contrastar, adems de la hiptesis de simetra, la de
simetra relativa. Esta hiptesis permite valorar, no el nmero absoluto de cambios, sino el nmero
relativo de cambios.
Reordenando los datos de la Tabla 3.7 tal como muestra la Tabla 3.28 y considerando fijos los to-
tales marginales del momento antes (pues estos totales marginales condicionan el nmero de cambios
que puede producirse), en lugar de analizar el nmero absoluto de cambios (21 frente a 63) es posible
analizar el nmero relativo de cambios: 21 de 70 posibles frente a 63 de 180 posibles.

Tabla 3.28. Preferencia entre dos lderes polticos antes y despus de un debate televisado
Preferencia despus
Preferencia antes La misma Distinta Total
Lder A 49 (46,5) 21 (23,5) 70
Lder B 117 (119,5) 63 (60,5) 180
Total 166 84 250
Entre parntesis aparecen las frecuencias esperadas bajo la hiptesis de independencia.

Ahora bien, las proporciones que se comparan en la hiptesis de simetra relativa (21/70 = 0,30 frente
a 63/180 = 0,35) son independientes entre s (cosa que no ocurre con las proporciones que se comparan
Captulo 3. Inferencia con dos variables categricas 111

en la hiptesis de simetra, basadas en el nmero absoluto de cambios). Por tanto, la hiptesis de sime-
tra relativa puede contrastarse con la prueba X 2 de Pearson ya estudiada en el Captulo 10 del primer
volumen. Es decir, contrastar la hiptesis de simetra relativa referida a los datos de la Tabla 3.7 equi-
vale a contrastar la hiptesis de independencia referida a los datos de la Tabla 3.28.
Aplicando el estadstico de Pearson a los datos de la Tabla 3.28 (la tabla incluye, entre parntesis,
las frecuencias esperadas en cada casilla bajo la hiptesis de independencia filas-columnas), se obtiene

= =

En la distribucin ji-cuadrado con (I ! 1) (J ! 1) = 1(1) = 1 grado de libertad (ver Tabla C del Apndice
final) se obtiene: p = P( > $ 0,57)] > 0,10. Este nivel crtico no permite rechazar la hiptesis de sime-
tra relativa. Por tanto, con los datos disponibles, no es posible afirmar que la proporcin relativa de
cambios a favor del lder A (0,30) difiera significativamente de la proporcin relativa de cambios a fa-
vor del lder B (0,35). Esta conclusin es distinta de la obtenida anteriormente al contrastar la hiptesis
de simetra a partir del nmero absoluto de cambios.

Combinacin de tablas 2 x 2 (Cochran y Mantel-Haenszel)


En ocasiones puede interesar analizar los diseos de cohortes y de casos y controles estudiados en este
captulo controlando el efecto de terceras variables. La necesidad de controlar el efecto de terceras
variables se da en contextos muy diversos. Es habitual, por ejemplo, cuando se desea valorar el impac-
to de un determinado factor de riesgo en diferentes grupos (por ejemplo, en hombres y en mujeres; o
en diferentes grupos de edad; etc.).
Se trata de averiguar si existe relacin entre una variable factor y una variable respuesta, ambas
dicotmicas, cuando se dispone de informacin referida a varios estratos (distintos grupos de edad o
de sexo, pacientes con distinta sintomatologa o con distinta gravedad de la misma sintomatologa, dis-
tintas dosis de frmaco, distintos grupos tnicos, etc.). La Tabla 3.29 muestra los datos sobre taba-
quismo e infarto de la Tabla 3.7 segmentados por sexo (hombres y mujeres).

Tabla 3.29. Frecuencias conjuntas de tabaquismo e infarto en hombres y en mujeres

Sexo = Hombres Sexo = Mujeres


Tabaquismo Infarto = S Infarto = No Infarto = S Infarto = No
Fumadores 45 152 5 225
No fumadores 22 350 8 343

En este tipo de situaciones, contrastar la hiptesis de independencia con el conjunto de datos agrupa-
dos puede arrojar resultados equvocos. Y aplicar los ndices de riesgo a cada estrato por separado no
ofrece una idea global del efecto de la variable factor.
Se obtiene una informacin ms ajustada utilizando los estadsticos de Cochran y Mantel-Haenszel
para contrastar la hiptesis de independencia condicional, es decir, la hiptesis de independencia entre
las variables factor y respuesta una vez que se ha controlado el efecto de los estratos. El estadstico de
Cochran (1954) adopta la siguiente forma:

= [3.32]

donde k se refiere a cada uno de los estratos; nk a la frecuencia observada en una cualquiera de las
casillas del estrato k (solamente una y siempre la misma en todos los estratos); mk a las frecuencias
112 Anlisis de datos (vol. II)

esperadas correspondientes a nk; y = n1+k n2+k n+1k n+2k / n3 (siendo n1+k, n2+k, n+1k, y n+2k las cuatro fre-
cuencias marginales de las tablas 2 2 de cada estrato).
El estadstico de Mantel-Haenszel (1959) es idntico al de Cochran en todo excepto en dos deta-
lles: (1) utiliza correccin por continuidad (restando medio punto al numerador de la ecuacin antes de
elevar el parntesis al cuadrado) y (2) en el denominador de la varianza utiliza n2 (n 1) en lugar de n3.
Las distribuciones muestrales de ambos estadsticos (el de Cochran y el de Mantel-Haenszel) se
aproximan al modelo de probabilidad 2 con 1 grado de libertad. Si el nivel crtico asociado es menor
que 0,05, se puede rechazar la hiptesis nula de independencia condicional y concluir que, una vez con-
trolado el efecto de la variable estratos, las variables factor y respuesta estn relacionadas.
Para obtener los estadsticos de Cochran y Mantel-Haenszel con SPSS utilizando los datos de la
Tabla 3.29:
' Reproducir en el Editor de datos los datos de la Tabla 3.29 (ver ms adelante el apartado Cmo
reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.29 tabaco infarto sexo
que se encuentra en la pgina web del manual.
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar para
acceder al cuadro de dilogo Tablas de contingencias; trasladar la variable tabaco a la lista Filas,
la variable infarto a la lista Columnas y la variable sexo a la lista Capas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingencias: Esta-
dsticos y marcar la opcin Estadsticos de Cochran y de Mantel-Haenszel. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 3.30 a la 3.32. La
Tabla 3.30 ofrece el contraste de la hiptesis de independencia condicional. El estadstico de Cochran
vale 28,565 y tiene asociado un nivel crtico (sig. asinttica bilateral) menor que 0,0005; puesto que
el nivel crtico es muy pequeo, se puede rechazar la hiptesis nula de independencia condicional y
concluir que, una vez controlado el efecto de la variable sexo, las variables tabaquismo e infarto estn
relacionadas. A idntica conclusin se llega con el estadstico de Mantel-Haenszel.

Tabla 3.30. Pruebas de independencia condicional


Sig. asinttica
Chi-cuadrado gl (bilateral)
Cochran 28,565 1 ,000
Mantel-Haenszel 27,214 1 ,000

Si se rechaza la hiptesis de independencia condicional, el inters del anlisis debe orientarse hacia la
cuantificacin del grado de relacin existente entre las variables factor y respuesta. Esto puede hacerse
de dos maneras: (1) obteniendo una cuantificacin distinta para cada estrato y (2) obteniendo una nica
cuantificacin tras mezclar todos los estratos como si se tratara de una sola muestra. Si la relacin entre
las variables factor y respuesta es la misma en todos los estratos, lo razonable ser obtener una nica
cuantificacin de la relacin; si la relacin entre las variables factor y respuesta difiere de un estrato
a otro, lo razonable ser obtener una cuantificacin de la relacin distinta para cada estrato.
Por tanto, una vez rechazada la hiptesis de independencia condicional, lo que conviene hacer es
determinar si la relacin detectada es o no la misma en todos los estratos. Esto puede hacerse contras-
tando la hiptesis nula de homogeneidad de las odds ratio inter-estratos. Para contrastar esta hiptesis,
el SPSS incluye los estadsticos de Breslow-Day (1980, 1987) y Tarone (1985; Tarone, Gart y Hauck,
1983; ver tambin Breslow, 1996). Al aplicar estos estadsticos a los datos de la Tabla 3.29 se obtiene
el resultado que muestra la Tabla 3.31. Ambos tienen asociado un nivel crtico menor que 0,05 (sig.
asinttica = 0,009); por tanto, lo razonable es rechazar la hiptesis de homogeneidad de las odds ratio.
Es decir, la odds ratio (el cociente entre la odds de infarto en los fumadores y la odds de infarto en los
Captulo 3. Inferencia con dos variables categricas 113

no fumadores) no es la misma en los dos estratos comparados (hombres y en mujeres). Resumiendo,


la relacin tabaquismo-infarto no es la misma en los dos estratos.

Tabla 3.31. Pruebas de homogeneidad de las odds ratio


Sig. asinttica
Chi-cuadrado gl (bilateral)
Breslow-Day 6,905 1 ,009
De Tarone 6,894 1 ,009

Puesto que la odds ratio no es la misma en los dos estratos comparados y, consecuentemente, no puede
asumirse que el riesgo relativo sea el mismo en ambos estratos, no tiene sentido obtener una estimacin
comn o global del mismo; lo razonable es obtener una estimacin del riesgo para cada estrato (en el
siguiente prrafo nos ocuparemos de esto). No obstante, independientemente de cul sea el resultado
de las pruebas de homogeneidad, el SPSS ofrece una estimacin comn del riesgo basada en un es-
tadstico propuesto por Mantel y Haenszel (1959) que adopta la siguiente forma:

= [3.33]

La Tabla 3.32 muestra el resultado que ofrece el SPSS como estimacin comn del riesgo. El valor de
la estimacin, 3,41, tiene asociado un nivel crtico (sig. asinttica) menor que 0,0005 y un intervalo de
confianza entre cuyos lmites (2,125; 5,481) no se encuentra el valor 1. Por tanto, puede concluirse que
el riesgo de infarto entre los fumadores es mayor que entre los no fumadores: aproximadamente 3,4
veces mayor (la tabla ofrece esta misma informacin en escala logartmica; en este caso, el valor de
referencia para la interpretacin ya no es el 1, sino el 0).

Tabla 3.32. Estimacin de la odds ratio comn de Mantel-Haenszel


Estimacin 3,413
ln(estimacin) 1,228
Error tp. de ln(estimacin)
,242
Sig. asinttica (bilateral) ,000
Intervalo de confianza asinttico al 95% Razn de ventajas comn Lmite inferior 2,125
Lmite superior 5,481
ln(Razn de ventajas comn) Lmite inferior ,754
Lmite superior 1,701

Pero ya sabemos que esta estimacin comn o global del riesgo solamente tiene sentido si la relacin
detectada entre las variables factor y respuesta es homognea en todos los estratos. Por tanto, en el caso
de que, como en nuestro ejemplo, se rechace la hiptesis de homogeneidad de las odds ratio, lo apro-
piado es obtener una estimacin del riesgo para cada estrato. Para esto, basta con seguir los pasos del
apartado Los ndices de riesgo con SPSS, pero aadiendo la variable sexo a la lista Capas del corres-
pondiente cuadro de dilogo. Al incluir la variable sexo en el anlisis, se obtienen los resultados que
muestra la Tabla 3.33. La diferencia entre lo que ocurre en el grupo de hombres y en el de mujeres es
evidente: la odds ratio (razn de ventajas) entre los hombres vale 4,71; entre las mujeres, 0,95. En el
primer caso, el resultado es significativamente mayor que 1 (intervalo de confianza: 2,73-8,12); en el
segundo, no. Conclusin: en los hombres, el riesgo de infarto entre los fumadores es 4,71 veces mayor
que entre los no fumadores; en las mujeres, no hay evidencia de que el riesgo de infarto entre las fu-
madoras sea distinto del riesgo de infarto entre las no fumadoras.
114 Anlisis de datos (vol. II)
Tabla 3.33. ndices de riesgo
Intervalo de
confianza al 95%
Sexo Valor Inferior Superior
Hombres Razn de las ventajas para Tabaquismo (Fumadores / No fumadores) 4,710 2,733 8,117
Para la cohorte Infarto = S 3,862 2,391 6,240
Para la cohorte Infarto = No ,820 ,757 ,888
N de casos vlidos 569
Mujeres Razn de las ventajas para Tabaquismo (Fumadores / No fumadores) ,953 ,308 2,949
Para la cohorte Infarto = S ,954 ,316 2,879
Para la cohorte Infarto = No 1,001 ,976 1,026
N de casos vlidos 581

La paradoja de Simpson
Los resultados del apartado anterior indican que la relacin entre dos variables puede verse modulada
o alterada por la presencia de terceras variables. Esta circunstancia ha sido especialmente puesta de ma-
nifiesto por Simpson (1951).
Supongamos que se dispone de dos tratamientos, t1 y t2, para tratar un mismo desorden y que para
todos los pacientes de la poblacin g se verifica:
P (R | t1) > P (R | t2)
donde R se refiere al suceso recuperacin. Supongamos adems que la poblacin de pacientes g est
compuesta por dos sub-poblaciones, g1 y g2. En ambas poblaciones el tratamiento t1 es ms eficaz que
el tratamiento t2, pero los pacientes de la primera poblacin tienen peor pronstico que los de la
segunda. En concreto, supongamos que:
P (R | t1, g1) = 0,5 > P (R | t2, g1) = 0,4
P (R | t1, g2) = 0,9 > P (R | t2, g2) = 0,8
Imaginemos que un investigador est interesado en comparar ambos tratamientos. Si utiliza un diseo
correcto, la proporcin de elementos muestrales extrados de cada subpoblacin para cada grupo de
tratamiento ser la misma. Sin embargo, no siempre es posible asignar sujetos aleatoriamente a los
tratamientos, de modo que no siempre es posible seleccionar muestras de tamao proporcional a sus
poblaciones. Supongamos que el 70 % de los pacientes que reciben el tratamiento t1 pertenecen a la
subpoblacin g1 y el 70 % de los pacientes que reciben el tratamiento t2 pertenecen a la subpoblacin
g2. As las cosas, se tendr:
P (R | t1) = P (R | t1, g1) P ( g1 | t1) + P (R | t1, g2) P ( g2 | t1) = (0,5) (0,7) + (0,9) (0,3) = 0,62
P (R | t2) = P (R | t2, g1) P ( g1 | t2) + P (R | t2, g2) P ( g2 | t2) = (0,4) (0,3) + (0,8) (0,7) = 0,68
Parece que la eficacia de los tratamientos ha cambiado (no coincide con la que de hecho sabemos que
es su eficacia real). Pero lo nico que ocurre es que el tratamiento t1 (el ms eficaz) se ha administrado
mayoritariamente a una muestra de la subpoblacin con la que se consiguen los peores resultados;
mientras que el tratamiento t2 (el menos eficaz) se ha administrado mayoritariamente a una muestra de
la subpoblacin con la que se consiguen los mejores resultados. Un anlisis que no contemple esta
circunstancia llevar a conclusiones incorrectas.
Una buena ilustracin de este efecto tiene que ver con la discriminacin sexual existente en el
proceso de admisin de estudiantes de una determinada Universidad (tomado de Bickel, Hammel y
OConnell, 1975). Supongamos que dos facultades (variable X: facultad ) de una Universidad admiten
Captulo 3. Inferencia con dos variables categricas 115

estudiantes procedentes de distintos institutos. Unos aspirantes son admitidos y otros no (variable Y:
admisin). Las tablas de contingencias que aparecen a continuacin recogen unos resultados hipotticos
distinguiendo entre hombres y mujeres (variable Z: sexo).
Consideremos en primer lugar la clasificacin obtenida basada en las tres variables (Tabla 3.34).
Aunque hay ligeramente menos casos en la diagonal principal (OR < 1), las variables admisin y sexo
no estn asociadas en ninguno de los niveles de la variable facultad: en ambas facultades se obtienen
valores X 2 menores que 1. Sin embargo, al combinar los resultados de ambas facultades (Tabla 3.35.a),
la asociacin entre admisin y sexo se vuelve significativa ( p < 0,05). Aparece un exceso de frecuen-
cias en la diagonal principal (OR > 1): se ha pasado de tasas de admisin aproximadamente iguales en
la Tabla 3.34 a una tasa de admisin favorable a los hombres.
Este efecto es idntico al detectado en el ejemplo de los dos tratamientos. Las facultades difieren
tanto en la distribucin de hombres-mujeres de sus aspirantes como en la proporcin de estudiantes que
son admitidos (tal como muestran las Tablas 3.35.b y 3.35.c). Y ocurre que la mayora de las mujeres
son aspirantes a la facultad en la que ms difcil es entrar (la facultad 2). Consecuentemente, la propor-
cin global de admitidos es menor en las mujeres que en los hombres. Las variables sexo y admisin
no son independientes, pero son condicionalmente independientes dada A.
La valoracin de una situacin de este tipo exige algo ms que simplemente listar el conjunto de
asociaciones significativas. Determinar qu asociaciones son importantes depende de qu variables se
considera que dependen de otras. En el ejemplo, la asociacin entre admisin y sexo no depende de un
sesgo en el proceso de admisin, sino de la diferencia en los criterios de admisin de ambas facultades
(en una de ellas se admite a muchos ms aspirantes que en la otra) y de los intereses de los aspirantes
(la mayora de las mujeres optan por la facultad con criterios ms exigentes).

Tabla 3.34. Clasificacin tridimensional: facultad, admisin y sexo

Facultad = 1 Facultad = 2
Sexo Admisin = S Admisin = No Admisin = S Admisin = No
Hombres 23 16 3 25
Mujeres 7 4 7 47

OR = 0,82; p = 0,780 OR = 0,81; p = 0,768

Tabla 3.35. Clasificaciones bidimensionales

a Admisin b Admisin c Facultad


Sexo S No Facultad S No Sexo 1 2
Hombres 26 41 1 30 20 Hombres 39 28
Mujeres 14 51 2 10 72 Mujeres 11 54
OR = 2,31; p = 0,031 OR = 10,80; p < 0,001 OR = 6,84; p < 0,001

Medidas de asociacin basadas en la reduccin proporcional del error


Muchos de los estadsticos estudiados en este captulo sirven para decidir si dos variables categricas
estn o no relacionadas; y ste debe ser, por lo general, el primer objetivo de todo anlisis inferencial
(pues, si no puede descartarse el azar como fuente de la variabilidad observada, no tiene mucho sentido
continuar con el anlisis). Ahora bien, tras detectar la presencia de una relacin significativa, lo habitual
es dirigir el anlisis hacia la cuantificacin de la fuerza o intensidad de la relacin detectada (tamao
del efecto). ste es justamente el objetivo que pretenden cubrir las medidas de asociacin.
116 Anlisis de datos (vol. II)

En el Captulo 10 del primer volumen hemos empezado ya a estudiar algunas medidas de asocia-
cin basadas en el estadstico X 2 de Pearson; todas ellas intentan cuantificar el grado de asociacin apli-
cando algn tipo de correccin al valor de X 2 para hacerle tomar un valor comprendido entre 0 y 1. Por
tanto, esas medidas son sensibles al mismo tipo de relacin a la que es sensible el estadstico de Pearson
(diferencia entre las distribuciones condicionales). En este apartado vamos a estudiar tres medidas de
asociacin (los coeficientes lambda y tau; Goodman y Kruskal, 1979) y el coeficiente de incertidumbre;
Theil, 1970) que se basan en un criterio diferente: la reduccin proporcional del error. Son medidas
que expresan la relacin entre dos variables, X e Y, como la proporcin en que se consigue reducir la
probabilidad de cometer un error de prediccin cuando, al clasificar un caso como perteneciente a una
u otra categora de Y, en lugar de utilizar nicamente la informacin que se tiene de Y, tambin se tiene
en cuenta la informacin que aporta X.

Lambda
La medida de asociacin lambda se basa en la siguiente lgica: al pronosticar a qu categora de una
determinada variable, Y, pertenece un caso concreto, podra elegirse la categora ms probable de todas;
con esta estrategia se estara cometiendo un error de clasificacin igual a la probabilidad de pertenecer
a una cualquiera de las restantes categoras; en lugar de esto, podra clasificarse a ese caso en una u otra
categora de la variable Y dependiendo de su valor (categora) en la variable X; con esta segunda estra-
tegia podra reducirse el error de clasificacin si X e Y estuvieran relacionadas. El coeficiente lambda
expresa en qu medida se consigue reducir el error de clasificacin al utilizar la segunda estrategia en
lugar de la primera.
La Tabla 3.36 recoge las frecuencias resultantes de cruzar las variables sexo y grupos de salario.
Si nicamente se tuviera informacin sobre la variable grupos de salario, al estimar a qu grupo de
salario pertenece un sujeto cualquiera podra elegirse el grupo 15 - 30 porque, al ser el grupo ms
numeroso, la probabilidad de pertenecer a ese grupo (270/500 = 0,540) es ms alta que la de pertene-
cer a cualquier otro grupo. Procediendo de esta manera se estara cometiendo un error de clasificacin
de 1 ! 0,540 = 0,460.

Tabla 3.36. Frecuencias conjuntas y marginales de sexo y grupos de salario

Grupos de salario (en miles de euros)


Sexo < 15 15 - 30 30 - 45 > 45 Total
Hombres 19 186 28 17 250
Mujeres 148 84 16 2 250
Total 167 270 44 19 500

En lugar de esto, podra utilizarse la informacin que aporta la variable sexo y clasificar a los hombres
en el grupo salarial 15 - 30 porque se es el grupo al que es ms probable que pertenezca un hombre
(con un error de (19 + 28 + 17) / 500 = 0,128), y a las mujeres en el grupo salarial < 15 porque se es
el grupo al que es ms probable que pertenezca una mujer (con un error de (84 + 16 + 2) / 500 = 0,204).
De esta manera se estara cometiendo un error de clasificacin de 0,128 + 0,204 = 0,332. Por tanto, con
esta segunda estrategia se estara reduciendo el error de clasificacin en 0,460 ! 0,332 = 0,128 puntos,
lo cual representa una proporcin de reduccin del error de clasificacin de 0,128 / 0,460 = 0,278, que
es justamente el valor que toma lambda si se aplica la ecuacin

= [3.34]
Captulo 3. Inferencia con dos variables categricas 117

donde mx i (ni j) se refiere a la mayor de las frecuencias de cada fila y mx (n+j) a la mayor de las fre-
cuencias marginales de las columnas. Efectivamente, aplicando la ecuacin [3.34] a los datos de la
Tabla 3.36 se obtiene:

= =
Lambda tiene tres versiones: dos asimtricas (para cuando una de las dos variables se considera inde-
pendiente y la otra dependiente) y una simtrica (para cuando no hay razn para distinguir entre varia-
ble independiente y dependiente). La ecuacin [3.34] se aplica cuando la clasificacin se efecta to-
mando Y como dependiente. Si se desea tomar X como dependiente basta con sustituir mxi (nij) por
mx j (ni j) (es decir, por la mayor de las frecuencias de cada columna) y mx (n+ j) por mx (ni +)
(es decir, por la mayor de las frecuencias marginales de las filas). La versin simtrica se obtiene pro-
mediando las dos asimtricas.
Un valor de 0 indica que la variable independiente no contribuye en absoluto a reducir el error de
clasificacin. Un valor de 1 indica que se ha conseguido reducir por completo el error de clasificacin,
es decir, que la variable independiente permite predecir con toda precisin a qu categora de la variable
dependiente pertenece cada caso. Cuando las variables son estadsticamente independientes (es decir,
cuando i j = i+ + j ), lambda vale 0. Pero un valor de 0 no implica independencia estadstica, pues
lambda nicamente es sensible al tipo particular de asociacin que se deriva de la reduccin del error
de clasificacin.

Tau
La medida de asociacin tau se parece a lambda, pero su lgica es algo diferente9. Al pronosticar a qu
categora de la variable grupos de salario pertenece un grupo de sujetos, se podra optar por asignar
aleatoriamente el 100(167/500) = 33,4% a la categora < 15, el 100(270/500) = 54,0% a la categora
15-30, etc., tomando como referencia la probabilidad de pertenecer a cada una de las categoras de
la variable (en lugar de considerar, como hace el coeficiente lambda, nicamente la categora ms pro-
bable). Con esta estrategia se estara clasificando correctamente al 33,4% de sujetos del grupo < 15,
al 54,0% de los sujetos del grupo 15 - 30, etc., lo cual supone una proporcin de clasificacin correc-
ta global de 0,412 y, por tanto, una proporcin de clasificacin errnea de 1 ! 0,412 = 0,588.
En lugar de esto, se podra optar por aprovechar la informacin que aporta la variable sexo asig-
nando aleatoriamente el 100 (19 / 250) = 7,6 % de los hombres a la categora < 15, el 100 (186 / 250)
= 74,4 % de los hombres a la categora 15 - 30, etc.; y el 100 (148 / 250) = 59,2 % de las mujeres a la
categora < 15, el 100 (86/216) = 39,81 % de las mujeres a la categora 15 - 30, etc. Con esta estra-
tegia se estara clasificando correctamente al 52,2 % de los sujetos y, por tanto, se estaran efectuando
pronsticos errneos con una probabilidad de 1 ! 0,522 = 0,478. Utilizando esta segunda estrategia,
la probabilidad de clasificar a un sujeto de forma incorrecta se reduce en 0,588 ! 0,478 = 0,110 pun-
tos. Lo cual representa una proporcin de reduccin del error de clasificacin de 0,110 / 0,588 = 0,187,
que es justamente el valor que toma el coeficiente tau si se aplica la ecuacin

= [3.35]

Al igual que lambda, el coeficiente tau tambin toma valores entre 0 y 1, significando el 0 ausencia
de reduccin del error de clasificacin y el 1 reduccin completa. Aplicando [3.35] a los datos de la
Tabla 3.36 se obtiene

9
No confundir esta medida de reduccin proporcional del error, tau, con las medidas de asociacin tau-a, tau-b y tau-c estu-
diadas en el apartado Asociacin entre variables categricas ordinales de este mismo captulo.
118 Anlisis de datos (vol. II)

= =

El coeficiente tau posee dos versiones asimtricas en funcin de cul de las dos variables se considere
independiente. En la ecuacin [3.35] se est tomando la variable Y como dependiente (es decir, la cla-
sificacin se hace en las categoras de Y a partir de la informacin que proporcionan las categoras de
X ). Intercambiando los roles de n i + y n + j en [3.35] se obtiene la ecuacin para el caso en el que se to
ma la variable X como dependiente.

Coeficiente de incertidumbre
Al igual que lambda y tau, tambin el coeficiente de incertidumbre (Theil, 1970) es una medida de aso-
ciacin basada en la reduccin proporcional del error. Por tanto, es una medida que expresa el grado
de incertidumbre que se consigue reducir cuando se utiliza una variable para efectuar pronsticos sobre
otra. Tambin tiene dos versiones asimtricas (dependiendo de cul de las dos variables se considere
dependiente) y una simtrica (para cuando no se hace distincin entre variable independiente y depen-
diente). Se obtiene de la siguiente manera:

= [3.36]

donde: =

= (con ni j > 0)

Para obtener IX basta con intercambiar los roles de I (X ) e I (Y ) en la ecuacin [3.36]. Y la versin
simtrica se obtiene multiplicando por 2 el resultado de [3.36] tras sustituir, en el denominador, I (Y )
por el producto I (X ) I (Y ).

Medidas de reduccin proporcional del error con SPSS


Las tres medidas de asociacin estudiadas en este apartado (lambda, tau y coeficiente de incertidumbre)
se encuentran en el procedimiento Tablas de contingencias. Para obtener estas medidas con los datos de
la Tabla 3.36:
' Reproducir en el Editor de datos los datos de la Tabla 3.36 tal como se explica en el siguiente
apartado o abrir el archivo Tabla 3.36 reduccin error que se encuentra en la pgina web del ma-
nual.
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar para ac-
ceder al cuadro de dilogo Tablas de contingencias y trasladar la variable sexo a la lista Filas y la
variable salario (grupos de salario) a la lista Columnas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingencias: Estads-
ticos y marcar las opciones Lambda y Coeficiente de incertidumbre del recuadro Nominal.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 3.37. La
tabla incluye las medidas de asociacin recin estudiadas. Cada medida aparece acompaada de su
correspondiente nivel crtico (sig. aproximada), el cual permite decidir sobre la hiptesis de inde-
pendencia: puesto que el nivel crtico de todas las medidas listadas es muy pequeo (menor que 0,0005
Captulo 3. Inferencia con dos variables categricas 119

en todos los casos), se puede rechazar la hiptesis nula de independencia y concluir que las variables
sexo y grupos de salario estn relacionadas. Junto con el valor de cada medida de asociacin aparece
una tipificacin o estandarizacin del mismo (T aproximada) que se obtiene dividiendo el valor de la
medida entre su error tpico (calculado ste suponiendo independencia entre las variables). La tabla
muestra el error tpico de cada medida calculado sin asumir independencia (error tpico asinttico).
Estos errores tpicos pueden utilizarse para construir intervalos de confianza utilizando los cuantiles
de la distribucin normal tal como hemos hecho con otros estadsticos, es decir sumando y restando
a cada medida el producto de su error tpico asinttico por el cuantil (1 ! /2) de la distribucin nor-
mal tipificada. Por ltimo, la tabla ofrece algunas notas aclaratorias acerca de aspectos tales como bajo
qu condiciones se han hecho algunos clculos, cmo se han obtenido algunos de los niveles crticos
que se ofrecen y, si procede, cul es el motivo de que no se puedan realizar algunos clculos.

Tabla 3.37. Medidas de asociacin direccionales


Error tp. Sig.
a b
Valor asint. T aprox. aprox.
Lambda Simtrica ,402 ,043 7,748 ,000
Sexo dependiente ,516 ,036 11,156 ,000
Grupos de salario dependiente ,278 ,056 4,278 ,000
Tau de Goodman y Kruskal Sexo dependiente ,307 ,036 ,000c
Grupos de salario dependiente ,187 ,027 ,000c
Coeficiente de incertidumbre Simtrica ,196 ,026 7,503 ,000d
Sexo dependiente ,245 ,033 7,503 ,000d
Grupos de salario dependiente ,163 ,022 7,503 ,000d
a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis nula.
c. Probabilidad del chi-cuadrado de la razn de verosimilitudes.
d. Probabilidad del chi-cuadrado de la razn de verosimilitudes.

Muestras pequeas: la prueba exacta de Fisher


Con la mayora de los estadsticos presentados en este captulo se utilizan distribuciones muestrales
aproximadas (son estadsticos diseados para trabajar con muestras razonablemente grandes). Con
muestras muy pequeas es preferible utilizar distribuciones exactas en lugar de aproximadas. La prue-
ba exacta de Fisher (1935) permite trabajar con las probabilidades exactas de una tabla 2 2.
Si las frecuencias marginales de las filas y de las columnas se consideran fijas, las probabilidades
de cada casilla pueden obtenerse a partir del conjunto de posibles tablas 2 2 que pueden formarse
variando el tamao de las frecuencias conjuntas de las casillas. Estas probabilidades coinciden con las
que ofrece la distribucin hipergeomtrica y no dependen de ningn parmetro desconocido.
Para unos totales marginales dados (fijos), n11 determina el valor de las otras tres casillas. Por tanto,
la distribucin hipergeomtrica expresa las probabilidades de las cuatro casillas de una tabla 2 2 ni-
camente a partir de n11. Cuando las filas son independientes de las columnas, la probabilidad exacta
asociada a n11 viene dada por

P (n11) = [3.37]

Para contrastar la hiptesis de independencia mediante la prueba exacta de Fisher, el nivel crtico p se
obtiene sumando las probabilidades de obtener frecuencias tan alejadas o ms de la hiptesis de inde-
pendencia como las de hecho obtenidas.
120 Anlisis de datos (vol. II)

En un experimento diseado por el propio Fisher, a un colega suyo que afirmaba ser capaz de dis-
tinguir si en una taza de t con leche se haba servido primero el t o la leche, le present aleatoriamente
8 tazas de t con leche con la nica indicacin de que en cuatro de ellas se haba servido primero el t
y en las otras cuatro se haba servido primero la leche. La Tabla 3.38 muestra un posible resultado.

Tabla 3.38. Frecuencias conjuntas y marginales de orden real por conjetura

Conjetura
Orden real T Leche Total
T 3 1 4
Leche 1 3 4
Total 4 4 8

Las frecuencias marginales de la tabla son fijas; y las frecuencias marginales de las filas y de las co-
lumnas son iguales porque el sujeto que realiza la conjetura sabe que hay cuatro tazas de cada tipo.
La hiptesis nula de independencia afirma que las conjeturas son independientes del orden real en
el que se ha servido el t y la leche; la hiptesis alternativa afirma que las conjeturas coinciden con el
orden real en el que se han servido el t y la leche. En este escenario, la distribucin de n11 viene dada
por todas las tablas 2 2 con frecuencias marginales (4, 4) tanto para las filas como para las columnas.
Los posibles valores de n11 son cinco: 0, 1, 2, 3 y 4. De estos cinco posibles valores, solamente el va-
lor 4 se aleja ms de la hiptesis de independencia que el resultado obtenido (3). Por tanto, la proba-
bilidad de obtener valores tan alejados o ms de la hiptesis de independencia que el obtenido es la
probabilidad de obtener n11 = 3 ms la probabilidad de obtener n11 = 4. Aplicando [3.37] se obtiene

P (n11 = 3) = = = = 0,2286

P (n11 = 4) = = = 0,0143

Por tanto, en el escenario definido por la Tabla 3.38, la probabilidad de que n11 tome un valor tan ex-
tremo o ms que 3 vale:
p = P (n11 = 3) + P (n11 = 4) = 0,2286 + 0,0143 = 0,243
Puesto que p = 0,243 es mayor que 0,05, no parece razonable rechazar la hiptesis de independencia.
Solamente con el resultado n11 = 4 se obtendra un nivel crtico p menor que 0,05; por tanto, solamente
el resultado n11 = 4 llevara a rechazar la hiptesis nula de independencia. El SPSS no tiene una opcin
para elegir la prueba exacta de Fisher, pero la ofrece por defecto cuando se marca la opcin Chi-cua-
drado del procedimiento Tablas de contingencias y la tabla analizada es una tabla 2 2.

Concordancias y discordancias en una tabla de contingencias

Al comparar las puntuaciones ordinales de dos casos cualesquiera puede ocurrir una de estas cinco posi-
bilidades (los clculos estn hechos con los datos de la Tabla 3.25):
1. Concordancias (C ): dos casos son concordantes cuando el primero punta ms alto (o ms bajo)
que el segundo tanto en X como en Y. Por ejemplo, los 73 casos de la casilla (1, 1) puntan ms
bajo, tanto en X como en Y, que los 30 de la casilla (2, 2). Al comparar los 73 casos de la casilla
Captulo 3. Inferencia con dos variables categricas 121

(1, 1) con los 30 de la casilla (2, 2) se obtienen 73 (30) = 2.190 pares concordantes. Tambin se
obtienen pares concordantes al comparar los 73 casos de la casilla (1, 1) con los 12 de la casilla
(2, 3), y con los 18 de la casilla (3, 2), y con los 80 de la casilla (3, 3). Por tanto, al comparar los
73 casos de la casilla (1, 1) con el resto de casos que puntan ms alto en ambas variables (casillas
con i > 1 y j > 1) se obtienen: 73 (30 + 12 + 18 + 80) = 10.220 pares concordantes.
Al comparar los 16 casos de la casilla (1, 2) con todos los dems casos que puntan ms alto
tanto en X como en Y (casillas con i > 1 y j > 2) se obtienen: 16 (12 + 80) = 1.472 pares concordan-
tes. Siguiendo con esta lgica, con los 18 casos de la casilla (2, 1) se obtienen: 18 (18 + 80) = 1.764
pares concordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30 (80) = 2.400 pares con-
cordantes. Por tanto, el nmero total de pares concordantes de la tabla es:
= 10.220 + 1.472 + 1.764 + 2.400 = 15.856 pares concordantes
2. Discordancias (D): dos casos son discordantes entre s cuando el primero punta ms alto (o ms
bajo) que el segundo en la variable X y ms bajo (o ms alto) en la variable Y. Por ejemplo, los 8
casos de la casilla (3, 1) puntan ms alto en X y ms bajo en Y que los 30 de la casilla (2, 2). Al
comparar los 8 casos de la casilla (3, 1) con los 30 de la casilla (2, 2) se obtienen 8(30) = 240 pares
discordantes. Lo mismo ocurre al comparar los 8 casos de la casilla (3, 1) con los 12 de la casilla
(2, 3), con los 16 de la casilla (1, 2), y con los 3 de la casilla (1, 3). Por tanto, al comparar los 8
casos de la casilla (3, 1) con el resto de casos que puntan ms bajo en X y ms alto Y (casillas con
i > 3 y j > 1) se obtienen: 8 (30 + 12 + 16 + 3) = 488 pares concordantes.
Al comparar los 16 casos de la casilla (3, 2) con todos los dems casos que puntan ms bajo
en X y ms alto en Y (casillas con i < 3 y j > 2) se obtienen: 18 (12 + 3) = 270 pares discordantes.
Siguiendo la misma lgica, con los 18 casos de la casilla (2, 1) se obtienen: 18(16 + 3) = 342 pares
discordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30(3) = 90 pares discordantes. Por
tanto, el nmero total de pares concordantes de la tabla es:
= 488 + 270 + 342 + 90 = 1.190 pares discordantes

3. Empates en X (EX): dos casos estn empatados en X cuando sus valores en X son iguales y sus va-
lores en Y distintos. Por tanto, cada caso est empatado en X con todos los casos que se encuentran
en su misma fila. Los 73 casos de la casilla (1, 1) estn empatados en X con los 16 + 3 = 19 de su
misma fila; y los 16 casos de la casilla (1, 2) estn empatados en X con los 3 casos de su misma
fila. Por tanto, en la primera fila hay 73 (19) + 16 (3) = 1.435 empates en X. Haciendo lo mismo en
la segunda fila se obtienen 18(42) + 30(12) = 1.116 empates. Y en la tercera, 8(98) + 18(80) = 2.224.
Por tanto, el nmero total de empates en X es:
= 1.435 + 1.116 + 2.224 = 4.775 pares empatados en X
4. Empates en Y (EY): dos casos estn empatados en Y cuando sus valores en Y son iguales y sus va-
lores en X distintos. Por tanto, cada caso est empatado en Y con todos los casos que se encuentran
en su misma columna. Aplicando a las columnas la misma lgica aplicada en el prrafo anterior
a las columnas se obtienen, para toda la tabla:
= 2.042 + 1.308 + 1.236 = 4.586 pares empatados en Y
5. Empates en X e Y (EXY): dos casos estn empatados en X e Y cuando sus valores son los mismos
en ambas variables. Por tanto, cada caso est empatado en X e Y con el resto de casos que se
encuentran en su misma casilla. El nmero de comparaciones entre los nij casos de la misma casilla
viene dado por las combinaciones de nij elementos tomados de dos en dos: nij (nij ! 1) / 2. Entre los
73 casos de la casilla (1, 1) hay 73(72)/2 = 2.628 pares empatados en X e Y; en la casilla (1, 2) hay
16 (15) / 2 = 120 pares empatados; etc. Por tanto, el nmero total de pares empatados en X e Y es:
= 2.628 + 120 + 3 + 153 + 435 + 66 + 28 + 153 + 3.160 = 6.746 pares empatados en X e Y
122 Anlisis de datos (vol. II)

Al comparar cada caso con cada otro, el nmero de comparaciones que pueden hacerse viene dado por
las combinaciones de n casos tomados de dos en dos, es decir: n (n ! 1) / 2 = 258 (257) / 2 = 33.153.
Este resultado es el que debe obtenerse al sumar el nmero de pares concordantes, discordantes y
empatados: 15.856 + 1.190 + 4.775 + 4.586 + 6.746 = 33.153.

Cmo reproducir una tabla de contingencias en SPSS


La Tabla 3.36 es un ejemplo de tabla de contingencias bidimensional 2 4. Para reproducir los datos
de esta tabla en el Editor de datos del SPSS no es necesario crear un archivo con 500 filas (una por cada
caso de la tabla); basta con crear 2 4 = 8 casos, es decir, uno por cada casilla de la tabla. Como con-
trapartida, hay que crear tres variables (es decir, una ms que el nmero de variables de la tabla).
La Figura 3.2 muestra cmo trasladar al Editor de datos la informacin de la Tabla 3.36. Se han
creado tres variables: sexo, salario y ncasos. La parte izquierda de la figura muestra los valores asig-
nados a las categoras de cada variable; la parte derecha muestra las etiquetas de esos valores. A las
categoras de la variable sexo (etiqueta de variable = Sexo) se han asignado los valores 1 y 2 con las
siguientes etiquetas: 1 = Hombres y 2 = Mujeres. A las categoras de la variable salario (etiqueta
de variable = Grupos de salario (en miles de euros)) se han asignado los valores 1, 2, 3 y 4, con las
siguientes etiquetas: 1 = < 15, 2 = 15 - 30, 3 = 30 - 45 y 4 = > 45.

Figura 3.2. Datos de la Tabla 3.36 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)

Para que los 8 casos del archivo de la Figura 3.2 puedan convertirse en los 500 de la Tabla 3.36 es
necesario crear, adems de las variables sexo y salario, una tercera variable con las frecuencias de cada
casilla. En el ejemplo, a esta tercera variable se le ha asignado el nombre ncasos, pero se le puede
asignar cualquier nombre vlido.
Hecho esto, para reproducir la Tabla 3.36 en el Visor de resultados a partir de los datos que mues-
tra el Editor de datos de la Figura 3.2:
' Seleccionar la opcin Ponderar casos del men Datos para acceder al cuadro de dilogo Ponderar
casos, marcar la opcin Ponderar casos mediante y trasladar la variable ncasos al cuadro Variable de
frecuencia.
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar para ac-
ceder al cuadro de dilogo Tablas de contingencias y trasladar la variable sexo a la lista Fila y la
variable salario a la lista Columna.
Aceptando estas elecciones, el Visor de resultados genera la tabla de contingencias que muestra la
Tabla 3.39. Puede comprobarse que esta tabla es idntica a la Tabla 3.36. A pesar de que el archivo
de datos solamente contiene 8 casos, al ponderar el archivo mediante la variable ncasos, los 8 casos
del archivo reproducido en la Figura 3.2 se han convertido en los 500 de la Tabla 3.36.
Captulo 3. Inferencia con dos variables categricas 123
Tabla 3.39. Distribucin del salario por sexos
Recuento
Grupos de salario
< 20 20 - 40 40 - 60 > 60 Total
Sexo Hombres 19 186 28 17 250
Mujeres 148 84 16 2 250
Total 167 270 44 19 500

La Tabla 3.29 nuestra un ejemplo de tabla de contingencias tridimensional 2 2 2. Para reproducir


los datos de esta tabla en el Editor de datos del SPSS no es necesario crear un archivo de datos con los
1.150 casos de la tabla; basta con crear 2 2 2 = 8 casos, es decir, uno por cada casilla de la tabla.
Como contrapartida, en lugar de tres variables (sexo, tabaco, infarto) hay que crear cuatro, es decir,
una ms que el nmero de variables de la tabla. La Figura 3.3 muestra cmo hacer esto. Ponderando
el archivo de la Figura 3.3 con la variable ncasos, los 8 casos (8 filas) del archivo se convierten en los
1.150 casos de la Tabla 3.29.

Figura 3.3. Datos de la Tabla 3.29 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)

Ejercicios Soluciones en www.sintesis.com

3.1. La siguiente tabla recoge algunos datos extrados de una encuesta realizada a 240 jvenes madrileos
de edades comprendidas entre 15 y 25 aos:

Beben
Fuman S No Total
S 64 16 80
No 32 128 160
Total 96 144 240

El investigador A est interesado en averiguar si la variable fumar est relacionada con la variable
beber. El investigador B est interesado en averiguar si la proporcin de bebedores entre los que fuman
difiere o no de la proporcin de bebedores en el grupo de los que no fuman:
124 Anlisis de datos (vol. II)

a. Qu hiptesis nula debe contrastar el investigador A para obtener la informacin que le interesa?
Y el investigador B ?
b. Qu procedimiento estadstico debe utilizar el investigador A para contrastar su hiptesis nula?
Y el investigador B ?

3.2. Siguiendo con los datos del ejercicio anterior, el investigador C quiere saber si la proporcin de fu-
madores difiere de la proporcin de bebedores:
a. Qu hiptesis nula debe contrastar?
b. Qu procedimiento estadstico debe utilizar para contrastar esa hiptesis?
c. Aplicar el procedimiento elegido, tomar una decisin sobre la hiptesis nula planteada ( = 0,05)
y concluir.

3.3. En uno de los primeros estudios sobre tabaquismo y cncer de pulmn se tomaron datos de pacientes
con cncer de pulmn ingresados durante el ltimo ao en 20 hospitales de Londres. En todos los pa-
cientes se registr si consuman o no tabaco (al menos un cigarrillo al da durante al menos un ao).
Por cada paciente con cncer de pulmn se incluy en el estudio un paciente ingresado en el mismo
hospital sin cncer de pulmn, del mismo sexo y del mismo grupo de edad (no ms de 5 aos de dife-
rencia). La siguiente tabla muestra los resultados obtenidos.

Cncer de pulmn
Tabaquismo S No Total
Fumadores 688 650 1.338
No fumadores 21 59 80
Total 709 709 1.418

a. Se trata de un diseo de cohortes (hacia delante) o de casos y controles (hacia atrs)?


b. Con estos datos, cmo puede estimarse el riesgo relativo de padecer cncer de pulmn entre los
fumadores?
c. Puede afirmarse que el tabaquismo est relacionado con el cncer de pulmn? ( = 0,05).
d. Puede concluirse que el tabaco produce cncer de pulmn?

3.4. Los datos de una encuesta de contenido socio-demogrfico se han utilizado para clasificar una muestra
aleatoria de 240 sujetos segn su salario y su nivel educativo. La siguiente tabla muestra los resulta-
dos obtenidos:

Nivel de estudios
Grupos de salario 1. Primarios 2. Secundarios 3. Medios 4. Superiores Total
1. < 15.000 15 48 10 2 75
2. 15.001 - 30.000 10 46 66 4 126
3. > 30.000 3 2 14 20 39
Total 28 96 90 26 240

El objetivo del estudio es averiguar si los niveles educativos ms altos (bajos) tienden a ir acompaa-
dos de salarios ms altos (bajos):
a. Qu hiptesis estadstica corresponde a la hiptesis de investigacin del estudio?
b. Qu estadstico puede utilizarse para contrastar la correspondiente hiptesis nula?
c. Calcular ese estadstico utilizando el SPSS e interpretar el resultado del contraste ( = 0,05).
Captulo 3. Inferencia con dos variables categricas 125

3.5. Teniendo en cuenta los resultados obtenidos en el ejercicio anterior cul de las siguientes afirmacio-
nes es verdadera y cul falsa?
a. El salario depende del nivel educativo.
b. El salario no depende del nivel educativo.
c. El salario no est relacionado con el nivel educativo.
d. Ha quedado probado de forma inequvoca que el salario est relacionado con el nivel educativo.
e. No existe evidencia suficiente para poder afirmar que el salario est relacionado con el nivel edu-
cativo.

3.6. De una encuesta realizada a 400 personas se han extrado los datos relativos a dos preguntas: X = Con
qu frecuencia recicla vidrio, papel, latas, envases etc.?, Y = Con qu frecuencia consume frutas
y verduras ecolgicas? Las respuestas se han codificado como: 1 = nunca o casi nunca, 2 = algu-
nas veces, 3 = habitualmente. La siguiente tabla muestra los resultados obtenidos:

Consume productos ecolgicos


Recicla 1 2 3 Total
1 12 19 2 33
2 115 170 14 165
3 16 124 22 202
Total 190 312 98 400

Utilizar el SPSS para:


a. Calcular el coeficiente de correlacin tau-b y contrastar la hiptesis nula de que X e Y son lineal-
mente independientes ( = 0,05). Interpretar el resultado del contraste.
b. Calcular el ndice de acuerdo kappa. Interpretar el resultado.
c. Calcular el ndice de acuerdo kappa ponderado. Comparar el resultado con el del apartado anterior.

3.7. Seguimos con los datos del ejercicio anterior, pero descartando a los sujetos de la primera categora
de ambas variables, es decir, quedndonos nicamente con los sujetos que han respondido a ambas pre-
guntas algunas veces (2) o habitualmente (3):
a. Qu hiptesis nula debemos contrastar para decidir si la proporcin de personas que reciclan ha-
bitualmente difiere de la proporcin de personas que consumen productos ecolgicos habitual-
mente.
b. Contrastarla e interpretar el resultado ( = 0,05).
c. Calcular el intervalo de confianza para la diferencia entre ambas proporciones.

3.8. Algunos datos recogidos durante los ltimos aos indican que la odds de sobrevivir a un accidente de
trfico es 1,75 veces mayor entre los hombres que entre las mujeres.
a. Sabiendo que la odds de sobrevivir entre los hombres vale 5,25, averiguar la proporcin de perso-
nas que sobrevive de cada sexo.
b. Encontrar el valor de k en la expresin la proporcin de hombres que sobreviven es k veces ma-
yor que la de mujeres que sobreviven.

3.9. Un psiclogo cree que la opinin que un paciente tiene sobre su terapeuta va cambiando a ms favora-
ble a medida que avanza el proceso teraputico. El psiclogo tiene, incluso, algunos datos relacionados
con esa hiptesis: pregunt a 30 pacientes su opinin sobre el terapeuta recin iniciada la terapia y en-
contr 18 opiniones favorables; pregunt a los mismos 30 pacientes su opinin sobre el terapeuta a
punto de finalizar la terapia y encontr 26 opiniones favorables, siendo 11 los pacientes que haban
126 Anlisis de datos (vol. II)

cambiado su opinin de desfavorable a favorable. El problema de nuestro psiclogo es que cuando era
estudiante no prest suficiente atencin a la asignatura Anlisis de datos y ahora se encuentra con que
no sabe qu hacer o cmo interpretar los datos que tiene. Se trata de que nosotros le demos nuestra opi-
nin fundamentada sobre su sospecha de que la opinin de los pacientes va cambiando a ms favora-
ble a medida que avanza el proceso teraputico ( = 0,05).

3.10. Hemos seleccionado una muestra aleatoria de 100 historias clnicas de nios recin nacidos y las hemos
clasificado utilizando dos criterios. El primero, si la madre ha fumado o no durante la gestacin (varia-
ble con dos niveles: madre fumadora y madre no fumadora); el segundo, el peso del nio al nacer (va-
riable con dos niveles: menos de 2,5 kg y ms de 2,5 kg). Hemos encontrado los resultados que muestra
la siguiente tabla.

Peso al nacer
Madre fumadora 2,5 kg o menos Ms de 2,5 kg
S 15 5
No 16 64

Estamos interesados en averiguar si el peso de los recin nacidos est relacionado con el hecho de que
la madre haya fumado o no durante la gestacin.
a. Qu hiptesis nula habra que plantear?
b. Estimar, utilizando el ndice apropiado, el riesgo relativo del suceso pesar menos de 2,5 kg en
los recin nacidos de madres fumadoras. Interpretar el resultado.
c. Obtener el intervalo de confianza para el ndice utilizado en el apartado anterior ( = 0,05).

3.11. Antes de comenzar un debate sobre la conveniencia de legalizar o no las drogas, se pregunt a 50 per-
sonas si estaban o no a favor de la legalizacin, resultando que 20 de ellas se mostraron a favor y las
restantes en contra. Tras el debate, se volvi a hacer la misma pregunta a las mismas 50 personas,
encontrando que ahora eran 26 las que se mostraban a favor y que 7 de las que al principio estaban en
contra ahora estaban a favor. A partir de estos datos y utilizando = 0,05, se desea averiguar si la pro-
porcin de personas que se muestran a favor de la legalizacin de las drogas ha cambiado tras el debate.

3.12. Dos psiquiatras han evaluado a 25 pacientes para determinar cules de ellos tienen pseudoalucinacio-
nes y cules no. El informe de los psiquiatras nicamente incluye un s cuando consideran que el
paciente sufre pseudoalucinaciones y un no cuando consideran que no las sufre. La siguiente tabla
resume los datos de los informes de ambos psiquiatras. Puede afirmarse que entre los dos psiquiatras
existe un acuerdo significativamente mayor que el que cabra esperar por azar? ( = 0,05).

Psiquiatra 2
Psiquiatra 1 S No Total
S 12 6 18
No 2 5 7

Total 14 11 25

3.13. En una encuesta realizada a 670 espaoles adultos, el 38 % de los encuestados manifiesta creer en que
los espritus habitan entre nosotros y el 32 % manifiesta creer en la astrologa. Si estuviramos inte-
resados en comparar estos porcentajes, cul de las siguientes pruebas podramos utilizar? (Razonar
la eleccin).
Captulo 3. Inferencia con dos variables categricas 127

a. La prueba X 2 de Pearson sobre independencia.


b. La prueba de McNemar sobre simetra.
c. El ndice de acuerdo kappa de Cohen.
d. La odds ratio.

3.14. Cul de las siguientes afirmaciones es correcta?


a. Si la odds de un suceso vale 4, su probabilidad vale 0,60.
b. Si la probabilidad de un suceso vale 0,75, su odds vale 2.
c. Si la odds ratio de un suceso vale 3, entonces el suceso es 3 veces ms probable en el grupo del
numerador que en el del denominador.
d. Todas las anteriores alternativas son falsas.

3.15. El cociente entre las odds de un suceso en los grupos 1 y 2 vale 3. Si la probabilidad del suceso vale
0,60 en el grupo 1, cunto vale la probabilidad del suceso en el grupo 2?

3.16. En cada cohorte de edad, la tasa de mortalidad es mayor en la ciudad A que en la B. Sin embargo, la
tasa de mortalidad global es ms alta en la ciudad B. Es esto posible? Por qu? (en caso necesario,
revisar el apartado La paradoja de Simpson en el Apndice 3).
4
Inferencia con una variable
categrica y una cuantitativa

El anlisis de una variable categrica y una cuantitativa lo hemos iniciado en el Captulo 11


del primer volumen al estudiar uno de los estadsticos ms conocidos y utilizados: la prueba
T de Student para muestras independientes.
Recordemos que trabajar simultneamente con una variable categrica y una cuantitativa
significa, por lo general, trabajar con una variable que define grupos (la categrica) y una
variable en la cual se desea comparar los grupos (la cuantitativa). Si la variable categrica
tiene dos categoras y, por tanto, define dos grupos, lo habitual es aplicar la prueba T de Stu-
dent para muestras independientes; si la variable categrica tiene ms de dos categoras y,
por tanto, define ms de dos grupos, lo habitual es aplicar el anlisis de varianza de un fac-
tor (ver Cuadro 1.1).
La prueba T para muestras independientes ya la hemos estudiado en el Captulo 11 del
primer volumen (la repasaremos aqu brevemente). Y el anlisis de varianza de un factor lo
estudiaremos ms adelante en el Captulo 6. En este captulo nos vamos a ocupar de algunos
procedimientos diseados para comparar grupos en una variable cuantitativa cuando no se
dan las condiciones apropiadas (normalidad, igualdad de varianzas, variable cuantitativa de
intervalo o razn) para poder aplicar con suficientes garantas la prueba T de Student y el
anlisis de varianza de un factor. En concreto vamos a estudiar la prueba de Mann-Whitney
(para cuando la variable categrica tiene dos niveles) y la prueba de Kruskal-Wallis (para
cuando la variable categrica tiene ms de dos niveles). Estos procedimientos permiten
comparar dos o ms grupos de puntuaciones independientemente de que el diseo sea obser-
vacional, correlacional o experimental1.

1
Quiz no est de ms volver a recordar que las pruebas estadsticas diseadas para comparar grupos (y lo mismo vale decir
de cualquier otra herramienta inferencial) nicamente permiten averiguar si los grupos difieren; no permiten ir ms all. Para
poder afirmar que las diferencias encontradas reflejan una relacin de naturaleza causal es necesario atenerse a las carac-
tersticas del diseo. Y ya hemos sealado (ver, en el Captulo 1 del primer volumen, el apartado Niveles de indagacin;
y en el Captulo 12 del primer volumen, el apartado Relacin y causalidad) que solamente en el contexto de los diseos
experimentales es posible hacer afirmaciones sobre la naturaleza causal de una relacin (al margen, por supuesto, de la po-
sible existencia de alguna teora bien fundamentada de la que se deriven tales afirmaciones).
130 Anlisis de datos (vol. II)

Tambin estudiaremos cmo estimar el tamao del efecto al comparar grupos en una
variable cuantitativa y, relacionado con esto, cmo llevar a cabo contrastes de equivalencia
y no-inferioridad, cuestin de especial utilidad en contextos clnicos en los que no es in-
frecuente tener que valorar la eficacia de un nuevo tratamiento comparndolo con otro ya
existente o estndar para demostrar, no que el nuevo tratamiento es mejor que el estndar
(esto puede hacerse mediante un contraste convencional), sino que el nuevo tratamiento es,
como mnimo, tan eficaz como el estndar (cosa muy distinta).

La prueba T de Student para muestras independientes


Esta prueba ya la hemos estudiado en el Captulo 11 del primer volumen. Aqu nos vamos a
limitar a recordar que se trata de la herramienta estadstica ms conocida y utilizada para
comparar dos grupos, y a repasarla brevemente. Su utilidad radica justamente en la hipte-
sis nula que permite contrastar:
H 0: ! = k0 [4.1]

El contraste de esta hiptesis se traduce en la posibilidad de comparar dos grupos en una


variable cuantitativa. Cuando, como es habitual, k0 = 0, la hiptesis [4.1] se reduce a
H 0: ! = 0 H 0: = [4.2]

Para contrastar [4.1] o [4.2] se utiliza una tipificacin de la diferencia entre las medias mues-
trales que es la que da nombre al procedimiento:

= [4.3]

La diferencia entre las medias poblacionales del numerador de [4.3] es justamente el valor
propuesto en la hiptesis nula. Y la forma de estimar el error tpico del denominador depende
de si puede o no asumirse que las varianzas poblacionales son iguales. Si puede asumirse que
lo son, nicamente ser necesario estimar un parmetro ( ). Y puesto que los dos estima-
dores de ese parmetro ( y ) son independientes entre s, pues proceden de muestras
independientes, lo ms razonable ser combinar ambos para obtener una nica estimacin de
. Si no puede asumirse que las varianzas poblacionales son iguales, no tendr sentido
realizar una nica estimacin a partir de la combinacin ponderada de los dos estimadores
disponibles. Lo razonable ser, ms bien, utilizar cada varianza muestral como estimador de
la varianza de su propia poblacin (ver, en el Captulo 11 del primer volumen, el apartado La
prueba T de Student para muestras independientes). Esto significa que existen dos versiones
del estadstico [4.3]: una para cuando puede asumirse que las varianzas poblacionales son
iguales y otra para cuando no puede asumirse tal cosa. Y ambas permiten tomar decisiones
sobre la hiptesis de igualdad de medias porque tienen distribucin muestral conocida:
T tgl [4.4]
Los grados de libertad, gl, varan dependiendo de la forma de estimar el denominador de la
ecuacin [4.3] (ver Captulo 11 del primer volumen).
Captulo 4. Inferencia con una variable categrica y una cuantitativa 131

Con la prueba T se estn comparando las medias de dos poblaciones a partir de las medias
muestrales obtenidas en muestras aleatorias extradas de esas poblaciones. Para que el proce-
dimiento funcione bien (es decir, para que el estadstico T se distribuya tal como se dice que
se distribuye) es necesario que las poblaciones muestreadas sean normales. Con muestras
grandes, el incumplimiento de este supuesto no afecta a las conclusiones del contraste; pero
con muestras pequeas pierde precisin. En estos casos es preferible utilizar procedimientos
que no asumen normalidad.

Ejemplo. La prueba T de Student para muestras independientes


Un educador sospecha que los nios con problemas perceptivos aumentan su rendimiento, con
entrenamiento adecuado, en preguntas del test Raven (Y ) que habitualmente no resuelven por
carecer de las estrategias adecuadas. Con el fin de obtener alguna evidencia sobre su sospe-
cha ha seleccionado una muestra aleatoria de 20 nios con problemas perceptivos y los ha
repartido, tambin aleatoriamente, en dos grupos. A un grupo (experimental) lo ha entrenado
durante 2 meses en tareas de percepcin de formas; el otro grupo no ha recibido entrena-
miento (control). Terminado el entrenamiento, ha pasado a todos los sujetos el test Raven para
obtener una medida del su rendimiento individual. La Tabla 4.1 muestra los resultados ob-
tenidos. Permiten estos datos afirmar que los sujetos entrenados en percepcin de formas
rinden mejor en el test Raven que los sujetos no entrenados? ( = 0,05).

Tabla 4.1. Resultados del test Raven

Grupos Sujetos nj

1 = Experimental 64 63 74 65 74 85 78 76 69 70 10 71,8 6,96


2 = Control 60 62 70 61 67 70 64 71 60 63 10 64,8 4,34

Tenemos una variable categrica (grupo) con dos niveles (1 = experimental, 2 = control)
y una variable cuantitativa (Y = puntuaciones en el test Raven) en la cual se desea comparar
los grupos. Por tanto, tenemos una situacin susceptible de ser analizada mediante la prueba
T de Student para muestras independientes:
1. Hiptesis: H0: $
< ; H 1: > (contraste unilateral derecho).
2. Supuestos: asumimos que las puntuaciones en el test Raven se distribuyen normalmente
en las dos poblaciones; desconocemos las varianzas poblacionales pero asumimos que son
iguales; las muestras se han seleccionado de forma aleatoria e independientemente una de
otra.
3. Estadstico del contraste:

= = = =
132 Anlisis de datos (vol. II)

4. Distribucin muestral: T se distribuye segn t con gl = n1 + n2 ! 2 = 10 + 10 ! 2 = 18.


$ t18; 0,95 = 1,734.
5. Zona crtica: T >
6. Decisin: como 2,70 > 1,734, se rechaza H0. Se puede concluir que el promedio de los
sujetos entrenados (grupo experimental) es significativamente ms alto que el de los suje-
tos no entrenados (grupo control).
$ 2,70) < 0,01.
7. Nivel crtico: p = P(T >

La prueba de Mann-Whitney
La prueba de Mann-Whitney2 sirve, al igual que la T de Student para muestras independien-
tes, para comparar dos grupos en una variable cuantitativa. Sirve, por tanto, para valorar la
eficacia de dos tratamientos, o para comparar un grupo experimental con un grupo control,
o dos colectivos distintos (hombres y mujeres; fumadores y no fumadores; etc.) en alguna
variable de inters. Representa una excelente alternativa a la prueba T de Student cuando se
incumple el supuesto de normalidad o cuando no es apropiado utilizar la prueba T porque el
nivel de medida de la variable cuantitativa es ordinal (ver Blair, Higgins y Smitley, 1980).
Consideremos dos muestras de tamaos n1 y n2 extradas aleatoria e independiente-
mente de sus respectivas poblaciones Y1 e Y2 . Mezclando las N = n1 + n2 observaciones y
asignando rangos R i a las N puntuaciones como si se tratara de una sola muestra (un 1 a la
ms pequea, un 2 a la ms pequea de las restantes, ..., un N a la ms grande, resolviendo
los empates asignando el rango promedio), se obtendrn n1 rangos R i 1 (los n1 rangos asig-
nados a las observaciones de la muestra Y1) y n2 rangos R i 2 (los n2 rangos asignados a las
observaciones de la muestra Y2). Entre los diferentes estadsticos que podran definirse en este
escenario, consideremos estos dos:

S1 = y S2 = [4.5]

S1 representa la suma de los rangos asignados a la muestra Y1 y S2 la de los rangos asignados


a la muestra Y2. Como la suma de N rangos vale N (N + 1) / 2 (ver la nota a pie de pgina n-
mero 1 del Captulo 2), se verifica que

S1 + S2 = N (N +1) / 2 [4.6]

2
El procedimiento que se describe en este apartado con el nombre prueba de Mann-Whitney fue originalmente propuesto
por Wilcoxon (1945) para el caso de grupos del mismo tamao. Festinger (1946) desarroll independientemente un proce-
dimiento equivalente al de Wilcoxon. Pero fueron Mann y Whitney (1947) los primeros en extender el procedimiento al caso
de grupos de tamaos distintos y los primeros tambin en elaborar tablas para poder utilizarlo con muestras pequeas. Fue-
ron precisamente las aportaciones de Mann y Whitney las que ms contribuyeron a la divulgacin del procedimiento; de
ah que, generalmente, se presente como prueba de Mann-Whitney. Sin embargo, en ocasiones, este procedimiento puede
encontrarse con la denominacin de prueba de Wilcoxon-Mann-Whitney; tambin puede encontrarse como prueba de Wil-
coxon para muestras independientes, la cual no debe confundirse con la prueba de Wilcoxon para una muestra (ya estudiada
en el captulo anterior) ni con la prueba de Wilcoxon para dos muestras relacionadas (que estudiaremos en el prximo
captulo).
Captulo 4. Inferencia con una variable categrica y una cuantitativa 133

Si asumimos que las dos muestras se han extrado de la misma poblacin o de dos poblacio-
nes idnticas, cabe esperar que S1 y S2 sean aproximadamente iguales (excepto, claro est,
en la parte atribuible a las fluctuaciones propias del azar muestral). Si los valores de S1 y S2
fueran muy distintos, habra una buena razn para sospechar que las muestras proceden de
poblaciones distintas3. Por tanto, S1 y S2 contienen informacin sobre la hiptesis de que am-
bos promedios poblacionales son iguales. No obstante, para poder utilizar estas sumas como
estadsticos de un contraste, es necesario conocer sus distribuciones muestrales. Ahora bien,
segn [4.6], S1 y S2 son complementarios respecto de N (N + 1) / 2. Por tanto, no es necesario
trabajar con ambos; nos centraremos en S1 y lo llamaremos U (que es la forma habitual de
identificar el estadstico de Mann-Whitney):

U = S1 [4.7]

Con muestras pequeas es relativamente sencillo obtener la distribucin muestral exacta del
estadstico U a partir de los posibles valores que puede tomar la suma de n1 rangos (ver, por
ejemplo, San Martn y Pardo, 1989, pgs. 122-124). La Tabla O del Apndice final ofrece
algunos cuantiles de las distribuciones exactas de U para valores de n1 y n2 iguales o meno-
res que 20. La tabla nicamente ofrece los puntos crticos u de la cola izquierda de cada
distribucin muestral. No obstante, los puntos crticos de la cola derecha pueden obtenerse
mediante u1 ! = n1 (N + 1) ! u .
Con tamaos muestrales ms grandes puede utilizarse una tipificacin4 del estadstico U
basada en su valor esperado y en su error tpico (ver, por ejemplo, San Martn y Pardo, 1989,
pgs. 124-125):

=
Z = con [4.8]
=

La distribucin de la transformacin Z se aproxima a N (0, 1) tanto ms cuanto mayores son


los tamaos muestrales5. Varios trabajos (ver, por ejemplo, Conover y Kemp, 1976) coinci-
den en sealar que la prueba de Mann-Whitney (tanto en su versin exacta, U, como en su

3
Si las dos poblaciones tienen la misma forma, una fuerte discrepancia entre S1 y S2 estara indicando, efectivamente, que
los promedios poblacionales no son iguales. Si no puede asumirse que las dos poblaciones tienen la misma forma, una fuerte
discrepancia entre S1 y S2 estara indicando que P (X < Y ) =/ P (X > Y ) =/ 0,5 (ver Conover, 1980, pgs. 224-225). Y esto im-
plica que las distribuciones poblacionales no tienen la misma forma.
4
Existen diferentes versiones de los estadsticos U y Z (ver, por ejemplo, San Martn y Pardo, 1989, pg. 126; o Marascuilo
y McSweeney, 1977, pgs. 267-278), pero todas ellas son equivalentes y conducen al mismo resultado.
5
En el caso de que al asignar rangos a las puntuaciones originales existan empates (puntuaciones a las que les corresponde
el mismo rango), la aproximacin del estadstico Z a la distribucin normal mejora si se incorpora al error tpico una correc-
cin que tiene en cuenta el nmero de puntuaciones empatadas:

[4.9]

(k se refiere al nmero de rangos distintos empatados y ti al nmero de puntuaciones empatadas en el rango i). Este error
tpico apenas difiere del propuesto en [4.8] cuando existen pocos empates o cuando en cada empate no intervienen ms de
dos puntuaciones.
134 Anlisis de datos (vol. II)

versin aproximada, Z) representa una excelente alternativa a la prueba T de Student cuan-


do no se dan las condiciones idneas para aplicar sta. El Cuadro 4.1 ofrece un resumen del
procedimiento.

Cuadro 4.1. Resumen de la Prueba de Mann-Whitney

1. Hiptesis:
a. Contraste bilateral: H0: E (Y1) = E (Y2); H1: E (Y1) =/ E (Y2).
b. Contraste unilateral derecho: H0: E (Y1) <$ E (Y2); H1: E (Y1) > E (Y2).
$ E (Y2); H1: E (Y1) < E (Y2).
c. Contraste unilateral izquierdo: H0: E (Y1) >
2. Supuestos: tenemos una variable al menos ordinal medida en dos muestras de tamaos
n1 y n2 seleccionadas aleatoria e independientemente de dos poblaciones con la misma
forma: F (Y1) = F (Y2).
3. Estadsticos del contraste (ver [4.5] y [4.8]):

3.1. U = S1 =

3.2. Z =

4. Distribuciones muestrales:
4.1. La Tabla O del Apndice final ofrece la distribucin muestral exacta de U. La
tabla nicamente incluye los puntos crticos u de las colas izquierdas de las
correspondientes distribuciones muestrales. Los puntos crticos de las colas de-
rechas pueden obtenerse mediante: u1 ! = n1 (N + 1) ! u .
4.2. La distribucin de Z se aproxima a N (0, 1) a medida que los tamaos mues-
trales van aumentando.
5. Zona crtica:
a. Contraste bilateral:
a.1. U < u /2 y U > u1 ! /2 .
a.2. Z <$ Z /2 y Z $> Z1 ! /2 .
b. Contraste unilateral derecho:
b.1. U > u1 ! .
$ Z1 ! .
b.2. Z >
c. Contraste unilateral izquierdo:
c.1. U < u .
$ Z .
c.2. Z <
6. Regla de decisin: rechazar H0 si el estadstico del contraste cae en la zona crtica;
en caso contrario, mantenerla.
Captulo 4. Inferencia con una variable categrica y una cuantitativa 135

7. Nivel crtico (valor p):


$ *Zh*)], siendo Zh el valor concreto que toma el
a. Contraste bilateral: p = 2 [P (Z >
estadstico Z.
b. Contraste unilateral derecho: p = P (Z >$ Zh).
c. Contraste unilateral izquierdo: p = P (Z <$ Zh).

Ejemplo. La prueba de Mann-Whitney


Veamos qu nos dice la prueba de Mann-Whitney sobre los datos ya analizados con la prue-
ba T de Student (ver Tabla 4.1). Recordemos que tenemos una muestra aleatoria de 20 nios
con problemas perceptivos repartidos en dos grupos. Un grupo (experimental) ha sido entre-
nado durante 2 meses en tareas de percepcin de formas; el otro grupo (control) no ha reci-
bido entrenamiento. Terminado el entrenamiento, se ha obtenido una medida del rendimien-
to individual de los sujetos. Permiten estos datos afirmar que los sujetos entrenados (grupo
experimental) rinden mejor que los no entrenados (grupo control)? ( = 0,05).
Tenemos una variable categrica (grupo) con dos niveles (1 = experimental, 2 = control)
y una variable cuantitativa (Y = puntuaciones en el test Raven) en la cual se desea compa-
rar los grupos. Estos datos ya los hemos analizado en el apartado anterior con la prueba T de
Student para muestras independientes. Ahora vamos a analizarlos con la prueba de Mann-
Whitney:
$ E (Y2);
1. Hiptesis: H0: E (Y1) <
H1: E (Y1) > E (Y2) (contraste unilateral derecho).
2. Supuestos: asumimos que las puntuaciones de ambos grupos son muestras aleatorias de
poblaciones que tienen la misma forma.
3. Estadsticos del contraste. Aunque, dado el tamao de los grupos, bastara con utilizar el
estadstico U (ecuaciones [4.5] y [4.7] ), tambin vamos a utilizar el estadstico Z (ecua-
cin [4.8]) para ilustrar cmo se aplica. La Tabla 4.2 recoge el resultado de asignar ran-
gos de 1 a 20 a las puntuaciones de la Tabla 4.1 (los empates se han resuelto asignando
el rango promedio correspondiente a las puntuaciones empatadas).

Tabla 4.2. Rangos correspondientes a las puntuaciones de la Tabla 4.1

Grupos Rangos Suma


1 = Experimental 7,5 5,5 16,5 9 16,5 20 19 18 11 13 136
2 = Control 1,5 4 13 3 10 13 7,5 15 1,5 5,5 74

3.1. Aplicando [4.5] y [4.7]: U = S1 = 136.

3.2. Aplicando [4.8]: Z = = = = .


136 Anlisis de datos (vol. II)

En el caso de que se desee obtener el estadstico Z utilizando el error tpico que incluye
la correccin por empates hay que aplicar6 la ecuacin [4.9].
4. Distribuciones muestrales:
4.1. U Tabla O del Apndice final.
4.2. Z se aproxima a N (0, 1).
5. Zonas crticas:
5.1. U > u 0,95 = n1 (N + 1) ! u0,05 = 10 (20 + 1) ! 83 = 127.
5.2. Z $
> Z1 ! 0,05 = Z0,95 = 1,645.
6. Decisin:
6.1. Como 136 > 127, se rechaza H0.
6.2. Como 2,34 > 1,645, se rechaza H0.
Ambos estadsticos llevan a la misma decisin. Se puede concluir, por tanto, que el pro-
medio de los sujetos entrenados (grupo experimental) es significativamente ms alto que
el de los sujetos no entrenados (grupo control).
$ 2,34) = 0,0096.
7. Nivel crtico: p = P(Z >

La prueba de Mann-Whitney con SPSS


La prueba de Mann-Whitney se encuentra en la opcin Pruebas no paramtricas > Dos muestras
independientes del men Analizar. El SPSS calcula tanto el estadstico U como el estadstico
Z y sus correspondientes niveles crticos. Para aplicar la prueba a los datos de la tabla 4.1:
' Reproducir en el Editor de datos los datos de la Tabla 4.1 o abrir el archivo Tabla 4.1 test
raven que se encuentra en la pgina web del manual.
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras independientes del men
Analizar para acceder al cuadro de dilogo Pruebas para dos muestras independientes y
trasladar la variable raven (puntuaciones en el test Raven) a la lista Contrastar variables
y la variable grupo (grupo de entrenamiento) y al cuadro Variable de agrupacin.
' Pulsar el botn Definir grupos para acceder al subcuadro de dilogo Pruebas para dos
muestras independientes: Definir grupos e introducir los cdigos 1 y 2 (es decir, los c-
digos asignados a los dos grupos de la variable grupo). Pulsar el botn Continuar para
volver al cuadro de dilogo principal.

6
Para aplicar la correccin por empates (ver [4.8] y [4.9]) hay que tener en cuenta que se dan empates en 4 rangos distintos
(1,5, 5,5, 7,5 y 16,5) y que en todos los casos el nmero de puntuaciones empatadas son dos. Por tanto,
Captulo 4. Inferencia con una variable categrica y una cuantitativa 137

' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras independientes: Opciones y marcar la opcin Descriptivos. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.3 y 4.4.
La primera de ellas incluye varios estadsticos descriptivos: el tamao de cada grupo y el to-
tal, la media de los rangos asignados a cada grupo (rango promedio) y la suma de los rangos
asignados a cada grupo: S1 =136 y S2 = 74.
La Tabla 4.4 ofrece varios estadsticos y niveles crticos. El estadstico U de Mann-Whit-
ney es el menor de U1 = n1 n2 + n1 (n1 +1) / 2 ! S1 y U2 = n1 n2 !U1. Con los datos de la Tabla 4.1,
U1 = 10 (10) + 10 (10 + 1) / 2 ! 136 = 19 y U2 = 10 (10) ! 19 = 81. Por tanto, U = 19.
El estadstico W de Wilcoxon es el menor de S1 y S2. Puesto que S1 = 136 y S2 = 74 (ver
Tabla 4.3), W = 74.
Y el estadstico Z es una tipificacin de los estadsticos U y W. La tipificacin del esta-
dstico U es idntica a la que nosotros hemos presentado en la ecuacin [4.9] excepto en lo
que se refiere al valor esperado que se utiliza en el numerador; aqu, U = n1 n2 / 2. Y la tipifi-
cacin del estadstico W es idntica a la que nosotros hemos propuesto en [4.9]. Pero en am-
bos casos hay que tener en cuenta un detalle importante: nosotros hemos utilizado U = S1 en
el numerador de Z y el SPSS utiliza el menor de S1 y S2 (razn por la cual el valor de Z en la
Tabla 4.4 es negativo). Esto obliga a tomar algunas precauciones. Puesto que el SPSS siem-
pre utiliza el menor de S1 y S2, la zona crtica siempre est en la cola izquierda de la distribu-
cin. En el caso de rechazar H0, el signo de Z no permite saber a qu grupo le corresponde un
promedio ms alto. Para saber esto hay que fijarse en los rangos promedio de la Tabla 4.3.
Las ltimas dos lneas de la tabla ofrecen el nivel crtico bilateral. El primero de ellos
(sig. asinttica) se obtiene tal como nosotros hemos propuesto en el Cuadro 4.1: multipli-
cando por 2 la probabilidad de obtener valores Z iguales o menores que el obtenido. El se-
gundo (sig. exacta) calcula el nivel crtico exacto7 utilizando un algoritmo propuesto por Di-
neen y Blakesley (1973). El nivel crtico unilateral se obtiene dividiendo entre 2 el bilateral.

Tabla 4.3. Estadsticos descriptivos de los rangos


Grupo de entrenamiento N Rango promedio Suma de rangos
Experimental 10 13,60 136,00
Control 10 7,40 74,00
Total 20

Tabla 4.4. Prueba de Mann-Whitney


Puntuaciones
en el test Raven
U de Mann-Whitney 19,000
W de Wilcoxon 74,000
Z -2,350
Sig. asintt. (bilateral) ,019
Sig. exacta [2*(Sig. unilateral)] ,019a
a. No corregidos para los empates.

7
$ 400 y (2) n1 n2 / 2 + mn (n1, n2) $
Este nivel crtico exacto se calcula siempre que se den dos condiciones: (1) n1 n2 < < 220.
Si no se da alguna de estas condiciones, el procedimiento nicamente ofrece el nivel crtico asinttico.
138 Anlisis de datos (vol. II)

La prueba de Kruskal-Wallis
La prueba de Mann-Whitney para dos muestras independientes fue extendida al caso de ms
de dos muestras por Kruskal y Wallis (1952). Seguimos trabajando con una variable categ-
rica que define grupos y una variable cuantitativa en la cual deseamos comparar los grupos;
pero, ahora, la variable categrica define ms de dos grupos. Por tanto, la prueba de Kruskal-
Wallis sirve para valorar el efecto de varios tratamientos sobre una variable cuantitativa, o
para comparar varios grupos en alguna medida cuantitativa de inters.
Lo habitual es abordar este tipo de situaciones con un procedimiento llamado anlisis
de varianza de un factor (lo estudiaremos ms adelante, en el Captulo 6). Pero, segn vere-
mos, el anlisis de varianza requiere que se den una serie de condiciones (normalidad de las
poblaciones muestreadas, igualdad de las varianzas poblacionales, nivel de medida de inter-
valos o razn) que no siempre se dan. Precisamente las ventajas fundamentales de la prueba
de Kruskal-Wallis frente al anlisis de varianza tienen que ver con estas condiciones: (1) no
necesita establecer supuestos sobre las poblaciones originales tan exigentes como los del
anlisis de varianza y (2) permite trabajar con datos ordinales. Por contra, si se cumplen los
supuestos en los que se basa el anlisis de varianza, su potencia es mayor que la que es posi-
ble alcanzar con la prueba de Kruskal-Wallis.
Teniendo en cuenta que con muchos de los datos que se recogen en el mbito de las cien-
cias sociales y de la salud es demasiado arriesgado asumir normalidad y homocedasticidad
(especialmente si las muestras son pequeas y los tamaos muestrales desiguales), y con-
siderando, adems, que muchas de las variables que interesa analizar son ordinales, se com-
prender que la prueba de Kruskal-Wallis representa una ms que interesante alternativa para
el estudio de una variable categrica y una cuantitativa.
Nos encontramos ante un diseo en el que J muestras son aleatoria e independientemente
seleccionadas de J poblaciones que se asumen iguales con el objetivo de averiguar si efec-
tivamente esas J poblaciones son iguales o, por el contrario, algunas de ellas difieren en sus
promedios. Por tanto, el punto de partida del anlisis lo constituyen J muestras aleatorias e
independientes (Y1, Y2, ..., Yj, ..., YJ ) de tamaos n1, n2, ..., nj, ..., nJ (j = 1, 2, ..., J ) extradas
de la misma poblacin o de J poblaciones idnticas (N = n1 + n2 + + nj + + nJ ). Asignan-
do rangos desde 1 hasta N al conjunto de las Yi j puntuaciones como si se tratara de una sola
muestra (resolviendo los empates con el promedio de los rangos empatados), es posible
definir la variable R i j = rango asignado al sujeto i de la muestra j (i = 1, 2, ..., nj ). La Ta-
bla 4.5 muestra la disposicin de los datos tras asignar rangos.

Tabla 4.5. Estructura de los datos en un diseo con J muestras independientes

Muestras Rangos Totales


1
2
=
j

J
Captulo 4. Inferencia con una variable categrica y una cuantitativa 139

(R j se refiere a la suma de los rangos asignados a las nj observaciones o puntuaciones i de


cada muestra j). Obviamente, si la hiptesis nula de que las J poblaciones son idnticas es
verdadera, los valores R j de las distintas muestras sern parecidos. Siguiendo una lgica si-
milar a la del estadstico U de Mann-Whitney, es posible obtener, tomando como punto de
partida las sumas de los rangos de cada grupo, un estadstico con distribucin muestral co-
nocida capaz de ofrecer informacin sobre el parecido existente entre las J poblaciones (ver,
por ejemplo, San Martn y Pardo, 1989, pgs. 225-227):

H = [4.10]

Bajo la hiptesis nula de que las J poblaciones tienen la misma forma, el estadstico H se
distribuye segn el modelo de probabilidad ji-cuadrado, con J ! 1 grados de libertad. El re-
chazo de esta hiptesis implica que los J promedios comparados no son iguales. El Cuadro
4.2 ofrece un resumen del procedimiento.

Cuadro 4.2. Resumen de la prueba de Kruskal-Wallis8

1. Hiptesis: H0: las J distribuciones poblacionales son iguales.


H1: las J distribuciones poblacionales no tienen la misma media.
2. Supuestos: variable al menos ordinal medida en J muestras aleatoria e independien-
temente extradas de sus respectivas poblaciones, las cuales se asume que tienen la
misma forma.
3. Estadstico del contraste8 (ecuacin [4.10]):

H =

4. Distribucin muestral: la Tabla P del Apndice final recoge los puntos crticos de la
distribucin muestral de H a partir de los cuales se puede rechazar H0 . La tabla inclu-
ye algunos valores de J y n j . Para otros valores de J o n j puede utilizarse la aproxi-
macin del estadstico H a la distribucin ji-cuadrado con J ! 1 grados de libertad.
$ h1! o H >
5. Zona crtica: H > $ .
6. Decisin: se rechaza H0 si H cae en la zona crtica; en caso contrario, se mantiene.
7. Nivel crtico (valor p): p = P (H > Hh), donde Hh se refiere al valor concreto de H.

8
Si existen muchos empates al asignar rangos, el estadstico H propuesto en [4.10] se vuelve conservador. En ese caso
conviene aplicar una correccin que tiene en cuenta la presencia de empates:

HN [4.11]

(k se refiere al nmero de rangos distintos empatados y ti al nmero de puntuaciones empatadas en cada rango i). Puesto
que H N sirve para corregir el sesgo conservador de H cuando existen empates, si con H ya se rechaza H0 no ser necesario
calcular H. Si existen pocos empates, la diferencia entre H y H N es muy pequea.
140 Anlisis de datos (vol. II)

Ejemplo. La prueba de Kruskal-Wallis

Muchos estudios coinciden en sealar que el comportamiento de los sujetos en las tareas de
rendimiento est estrechamente relacionado con su nivel de ansiedad o activacin. Al pare-
cer, el rendimiento tiende a mejorar conforme aumenta el nivel de activacin, pero solamen-
te hasta cierto umbral; a partir de ese punto, el aumento en el nivel de activacin comienza
a afectar de forma negativa al rendimiento (este efecto se conoce como ley Yerkes-Dodson).
En este contexto, se ha diseado un estudio con tres grupos, todos ellos formados por 10
sujetos aleatoriamente seleccionados. A cada grupo se le ha inducido un nivel de ansiedad
distinto (bajo, medio y alto) mientras realizaban una tarea de solucin de problemas con un
rompecabezas. Tras evaluar el rendimiento de cada sujeto en una escala de 0 a 20 puntos se
han obtenido los resultados que muestra la Tabla 4.6. Es posible afirmar que el rendimien-
to en la tarea no es el mismo bajo los tres estados de ansiedad inducidos? ( = 0,05).

Tabla 4.6. Puntuaciones en rendimiento

Nivel de activacin Puntuaciones en rendimiento


Bajo 4 11 7 10 4 9 11 8 14 12
Medio 19 14 13 16 15 18 12 7 10 16
Alto 3 11 5 10 14 5 7 9 4 2

Tenemos una variable categrica (nivel de activacin) que define tres grupos (bajo, medio y
alto) y una variable cuantitativa (rendimiento) cuyo nivel de medida es al menos ordinal y
en la cual deseamos comparar los grupos. La prueba de Kruskal-Wallis es apropiada para dar
respuesta a la pregunta planteada:
1. Hiptesis:
H0: las 3 distribuciones poblacionales son iguales.
H1: las 3 poblaciones no tienen la misma media.
2. Supuestos: tenemos una variable al menos ordinal medida en 3 muestras aleatoria e in-
dependientemente extradas de sus respectivas poblaciones, las cuales se asume que tie-
nen la misma forma.
3. Estadstico del contraste (ecuacin [4.10]). La Tabla 4.7 ofrece los rangos correspondien-
tes a las puntuaciones de la Tabla 4.6.

Tabla 4.7. Puntuaciones en rendimiento transformadas en rangos

Nivel de activ. Puntuaciones en rendimiento (rangos)


Bajo 4 18 9 15 4 12,5 18 11 24 20,5 136,0
Medio 30 24 22 27,5 26 29 20,5 9 15 27,5 230,5
Alto 2 18 6,5 15 24 6,5 9 12,5 4 1 98,5

H = =
Captulo 4. Inferencia con una variable categrica y una cuantitativa 141

4. Zona crtica: puesto que la Tabla P del Apndice final no incluye puntos crticos para
tamaos muestrales mayores que 8, utilizamos la aproximacin basada en la distribucin
ji-cuadrado. El cuantil 95 de la distribucin ji-cuadrado con J ! 1 = 3 ! 1 = 2 grados de
libertad vale = 5,99.
5. Decisin: puesto que el valor del estadstico del contraste (H = 11,94) es mayor que el
punto crtico (5,99), lo razonable es rechazar H0 y concluir que el rendimiento medio de
las tres poblaciones comparadas no es el mismo9.
6. Nivel crtico: p = P(H > 11,94) < 0,005 (en la distribucin 2 con 2 grados de libertad).

Por primera vez en todo lo que llevamos estudiado hasta ahora, el rechazo de una hiptesis
nula nos deja con la incertidumbre de saber dnde estn las diferencias. Al comparar ms de
dos grupos, el rechazo de la hiptesis nula nos permite afirmar que los promedios compara-
dos no son iguales pero no nos permite precisar qu grupo difiere de qu otro. Para respon-
der a esta pregunta es necesario comparar los grupos por pares. Esto puede hacerse con la
prueba de Mann-Whitney estudiada en el apartado anterior. Ahora bien, puesto que se estn
llevando a cabo varias comparaciones con los mismos datos, es necesario modificar el nivel
de significacin (normalmente 0,05) para que no se incremente la probabilidad de tomar de-
cisiones incorrectas. Estudiaremos esto en el Captulo 6.

La prueba de Kruskal-Wallis con SPSS

La prueba de Kruskal-Wallis se encuentra en la opcin Pruebas no paramtricas > K muestras


independientes del men Analizar. Para aplicar la prueba a los datos de la tabla 4.6:

' Reproducir en el Editor de datos los datos de la Tabla 4.6 o abrir el archivo Tabla 4.6 an-
siedad rendimiento que se encuentra en la pgina web del manual.
' Seleccionar la opcin Pruebas no paramtricas > K muestras independientes del men Ana-
lizar para acceder al cuadro de dilogo Pruebas para varias muestras independientes y
trasladar la variable rendimiento (puntuaciones en rendimiento) a la lista Contrastar
variables y la variable ansiedad (nivel de activacin) al cuadro Variable de agrupacin.
' Pulsar el botn Definir grupos para acceder al subcuadro de dilogo Pruebas para varias
muestras independientes: Definir grupos e introducir los cdigos 1 y 3 (es decir, los c-
digos menor y mayor de la variable ansiedad). Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
9
Aplicando la correccin por empates propuesta en [4.11] (ver nota a pie de pgina nmero 8) se obtiene un resultado no
muy distinto del obtenido con la ecuacin [4.10], a pesar de que existen muchos empates. Hay cuatro rangos (6,5, 12,5, 20,5
y 27,5) con dos empates (ti = 2) y cinco rangos (4, 9, 15, 18 y 24) con tres empates (ti = 3). Por tanto,

' (23 ! 2) + (23 ! 2) + (23 ! 2) + (23 ! 2) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) ' 144

HN
142 Anlisis de datos (vol. II)

' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras independientes: Opciones y marcar la opcin Descriptivos. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.8 y 4.9.
La primera de ellas incluye varios estadsticos descriptivos: el tamao de cada grupo y de
toda la muestra, y la media de los rangos asignados a cada grupo (rango promedio).

Tabla 4.8. Rangos


Nivel de ansiedad N Rango promedio
Rendimiento Bajo 10 13,60
Medio 10 23,05
Alto 10 9,85
Total 30

La Tabla 4.9 ofrece el estadstico de Kruskal-Wallis (chi-cuadrado = 12,00), sus grados de


libertad (gl = 2) y el nivel crtico o valor p (sig. asinttica = 0,002). Puesto que el nivel cr-
tico es menor que 0,05, se puede rechazar la hiptesis nula y concluir que el rendimiento
medio de las poblaciones comparadas no es el mismo. El SPSS nicamente calcula el nivel
crtico basado en la aproximacin del estadstico H a la distribucin ji-cuadrado.

Tabla. 4.9. Prueba de Kruskal-Wallis


Puntuaciones en rendimiento
Chi-cuadrado 12,00
gl 2
Sig. asintt. ,002

Existen varios procedimientos para efectuar comparaciones entre pares de grupos tras obte-
ner un resultado significativo (ver, por ejemplo, Pardo y San Martn, 1998, pgs. 437-441),
pero el SPSS no los incluye. Para analizar con el SPSS qu grupos difieren de qu otros pue-
de utilizarse la prueba de Mann-Whitney acompaada de la correccin de Bonferroni. Esta
correccin impide que la tasa de error (probabilidad de cometer errores de tipo I) aumente
por el hecho de estar haciendo varias comparaciones. La correccin consiste en dividir el
nivel de significacin (generalmente 0,05) entre el nmero de comparaciones que se desea
realizar y en utilizar ese nuevo valor como referente con el que comparar el nivel crtico
(valor p) asociado a cada comparacin entre pares de grupos.
Por ejemplo, con tres grupos hay que hacer tres comparaciones por pares: 1-2, 1-3 y 2-3.
Por tanto, la aplicacin de la correccin de Bonferroni llevar a tomar decisiones con un nivel
de significacin de 0,05 / 3 = 0,017. Es decir, se considerar que dos grupos difieren signi-
ficativamente cuando el nivel crtico obtenido al compararlos (valor p) sea menor que 0,017.
Aplicando la prueba de Mann-Whitney a nuestro ejemplo, al comparar los niveles de ansiedad
bajo y medio se obtiene p = 0,008; al comparar los niveles bajo y alto se obtiene p = 0,224;
y al comparar los niveles medio y alto se obtiene p = 0,002. Por tanto, el grupo con nivel de
ansiedad medio difiere significativamente de los otros dos y no existe evidencia de que los
grupos con niveles de ansiedad bajo y alto difieran entre s. Lo cual parece confirmar que,
efectivamente, el rendimiento es ms alto cuando el nivel de ansiedad es intermedio.
Captulo 4. Inferencia con una variable categrica y una cuantitativa 143

Medidas del tamao del efecto


Al estudiar la relacin entre dos variables categricas (ver Captulo 10 del primer volumen)
hemos tenido ocasin de constatar la utilidad de acompaar el contraste con alguna medida
de asociacin para intentar cuantificar la fuerza o intensidad de la asociacin. En los con-
trastes sobre medias ocurre algo parecido. Las pruebas T de Student, U de Mann-Whitney y
H de Kruskal-Wallis permiten comparar grupos en una variable cuantitativa y decidir si la
diferencia observada es estadsticamente significativa; pero la significacin estadstica no di-
ce mucho acerca de lo fuerte o intensa que es la relacin que delata una diferencia signifi-
cativa. Para valorar esto es necesario utilizar alguna medida del tamao del efecto.
En el Captulo 1 hemos utilizado ya la expresin tamao del efecto para referirnos al
grado en que el efecto estudiado est presente en la poblacin (es decir, para referirnos a la
magnitud de una diferencia o a la intensidad de una relacin). Tambin hemos sealado en
ese mismo captulo que la significacin estadstica de un resultado emprico es un concepto
que no necesariamente coincide con la relevancia (importancia terica o prctica) del mis-
mo (ver Kirk, 1996). Para valorar, no la significacin estadstica de un resultado, sino su re-
levancia, contamos con varias medidas que intentan cuantificar el tamao de un efecto uti-
lizando diferentes criterios.

El caso de dos grupos

En el contexto de los diseos de dos grupos aleatorios10, quiz la ms popular de estas medi-
das sea el ndice de Cohen (1988)11, tambin conocido como diferencia tipificada. Consis-
te en tipificar la distancia entre dos medias poblacionales dividindola entre la desviacin
tpica poblacional, la cual se asume que es la misma en ambas poblaciones12:

= [4.12]

Si se asume que las dos poblaciones comparadas son normales, la transformacin [4.12] es,
en realidad, una puntuacin tpica Z (ver Captulo 4 del primer volumen) que expresa la dis-
tancia entre las dos medias poblacionales en unidades de desviacin tpica en lugar de ha-
cerlo en la mtrica original de las variables.
Las curvas de la Figura 4.1 ilustran el significado del parmetro . Una diferencia de una
desviacin tpica, = 1 (grfico de la izquierda) es en realidad una puntuacin tpica Z = 1 en
una curva normal tipificada N (0, 1); por tanto, = 1 indica que el 84,1% de las puntuaciones
de la poblacin 1 se encuentran por debajo de la media de la poblacin 2, pues, en la curva
10
Diseos en los que interviene una variable dicotmica (que define dos poblaciones distintas de cada una de las cuales
se tiene una muestra aleatoria) y una variable cuantitativa en la cual se desea comparar las dos poblaciones. Es decir, el tipo
de diseos que hemos analizado con la prueba T para muestras independientes y con la prueba de Mann-Whitney.
11
Cohen llam d a su medida del tamao del efecto, pero nosotros seguiremos manteniendo la norma de representar los
parmetros con letras griegas y los estadsticos con letras latinas o con letras griegas con acento circunflejo.
12
Esta formulacin de est referida al caso de dos medias independientes; en el caso de una sola media (ver Captulo 9
del primer volumen): = | Y ! _0 | / Y, donde 0 se refiere al valor propuesto para en H0, Y se refiere a la media pobla-
cional (valor que se estima con Y ) y Y a la desviacin tpica poblacional (valor que, si no se conoce, se estima con SY).
144 Anlisis de datos (vol. II)

$ 1) = 0,841. Y una diferencia de dos desviaciones tpicas, = 2 (grfico de la


N (0, 1), P (Z <
derecha) indica que el 97,7 % de las puntuaciones de la poblacin 1 se encuentran por deba-
$ 2) = 0,977.
jo de la media de la poblacin 2, pues, en la curva N (0, 1), P (Z <

Figura 4.1. Tamao del efecto: diferencia entre dos medias en unidades de desviacin tpica
=1 =2

Y Y Y Y
1 2 1 2

El ndice definido en [4.12] es funcin de varios parmetros (las medias y la desviacin


tpica poblacionales). Por tanto, tambin es un parmetro. Y, puesto que un parmetro sue-
le ser un valor desconocido, para poder trabajar con l es necesario estimarlo. Esto puede
hacerse mediante

= [4.13]

Si existe grupo control, Glass (1976) sugiere estimar la varianza poblacional con la varianza
del grupo control. Pero Hedges (1981; ver tambin Hunter y Schmidt, 2004) ha demostrado
que utilizar la varianza del grupo control conduce a un estimador sesgado y que ese sesgo
se reduce, tanto si hay grupo control como si no, utilizando como estimador de la varianza
poblacional el promedio ponderado de las dos varianzas muestrales13:

= [4.14]

Con esta estrategia se est asumiendo que las dos varianzas poblacionales son iguales; de ah
que se utilice el promedio ponderado de las dos varianzas muestrales para estimar la nica
varianza poblacional.
Existe una correspondencia directa entre y el estadstico T de Student cuando la va-
rianza poblacional se estima mediante [4.14]. Esta correspondencia puede utilizarse para

13
Al valor que se obtiene estimando la varianza poblacional con [4.14] se le suele llamar ndice o coeficiente g. Sigue
siendo un estimador sesgado del parmetro , pero el sesgo puede eliminarse casi por completo multiplicando (es decir,
g ) por el trmino corrector
c = (N ! 3) / ( N ! 2,25) [4.15]
donde N = n1 + n2 (ver Hedges, 1982; Hedges y Olkin, 1985; esta versin simplificada de c se debe a Hunter y Schmidt,
2004). A la versin corregida de g se le suele llamar g N (g N = c g). Por supuesto, con tamaos muestrales grandes, la diferen-
cia entre utilizar o no el trmino corrector c es insignificante (ver, por ejemplo, Bangert, Kulik y Kulik, 1983), de modo que,
con tamaos muestrales grandes, es irrelevante aplicar o no la correccin.
Captulo 4. Inferencia con una variable categrica y una cuantitativa 145

estimar cuando no se tiene otra informacin (por ejemplo, a partir de informes de inves-
tigacin en los que no se incluyen las varianzas):

= [4.16]

La relevancia o importancia prctica de un determinado efecto depende del contexto en el


que se produce (caractersticas del estudio y de las variables, tamao relativo de los grupos,
etc.; ver, en el Captulo 12 del primer volumen, el apartado relativo a la interpretacin del
coeficiente de correlacin de Pearson). No obstante, Cohen (1992a) ha propuesto una espe-
cie de regla general que puede servir de ayuda para interpretar el tamao del efecto en mu-
chos contextos aplicados: valores en torno a 0,20 indican un efecto pequeo; valores en
torno a 0,50, un efecto medio; valores en torno a 0,80 y mayores, un efecto grande14.
Otra medida del tamao del efecto muy utilizada en los diseos con dos muestras inde-
pendientes es el coeficiente de correlacin de Pearson, RXY (ver el Captulo 12 del primer
volumen). Fue inicialmente propuesto para esta finalidad por Friedman (1968) y es muy reco-
mendado, entre otros, por Rosenthal (1991) y Hunter y Schmidt (2004). Cuando se aplica a
una variable dicotmica y a una cuantitativa recibe el nombre de coeficiente de correlacin
biserial-puntual 15. RXY puede calcularse de varias maneras, pero su obtencin es directa a
partir del estadstico T:

RXY = [4.18]

Elevando al cuadrado el coeficiente de correlacin RXY se obtiene la proporcin de varianza


que comparten ambas variables. Cuanto mayor es esta proporcin, mayor es el tamao del
efecto, es decir, mayor es la diferencia entre las dos medias comparadas16.
De nuevo hay que sealar que interpretar correctamente RXY requiere prestar atencin al
contexto (caractersticas del estudio y de las variables, tamao relativo de los grupos, etc.).

14
Tambin es posible obtener un intervalo de confianza para el parmetro . Cuando H0 es verdadera, el estadstico T se
aproxima a la distribucin t con gl = n1 + n2 ! 2 grados de libertad. Cuando H0 es falsa, el estadstico T se aproxima a una
distribucin asimtrica llamada t no centrada, con los mismos grados de libertad y con parmetro de no centralidad . Este
parmetro de no centralidad depende del tamao del efecto y del tamao de los grupos:
[4.17]
Steiger y Fouladi (1997; ver tambin Kelley, 2005) han demostrado que los lmites de confianza para conducen directa-
mente a los lmites de confianza para . El lmite inferior para es el parmetro de la distribucin t no centrada en la que
el cuantil 1! /2 coincide con el valor del estadstico T; el lmite superior para es el parmetro de la distribucin t no
centrada en la que el cuantil /2 coincide con el valor del estadstico T. Estos lmites pueden obtenerse fcilmente con un
programa informtico. Multiplicando ahora estos lmites por se obtienen los lmites de confianza para (ver
tambin Bird, 2002; Algina y Keselman, 2003). Algina, Keselman y Penfield (2005, 2006) han propuesto una solucin
basada en estimadores resistentes para cuando no puede asumirse que las varianzas poblacionales son iguales.
15
La correlacin se calcula entre las puntuaciones de la variable cuantitativa y las de la variable categrica. La variable
categrica es una variable dicotmica (pertenecer a un grupo o a otro), generalmente con cdigos 0 y 1, o 1 y 2.
16
Construir un intervalo de confianza para el parmetro XY requiere trabajar con la transformacin Z de Fisher (ver Apn-
dice 12 del primer volumen):
[4.19]
(la transformacin puede obtenerse de la Tabla I del Apndice final del primer volumen). Los lmites de confianza
obtenidos con [4.19] estn en unidades de ; para obtener los lmites de XY hay que devolverlos a unidades de RXY uti-
lizando la misma tabla.
146 Anlisis de datos (vol. II)

No obstante, Cohen (1992a) ha sugerido que valores en torno a 0,10, 0,30 y 0,50 se corres-
ponden, en muchos contextos aplicados, con efectos de tamaos pequeo, medio y grande
(estos valores se refieren a RXY, no a su cuadrado).
En el ejemplo utilizado en este mismo captulo a propsito de la prueba T de Student (ver
Tabla 4.1) con N = 20 nios con problemas perceptivos repartidos en dos grupos del mismo
tamao (n1 = n2 = 10) hemos obtenido un valor de 2,70 para el estadstico T. Aplicando aho-
ra [4.16] y [4.18] obtenemos

= = =

RXY = = =

El valor de RXY al cuadrado, 0,542 = 0,29, indica que las puntuaciones en el test Raven y el
hecho de pertenecer al grupo experimental o al control comparten un 29% de la varianza; por
tanto, saber que los sujetos pertenecen a uno u otro grupo permite mejorar nuestro conoci-
miento de las puntuaciones en el test Raven un 29 %. Por otro lado, el valor = 1,21 indica
que las medias de los grupos experimental y control estn separadas 1,21 desviaciones tpicas.
En la curva normal tipificada P (Z < 1,21) = 0,887; por tanto, el 88,7 % de las puntuaciones
del grupo control est por debajo de la puntuacin media del grupo experimental. Siguiendo
la regla propuesta por Cohen para interpretar estos valores, ambos coeficientes coinciden en
sealar que se trata de un efecto de tamao grande. En consecuencia, podra concluirse que,
al comparar las medias de los grupos experimental y control en las puntuaciones del test Ra-
ven, se ha encontrado una diferencia relevante.
Las dos medidas propuestas, y RXY , guardan una estrecha relacin entre s. Conociendo
una es posible conocer la otra mediante

= RXY = [4.20]

Aunque el estadstico RXY puede tomar valores negativos (recordemos que sus posibles valo-
res oscilan entre !1 y 1), stos no tienen sentido cuando RXY se utiliza como medida del ta-
mao del efecto. Por un lado, el tamao del efecto refleja a la intensidad de la relacin, no
si sta es positiva o negativa; por otro, el signo de RXY depende de cmo se codifique el he-
cho de pertenecer a uno u otro grupo (y esta codificacin es arbitraria).
Las preferencias por una u otra medida estn divididas. Quiz la utilizacin de est
ms extendida entre quienes trabajan con diseos experimentales; tiene la ventaja de ser ms
fcil de interpretar que RXY al tratarse de una distancia tipificada. La interpretacin de RXY es
menos intuitiva (proporcin de varianza comn), pero tiene una propiedad muy deseable en
un ndice estadstico: tiene un mnimo y un mximo. McGrath y Meyer (2006) han argu-
mentado que, cuando se trabaja con grupos de distinto tamao, el valor de RXY est artificial-
mente inflado. Pero Ruscio (2008) ha demostrado que esto tambin ocurre con cuando las
varianzas poblacionales no son iguales; y tambin ha destacado la conveniencia de utilizar
medidas del tamao del efecto que no se vean afectadas por el hecho de trabajar con tama-
os muestrales desiguales.
Una de estas medidas, adems de no estar afectada por el tamao de los grupos, es f-
cilmente interpretable y posee interesantes propiedades que no tienen ni ni RXY. Se trata de
Captulo 4. Inferencia con una variable categrica y una cuantitativa 147

la medida de lenguaje comn (McGraw y Wong, 1992), la cual se define como P (Y1 > Y2 ),
es decir, como la probabilidad de que una puntuacin (Y ) aleatoriamente seleccionada de la
poblacin 1 sea mayor que una puntuacin aleatoriamente seleccionada de la poblacin 2.
El nombre de esta medida obedece al hecho de que, segn sus promotores, ofrece informa-
cin sobre el tamao de un efecto en un lenguaje fcil de entender sin necesidad de ser un
experto en estos temas.
La estrategia propuesta por McGraw y Wong para estimar P (Y1 > Y2 ) requiere, al igual
que y RXY, que las poblaciones sean normales y sus varianzas iguales. Pero Delaney y
Vargha (2002) han definido un estadstico, A, que permite estimar esa probabilidad sin ne-
cesidad de establecer ningn supuesto sobre las poblaciones muestreadas:
A = [#(Y1 > Y2 ) + 0,5 #(Y1 = Y2 )] / (n1 n2) [4.21]
Es decir, P(Y1 > Y2) se estima contando el nmero de veces (#) que cada puntuacin Y1 es ma-
yor que cada puntuacin Y2 (ponderando los empates por la mitad) y dividiendo ese recuento
entre el nmero total de comparaciones.
Esta medida del tamao del efecto, adems de ser fcilmente interpretable, no requiere
que el nivel de medida de la variable cuantitativa sea de intervalo o razn; y puede utilizarse
con variables ordinales (de ah que no sea necesario asumir poblaciones normales y varian-
zas iguales).
El valor del estadstico A coincide con el rea bajo la curva COR (ver Apndice 1) cal-
culada con el mtodo de Hanley y McNeil (1982), que es justamente el que utiliza el SPSS.
Y puede obtenerse fcilmente a partir de las sumas de rangos que se obtienen a propsito de
la prueba de Mann-Whitney. En concreto:
A = [n1 n2 + nj (nj + 1) / 2 ! Sj ] / (n1 n2) [4.22]
donde Sj se refiere a la menor de las sumas S1 y S2 (ver ecuacin [4.6]) y j se refiere al gru-
po al que corresponde la suma menor. En el ejemplo utilizado al estudiar la prueba de Mann-
Whitney tenamos N = 20 nios con problemas perceptivos (n1 = 10 en el grupo experimen-
tal y n2 = 10 en el grupo control), S1 = 136 y S2 = 74 (ver Tabla 4.2). Aplicando la ecuacin
[4.22] se obtiene
A = [10 (10) + 10 (10 + 1) / 2 ! 74] / [(10 (10)] = 81 / 100 = 0,81
Este resultado indica que, de cada 10 pares de puntuaciones (una de cada poblacin) selec-
cionados, en 8 de ellos cabe esperar que la puntuacin de la poblacin 1 (grupo experimen-
tal) sea mayor que la de la poblacin 2 (grupo control). Esta conclusin no es muy diferente
de la que hemos formulado unos prrafos atrs al calcular , pero ahora no ha sido necesa-
rio asumir normalidad ni igualdad de varianzas, y nos hemos despreocupado del nivel de
medida de la variable cuantitativa (ver Hsu, 2004, para una discusin sobre las ventajas de
una medida de este tipo).
Por supuesto, , RXY y A no son los nicos estadsticos disponibles para obtener una
cuantificacin del tamao del efecto (aunque s, probablemente, los ms utilizados). Existen
otros muchos estadsticos como la proporcin de casos incorrectamente clasificados (Levy,
1967), el binomial effect size display (Rosenthal y Rubin, 1982), la r-equivalente (Rosenthal
y Rubin, 2003), etc.
Tambin pueden encontrarse estadsticos no parmetricos del tamao del efecto (ver, por
ejemplo, Kraemer y Andrews, 1982; o Hedges y Olkin, 1984).
148 Anlisis de datos (vol. II)

El caso de ms de dos grupos

En el caso de que la variable categrica tenga ms de dos niveles, el tamao del efecto puede
cuantificarse mediante un estadstico llamado eta-cuadrado ( ). Aunque este estadstico
es uno de los ms utilizados en el contexto del anlisis de varianza (ver Captulos 6 al 9),
tambin es posible obtenerlo a partir del estadstico H de Kruskal-Wallis (ver Serlin, Carr y
Marascuilo, 1982):
= [4.23]
El valor de expresa el grado de asociacin (no solamente lineal, como R XY, sino de cual-
quier tipo) entre la variable categrica y la variable cuantitativa. Cuando la variable categri-
ca tiene dos categoras, = . El valor de puede interpretarse, al igual que el de ,
como proporcin de varianza comn o compartida, es decir, como el grado en que aumenta
nuestro conocimiento de las puntuaciones de la variable cuantitativa por el hecho de saber
de qu grupo provienen.
Para interpretar el tamao de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar til en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
En el ejemplo utilizado al estudiar la prueba de Kruskal-Wallis tenemos N = 30 sujetos
repartidos en tres grupos con diferente nivel de ansiedad o activacin (bajo, medio, alto). Al
comparar los grupos hemos obtenido para el estadstico H un valor de 11,94. Por tanto:
= 11,94 / (30 ! 1) = 0,41
Este resultado (que revela un efecto de tamao grande) indica que el nivel de ansiedad y el
rendimiento comparten el 41 % de su varianza: saber a qu grupo de ansiedad pertenecen los
sujetos permite mejorar nuestro conocimiento del rendimiento en un 41 %.

Medidas del tamao del efecto con SPSS


De las cuatro medidas del tamao del efecto recin estudiadas, el SPSS permite obtener direc-
tamente tres de ellas (RXY , A y 2 ). Obtener requiere hacer algn sencillo clculo adicional.
De acuerdo con [4.16], para obtener necesitamos el valor del estadstico T y el tama-
o de los grupos. El procedimiento Comparar medias > Prueba T para muestras independientes
del men Analizar (ver Captulo 11 del primer volumen) ofrece ambas cosas.
R XY puede obtenerse de diferentes formas. Quiz la ms sencilla sea mediante el proce-
dimiento Correlaciones > Bivariadas del men Analizar. Codificar los dos niveles de la variable
categrica con 0 y 1 o con 1 y 2 no cambia el valor de R XY . Pero, puesto que los cdigos se
asignan de forma arbitraria, hay que tener en cuenta que RXY puede tomar un valor negativo;
en ese caso debe ignorarse el signo.
El valor del estadstico A se puede obtener siguiendo la estrategia utilizada al aplicar la
ecuacin [4.22]. Si no se desea hacer clculos, el valor de A puede obtenerse mediante el pro-
cedimiento Curva COR del men Analizar. La variable cuantitativa hay que trasladarla a la lista
Contrastar variable; la categrica, a la lista Variable de estado. En el cuadro de texto Valor de la
variable de estado hay que introducir el cdigo correspondiente al grupo cuya media es ma-
yor (si no se hace as no se obtiene el valor de A, sino el de 1 ! A). El valor del estadstico A
Captulo 4. Inferencia con una variable categrica y una cuantitativa 149

coincide con el valor del rea bajo la curva (el cual se ofrece en una tabla con ese mismo
encabezamiento).
El valor de tambin puede obtenerse de varias maneras. Por ejemplo, con el procedi-
miento Comparar medias > Medias del men Analizar. A la lista Dependientes hay que trasladar
la variable cuantitativa; a la lista Independientes, la categrica; y en el subcuadro de dilogo
Opciones (se accede a l pulsando el botn Opciones del cuadro de dilogo principal), hay
que marcar la opcin Tabla de ANOVA y eta. El procedimiento ofrece el valor de en una tabla
con el encabezamiento medidas de asociacin (el valor que ofrece este procedimiento para
no se obtiene como se indica en [4.23], sino como se explica en el Captulo 6).

Clculo de la potencia y del tamao muestral


El clculo de la potencia, tal como ser abordado aqu, consiste en obtener una transforma-
cin de la medida del tamao del efecto (ecuacin [4.12]) a partir de la cual es posible co-
nocer la potencia de un contraste recurriendo a la Tabla E del Apndice final. Esta transfor-
macin, a la que llamaremos (letra griega phi ), en el caso de dos muestras independientes
con tamaos muestrales iguales (n1 = n2 = n) puede estimarse mediante

= [4.24]

(recordemos que, al estimar mediante [4.13], se est asumiendo que las poblaciones son
normales y que tienen la misma varianza). Si los tamaos muestrales no son iguales, el valor
de n en [4.24] puede sustituirse por la media armnica de n1 y n2:

= = [4.25]

En nuestro ejemplo sobre la relacin entre el rendimiento en el test Raven y el entrenamien-


to en percepcin de formas (ver Tabla 4.1) tenamos N = 20 sujetos repartidos en dos grupos
del mismo tamao (n1 = n2 = 10) en los que hemos obtenido = 1,21 (ver el apartado El caso
de dos grupos). Por tanto,

= = 2,71
Con = 2,71 y = 0,05, la Tabla E del Apndice final indica que la potencia del contras-
te vale 0,85.
Lo que acabamos de hacer (calcular la potencia del contraste despus de llevarlo a cabo)
tiene el inters de saber con qu potencia se ha trabajado asumiendo que el efecto en la po-
blacin es el efecto observado en la muestra (potencia observada o a posteriori). Pero lo
realmente interesante es poder disear un estudio conociendo de antemano la potencia con
la que se va a trabajar (potencia a priori). Y esto pasa por calcular el tamao muestral nece-
sario para alcanzar una determinada potencia. Despejando n en [4.24] se obtiene

n = [4.26]
Supongamos que estamos interesados en realizar un contraste unilateral con dos grupos; y
supongamos que queremos que la potencia del contraste para detectar un efecto de tamao
150 Anlisis de datos (vol. II)

medio ( = 0,50 segn el criterio de Cohen) valga 0,80 (esta es la potencia convencional-
mente aceptada como razonable). Con = 0,05 y 1 ! = 0,80, la Tabla E del Apndice final
ofrece para un valor de 2,50. Y aplicando [4.26] obtenemos
n = 2 (2,50)2 / 0,502 = 50
Lo cual significa que, para detectar un efecto de tamao medio con una potencia de 0,80 en
un contraste unilateral con dos grupos, necesitaramos 100 sujetos (50 por grupo).
Puede ocurrir que un investigador no sepa con exactitud si el tamao del efecto que le
interesa analizar es, en trminos de , pequeo, medio o grande, pero que s sepa cul es el
valor de la diferencia que considera mnimamente relevante (por ejemplo, la diferencia que
se considera, con argumentos tericos o prcticos, que representa un cambio en la respues-
ta de los sujetos). En estos casos, en lugar de fijar el tamao de para calcular el tamao
muestral necesario para alcanzar una determinada potencia, puede fijarse el valor de esa di-
ferencia (el numerador de [4.12]) y obtener estimando el denominador (desviacin tpica
poblacional) a partir de estudios previos o mediante un estudio piloto con unos pocos datos.

Contrastes de equivalencia y no-inferioridad


Por lo general, cuando se decide comparar dos grupos (experimental-control; hombres-mu-
jeres; etc.) se hace porque se sospecha que difieren y, por tanto, con la intencin de demos-
trar que difieren. Para demostrar tal cosa, la lgica del contraste de hiptesis exige que el
punto de partida sea una hiptesis de no diferencia para poder especificar la distribucin
muestral que servir para tomar decisiones en trminos de probabilidad. Esto es lo que he-
mos venido haciendo en todos los contrastes estudiados hasta ahora.
En ocasiones, sin embargo, puede interesar comparar dos grupos, no para demostrar que
difieren, sino para demostrar que no difieren. En el mbito clnico, por ejemplo, podra inte-
resar comparar un nuevo tratamiento con otro estndar con la intencin de demostrar, no que
el nuevo es mejor que el estndar, sino que ambos son equivalentes; si el nuevo tratamien-
to tuviera asociados menos efectos adversos que el estndar, demostrar que la eficacia de
ambos tratamientos es la misma servira para justificar la aplicacin del nuevo tratamiento
sin necesidad de demostrar que es mejor que el estndar. En otros mbitos puede interesar
demostrar, por ejemplo, que el rendimiento de dos grupos es el mismo. Y en otros, que se est
trabajando con grupos equivalentes en alguna variable cuando no es posible formar grupos
equivalentes mediante asignacin aleatoria.
La comparacin entre dos grupos en una variable cuantitativa puede llevarse a cabo para
conseguir alguno de estos tres objetivos:
1. La superioridad de uno de los grupos: demostrar que un grupo difiere del otro.
2. La equivalencia de ambos grupos: demostrar que los grupos no difieren en ms de una
cantidad trivial prefijada.
3. La no-inferioridad de un grupo respecto del otro: demostrar que un grupo no es peor
que el otro en ms de una cantidad trivial prefijada (por ejemplo, que un tratamiento es,
como mnimo, tan bueno como otro; y si es peor, lo es en una cantidad trivial).
Los contrastes de hiptesis tal como los hemos estudiado hasta ahora sirven para comparar
dos grupos y decidir si difieren; por tanto, sirven para analizar los datos de los estudios cu-
Captulo 4. Inferencia con una variable categrica y una cuantitativa 151

yo objetivo es demostrar superioridad. Pero, dado que el punto de partida de todo contras-
te es una hiptesis de no diferencias y que el no rechazo de esa hiptesis no es concluyen-
te17, los contrastes de hiptesis tal como los hemos estudiado hasta ahora no permiten dar
respuesta a las cuestiones que interesa resolver en los estudios cuyo objetivo es demostrar
equivalencia o no-inferioridad. Para esto es necesario utilizar una estrategia distinta.

Mtodos para demostrar equivalencia

El objetivo de un estudio de equivalencia es demostrar que dos grupos no difieren. Pero la


igualdad absoluta entre dos grupos no es posible demostrarla (hara falta una muestra del ta-
mao de la poblacin). Para poder afirmar que dos grupos son equivalentes es necesario es-
pecificar la cantidad que se considera lo bastante pequea (una cantidad trivial en la mtrica
de la variable estudiada) como para que, si los grupos no difieren en ms de esa cantidad, pue-
dan declararse equivalentes. A esta pequea cantidad se le llama margen de equivalencia y
se suele representar mediante (delta mayscula).
Este margen de equivalencia debe fijarse atendiendo a criterios que no son propiamen-
te estadsticos; es el investigador quien tiene la informacin necesaria para decidir cul es ese
margen. Es, por tanto, un margen de carcter subjetivo. Los resultados de estudios previos,
si existieran, y la informacin disponible acerca de la diferencia mnimamente importante (la
diferencia mnima que se considera que representa un cambio significativo en la mtrica de
la variable estudiada), si existiera, podran ayudar a reducir el componente de subjetividad
que conlleva establecer este margen de equivalencia.

Doble contraste unilateral de Schuirmann


Dos grupos se consideran equivalentes en una determinada variable si la diferencia entre sus
medias se encuentra dentro de los lmites de confianza y . Esto significa que cualquier
diferencia comprendida entre esos lmites se considerar lo bastante pequea como para que,
a efectos prcticos, los grupos sean indistinguibles en la variable analizada. Schuirmann
(1987; Dunnett y Gent, 1996) ha demostrado que es posible llegar a la conclusin de que dos
grupos son equivalentes mediante el contraste simultneo de estas dos hiptesis:
1. H0 (1): ! $
> ; H1 (1) : ! <
$
(con > 0) [4.27]
2. H0 (2): ! < ; H1 (2) : ! >
Ambos contrastes son unilaterales y en ambos se utiliza el mismo nivel de significacin 18.
Estas dos hiptesis estn planteadas de tal manera que: (1) el rechazo de H0 (1) permite afir-
mar que la diferencia entre las dos medias poblacionales es menor que la cantidad positiva ;
(2) el rechazo de H0 (2) permite afirmar que la diferencia entre las dos medias poblacionales
es mayor que la cantidad negativa ; y (3) el rechazo simultneo de ambas hiptesis permite

17
Recordemos que el nivel crtico (valor p) es un indicador del grado de evidencia existente en contra de la hiptesis nula,
no a favor de ella. Si la evidencia en contra de la hiptesis nula es insuficiente para rechazarla ( p > 0,05), eso no significa
que haya suficiente evidencia para aceptarla.
18
No es necesario utilizar un nivel de significacin /2 en cada contraste para que la tasa de error total (la probabilidad de
cometer un error Tipo I) no sea mayor que . Al ser ambas hiptesis nulas mutuamente exclusivas, solamente una de ellas
puede ser verdadera. Por tanto, nicamente cabe la posibilidad de cometer un error Tipo I.
152 Anlisis de datos (vol. II)

afirmar que la diferencia entre las dos medias poblacionales se encuentra dentro de los lmi-
tes de equivalencia y , es decir,
< ( ! ) < [4.28]

Las hiptesis formuladas en [4.27] se contrastan con la prueba T de Student para muestras
independientes ya estudiada en el Captulo 11 del primer volumen y resumida al comienzo
de este mismo captulo:

T1 = , T2 = [4.29]

Si las poblaciones muestreadas son normales (o los tamaos muestrales lo bastante grandes),
la distribucin muestral de los estadsticos T1 y T2 se aproxima al modelo de probabilidad t
$ tgl; ; se
de Student con gl = n1 + n2 ! 2 grados de libertad19. Se rechaza H0 (1) cuando T1 <
$ tgl; 1 ! .
rechaza H0 (2) cuando T2 >

Intervalo de confianza de Westlake


Westlake (1972, 1976, 1979,1981) ha propuesto un sencillo mtodo con el que se llega exac-
tamente al mismo resultado que con el doble contraste unilateral de Schuirmann. El mtodo
consiste simplemente en calcular el intervalo de confianza para la diferencia entre las medias
poblacionales ( ! ) utilizando un nivel de confianza de 1 ! 2:

Ls =
= [4.32]
Li =

Se considera que dos grupos son equivalentes cuando los lmites de este intervalo de con-
fianza quedan incluidos dentro de los lmites de equivalencia, es decir, cuando
< < [4.33]

O, lo
_ que _ es lo mismo, cuando se verifica simultneamente Li > y Ls < . Lgicamente,
si |Y 1 ! Y 2 | > sabremos que los grupos no son equivalentes sin necesidad de hacer ningn

19
Si puede asumirse que las varianzas poblacionales son iguales, el error tpico de la diferencia entre las medias mues-
trales se estima (ver Captulo 11 del primer volumen, ecuacin [11.4]) mediante

[4.30]

y los grados de libertad de la distribucin t son, efectivamente, n1 + n2 ! 2. Si no puede asumirse que las varianzas pobla-
cionales son iguales, el error tpico de la diferencia entre las medias muestrales debe estimarse (ver Captulo 11 del primer
volumen, ecuacin [11.9]) mediante

[4.31]

y los grados de libertad de la distribucin t cambian (ver Captulo 11 del primer volumen, ecuacin [11.11]).
Captulo 4. Inferencia con una variable categrica y una cuantitativa 153

clculo. La ecuacin [4.33], que requiere que todo el intervalo de confianza est incluido
dentro de los lmites de equivalencia, puede reducirse a esta otra:

< [4.34]

La Figura 4.2 recoge las tres posibilidades que pueden darse al construir un intervalo de con-
fianza de estas caractersticas. La situacin representada en a es la nica que permite concluir
que las medias son equivalentes; el hecho de que todo el intervalo de confianza est incluido
entre los lmites de equivalencia est indicando que la diferencia estimada entre y
es trivial (es decir, menor que el margen de equivalencia ). En la situacin representada en
b todo el intervalo de confianza est fuera de los lmites de equivalencia; por tanto, no es
posible concluir que la diferencia entre las medias sea trivial; ms bien parece que la dife-
rencia es no trivial (aunque esta conclusin debe evitarse porque, dado que el intervalo se ha
construido con un nivel de confianza de 1 ! 2 , la probabilidad de cometer un error Ti po I
no es , sino 2 ). En la situacin representada en c no es posible llegar a ninguna conclu-
sin; el intervalo de confianza incluye tanto diferencias triviales como no triviales.

Figura 4.2. Intervalo de confianza de Westlake (figura adaptada de Seaman y Serlin, 1998)
Interv. confianza

a
0
Lmites de equivalencia

Interv. confianza

b
0
Lmites de equivalencia

Interv. confianza

c
0
Lmites de equivalencia

Debe tenerse en cuenta que el intervalo de Westlake es un contraste de equivalencia idnti-


co al doble contraste unilateral de Schuirmann; por tanto, no es un intervalo de equivalencia,
es decir, no es una estimacin de los lmites entre los que debe estar la diferencia !
para considerar que existe equivalencia; estos lmites vienen dados por y .
El intervalo de Westlake tampoco es una estimacin de los lmites entre los que se en-
cuentra la verdadera diferencia entre las medias poblacionales, pues se calcula utilizando un
nivel de confianza menor que el convencional. Si los intervalos representados en la Figura 4.2
se hubieran calculado utilizando un nivel de confianza de 1 ! , serviran para contrastar la
hiptesis de igualdad de medias H0: = : el intervalo representado en a llevara a no
rechazarla, pues incluye el valor cero; los representados en b y en c llevaran a rechazarla,
154 Anlisis de datos (vol. II)

pues no incluyen el valor cero. El intervalo de confianza de Westlake no permite hacer esto:
el representado en a llevara a no rechazar la hiptesis de igualdad de medias, pero los repre-
sentados en b y en c no seran concluyentes (al estar calculados con un nivel de confianza
menor que el convencional, podran no incluir el valor cero solo porque son ms estrechos).

Mtodos para demostrar no-inferioridad


El objetivo de un estudio de no-inferioridad es demostrar que un tratamiento no es peor que
otro (puede ser igual, es decir, equivalente, o puede ser mejor). El intervalo de Westlake es-
tudiado en el apartado anterior para demostrar equivalencia, tambin sirve para demostrar no-
inferioridad.
Llamemos experimental al grupo 1 y estndar al grupo 2. Y asumamos que el inters del
anlisis est en demostrar que el grupo experimental no es inferior al estndar. Cuando se
considera que un grupo es mejor que otro si su media es mayor, la no-inferioridad del gru-
po experimental queda demostrada cuando el intervalo de confianza definido en [4.32] est,
todo l, por encima del lmite de equivalencia . Es decir, cuando Li > . Cuando se
considera que un grupo es mejor que otro si su media es menor, la no-inferioridad del gru-
po experimental queda demostrada cuando el intervalo de confianza definido en [4.32] est,
todo l, por debajo del lmite de equivalencia . Es decir, cuando Ls < .

Ejemplo. Equivalencia y no-inferioridad

Un psiclogo considera que los hombres y las mujeres rinden en matemticas de forma dis-
tinta por razones que no tienen que ver con la capacidad de razonamiento abstracto. Para va-
lidar su sospecha, antes de buscar las razones por las que el rendimiento en matemticas es
distinto, decide buscar algn tipo de evidencia emprica que le permita asumir que, efecti-
vamente, los hombres y las mujeres no difieren en razonamiento abstracto. Su idea es que si
los hombres difieren de las mujeres en matemticas pero no en razonamiento abstracto, ste
no puede ser el responsable de las diferencias en matemticas. Selecciona aleatoria e inde-
pendientemente una muestra de 50 hombres y otra de 50 mujeres, y les pasa una prueba de
razonamiento abstracto, Y, en la que obtiene los siguientes resultados:

= 27, = 25, = 46, = 42

Las puntuaciones de la escala de razonamiento abstracto oscilan entre 0 y 40. Nuestro inves-
tigador considera que una diferencia menor de 4 puntos es lo bastante pequea como para
decidir que los grupos son equivalentes (es decir, = 4).
Obviamente, no se trata de valorar si la diferencia observada entre las medias muestra-
les (27 ! 25 = 2) se encuentra entre los lmites de equivalencia = 4 y = 4 (para esto no
es necesario hacer ningn contraste). Se trata de valorar si, a partir de esa diferencia mues-
tral, se puede afirmar, con un nivel de confianza 1 ! , que la diferencia entre las medias
poblacionales se encuentra dentro de los lmites de equivalencia = 4 y = 4. Para ello,
vamos a calcular el intervalo de confianza de Westlake con = 0,05, es decir, con un nivel
de confianza de 1 ! 2 = 0,90 (asumimos que las varianzas poblacionales son iguales):
Captulo 4. Inferencia con una variable categrica y una cuantitativa 155

= = (ver ecuacin [4.31])

gl = n hombres + nmujeres ! 2 = 50 + 50 ! 2 = 98 tgl; 1! 2 = t98; 0,90 = 1,29

= = (ver ecuacin [4.34])

Puesto que 3,71 es menor que = 4, podemos asumir que los promedios comparados difie-
ren en no ms de una cantidad trivial, es decir, en no ms de la cantidad definida como mar-
gen de equivalencia. Por tanto, podemos concluir que los hombres y las mujeres son grupos
equivalentes en lo referente a su capacidad de razonamiento abstracto.
Con SPSS, al solicitar la prueba T de Student para muestras independientes con las es-
pecificaciones que el procedimiento tiene establecidas por defecto, el intervalo de confianza
que se obtiene para la diferencia entre las medias poblacionales est calculado con un nivel
de confianza de 0,95. Pero el botn Opciones del cuadro de dilogo principal permite acceder
a un subcuadro de dilogo que ofrece la posibilidad de elegir el nivel de confianza con el que
se desea trabajar.

Limitaciones de los contrastes de equivalencia y no-inferioridad

Los estudios de equivalencia y no-inferioridad poseen importantes limitaciones que un analis-


ta de datos no debe pasar por alto (ver Piaggio, Elbourne, Altman, Pocock y Evans, 2006).
Veamos brevemente algunas de ellas.
En primer lugar, establecer el margen de equivalencia de forma solvente no es una
tarea nada sencilla. Y, sin embargo, acertar con el margen correcto es un aspecto crucial en
los estudios de equivalencia y no inferioridad. El criterio habitualmente recomendado para
fijar el margen de equivalencia es la diferencia mnimamente importante o diferencia clni-
camente relevante (Wiens, 2002). Y esa diferencia suele estimarse a partir del efecto encon-
trado en estudios previos. El problema es que este efecto, adems de no ser del todo objetivo
(pues depende de las condiciones de cada estudio), no siempre existe. Y tampoco termina de
estar claro que sea una estrategia apropiada para establecer el margen de equivalencia.
Cuando no existan estudios que aporten evidencia para poder establecer el margen de
equivalencia, varios expertos podran ponerse de acuerdo en qu cantidad de cambio en la
mtrica de la variable estudiada representa un cambio significativo en la respuesta de los su-
jetos, pero esta estrategia no elimina el componente subjetivo del margen de equivalencia.
Por ejemplo, cuntos puntos de cociente intelectual o de una escala de depresin indican que
la inteligencia o la depresin de un sujeto es mayor que la de otro? Wyrwich y sus cola-
boradores (Wyrwich 2004; Wyrwich, Nienaber, Tierney y Wolinsky, 1999; Wyrwich, Tier-
ney y Wolinsky, 1999), entre otros, han sealado una posible conexin entre la diferencia
mnimamente importante y el error tpico de medida de la escala (una propiedad de las escalas
que se obtiene analizando las respuestas de los sujetos). Pero, aunque esta conexin fuera
perfecta, que no lo es, todava faltara por resolver el problema de si la diferencia mnima-
mente importante es un valor del todo apropiado como criterio para establecer el margen de
equivalencia (Fleming, 2008; Powers, 2008; Wiens, 2002).
156 Anlisis de datos (vol. II)

En segundo lugar, es importante no olvidar que la equivalencia o no-inferioridad nunca


termina de estar completamente demostrada. En un estudio de superioridad, es decir, en un
contraste convencional, el rechazo de la hiptesis de igualdad de medias permite afirmar que
los grupos difieren; incluso si las caractersticas del estudio lo hacen poco sensible para de-
tectar un efecto real (baja potencia), el rechazo de la hiptesis de igualdad sigue permitiendo
afirmar que los grupos difieren porque la eventual falta de potencia juega a favor del objetivo
del estudio (el hecho de que una diferencia sea declarada estadsticamente significativa no
puede atribuirse a la falta de potencia). En un estudio de equivalencia o no-inferioridad ocurre
justo lo contrario. Las caractersticas de las hiptesis que se contrastan no permiten distinguir
entre un estudio bien diseado y un estudio cuyas caractersticas lo hacen poco sensible (poco
potente). El rechazo de las hiptesis formuladas en [4.27] puede deberse a que las medias
comparadas son realmente equivalentes o a que las caractersticas del estudio no permiten
detectar (por falta de potencia) una diferencia tan pequea como el margen de equivalencia
establecido.
Estas y otras limitaciones (ver Snapinn, 2000) hacen que los resultados de un estudio de
equivalencia o no-inferioridad sean menos crebles que los de un estudio de superioridad. Sin
embargo, no siempre es posible o conveniente llevar a cabo estudios de superioridad. Unas
veces hay razones ticas que lo desaconsejan (por ejemplo, cuando dejar a un grupo de pa-
cientes sin tratamiento tiene consecuencias indeseables). Otras veces, la diferencia en eficacia
entre dos tratamientos es tan pequea que para poder demostrar la superioridad de uno de
ellos habra que utilizar un tamao muestral excesivamente grande (siendo, no obstante, im-
portante demostrar la equivalencia de los tratamientos porque el nuevo aporta beneficios
adicionales a la eficacia). Y cuando no es posible la asignacin aleatoria a las condiciones del
estudio, contar con una estrategia que pueda aportar alguna evidencia sobre la equivalencia
de los grupos en una variable de inters puede resultar muy til. Por tanto, parece que hay
situaciones donde los estudios de equivalencia y no-inferioridad son tiles y, adems, no
tienen alternativa. Pero esto no debe hacernos olvidar sus limitaciones.

Apndice 4
En este apndice se describen varios procedimientos de los denominados no paramtricos. Todos ellos
han sido diseados, al igual que la prueba T de Student para muestras independientes, para analizar una
variable dicotmica y una cuantitativa. Y representan una alternativa de anlisis a la prueba T cuando
las caractersticas de los datos no se ajustan a las exigencias de la prueba T. En el SPSS, estn dispo-
nibles en la opcin Pruebas no paramtricas > Dos muestras independientes del men Analizar.

La prueba de Kolmogorov-Smirnov para dos muestras independientes


Esta prueba sirve para contrastar la hiptesis de que dos muestras independientes, Y1 e Y2, proceden
de la misma poblacin o de dos poblaciones idnticas. Para ello, compara las funciones de distribucin
(funciones de probabilidad acumuladas) empricas de ambas muestras: F (Yi1) y F (Yi2). A diferencia
de la prueba U de Mann-Whitney (que compara dos promedios poblacionales asumiendo que ambas
distribuciones tienen la misma forma y, por tanto, nicamente es sensible a las diferencias entre los
Captulo 4. Inferencia con una variable categrica y una cuantitativa 157

promedios), la prueba de Kolmogorov-Smirnov es sensible a cualquier tipo de diferencia entre las dos
distribuciones: tendencia central, variabilidad y forma de la distribucin.
Para obtener las funciones de distribucin de las dos muestras se comienza asignando rangos de
1 a n1 a los valores de Y1 y de 1 a n2 a los valores de Y2. Los eventuales empates se resuelven asignan-
do el rango promedio a las puntuaciones empatadas.
Tras asignar rangos a los valores de ambas muestras, la funcin de distribucin emprica para ca-
da valor de Yi se obtiene mediante F1 (Yi1) = i / n1 para la muestra Y1 y F2 (Yi2) = i / n2 para la muestra Y2
(donde i se refiere al rango correspondiente a cada observacin). A continuacin se obtienen las dife-
rencias Di = F1(Yi1) ! F1(Yi1), donde F1(Yi1) se refiere a la funcin de distribucin de la muestra de ma-
yor tamao. Una vez obtenidas las diferencias Di, la hiptesis de que las dos muestras proceden de la
misma poblacin se pone a prueba utilizando una tipificacin de la diferencia Di ms grande en valor
absoluto (Smirnov, 1939, 1948):

ZKS = [4.35]

Este estadstico ZKS se distribuye segn el modelo de probabilidad normal N (0, 1). El SPSS utiliza el
mtodo de Smirnov (1948) para obtener las probabilidades concretas asociadas a los valores del esta-
dstico ZKS. Este mtodo difiere del estndar (basado en las probabilidades de la curva normal tipi-
ficada), pero es equivalente.

La prueba de las rachas de Wald-Wolfowitz


La prueba de las rachas para dos muestras independientes (Wald y Wolfowitz, 1940) es similar a la
prueba de las rachas para una muestra ya estudiada en el Captulo 2. Aplicada a dos muestras inde-
pendientes, esta prueba permite contrastar la hiptesis de que ambas muestras proceden de la misma
poblacin o de dos poblaciones idnticas. Al igual que la prueba de Kolmogorov-Smirnov para dos
muestras (ver apartado anterior), la de las rachas es sensible no solo a diferencias entre los promedios,
sino a diferencias en variabilidad, simetra, etc.
Para obtener el nmero de rachas, se comienza ordenando de menor a mayor las N = n1 + n2 obser-
vaciones de ambas muestras como si se tratara de una sola muestra. Una vez ordenadas las puntua-
ciones, el nmero de rachas (R ) se obtiene contando el nmero de secuencias de observaciones per-
tenecientes a la misma muestra. Si existen empates entre observaciones de muestras distintas, el SPSS
calcula tanto el nmero mnimo de rachas (desechando los empates) como el mximo (teniendo en
cuenta los empates).
Si las dos muestras proceden de la misma poblacin, las observaciones ordenadas de ambas mues-
tras estarn entremezcladas y el nmero de rachas ser alto. Por el contrario, si las muestras proceden
de poblaciones distintas (distinto centro, distinto grado de asimetra, etc.), una de ellas tendr valores
ms altos que la otra y las observaciones ordenadas no estarn tan entremezcladas como en el caso de
poblaciones iguales; y el nmero de rachas ser bajo. Por tanto, un nmero alto de rachas indica que
las muestras proceden de la misma poblacin, mientras que un nmero bajo de rachas indica que las
muestras proceden de poblaciones distintas.
Para decidir cundo el nmero de rachas encontrado es lo bastante pequeo como para rechazar
la hiptesis de que las muestras proceden de la misma poblacin, el SPSS utiliza dos estrategias dis-
tintas dependiendo del tamao de las muestras. Si n > 30, utiliza la aproximacin normal (ver, en el
Captulo 2, el estadstico Z descrito en el apartado Prueba de las rachas); pero a diferencia de lo que
ocurre con el estadstico Z para una muestra, aqu se utiliza un nivel crtico unilateral: la probabilidad
de obtener un nmero de rachas (R ) igual o menor que el obtenido (r).
Si n $
< 30, el SPSS ofrece el nivel crtico unilateral exacto. Para ello, si el nmero observado de
rachas es par, utiliza la siguiente ecuacin:
158 Anlisis de datos (vol. II)

P (R $
< r) =
[4.36]

Y si el nmero observado de rachas es impar:

P (R $
< r) = [4.37]

(con i = 1, 2, ..., r ; y k = 2 r ! 1). En ambas ecuaciones se est calculando la probabilidad de obtener


un nmero de rachas igual o menor que el encontrado. Se rechazar la hiptesis nula de que las mues-
tras proceden de la misma poblacin cuando esa probabilidad sea menor que el nivel de significacin
establecido.

La prueba de reacciones extremas de Moses


Existen diferentes procedimientos para comparar la dispersin de dos distribuciones. En el Apndice
11 del primer volumen hemos estudiado ya uno de los ms utilizados, debido a Levene (1960), que se
basa en la comparacin de las varianzas; pero se trata de un procedimiento paramtrico que pierde
precisin cuando las distribuciones comparadas no son normales. Moses (1952) ha diseado un pro-
cedimiento no paramtrico (basado en la amplitud) que puede utilizarse con variables ordinales y que,
por tanto, no exige que las distribuciones comparadas sean normales.
Consideremos dos muestras, Y1 e Y2, extradas aleatoriamente de la misma poblacin o de dos
poblaciones idnticas. Para obtener el estadstico de Moses se comienza ordenando las n = n1 + n2
observaciones de forma ascendente y asignndoles, como si se tratara de una nica muestra, rangos
de 1 a n: un 1 a la ms pequea, un 2 a la ms pequea de las restantes, etc. (los empates se resuelven
asignando el rango medio). A continuacin se calcula la amplitud de la primera muestra (A1) restan-
do los rangos correspondientes al valor ms grande y ms pequeo de esa muestra y sumando 1 a la
diferencia; en caso necesario, el resultado se redondea al entero ms prximo.
Dado que la amplitud es una medida de dispersin muy inestable, Moses sugiere utilizar al ampli-
tud recortada (AR). Para ello, se fija un valor pequeo (r) y se calcula la amplitud de la primera mues-
tra tras descartar r valores por arriba y por abajo (en el SPSS, r es igual a la parte entera de 0,05 n1, o
a 1, si 0,05 n1 es menor que 1). La amplitud recortada se obtiene restando los rangos correspondientes
al valor ms grande y al ms pequeo de la primera muestra tras eliminar del clculo los r valores ms
grandes y los r valores ms pequeos de esa muestra, y sumando 1 a esa diferencia.
AR no puede ser menor que n1 ! 2 r (ni mayor que n ! 2 r). Adems, si en la primera muestra se han
producido reacciones extremas, la amplitud del segundo grupo tender a su valor mnimo, pues habr
pocas observaciones de la primera muestra entremezcladas con las de la segunda. Por tanto, podra
resultar til conocer la probabilidad asociada a los valores AR que superen en alguna cantidad el valor
n2 ! 2 r. Llamando s a la cantidad en que un determinado valor observado de AR es mayor que n1 ! 2 r,
puede obtenerse la probabilidad de encontrar amplitudes AS = n1 ! 2 r + s como la observada o meno-
res (hasta n1 ! 2 r) mediante

= [4.38]
Captulo 4. Inferencia con una variable categrica y una cuantitativa 159

El SPSS calcula esta probabilidad tanto para r = 0 como para r = 0,05 nc (en este ltimo caso, si r < 1,
se toma 1; si r > 1, se toma la parte entera de r). Si esta probabilidad es pequea (menor que 0,05), se
podr rechazar la hiptesis de que ambas muestras proceden de poblaciones con la misma amplitud
(dispersin).

Ejercicios Soluciones en www.sintesis.com

4.1. Para estudiar la posible influencia del tipo de instrucciones sobre la ejecucin de una tarea se ha selec-
cionado aleatoriamente una muestra de 12 sujetos. La mitad de ellos ha realizado la tarea tras recibir
instrucciones breves y sencillas (grupo 1); la otra mitad tras recibir instrucciones largas y explcitas
(grupo 2). La siguiente tabla muestra las puntuaciones en rendimiento que han obtenido los 12 sujetos:

Grupo 1 2 3 6 7 8 4
Grupo 2 3 5 8 6 8 9

a. Comparar el rendimiento medio de ambos grupos y decidir si existen diferencias ( = 0,05).


b. Estimar el tamao del efecto con y con RXY. Interpretar el resultado.
c. Calcular la potencia del contraste.
d. Qu nmero de casos debera tener cada grupo para alcanzar una potencia de 0,85?
e. Si se asume que una diferencia de un punto en el rendimiento es irrelevante, Puede afirmarse que
el rendimiento de ambos grupos es equivalente?

4.2. Se ha realizado un estudio para comprobar si una sustancia utilizada por la medicina hind para desin-
toxicar opimanos podra ser empleada tambin para deshabituar a los fumadores. La experiencia se
ha realizado con 26 fumadores distribuidos al azar en dos grupos. Al grupo A se le ha administrado
la mencionada sustancia; al grupo B, un placebo. Tras el tratamiento se ha registrado el nmero medio
de cigarrillos/da que ha fumado cada sujeto durante un mes. La siguiente tabla recoge los resultados
obtenidos:

Grupo A 20 10 0 0 0 0 3 7 0 8 7 10 11
Grupo B 19 28 18 14 17 16 13 12 14 11 10 20 8

a. Comprobar si el promedio de cigarrillos consumidos por el grupo tratado es menor que el prome-
dio de cigarrillos del grupo no tratado ( = 0,05).
b. Estimar el tamao del efecto con y con RXY. Interpretar el resultado.
c. Calcular la potencia del contraste.

4.3. Utilizar el procedimiento curva COR del SPSS para obtener el valor del estadstico A (tamao del
efecto) con los datos de los ejercicios 4.1 y 4.2. Comparar los valores de este estadstico con los valo-
res de ya calculados.

4.4. En un experimento diseado para estudiar si el efecto de indefensin aprendida se generaliza de si-
tuaciones de evitacin a situaciones apetitivas, se han utilizado 21 ratas distribuidas aleatoriamente
en tres grupos. Al primer grupo se le ha aplicado un estmulo aversivo del que se poda escapar saltan-
do a un compartimento contiguo. Al segundo grupo se le ha aplicado el mismo estmulo aversivo con
la diferencia de que no se poda escapar de l. El tercer grupo no recibi estimulacin aversiva. En la
160 Anlisis de datos (vol. II)

segunda fase del experimento, las ratas tenan que apretar una palanca para conseguir una bola de ali-
mento. La siguiente tabla muestra el nmero de respuestas (apretar la palanca) dadas por cada animal
en un intervalo de tiempo idntico para todos. La expectativa de los investigadores era que las ratas
a las que se haba inducido indefensin (grupo 2) daran menos respuestas en la segunda fase.

Grupo 1 3 7 6 1 5 4 6
Grupo 2 0 2 1 0 0 1 0
Grupo 3 2 6 4 0 3 9 3

a. Puede afirmarse que los grupos difieren en el nmero medio de respuestas dadas? ( = 0,05).
b. Confirman los datos la expectativa de los investigadores?
c. Estimar el tamao del efecto.

4.5. Con el fin de estudiar el efecto de un determinado frmaco en pacientes aquejados de insomnio, un in-
vestigador ha seleccionado 3 niveles de frmaco (100, 250 y 500 mg) y los ha administrado a 3 grupos
de pacientes aleatoriamente seleccionados. Las dosis fueron administradas una vez al da durante una
semana. La siguiente tabla recoge el nmero medio de minutos/da que ha dormido cada paciente du-
rante la semana de tratamiento. La tabla tambin recoge los datos relativos a un grupo de pacientes que
no recibi el tratamiento sino un placebo (0 mg):

0 mg 241 289 232 257 304 198 227 262


100 mg 307 315 277 261 296 300 312 321
250 mg 395 388 456 489 435 379 491 502
500 mg 107 288 195 162 197 207 102 188

Comparar el nmero medio de horas dormidas de los cuatro grupos y decidir si existen diferencias
significativas ( = 0,01).

4.6. En un determinado estudio se ha obtenido T = 7,3. Sabemos que P (T < 7,3) = 0,025. Si el contraste es
unilateral derecho, esto significa que (sealar la/s alternativa/s correcta/s):
a. Hay que rechazar H0.
b. La probabilidad de que H0 sea verdadera vale 0,025.
c. Lo razonable es mantener H0.
d. Podemos rechazar H0 con una probabilidad de equivocarnos de 0,025.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarnos vale 0,025 como mnimo.
5
Inferencia con
dos variables cuantitativas

El anlisis de dos variables cuantitativas ya lo hemos iniciado en el Captulo 12 del primer


volumen. Recordemos (ver el apartado Muestras relacionadas de ese captulo) que se tienen
dos variables cuantitativas cuando se toman dos medidas a los mismos sujetos (o a pares de
sujetos), bien porque se miden dos variables distintas (altura y peso; o calificaciones en len-
gua y en matemticas), bien porque se mide la misma variable en dos momentos distintos (el
nivel de ansiedad antes y despus de un examen; o el peso antes y despus de participar en
un programa de adelgazamiento).
Cualquiera que sea la forma de obtener dos variables cuantitativas, el hecho relevante
es que las dos puntuaciones de cada sujeto (o par de sujetos) no son independientes, pues ca-
be esperar que se parezcan entre s ms que las puntuaciones de dos sujetos (o pares de suje-
tos) distintos. sta es la caracterstica distintiva de los diseos con muestras relacionadas
(tambin llamados diseos con los mismos sujetos o diseos de medidas repetidas).
Recordemos tambin (ver, en el Captulo 12 del primer volumen, el apartado Comparar
o relacionar) que, al trabajar con dos variables cuantitativas, el inters del anlisis puede
orientarse hacia dos objetivos bien diferentes: compararlas o relacionarlas. La comparacin
se basa en los centros (promedios) de las variables; la relacin se basa en la forma de variar
las puntuaciones.
Para comparar dos variables cuantitativas ya hemos estudiado la prueba T de Student para
muestras relacionadas; y, para relacionarlas, el coeficiente de correlacin de Pearson. En este
captulo vamos a seguir avanzando en el anlisis de dos variables cuantitativas estudiando
algunos procedimientos que pueden aplicarse cuando no se dan las conciones idneas para
aplicar la prueba T o el coeficiente de correlacin de Pearson (normalidad de las distribu-
ciones y nivel de medida de intervalos o razn). En concreto, como alternativas a la prueba
T para muestras relacionadas vamos a estudiar la prueba de Wilcoxon para dos muestras
y la prueba de los signos para dos muestras; y como alternativa al coeficiente de correla-
cin de Pearson vamos a estudiar el coeficiente de correlacin de Spearman.
Este captulo tambin incluye un breve repaso de la prueba T para muestras relacionadas
y del coeficiente de correlacin de Pearson (ambos procedimientos se han estudiado ya en el
Captulo 12 del primer volumen).
162 Anlisis de datos (vol. II)

La prueba T de Student para muestras relacionadas


Esta prueba sirve para comparar las medias de dos variables cuantitativas (ver Captulo 12
del primer volumen). Tenemos dos poblaciones (Y1 e Y2 ) y una muestra aleatoria de tamao
n de cada poblacin. Las dos observaciones seleccionadas en cada extraccin se consideran
relacionadas porque corresponden al mismo sujeto o a dos sujetos emparejados mediante
algn vnculo relevante para el anlisis. En este escenario, las puntuaciones de cada par (Y1,
Y2 ) pueden transformarse en:
= [5.1]
De esta forma, a cada sujeto o par de sujetos le corresponde una nica puntuacin D. En el
caso de diseos antes-despus o pre-post, la diferencia entre las puntuaciones de cada par
refleja el cambio (prdida o ganancia) entre los dos momentos. Por tanto, en el contraste so-
bre dos medias relacionadas tenemos en realidad una nica poblacin (la poblacin de dife-
rencias D) con media y varianza . Al seleccionar una muestra aleatoria de esa pobla-
cin y calcular el estadstico

= (o, lo que es lo mismo: = ) [5.2]

obtenemos una variable aleatoria cuyos valor esperado y varianza (ver Apndice 6 del pri-
mer volumen) son los siguientes:

=
[5.3]
= = =

La varianza de la poblacin de diferencias es, por lo general, un valor desconocido, pero


puede estimarse mediante

= = [5.4]

en cuyo caso, la transformacin

T = [5.5]

se aproxima a la distribucin t de Student con n ! 1 grados de libertad. Tenemos, por tanto,


todo lo necesario para poder contrastar la hiptesis
H 0: = (o bien, = 0) [5.6]

El estadstico T definido en [5.5] y su distribucin muestral (t de Student con n ! 1 grados de


libertad) se aplican en los trminos ya conocidos (ver Captulo 12 del primer volumen).
Conviene recordar que un diseo de muestras relacionadas sirve para reducir la variabi-
lidad debida a los sujetos. Pero esto solamente es as si la relacin entre las variables es posi-
tiva. Aunque esto es lo que cabe esperar por tratarse de medidas en los mismos sujetos, puede
ocurrir que la relacin sea negativa (por ejemplo, al medir la dominancia en los dos miembros
de una misma pareja). En estos casos es preferible utilizar diseos de muestras independientes
(que utilizan el doble de grados de libertad que los diseos de muestras relacionadas).
Captulo 5. Inferencia con dos variables cuantitativas 163

Ejemplo. La prueba T de Student para muestras relacionadas


En un estudio diseado para probar el efecto de un tratamiento antidepresivo mixto (fluoxe-
tina + psicoterapia), se ha utilizado una muestra aleatoria de 14 pacientes con depresin. A
todos ellos se les ha aplicado la escala de depresin de Hamilton (Y ) en dos momentos: justo
antes de iniciar el tratamiento (lnea base o pre-test) y tras 12 semanas de tratamiento (post-
test). La Tabla 5.1 muestra los resultados obtenidos en las dos mediciones realizadas. El ob-
jetivo del estudio es averiguar si las puntuaciones en la escala disminuyen tras el tratamien-
to ( = 0,05).

Tabla 5.1. Puntuaciones en la escala de depresin de Hamilton

Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23 23,57
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8 13,07

Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces en los mis-
mos sujetos (muestras relacionadas) una variable cuantitativa (Y = puntuaciones en la esca-
la Hamilton). Vamos a comparar sus medias con la prueba T para muestras relacionadas:
$ despus; H1: antes > despus (contraste unilateral derecho).
1. Hiptesis: H0: antes <
2. Supuestos: asumimos que la muestra de 14 diferencias se ha seleccionado aleatoriamen-
te de una poblacin normal.
3. Estadstico del contraste:

Sujetos 1 2 3 4 5 13 14
Y1 = Pre-test 24 38 21 14 19 18 23
Y2 = Post-test 15 22 21 17 11 7 8 Total
D _ 9 16 0 !3 8 11 15 147
(D ! D )2 2,25 30,25 110,25 182,25 6,25 0,25 20,25 757,5

= = 147 / 14 = 10,5 (tambin, = = 23,57 ! 13,07 = 10,5)

= = 757,5 / 13 = 58,27 = = 7,63

T = = = = 5,15
4. Distribucin muestral: T se distribuye segn t con n ! 1 = 14 ! 1 = 13 grados de libertad.
$ t13; 0,95 = 1,771.
5. Zona crtica: T >
6. Decisin: como 5,15 > 1,771, se rechaza H0. Por tanto, puede concluirse que la media del
post-test es menor que la del pre-test.
$ 5,15) < 0,001.
7. Nivel crtico: p = P (T >
164 Anlisis de datos (vol. II)

La prueba de Wilcoxon para dos muestras


La prueba T posee excelentes propiedades que hacen de ella la mejor eleccin para compa-
rar los centros de dos variables cuantitativas cuando las distribuciones poblacionales son nor-
males. Pero en las ciencias sociales y de la salud no es infrecuente verse en la necesidad de
trabajar con poblaciones que no son normales. Con tamaos muestrales grandes, la ausencia
de normalidad no constituye un problema importante. Pero, si adems de tener que trabajar
con poblaciones que no son normales, hay que hacerlo con muestras pequeas, la prueba T
pierde precisin (Wilcox, 1992). La prueba de Wilcoxon (1945, 1949) permite comparar los
centros de dos variables cuantitativas sin necesidad de asumir normalidad. Y representa una
excelente alternativa a la prueba T (ver Blair y Higgins, 1985).
Tomemos dos medidas (Y1 e Y2) a un grupo de m sujetos y calculemos las diferencias
entre las dos puntuaciones de cada par:
D = Y1 ! Y2 [5.7]
Desechemos las diferencias nulas (si existen) y consideremos nicamente las n diferencias
no nulas (n <$ m). Asignemos rangos (R i) de 1 a n al valor absoluto de esas diferencias no
nulas: el rango 1 a la |D| ms pequea, el rango 2 a la |D| ms pequea de las restantes, ...,
el rango n a la |D| ms grande (i = 1, 2, ..., n). Si existen diferencias iguales, es decir, empa-
tadas, se asigna a cada una de ellas el promedio de los rangos que les hubiera correspondido
de no estar empatadas.
Sumemos ahora, por un lado, los rangos positivos R i (+), es decir, los rangos correspon-
dientes a las diferencias en las que Y1 > Y2, y llamemos S+ a esta suma; sumemos, por otro
lado, los rangos negativos Ri(!), es decir, los rangos correspondientes a las diferencias en las
que Y1 < Y2 y llamemos S! a esta otra suma.
Si las medianas poblacionales y fueran iguales, en la poblacin habra tan-
tos valores Y1 > Y2 como valores Y1 < Y2 y, consecuentemente,
P (Y1 < Y2) = (Y1 > Y2) [5.8]
Bajo estas condiciones, en una muestra aleatoria de n pares (Y1, Y2) habr tantas diferencias
D positivas como negativas (salvando, por supuesto, las fluctuaciones propias del azar mues-
tral). Pero, adems, si la distribucin de las diferencias D es simtrica, el tamao de las dife-
rencias correspondientes a los pares Y1 > Y2 ser, en la poblacin, idntico al de las diferen-
cias correspondientes a los pares Y1 < Y2 de donde cabe deducir que
S+ = S ! [5.9]
En este escenario, una fuerte discrepancia entre los valores muestrales S+ y S! estara indican-
do que las medianas de Y1 e Y2 no son iguales. Por tanto, las sumas S+ y S! pueden utilizarse
para contrastar la hiptesis H0: = ; o, lo que es lo mismo, la hiptesis de que la
mediana de las diferencias DY vale cero, es decir, H0: = 0.
La situacin es, por tanto, idntica a la descrita en el Captulo 2 a propsito de la prue-
ba de Wilcoxon para una muestra (de hecho, trabajar con dos muestras relacionadas es lo
mismo que trabajar con una muestra, pues las dos muestras se convierten en una nica
muestra al restar las dos puntuaciones de cada par). El Cuadro 5.1 ofrece un resumen del
procedimiento basado en el estadstico S+.
Captulo 5. Inferencia con dos variables cuantitativas 165

Cuadro 5.1. Resumen de la prueba de Wilcoxon para dos muestras1

1. Hiptesis:
a. Contraste bilateral: H0: = (o bien, = 0).
H 1: =/ (o bien, =/ 0).
b. Contraste unilateral derecho: H0: $
< (o bien, $
< 0).
H 1: > (o bien, > 0).
c. Contraste unilateral izquierdo: H0: $
> (o bien, $ 0).
>
H 1: < (o bien, < 0).
2. Supuestos: muestra aleatoria de m pares de puntuaciones cuantitativas de las que se
obtienen las n diferencias no nulas. Se asume que la distribucin de las diferencias es
simtrica (el supuesto de simetra implica que las inferencias efectuadas sobre la me-
diana son trasladables a la media).
3. Estadstico del contraste1: S+ = .
4. Distribucin muestral: los puntos crticos de la distribucin muestral de S+ se encuen-
tran tabulados en la Tabla M del Apndice final.
5. Zonas crticas:
a. Contraste bilateral: S+ < s / 2 y S+ > s 1! / 2 .
b. Contraste unilateral derecho: S+ < s .
c. Contraste unilateral izquierdo: S+ > s1! .
6. Decisin: se rechaza H0 si S+ cae en la zona crtica; en caso contrario, se mantiene.
7. Nivel crtico (valor p):
a. Contraste bilateral: p = 2 [P (S+ < S )], donde S se refiere al menor de S+ y S!.
b. Contraste unilateral derecho: p = P (S+ > Sh), donde Sh se refiere al valor concre-
to que toma S+.
c. Contraste unilateral izquierdo: p = P (S+ > Sh).

Ejemplo. La prueba de Wilcoxon para dos muestras


Retomemos el estudio diseado para probar el efecto de un tratamiento antidepresivo mix-
to (fluoxetina + psicoterapia) con una muestra aleatoria de 14 pacientes depresivos (ver apar-
tado anterior). A todos ellos se les ha aplicado la escala de depresin de Hamilton (Y ) en dos
momentos: justo antes de iniciar el tratamiento (lnea base o pre-test) y tras 12 semanas de
tratamiento (post-test). La Tabla 5.1 muestra los resultados obtenidos en las dos mediciones
realizadas. El objetivo del estudio es averiguar si las puntuaciones en la escala disminuyen
tras el tratamiento ( = 0,05).
1
Conforme el tamao muestral va creciendo, el espacio muestral correspondiente a los posibles valores S+ va aumentando
rpidamente y la obtencin de su distribucin muestral exacta se va haciendo ms complicada. En estos casos se puede recu-
rrir al teorema del lmite central y utilizar la aproximacin normal (ver, en el Captulo 2, la nota a pie de pgina nmero 1).
166 Anlisis de datos (vol. II)

Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces a los mis-
mos sujetos (muestras relacionadas) en una variable cuantitativa (Y = puntuaciones en la
escala Hamilton). Tenemos, por tanto, dos variables cuantitativas (no olvidar que se tienen
dos variables cuantitativas tanto si se miden dos variables distintas como si se mide la mis-
ma variable dos veces). Y queremos averiguar si las puntuaciones del post-test, en promedio,
son ms bajas que las del pre-test.
Estos datos ya los hemos analizado con la prueba T para muestras relacionadas (ver Ca-
ptulo 12 del primer volumen) y hemos rechazado la hiptesis de igualdad de medias. Vea-
mos si la prueba de Wilcoxon permite llegar a la misma conclusin:
1. Hiptesis: H0: Mdnantes <$ Mdndespus.
H1: Mdnantes > Mdndespus (contraste unilateral derecho).
2. Supuestos: muestra de 14 diferencias aleatoriamente seleccionadas de una poblacin si-
mtrica.
3. Estadstico del contraste: S+ = = 5 +11+ 4 +13 + + 7 + 1 + 6 +10 = 89.
Para obtener el estadstico S+, hemos comenzado calculando las diferencias D = Y1 ! Y2
y asignando rangos, R i, a sus valores absolutos (ver Tabla 5.3). Tras esto, hemos suma-
do los rangos correspondientes a las diferencias positivas2.

Tabla 5.3. Clculos realizados con los datos de la Tabla 5.1

Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8
Di 9 16 0 !3 8 25 19 13 14 7 12 1 11 15
Ri 5 11 ! 2 4 13 12 8 9 3 7 1 6 10

4. Distribucin muestral: los puntos crticos de la distribucin muestral exacta de S+ estn


tabulados en la Tabla M del Apndice final.
5. Zona crtica (con n = 13 y = 0,05): S+ > s0,95 = 69.
6. Decisin: como el valor del estadstico del contraste (89) es mayor que el punto crtico
(69), se rechaza H0. Por tanto, puede concluirse (al igual que hicimos con la prueba T )
que la mediana de las puntuaciones del post-test es menor que la del pre-test.
7. Nivel crtico: p = P (S+ > 89) < 0,005.

La prueba de Wilcoxon para dos muestras con SPSS


El SPSS no incluye el estadstico S+ y su distribucin exacta (es decir, el procedimiento des-
crito en el Cuadro 5.1); en su lugar, ofrece un estadstico basado en la aproximacin normal.
En concreto, utiliza la transformacin

2
Puesto que la suma de n rangos vale n (n + 1) / 2, la suma de los 13 rangos de la Tabla 5.2 vale 13 (14) / 2 = 91. Y dado que
nicamente uno de los 13 rangos es negativo (el del cuarto sujeto), la suma de los rangos positivos vale 91 ! 2 = 89.
Captulo 5. Inferencia con dos variables cuantitativas 167

Z = [5.10]

donde S se refiere al menor de S+ y S!, k al nmero rangos distintos en los que existen empa-
tes y ti al nmero de puntuaciones empatadas en el rango i (si al asignar rangos no existen
empates, el sumatorio de denominador vale cero). Como S es el menor de S+ y S!, el resulta-
do de la ecuacin [5.10] siempre es negativo. El SPSS calcula el nivel crtico bilateral mul-
tiplicando por 2 la probabilidad de obtener valores menores o iguales que Z. Para aplicar el
estadstico definido en [5.10] a los datos de la Tabla 5.1:
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
la pgina web del manual).
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon est seleccionada por defecto).
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras relacionadas: Estadsticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botn Continuar para volver al cuadro de dilogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 5.4 a 5.6. La
Tabla 5.4 ofrece, para cada variable, algunos estadsticos descriptivos: el nmero de casos v-
lidos (N ), la media, la desviacin tpica, los valores mnimo y mximo, y los tres cuartiles
(percentiles 25, 50 y 75). La diferencia entre las medianas vale 21,5 ! 13 = 8,5. La prueba de
Wilcoxon permite contrastar la hiptesis nula de que las medianas poblacionales del pre-test
y del post-test son iguales y, por tanto, permite averiguar si esa diferencia muestral de 8,5
puntos es lo bastante grande como para poder afirmar que las puntaciones del post-test han
disminuido (el supuesto de simetra permite convertir las conclusiones sobre las medianas
en conclusiones sobre las medias).

Tabla 5.4. Estadsticos descriptivos


Percentiles
N Media Desviacin tpica Mnimo Mximo 25 50 75
Post-test 14 13,07 6,032 5 22 7,75 13,00 19,25
Ppre-test 14 23,57 7,480 14 38 17,75 21,50 31,50

Las dos tablas siguientes contienen informacin relacionada con la prueba de Wilcoxon. La
Tabla 5.5 ofrece el nmero, media y suma de los rangos negativos y positivos. Las notas a pie
de tabla aclaran qu rangos se estn considerando positivos y negativos (debe tenerse en cuen-
ta que el SPSS calcula las diferencias entre la segunda variable y la primera del par selec-
cionado en el cuadro de dilogo; por eso hemos colocado la variable post_test delante de la
168 Anlisis de datos (vol. II)

variable pre-test). La tabla tambin ofrece el nmero de empates (casos excluidos del anli-
sis) y el nmero total de rangos asignados (incluidos los empates).

Tabla 5.5. Rangos


N Rango promedio Suma de rangos
a
Pre-test - Post-test Rangos negativos 1 2,00 2,00
Rangos positivos 12b 7,42 89,00
Empates 1c
Total 14
a. Pre-test < Post-test
b. Pre-test > Post-test
c. Pre-test = Post-test

Por ltimo, la Tabla 5.6 muestra el estadstico de Wilcoxon (Z ) y su nivel crtico bilateral
(sig. asinttica bilateral). Puesto que estamos planteando un contraste unilateral derecho, el
nivel crtico bilateral hay que dividirlo entre 2. Por tanto: p = 0,002 / 2 = 0,001. Y como el
valor p obtenido es menor que = 0,05, lo razonable es rechazar la hiptesis de igualdad
entre las medianas del pre-test y del post-test, y concluir que las puntuaciones en la escala
Hamilton han disminuido tras el tratamiento (puesto que se est asumiendo que la poblacin
de las diferencias pre-post es simtrica, la conclusin vale igualmente para las medias).

Tabla 5.6. Prueba de Wilcoxon


Pre-test - Post-test
a
Z -3,040
Sig. asintt. (bilateral) ,002
a. Basado en los rangos negativos.

La Figura 5.1 muestra el histograma y el diagrama de caja de las diferencias entre las puntua-
ciones del pre-test y las del post-test3. No existen indicios de asimetra ni se observan casos
atpicos o extremos.

Figura 5.1. Histograma y diagrama de caja de las diferencias entre el pre-test y el post-test

3
Estos diagramas se han obtenido mediante la opcin Diagramas de caja > Simple (Resmenes para distintas variables)
del men Grficos.
Captulo 5. Inferencia con dos variables cuantitativas 169

La prueba de los signos para dos muestras


La prueba de los signos para dos muestras es muy parecida a la prueba de los signos para una
muestra estudiada en el Captulo 2 (en realidad se trata de la misma prueba) y ambas guar-
dan una estrecha relacin con la prueba binomial (contraste sobre una proporcin) ya estu-
dia da en el Captulo 9 del primer volumen.
Al igual que la prueba de Wilcoxon, la de los signos permite contrastar la hiptesis de
igualdad entre dos medianas poblacionales. Pero difieren en un aspecto importante: la prueba
de Wilcoxon exige nivel de medida de intervalos o razn y aprovecha la informacin ordinal
de los datos; la prueba de los signos exige nivel de medida al menos ordinal y solamente apro-
vecha de los datos sus propiedades nominales. Adems, la prueba de Wilcoxon asume que
la poblacin de diferencias es simtrica, mientras que la prueba de los signos nicamente asu-
me que se est trabajando con una muestra aleatoria de puntuaciones ordinales. Por tanto, la
prueba de los signos puede utilizarse cuando no se dan las condiciones apropiadas para aplicar
la prueba de Wilcoxon (poblacin simtrica y nivel de medida de intervalos o razn).
La situacin es similar a la estudiada a propsito de la prueba de Wilcoxon. Se toman
dos medidas, Y1 e Y2, a un grupo de m sujetos o pares de sujetos y se calculan las diferencias
D = Y1 ! Y2
entre las dos puntuaciones de cada par. Se desechan las D nulas y nicamente se consideran
_ m). Si se asume que las medidas Y1 e Y2 proceden de po-
las n diferencias D no nulas (n <
blaciones con la misma mediana ( = ), debe verificarse
P (Y1 < Y2 ) = P (Y1 > Y2 ) = 0,5 [5.11]
de modo que, si la hiptesis H0: = es verdadera, al seleccionar una muestra alea-
toria de n pares (Y1, Y2 ) cabe esperar encontrar aproximadamente tantos pares Y1 < Y2 como
pares Y1 > Y2, es decir, aproximadamente tantas diferencias D positivas como negativas (sal-
vando, por supuesto, las fluctuaciones atribuibles al azar muestral). Bajo estas circunstancias,
las variables:
n+ = nmero de signos positivos
n! = nmero de signos negativos
se distribuyen segn el modelo binomial con parmetros n y + = ! = 0,50. Por tanto, pue-
de utilizarse la distribucin binomial para conocer las probabilidades asociadas a n+ y n! y,
a partir de ellas, contrastar la hiptesis H0: = .
El procedimiento es idntico al descrito en el Captulo 2 a propsito de la prueba de los
signos para una muestra. La nica diferencia entre ambas pruebas es que en el caso de una
muestra se est comparando la mediana de la poblacin con un valor concreto (MdnY = k0),
mientras que en el caso de dos muestras se estn comparando las medianas de dos poblacio-
nes ( = ).
El Cuadro 2.2 del Captulo 2 ofrece un resumen del procedimiento y, por tanto, no lo
repetiremos aqu. Sustituyendo MdnY por y k0 por , la prueba de los signos pa-
ra una muestra se convierte en la prueba de los signos para dos muestras: en ambos casos se
trata de valorar cmo se reparten n signos positivos y negativos cuando se asume que la pro-
babilidad terica asociada a ambos signos es la misma.
170 Anlisis de datos (vol. II)

Ejemplo. La prueba de los signos para dos muestras


Los datos de la Tabla 5.1 recogen las puntuaciones de 14 pacientes con depresin antes y des-
pus de ser sometidos a un tratamiento antidepresivo. Estos datos ya los hemos analizado con
la prueba T para dos muestras y con la prueba de Wilcoxon para dos muestras (ver apartados
anteriores), y en ambos casos hemos rechazado la hiptesis de igualdad de medias pre-post.
Ahora vamos a contrastar la hiptesis de igualdad de medianas con la prueba de los signos
para dos muestras:
1. Hiptesis: $ Mdndespus.
H0: Mdnantes <
H1: Mdnantes > Mdndespus (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 14 diferencias resultado de medir dos variables ordina-
les y restar las puntuaciones de cada par (se desechan las diferencias nulas).
3. Estadstico del contraste: n+ = 12 (de las n = 13 diferencias no nulas, 12 son positivas;
ver Tabla 5.2).
4. Distribucin muestral: n+ se distribuye segn el modelo de probabilidad binomial con
parmetros n = 13 y + = 0,50.
$ 12) < 0,05. En la distribucin binomial (Tabla
5. Regla de decisin: se rechaza H0 si P(n+ >
$ 12) = 1! 0,998 = 0,002.
A del Apndice final), con n = 13 y + = 0,50, se obtiene: P(n+ >
6. Decisin: puesto que 0,002 < 0,05, se rechaza H0. Podemos concluir que la mediana del
pre-test es menor que la del post-test.
$ 12) = 0,002.
7. Nivel crtico: p = P (n+ >

La prueba de los signos para dos muestras con SPSS


La prueba de los signos est disponible en la opcin Pruebas no paramtricas > Dos muestras
_ 25, el SPSS toma el valor r = min (n+, n!) y, utilizan-
relacionadas del men Analizar. Si n <
do las probabilidades de la distribucin binomial, calcula el nivel crtico bilateral resultante
de multiplicar por 2 la probabilidad de obtener valores iguales o menores que r. Si n > 25, el
SPSS tipifica el valor de r (utilizando correccin por continuidad) y ofrece el nivel crtico
resultante de multiplicar por 2 la probabilidad de encontrar valores iguales o menores que Z:

Z = [5.12]

Para aplicar la prueba de los signos para dos muestras a los datos de la Tabla 5.1 (recorde-
mos que la tabla recoge las puntuaciones de 14 pacientes depresivos antes y despus de apli-
carles un tratamiento):
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
la pgina web del manual).
Captulo 5. Inferencia con dos variables cuantitativas 171

' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas y, en el
recuadro Tipo de prueba, marcar la opcin Signos.
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 5.6 y 5.7.
La Tabla 5.6 muestra las diferencias negativas, las positivas y los empates entre cada par de
puntuaciones; las notas a pie de tabla permiten saber qu diferencias se estn considerando
negativas y cules positivas.
Puesto que el nmero de diferencias en menor que 25, la Tabla 5.7 ofrece la probabili-
dad bilateral exacta de obtener 12 diferencias positivas o ms (de las 13 posibles). Esta pro-
babilidad est multiplicada por 2 (el SPSS siempre asume contraste bilateral). Por tanto, el
nivel crtico de nuestro contraste unilateral vale p = 0,0034 / 2 = 0,0017. Y como este nivel
crtico es menor que 0,05, lo razonable es rechazar la hiptesis nula y concluir que la media-
na poblacional del post-test es menor que la del pre-test.

Tabla 5.6. Frecuencias


N
a
Pre-test - Post-test Diferencias negativas 1
Diferencias positivas b 12
Empates c 1
Total 14
a. Pre-test < Post-test
b. Pre-test > Post-test
c. Pre-test = Post-test

Tabla 5.7. Prueba de los signos


Pre-test - Post-test
a
Sig. exacta (bilateral) ,0034
a. Se ha usado la distribucin binomial.

El coeficiente de correlacin de Pearson


La relacin entre dos variables cuantitativas hemos empezado a estudiarla en el Captulo 12
del primer volumen. En ese captulo hemos expuesto el concepto de relacin lineal y hemos
propuesto algunas herramientas para estudiarla: los diagramas de dispersin, la covarianza
y el coeficiente de correlacin de Pearson.
Un diagrama de dispersin es una excelente herramienta como primera aproximacin al
estudio de la relacin entre dos variables y es, quiz, la mejor manera de detectar anomalas
en los datos: permite ver de forma rpida la pauta de relacin subyacente en la nube de pun-
tos e identificar casos cuyo comportamiento se aleja de esa pauta. No obstante, un diagrama
de dispersin no permite cuantificar con precisin el grado de relacin existente. Para eso
hemos propuesto un estadstico que tiene la virtud de resumir en un nico nmero tanto la
intensidad de la relacin (baja, media, alta) como el sentido de la misma (positiva, negativa).
172 Anlisis de datos (vol. II)

Este estadstico se conoce con el nombre de coeficiente de correlacin RXY de Pearson y se


obtiene tipificando la covarianza:

= [5.13]

Esta ecuacin permite interpretar RXY, antes que nada, como el grado en que la covarianza
alcanza su mximo. Y es equivalente a calcular la covarianza a partir de las puntuaciones
tpicas (puntuaciones Z ). El coeficiente definido en [5.13] mide el grado de relacin lineal
(no de otro tipo); su valor oscila entre !1 y 1 (el signo indica si la relacin es positiva o
negativa) y no se altera si los datos se transforman linealmente (por ejemplo, sumando y/o
multiplicando una constante).

Ejemplo. El coeficiente de correlacin de Pearson


Para poder obtener RXY con los datos de la Tabla 5.1 comenzamos realizando los clculos que
muestra la Tabla 5.8 (llamaremos X al pre-test e Y al post-test). Para poder calcular las pun-
tuaciones diferenciales x e y necesitamos las medias de X e Y :
_ _
X = 330 /14 = 23,57, Y = 183 /14 = 13,07
La Tabla 5.8 ofrece las puntuaciones diferenciales (x, y), sus cuadrados y el producto entre
ellas. Los resultados de la primera fila, por ejemplo, se han obtenido de la siguiente manera:
x = 24 ! 23,57 = 0,43
x2 = 0,432 = 0,185
y = 15 ! 13,07 = 1,93
y2 = 1,932 = 3,725
xy = 0,43 (1,93) = 0,830
Para poder calcular RXY mediante [5.13] necesitamos la covarianza entre X e Y y las desvia-
ciones tpicas de X e Y:
= = 221,43 /13 = 17,03

= = 727,43 /13 = 55,96 = = 7,48.


= = 472,93 /13 = 36,38 = = 6,03
Aplicando ahora [5.13] obtenemos
RXY = 17,03 / (7,48 6,03) = 0,38
Este valor indica que la relacin entre las puntuaciones del pre-test y las del post-test es posi-
tiva y de intensidad moderada. Pero, puesto que se trata de un valor muestral, su alejamiento
de cero podra deberse simplemente a las fluctuaciones aleatorias propias del azar muestral.
El hecho de que un coeficiente de correlacin sea distinto de cero no constituye, en s mismo,
evidencia suficiente para afirmar que existe relacin lineal en la poblacin. Por tanto, tras
cuantificar una relacin, la pregunta que hay que hacerse es si el valor muestral obtenido
Captulo 5. Inferencia con dos variables cuantitativas 173

refleja o no un grado de relacin lineal mayor del que cabra esperar por puro azar entre dos
variables realmente independientes en la poblacin.

Tabla 5.8. Datos de 10 sujetos en las variables X = pre-test e Y = post-test


Sujetos X Y x y x2 y2 xy
1 24 15 0,43 1,93 0,185 3,725 0,830
2 38 22 14,43 8,93 208,225 79,745 128,860
3 21 21 !2,57 7,93 6,605 62,885 !20,380
4 14 17 !9,57 3,93 91,585 15,445 !37,610
5 19 11 !4,57 !2,07 20,885 4,285 9,460
6 31 6 7,43 !7,07 55,205 49,985 !52,530
7 34 15 10,43 1,93 108,785 3,725 20,130
8 33 20 9,43 6,93 88,925 48,025 65,350
9 22 8 !1,57 !5,07 2,465 25,705 7,960
10 16 9 !7,57 !4,07 57,305 16,565 30,810
11 17 5 !6,57 !8,07 43,165 65,125 53,020
12 20 19 !3,57 5,93 12,745 35,165 !21,170
13 18 7 !5,57 !6,07 31,025 36,845 33,810
14 23 8 !0,57 !5,07 0,325 25,705 2,890
Totales 330 183 727,43 472,93 221,43

Para responder a esta pregunta lo que hacemos es contrastar la hiptesis nula de ausencia de
relacin lineal (H0: XY = 0) (ver Captulo 12 del primer volumen) mediante el estadstico

T = [5.14]

el cual se distribuye segn el modelo de probabilidad t de Student con n ! 2 grados de li-


bertad. El rechazo de H0: XY = 0 permite concluir que entre las variables X e Y existe algn
grado de relacin lineal. Aplicando [5.14] a los datos de la Tabla 5.8 obtenemos

T = = 1,42
En la distribucin t de Student con 14 ! 2 = 12 grados de libertad (Tabla D del Apndice final)
obtenemos t12; 0,95 = 1,81 y t12; 0,975 = 2,179. En consecuencia, tanto si decidimos plantear el
contraste unilateral (punto crtico 1,81) como si decidimos plantearlo bilateral (punto crtico
2,179), el valor del estadstico T = 1,42 cae dentro de la zona de aceptacin. No es razonable,
por tanto, rechazar la hiptesis de relacin lineal nula, es decir, no es posible afirmar que las
puntuaciones del pre-test y las del post-test estn linealmente relacionadas en la poblacin.
Debe repararse en el hecho de que, aunque hemos rechazado la hiptesis de igualdad de
medias (ver apartados anteriores), no hemos podido rechazar la de ausencia de relacin lineal.
Esto significa que, aunque las puntuaciones cambian (las del post-test son menores que las
del pre-test), lo hacen independientemente del nivel o gravedad inicial.
174 Anlisis de datos (vol. II)

El coeficiente de correlacin de Spearman


Al contrastar la hiptesis XY = 0 mediante el coeficiente de correlacin RXY de Pearson y su
transformacin en [5.14] se est asumiendo que las variables X e Y se distribuyen normal-
mente. Este supuesto implica, adems, que el nivel de medida de las variables analizadas es
de intervalos o de razn.
El supuesto de normalidad va perdiendo importancia conforme va aumentando el tama-
o muestral pero, con muestras pequeas, no debe pasarse por alto. Y si el nivel de medida
de las variables es ordinal, no podr asumirse que se distribuyen normalmente.
Adems, con variables ordinales no tiene mucho sentido hablar de relacin lineal porque
estas variables no tienen una mtrica definida. No obstante, como sus valores estn cuanti-
tativamente ordenados, s es posible hablar de relacin montona. En una relacin lineal, el
aumento en las puntuaciones de una variable va acompaado de un aumento (disminucin)
constante o uniforme (es decir, lineal) en las puntuaciones de la otra variable. En una relacin
montona, el aumento en las puntuaciones de una variable tambin va acompaado de un au-
mento (disminucin) en las puntuaciones de la otra variable, pero ese aumento (disminucin)
no es necesariamente constante o uniforme. La diferencia es importante porque, entre otras
cosas, refleja la existencia o no de una mtrica relevante en las variables.
Tanto si el nivel de medida de las variables es ordinal como si, siendo de intervalos o de
razn, no puede asumirse que las distribuciones muestreadas son normales, existen proce-
dimientos que permiten valorar el grado de relacin montona. En el Captulo 3 hemos pre-
sentado ya algunos de estos procedimientos en el apartado Medidas de concordancia-dis-
cordancia. En este apartado vamos a presentar uno de los ms utilizados para estudiar la
relacin entre variables ordinales: el coeficiente de correlacin RS de Spearman4 (1904).
Este coeficiente no es ms que el coeficiente de correlacin RXY de Pearson aplicado des-
pus de transformar las puntuaciones originales X e Y en rangos R i (X ) y R i (Y ). Los rangos
se asignan de la forma habitual y separadamente para cada variable; y los empates se resuel-
ven asignando el rango promedio.
Cuando las puntuaciones originales se convierten en rangos, unas sencillas transforma-
ciones (ver, por ejemplo, San Martn y Pardo, 1989, pgs. 399-400) permiten formular la
ecuacin [5.13] de esta otra manera5:

RS = 1 ! [5.15]

donde D i = R i (X ) ! R i (Y ) se refiere a las diferencias entre los rangos de cada par de pun-
tuaciones (i = 1, 2, ...n). El coeficiente de correlacin de Spearman toma valores entre !1 y
+1; los valores mayores que cero indican relacin positiva o montona creciente; los valores
menores que cero indican relacin negativa o montona decreciente; el valor cero indica
ausencia de relacin montona.
4
A este coeficiente se le suele llamar rho () de Spearman. Nosotros lo llamaremos RS para distinguirlo del parmetro XY
(valor poblacional del coeficiente de correlacin de Pearson).
5
La equivalencia entre [5.13] y [5.15] nicamente se da si no se producen empates al asignar rangos a las puntuaciones ori-
ginales. Cuando existen empates puede utilizarse una correccin para ajustar el valor de RS (ver, por ejemplo, San Martn
y Pardo, 1989, pgs. 401-402), pero quiz resulte ms sencillo aplicar directamente la ecuacin [5.13] a las puntuaciones
transformadas en rangos. Por otro lado, esta correccin solo altera ligeramente a la baja el valor absoluto de RS.
Captulo 5. Inferencia con dos variables cuantitativas 175

Para determinar si el tamao de RS est indicando verdadera relacin entre las variables
estudiadas se puede contrastar la hiptesis nula de que su valor vale cero en la poblacin. No
existe un acuerdo generalizado sobre la forma correcta de realizar este contraste; no obstan-
te, en el Cuadro 5.2 ofrecemos un resumen del procedimiento que, segn los resultados ob-
tenidos por Nijsse (1988), parece el ms recomendable.

Cuadro 5.2 Resumen del contraste sobre el coeficiente de correlacin de Spearman

1. Hiptesis:
a. Contraste bilateral: H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona.
b. Contraste unilat. derecho: H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona creciente.
c. Contraste unilat. izquierdo: H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona decreciente.
2. Supuestos: muestra aleatoria de n pares de puntuaciones, independientes entre s, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadsticos del contraste:
3.1. RS (ver ecuacin [5.15])

3.2. T = [5.16]

4. Distribucin muestral:
4.1. Los puntos crticos r1 ! de la distribucin muestral de RS se encuentran en la
Tabla R del Apndice final para n < $ 30 y algunos valores de .
4.2. La distribucin del estadstico T se aproxima al modelo de probabilidad t de Stu-
dent con n ! 2 grados de libertad (tn !2).
5. Zona crtica:
a. Contraste bilateral:
a.1. RS < r/ 2 y RS > r1 ! / 2 .
a.2. T <$ tn !2; / 2 y T >
$ tn !2; 1 ! / 2 .
b. Contraste unilateral derecho:
b.1. RS > r .
b.2. T $> tn !2; 1 ! .
c. Contraste unilateral izquierdo:
c.1. RS < r1 ! .
c.2. T <$ tn !2; .
6. Regla de decisin: se rechaza H0 si el estadstico del contraste cae en la zona crtica;
en caso contrario, se mantiene.
176 Anlisis de datos (vol. II)

7. Nivel crtico (valor p):


$ *Th*)], siendo Th el valor muestral concreto que
a. Contraste bilateral: p = 2[P (T >
toma el estadstico T.
b. Contraste unilateral derecho: p = P (T >$ Th).
c. Contraste unilateral izquierdo: p = P (T <$ Th).

Ejemplo. El coeficiente de correlacin de Spearman


En una muestra aleatoria de 10 estudiantes de enseanza secundaria se han medido dos va-
riables: X = promedio de horas de estudio semanales e Y = rendimiento medio (cuanti-
ficado como la media de las calificaciones obtenidas en 8 asignaturas). La Tabla 5.9 muestra
los resultados obtenidos. Queremos averiguar si, en la poblacin de estudiantes de ensean-
za secundaria, las puntuaciones altas en horas de estudio tienden a ir acompaadas de pun-
tuaciones altas en rendimiento medio ( = 0,05).

Tabla 5.9. Datos de 10 sujetos en las variables X = horas de estudio e Y = rendimiento medio

Sujetos 1 2 3 4 5 6 7 8 9 10
X = horas de estudio 5 5 6 6 6 7 7 11 11 16
Y = rendimiento medio 5 4 3,5 5 6 5 8 8,5 9 6

Tenemos dos variables cuantitativas medidas en una muestra aleatoria de 10 sujetos. Tene-
mos, por tanto, 10 pares de puntuaciones. Y queremos averiguar si, en la poblacin de donde
proceden estos 10 pares de puntuaciones, existe relacin positiva o creciente (... las pun-
tuaciones altas... tienden a ir acompaadas de puntuaciones altas...).
Estos datos ya los hemos analizado aplicando el coeficiente de correlacin de Pearson
(ver Captulo 12 del primer volumen; RXY = 0,52). Ahora decidimos analizarlos con el coefi-
ciente de correlacin de Spearman porque nos hemos dado cuenta de que la distribucin de
la variable X no es normal y el nivel de medida de la variable Y es ordinal:
1. Hiptesis:
H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona creciente (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 10 pares de puntuaciones, independientes entre s, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadsticos del contraste: para facilitar los clculos, la Tabla 5.10 ofrece los rangos
correspondientes a las puntuaciones de X e Y, las diferencias entre cada par de rangos y
esas diferencias elevadas al cuadrado:
3.1. RS = 1 ! = 1 ! 6 (45) (103 ! 10) = 0,73 (ecuacin [5.15])

3.2. T = = 0,73 = 3,02 (ecuacin [5.16])


Captulo 5. Inferencia con dos variables cuantitativas 177

Tabla 5.10. Rangos correspondientes a las puntuaciones directas de la Tabla 5.9

Sujetos 1 2 3 4 5 6 7 8 9 10 Suma
R i(X ) 1,5 1,5 4 4 4 6,5 6,5 8,5 8,5 10
R i(Y ) 4 2 1 4 6,5 4 8 9 10 6,5
Di !2,5 !0,5 3 0 !2,5 2,5 !1,5 !0,5 !1,5 3,5
Di2 6,25 0,25 9 0 6,25 6,25 2,25 0,25 2,25 12,25 45,00

4. Distribucin muestral:
4.1. Los puntos crticos de la distribucin muestral de RS se encuentran en la Tabla R
del Apndice final.
4.2. La distribucin del estadstico T se aproxima al modelo de probabilidad t de Stu-
dent con 10 ! 2 = 8 grados de libertad (tn !2).
5. Zona crtica (contraste unilateral derecho):
5.1. RS > r1 ! = r0,95 = 0,564.
5.2. T $> tn !2; 1 ! = t8; 0,95 = 1,86.
6. Regla de decisin: con ambos estadsticos se obtienen valores mayores que sus respec-
tivos puntos crticos: 0,73 > 0,564 en el caso de RS y 3,02 > 1,86 en el caso de T. Por
tanto, lo razonable es rechazar H0 y concluir que existe relacin montona creciente, lo
cual significa que las puntuaciones altas (bajas) en horas de estudio tienden a ir acom-
paadas de puntuaciones altas (bajas) en rendimiento medio.
$ 3,02) < 0,001.
7. Nivel crtico (contraste unilateral derecho): p = P (T >

El coeficiente de correlacin de Spearman con SPSS


El coeficiente de correlacin de Spearman est disponible en el procedimiento Correlaciones
bivariadas. Para obtenerlo con los datos de la Tabla 5.9:
' Reproducir en el Editor de datos los datos de la Tabla 5.9 (o abrir el archivo Tabla 5.9
horas rendimiento que se encuentra en la pgina web del manual).
' Seleccionar la opcin Correlaciones > Bivariadas del men Analizar y trasladar las varia-
bles horas (horas de estudio semanales) y rendimiento (rendimiento medio). La lista de
variables del archivo de datos nicamente muestra las variables con formato numrico.
Es necesario seleccionar al menos dos variables. Si se seleccionan ms de dos, el SPSS
calcula un coeficiente de correlacin para cada par de variables.
Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 5.11. Los
resultados estn organizados en una matriz cuadrada con tantas filas y columnas como va-
riables seleccionadas. Dado que en nuestro ejemplo hemos seleccionado dos variables, la
matriz solamente tiene dos filas y dos columnas. En cada casilla hay tres datos: (1) el valor
del coeficiente de correlacin de Spearman; (2) el nivel crtico bilateral (valor p) resultan-
te de contrastar la hiptesis de independencia lineal aplicando el estadstico propuesto en
178 Anlisis de datos (vol. II)

[5.16] (sig. bilateral; el nivel crtico unilateral puede obtenerse dividiendo entre 2 el bilate-
ral); y (3) el nmero de casos vlidos (N).
El coeficiente de correlacin de Spearman vale6 0,72 y el nivel crtico bilateral resultan-
te de contrastar la hiptesis de independencia vale 0,02. Como el contraste es unilateral (ver
ejemplo anterior), el nivel crtico vale 0,02/2 = 0,01. Y como este nivel crtico es menor que
0,05, podemos rechazar la hiptesis de independencia y concluir que la relacin encontrada
es estadsticamente significativa. El signo positivo del coeficiente indica que la relacin es
montona creciente: los valores altos (bajos) de horas de estudio tienden a ir acompaados
de valores altos (bajos) en rendimiento medio.

Tabla 5.11. Coeficiente de correlacin de Spearman


Rho de Spearman
Horas de estudio Rendimiento
semanales medio
Horas de estudio Coeficiente de correlacin 1,000 ,717
semanales Sig. (bilateral) . ,020
N 10 10
Rendimiento medio Coeficiente de correlacin ,717 1,000
Sig. (bilateral) ,020 .
N 10 10

Medidas del tamao del efecto


Sabemos que con dos variables cuantitativas, Y1 e Y2, es posible orientar el anlisis hacia dos
objetivos bien diferentes: compararlas o relacionarlas.
Al relacionarlas con un coeficiente de correlacin ya estamos obteniendo una cuantifi-
cacin del tamao del efecto, pues un coeficiente elevado al cuadrado refleja la proporcin
de varianza que comparten ambas variables. No obstante, esta medida se refiere al grado de
parecido entre las variables, no al grado en que difieren sus promedios.
Para valorar lo segundo puede utilizarse una medida estandarizada de la diferencia en-
tre las medias. Aplicando la misma lgica que en el caso de dos medias independientes (ver
ecuacin [4.12]), Cohen (1988) ha propuesto tipificar la diferencia entre las medias (o la me-
dia de las diferencias, que es lo mismo) dividindola por la desviacin tpica de las diferen-
cias en la poblacin:

= = [5.17]

El numerador de [5.17] puede estimarse a partir de la diferencia entre las medias muestrales;
el denominador puede estimarse a partir de la desviacin tpica de las diferencias entre cada
par de puntuaciones (ver ecuacin [5.4]). Es decir,

6
Este valor (0,72) es ligeramente diferente del que hemos obtenido (0,73) aplicando la ecuacin [5.15]. Esto es debido a
que el SPSS utiliza una ecuacin que tiene en cuenta la presencia de rangos empatados dentro de la misma variable. Ver
nota a pie de pgina nmero 5.
Captulo 5. Inferencia con dos variables cuantitativas 179

= [5.18]

En nuestro ejemplo
_ con 14 pacientes
_ sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido Y 1 = 23,57, Y 2 = 13,07, y SD = 7,63. Por tanto,

= = 1,38

Lo cual representa un efecto de tamao grande (esta diferencia tipificada se interpreta en los
trminos ya conocidos: valores en torno a 0,20 indican un efecto pequeo; valores en torno
a 0,50, un efecto medio; valores en torno a 0,80 y mayores, un efecto grande).

Clculo de la potencia y del tamao muestral


Hemos visto en el captulo anterior que la Tabla E del Apndice final permite obtener la po-
tencia de un contraste basado en la prueba T de Student a partir de una sencilla transforma-
cin de la medida del tamao del efecto . En el caso de dos muestras relacionadas, esta
transformacin, a la que llamamos (letra griega phi ), puede estimarse mediante

= [5.20]

En nuestro ejemplo con 14 pacientes sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido = 1,38 (ver apartado anterior). Por tanto,

= = 5,16

Con = 5,16 y = 0,05 en un contraste unilateral, la Tabla E del Apndice final indica que
la potencia del contraste es mayor de 0,99.
Este valor es la potencia observada (es decir, la potencia del contraste considerando que
la diferencia entre las medias poblacionales es la diferencia observada entre las medias mues-
trales). Para conocer el tamao muestral necesario para alcanzar una determinada potencia
basta con despejar n en la ecuacin [5.20] y utilizar la Tabla E en sentido inverso a como lo
hemos hecho para calcular la potencia observada:

n = [5.21]

Supongamos que queremos disear un contraste unilateral con dos muestras relacionadas
cuya potencia para detectar un efecto de tamao medio ( = 0,50 segn el criterio de Cohen)
valga 0,80. Con = 0,05 y 1 ! = 0,80, la Tabla E del Apndice final ofrece para un va-
lor de 2,50. Aplicando [5.21] obtenemos
n = (2,50)2 / 0,52 = 25
Lo cual significa que, para detectar un efecto de tamao medio con una potencia de 0,80 en
un contraste unilateral con dos muestras relacionadas, necesitaramos una muestra de 25
sujetos.
180 Anlisis de datos (vol. II)

Apndice 5
Correlaciones parciales
Los coeficientes de correlacin estudiados permiten cuantificar la relacin entre dos variables. Un coe-
ficiente de correlacin parcial expresa el grado de relacin lineal existente entre dos variables cuando
se elimina de esa relacin el efecto debido a otras variables. Se trata, por tanto, de una tcnica de con-
trol estadstico que permite cuantificar la relacin neta entre dos variables al eliminar de ambas el
efecto de terceras variables.
Por ejemplo, se sabe que la relacin entre las variables inteligencia y rendimiento escolar es alta
y positiva. Sin embargo, cuando se controla el efecto de terceras variables como el nmero de horas
de estudio o el nivel educativo de los padres, la correlacin entre inteligencia y rendimiento descien-
de sensiblemente, lo cual est indicando que la relacin entre inteligencia y rendimiento est condi-
cionada o modulada por el nmero de horas de estudio y el nivel educativo de los padres.
La ecuacin para obtener el coeficiente de correlacin parcial depende del nmero de variables
cuyo efecto se desea controlar. Comencemos con tres variables: Y1, Y2, Y3. Llamando al coeficien-
te de correlacin de Pearson entre las dos primeras variables, el coeficiente de correlacin parcial en-
tre Y1 e Y2 se obtiene mediante

= [5.22]

Hablamos de correlacin de primer orden para indicar que se est controlando el efecto de una sola
variable. La ecuacin [5.22] es una correlacin de primer orden. Con cuatro variables, el coeficiente
de correlacin parcial entre Y1 e Y2 se obtiene mediante

= [5.23]

Hablamos de correlacin de segundo orden, para indicar que se est controlando el efecto de dos varia-
bles. La ecuacin [5.23] es una correlacin de segundo orden. Siguiendo esta lgica, a la correlacin
entre dos variables cuando no se controla el efecto de terceras variables se le llama correlacin de orden
cero. Los coeficientes de mayor orden se obtienen siguiendo la misma lgica.
Para contrastar la hiptesis nula de que el valor poblacional de un coeficiente de correlacin par-
cial es cero, puede utilizarse el estadstico

T = [5.24]

(n se refiere al nmero de casos con puntuacin vlida en todas las variables que intervienen en el cl-
culo del coeficiente de correlacin parcial y p se refiere al nmero de variables controladas). El estads-
tico T se distribuye segn el modelo de probabilidad t de Student con n ! p ! 2 grados de libertad.
Veamos cmo utilizar el procedimiento Correlaciones parciales del SPSS para cuantificar e inter-
pretar la relacin entre dos variables cuando se controla el efecto de terceras variables. El ejemplo se
basa en el archivo Datos de empleados (se encuentra en la misma carpeta en la que est instalado el
SPSS):
Captulo 5. Inferencia con dos variables cuantitativas 181

' Seleccionar la opcin Correlaciones > Parciales del men Analizar el cuadro de dilogo principal
y trasladar las variables salini (salario inicial) y salario (salario actual) a la lista Variables. stas
son las dos variables que interesa correlacionar.
' Trasladar las variables educ (nivel educativo), tiempemp (meses desde el contrato) y expprev (ex-
periencia previa) a la lista Controlando para. stas son las tres variables cuyo efecto se desea con-
trolar.
' Pulsar el botn Opciones para acceder al cuadro de dilogo Correlaciones parciales: Opciones y
marcar la opcin Correlaciones de orden cero del recuadro Estadsticos.

Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 5.12. La tabla contie-
ne las correlaciones bivariadas y las parciales. La mitad superior de la tabla (variables controladas =
ninguna) ofrece los coeficientes de correlacin de orden cero entre todas las variables seleccionadas.
El contenido de esta tabla es idntico al estudiado a propsito del coeficiente de correlacin de Pear-
son (ver Captulo 12 del primer volumen).
Esta informacin es doblemente til: por un lado, informa sobre el grado de relacin existente entre
las dos variables que interesa estudiar (salario inicial y salario actual); por otro, permite averiguar si
las variables cuyo efecto se desea controlar (nivel educativo, meses de contrato y experiencia previa)
estn o no relacionas con las dos variables que interesa correlacionar. Puede comprobarse que el coe-
ficiente de correlacin entre salario inicial y salario actual vale 0,88, con un nivel crtico sig. < 0,0005
que permite rechazar la hiptesis nula de no relacin y afirmar que el coeficiente es significativamente
distinto de cero. Tambin puede comprobarse que, de las tres variables incluidas en el anlisis para con-
trolar su efecto, nivel educativo correlaciona significativamente tanto con salario inicial como con sala-
rio actual (sig. < 0,0005 en ambos casos), meses de contrato no correlaciona significativamente ni con
salario inicial (sig. = 0,668) ni con salario actual (sig. = 0,067), y experiencia previa correlaciona sig-
nificativamente con salario actual (sig. = 0,034) pero no con salario inicial (sig. = 0,327).

Tabla 5.12. Correlaciones de orden cero (bivariadas) y correlaciones parciales


Salario Salario Nivel Meses de Experien.
Variables de control actual inicial educativo contrato previa
-ninguna-a Salario actual Correlacin 1,000 ,880 ,661 ,084 -,097
Sig. (bilat.) . ,000 ,000 ,067 ,034
gl 0 472 472 472 472
Salario inicial Correlacin ,880 1,000 ,633 -,020 ,045
Sig. (bilat.) ,000 . ,000 ,668 ,327
gl 472 0 472 472 472
Nivel educativo Correlacin ,661 ,633 1,000 ,047 -,252
Sig. (bilat.) ,000 ,000 . ,303 ,000
gl 472 472 0 472 472
Meses de contrato Correlacin ,084 -,020 ,047 1,000 ,003
Sig. (bilat.) ,067 ,668 ,303 . ,948
gl 472 472 472 0 472
Experiencia previa Correlacin -,097 ,045 -,252 ,003 1,000
Sig. (bilat.) ,034 ,327 ,000 ,948 .
gl 472 472 472 472 0
Nivel educativo & Salario actual Correlacin 1,000 ,812
Meses de contrato & Sig. (bilat.) . ,000
Experiencia previa gl 0 469
Salario inicial Correlacin ,812 1,000
Sig. (bilat.) ,000 .
gl 469 0
a. Las casillas contienen correlaciones de orden cero (de Pearson).
182 Anlisis de datos (vol. II)

La mitad inferior de la tabla ofrece el coeficiente de correlacin parcial entre las variables salario ini-
cial y salario actual. El coeficiente (0,812) tiene asociado un nivel crtico (sig. < 0,0005) que permi-
te afirmar que su valor poblacional es distinto de cero. Puesto que el coeficiente de correlacin parcial
sigue siendo significativo y su diferencia con el coeficiente de orden cero es ms bien escasa (ha baja-
do de 0,88 a 0,81), puede afirmarse: (1) que entre las variables salario inicial y salario actual existe
relacin lineal significativa y (2) que tal relacin solo se altera ligeramente tras controlar el efecto del
nivel educativo, los meses de contrato y la experiencia previa.

Ejercicios Soluciones en www.sintesis.com

5.1. Antes de recibir una terapia correctora de 10 sesiones, 7 nios dislxicos han pasado por una prueba
de dictado en la que se ha contabilizado el nmero de errores cometidos. Tras las 10 sesiones de en-
trenamiento, los 7 nios han vuelto a repetir la prueba de dictado y se ha vuelto a contabilizar el n-
mero de errores. La siguiente tabla muestra los resultados obtenidos:

Sujetos 1 2 3 4 5 6 7
Y1: n errores antes 19 13 20 12 15 17 9
Y2: n errores despus 7 9 10 4 3 10 6

a. Aplicar la prueba de Wilcoxon y la de los signos para averiguar si el nmero medio de errores ha
disminuido tras el entrenamiento ( = 0,05).
b. Estimar el tamao del efecto.
c. Cuntos sujetos habra que utilizar para alcanzar una potencia de 0,80?

5.2. Cuando se toman dos medidas a los mismos sujetos (pre-post o antes-despus), lo que suele interesar
es comparar ambas medidas para valorar si se ha producido algn cambio. Esto es lo que se ha hecho,
por ejemplo, en el ejercicio anterior. Pero esto no tiene por qu ser siempre as. Ocasionalmente pue-
de interesar constatar si el cambio observado se ha producido o no de forma lineal, es decir, si todos
los sujetos han cambiado ms o menos lo mismo o de forma proporcional a sus puntuaciones origi-
nales o, por el contrario, unos sujetos han cambiado ms que otros y de forma no proporcional a sus
puntuaciones originales. Esto ltimo no puede saberse comparando los promedios antes-despus, sino
relacionando ambas medidas. Utilizando los datos del ejercicio anterior:
a. Cunto vale el coeficiente de correlacin de Spearman entre los registros efectuados antes y des-
pus del entrenamiento?
b. Es estadsticamente significativa la relacin encontrada?
c. Explicar por qu puede haber diferencias significativas entre las mediciones antes-despus y, sin
embargo, no existir relacin lineal significativa entre ellas.

5.3. Un investigador desea comprobar si la ingestin de alcohol reduce la capacidad de los sujetos para
reconocer letras presentadas mediante taquistoscopio. Para ello, forma 10 pares aleatorios de sujetos
de tal forma que los sujetos de cada par estn igualados en agudeza visual. Un sujeto de cada par, selec-
cionado al azar, recibe una determinada dosis de alcohol. Al cabo de un tiempo preestablecido se
presenta la serie de letras y se registra el nmero de aciertos de cada sujeto. La siguiente tabla muestra
los resultados obtenidos:
Captulo 5. Inferencia con dos variables cuantitativas 183

Pares 1 2 3 4 5 6 7 8 9 10
Y1: con alcohol 2 1 1 3 2 5 1 3 3 2
Y2: sin alcohol 4 3 5 7 8 5 4 6 4 5

a. Apoyan los datos la hiptesis de que la dosis de alcohol administrada reduce el nmero medio de
aciertos? ( = 0,05).
b. Estimar el tamao del efecto.

5.4. Algunos estudios sobre gemelos sealan que el miembro del par nacido en primer lugar suele mostrar
un comportamiento ms agresivo que el nacido en segundo lugar. Para obtener alguna evidencia ms
sobre esto, se ha pasado una escala de agresividad a una muestra aleatoria de 10 parejas de gemelos.
La siguiente tabla muestra los resultados obtenidos:

Pares 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
er
Y1: 1 gemelo 23 10 15 17 22 25 20 25 11 16 13 19 21 23 10
Y2: 2o gemelo 17 5 10 12 15 15 12 18 6 9 10 15 4 3 14

a. Apoyan los datos la hiptesis de que los gemelos nacidos en primer lugar se muestran ms agre-
sivos que los nacidos en segundo lugar?
b. Estimar el tamao del efecto.
c. Cunto vale la potencia del contraste?
d. Cunto vale el coeficiente de correlacin de Spearman?
e. Es estadsticamente significativa la relacin encontrada? ( = 0,05).

5.5. Seguimos con los 15 pares de gemelos del ejercicio anterior. Aunque ya sabemos que el coeficiente
de correlacin de Spearman no alcanza la significacin estadstica (p > 0,05), vamos a intentar formar-
nos una idea lo ms exacta posible sobre lo que est ocurriendo. Para ello:
a. Dibujar el correspondiente diagrama de dispersin.
b. La nube de puntos del diagrama de dispersin revela que hay tres pares de gemelos que podran
estar reduciendo sensiblemente el grado de relacin lineal. Cules son esos tres pares? Dibujar
el diagrama de dispersin eliminando esos tres pares.
c. Cunto vale el coeficiente de correlacin de Spearman si se eliminan esos tres pares de gemelos?
d. Es estadsticamente significativo el nuevo coeficiente de correlacin? ( = 0,05).

5.6. Se ha utilizado el coeficiente de correlacin de Spearman para comprobar si la relacin entre la inten-
sidad luminosa (variable X ) y el rendimiento en una prueba de discriminacin visual (variable Y ) es
montona creciente. Al valorar la significacin estadstica del coeficiente de correlacin en una mues-
tra aleatoria de 15 sujetos se ha obtenido, para el estadstico del contraste, un valor T = 1,562. Sabiendo
que P (T <$ 1,562) = 0,93 y utilizando un nivel de confianza de 0,99, cul de las siguientes decisiones
(y motivos) es correcta?
a. $ 1,562) < 0,99.
Rechazar H0 porque P (T <
b. $ 1,562) > 0,01.
Mantener H0 porque P (T <
c. $ 1,562) < 0,01.
Rechazar H0 porque P (T >
d. $ 1,562) < 0,99.
Mantener H0 porque P (T <
e. $ 1,562) < 0,99.
Rechazar H0 porque P (T <

5.7. En el estudio llevado a cabo en el ejercicio anterior sobre discriminacin visual se ha llegado a la con-
clusin de que lo razonable es no rechazar H0. Pero:
184 Anlisis de datos (vol. II)

a. Qu hiptesis estadsticas se estn planteando?


b. Puede concluirse que existe relacin montona creciente entre la intensidad luminosa y el ren-
dimiento en la prueba de discriminacin? Por qu?
c. Cul es el nivel de significacin mnimo a partir del cual puede rechazarse H0?

5.8. En un estudio sobre la relacin entre rigidez y creatividad, un investigador plantea la hiptesis nula
de independencia frente a la hiptesis alternativa de relacin negativa (montona decreciente). En una
$ !2)
muestra aleatoria obtiene, para el estadstico del contraste, un valor T = !2. Sabiendo que P (T >
= 0,98 y utilizando = 0,05, es razonable rechazar H0 ? Por qu?

5.9. Cules de las siguientes afirmaciones podran servir como conclusin del contraste del ejercicio an-
terior?:
a. La creatividad no tiene nada que ver con la rigidez.
b. La creatividad depende de la rigidez.
c. La rigidez depende de la creatividad.
d. Las puntuaciones altas en rigidez tienden a ir acompaadas de puntuaciones altas en creatividad.
e. Las puntuaciones altas en rigidez tienden a ir acompaadas de puntuaciones bajas en creatividad.

5.10. Qu nivel de significacin se ha utilizado en un estudio si, al contrastar la hiptesis nula H0: D = 0
frente a la alternativa H1: D = 6 con una muestra aleatoria de tamao 31 extrada de una poblacin
normal con = 97, la probabilidad de rechazar la hiptesis nula siendo falsa vale 0,80?
6
Anlisis de varianza (I)
Un factor
completamente aleatorizado

Ya sabemos cmo abordar el anlisis de una variable categrica y una cuantitativa aplican-
do la prueba T de Student para muestras independientes; pero esta prueba solamente sirve
para comparar dos grupos; el anlisis de varianza permite extender el anlisis a ms de dos
grupos. Tambin sabemos cmo comparar variables cuantitativas aplicando la prueba T de
Student para muestras relacionadas; pero esta prueba solamente sirve para comparar dos va-
riables; el anlisis de varianza permite comparar ms de dos variables. Adems, con el an-
lisis de varianza es posible estudiar simultneamente ms de una variable categrica y valo-
rar su efecto conjunto sobre una variable cuantitativa.
El anlisis de varianza o ANOVA (acrnimo de ANalisys Of VAriance) no es una ni-
ca tcnica de anlisis, sino toda una familia de tcnicas que comparten el objetivo de ayudar
a interpretar los datos de un estudio emprico mediante la formulacin de modelos esta-
dsticos. Estos modelos permiten valorar el comportamiento de una variable dependiente o
respuesta cuantitativa (variable medida con una escala de intervalos o de razn) a partir de
una o ms variables independientes o factores categricos (variables medidas con una esca-
la nominal u ordinal). Tambin permiten controlar el efecto de variables extraas (variables
ajenas al estudio) incluyndolas como covariables.
Aunque estos modelos han surgido en el contexto de los diseos experimentales (Fisher,
1935), son aplicables a cualquier tipo de investigacin siempre que se den las circunstancias
apropiadas. Se basan en una estructura matemtica relativamente simple, conocida como
modelo lineal general, que posee la suficiente versatilidad como para adaptarse a contextos
muy diversos (ver Captulo 1 del tercer volumen).
Este captulo se centra en el modelo de un factor completamente aleatorizado, pero tam-
bin incluye una clasificacin de los diferentes modelos de ANOVA y de la lgica en la que
se basan todos ellos. Ms adelante estudiaremos el modelo de dos factores (Captulo 7) y los
modelos de medidas repetidas (Captulos 8 y 9). Para profundizar en los fundamentos de estos
186 Anlisis de datos (vol. II)

modelos (y de otros que no trataremos aqu) pueden consultarse los excelentes manuales de
Keppel y Wickens (2004), Kirk (1995), Maxwell y Delaney (2004), Myers y Well (2003) o
Winer, Brown y Michels (1991).

Modelos de anlisis de varianza


Los modelos de anlisis de varianza no deben confundirse con los diseos de investigacin.
Aunque ambos estn estrechamente relacionados, un diseo de investigacin es un plan de
actuacin que, partiendo de una o varias hiptesis, detalla qu variables se van a estudiar y
cmo se van a medir, cuntos sujetos se van a elegir y de qu poblacin, cmo se van a asig-
nar los sujetos a las condiciones del estudio, etc., mientras que un modelo de anlisis de
varianza es una herramienta estadstica que permite tomar decisiones analizando los datos
recogidos en el marco de un diseo concreto.
No obstante, aunque diseo y modelo no son la misma cosa, puesto que las caractersti-
cas del diseo determinan las del correspondiente modelo, no es raro encontrar que estos dos
trminos se usan de forma intercambiable (ver, por ejemplo, Kirk, 1995).
Aunque existen varios y muy distintos modelos de ANOVA, puede obtenerse una cla-
sificacin razonablemente simple de los mismos atendiendo nicamente a tres caracters-
ticas del diseo: (1) el nmero de factores, (2) el tipo de asignacin de las unidades de an-
lisis a las condiciones del estudio y (3) la forma de establecer los niveles de los factores.

Nmero de factores
En los modelos de ANOVA, el trmino factor es sinnimo de variable independiente. Y se
refiere a una variable categrica que define grupos. Al modelo que nicamente incluye una
variable independiente se le llama ANOVA de un factor (one-way ANOVA); al que inclu-
ye dos variables independientes se le llama ANOVA de dos factores (two-way ANOVA);
etc. A los modelos de ms de un factor se les llama modelos factoriales.
En un estudio diseado para valorar el efecto del nivel de ansiedad (bajo, medio, alto)
sobre el rendimiento en una tarea tenemos una variable independiente o factor (nivel de an-
siedad) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de un factor. En un estudio diseado para valorar el efecto del ni-
vel de ansiedad (bajo, medio, alto) y la dificultad de la tarea (fcil, difcil) sobre el rendi-
miento tenemos dos variables independientes o factores (nivel de ansiedad y dificultad de la
tarea) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de dos factores.

Tipo de asignacin de las unidades de anlisis a las condiciones del estudio


En las ciencias sociales y de la salud, las unidades de anlisis son, por lo general, sujetos
(pacientes, estudiantes, empleados, aspirantes a un puesto de trabajo, votantes, etc.), pero
pueden ser animales, objetos, empresas, etc. Las condiciones del estudio son las condiciones
definidas por los niveles del factor o por la combinacin de los niveles de los factores (si es
que hay ms de uno). Los diseos de investigacin se diferencian, entre otras cosas, por la
forma de asignar las unidades de anlisis a las condiciones del estudio.
Captulo 6. ANOVA de un factor 187

Por lo general, esta asignacin de las unidades de anlisis a las condiciones del estudio
se realiza de forma aleatoria (es decir, al azar) para que todos los sujetos tengan la misma
probabilidad de ser asignados a cada condicin. Se pretende con ello que el conjunto de po-
sibles variables extraas asociadas a las caractersticas de los sujetos (diferencias entre los
sujetos que podran afectar a los resultados del estudio) queden repartidas de forma similar
entre todas las condiciones. Hay dos estrategias bsicas de asignacin aleatoria que suelen
recibir el nombre de grupos aleatorios y bloques aleatorios.
En los diseos de grupos aleatorios cada unidad de anlisis (cada sujeto) es aleato-
riamente seleccionada y asignada a un nivel del factor. Supongamos que interesa valorar la
cantidad de frmaco idnea para aumentar las horas de sueo de pacientes afectados de in-
somnio. Se tiene una variable independiente o factor (cantidad de frmaco) en la que se han
definido tres niveles (0 mg, 250 mg, 500 mg) y una variable dependiente (horas de sueo) de
la que se puede obtener una medida cuantitativa. Para valorar el efecto del frmaco sobre las
horas de sueo con un diseo de grupos aleatorios, se selecciona aleatoriamente una mues-
tra de pacientes insomnes, se forman aleatoriamente tres grupos y se asigna, tambin alea-
toriamente, cada grupo a uno de los tres niveles del factor. Al modelo de ANOVA que per-
mite analizar los datos de este diseo se le llama modelo completamente aleatorizado.
La asignacin aleatoria es la mejor estrategia para formar grupos equivalentes (grupos
con el mximo control sobre posibles variables extraas). Pero la asignacin aleatoria no
siempre es posible; por ejemplo, al comparar hombres y mujeres en una variable cuantitativa
no es posible decidir quin es hombre y quin es mujer; eso es algo que viene dado. Otras ve-
ces, aun siendo posible la asignacin aleatoria, no interesa aplicarla por razones prcticas o
ticas; por ejemplo, al comparar dos mtodos de enseanza se decide aplicar cada mtodo a
los alumnos de un aula simplemente porque no se considera apropiado mezclar los alumnos
aleatoriamente solamente por el inters de la investigacin. No obstante, en ambos ejemplos
se tienen grupos aleatorios: en el ejemplo de hombres y mujeres, los sujetos se seleccionan
aleatoriamente; en el ejemplo del mtodo de enseanza, las aulas se seleccionan aleatoriamen-
te y los mtodos se asignan aleatoriamente a las aulas. Ciertamente, el grado de control sobre
posibles variables extraas no es el mismo en todos estos ejemplos y eso determina el nivel
de indagacin que es posible alcanzar; pero la herramienta estadstica que permite analizar
los datos es la misma en todos ellos: un modelo de ANOVA completamente aleatorizado.
En los diseos de bloques aleatorios se intenta ejercer mayor control sobre posibles va-
riables extraas. Si se sospecha que existe alguna variable que puede alterar de forma apre-
ciable las conclusiones del estudio, se puede ejercer sobre ella un control directo modificando
la forma de asignar las unidades de anlisis a las condiciones del estudio. Supongamos que
el frmaco cuyo efecto sobre el insomnio se desea valorar tiene la peculiaridad de afectar de
forma diferenciada a los pacientes en funcin del grado de insomnio que padecen. Se puede
controlar ese efecto formando bloques: si se clasifica a los pacientes seleccionados como
pacientes con insomnio leve, moderado o severo (tres bloques)1 y, tras esto, los sujetos de
un mismo bloque se asignan aleatoriamente a los diferentes niveles del factor (grupo), se
habr conseguido que dentro de cada grupo haya pacientes con insomnio leve, moderado y
severo; el efecto de la variable extraa habr quedado controlado al estar todos los grupos
igualados en grado de insomnio. Al proceder de esta manera se tiene un diseo de bloques

1
Aunque en este ejemplo concreto se estn formando 3 bloques, el nmero de bloques que pueden formarse oscila entre
un mnimo de 2 (o se forman al menos 2 bloques o no se forma ninguno) y un mximo de n / k, siendo n el tamao de la
muestra y k el nmero de niveles del factor.
188 Anlisis de datos (vol. II)

aleatorios y el modelo de ANOVA que permite analizar los datos as obtenidos recibe el
nombre de modelo aleatorizado en bloques.
En un caso extremo de bloqueo cada bloque est formado por un nico sujeto: a todos
y cada uno de los sujetos se le aplican todos y cada uno de los niveles del factor. La homo-
geneidad dentro de cada bloque es mxima (y por tanto mnima la presencia de variables
extraas atribuibles a diferencias entre los sujetos) porque todas las puntuaciones dentro de
un mismo bloque pertenecen a un mismo sujeto. En este caso ya no se habla de diseo de
bloques aleatorios, sino de diseo intrasujetos o diseo con los mismos sujetos; y al mode-
lo de ANOVA que permite analizar estos datos se le llama modelo de medidas repetidas.
Esta distincin basada en la forma de asignar las unidades de anlisis a las condiciones
del estudio es equivalente a la ya hecha entre muestras independientes y muestras relacio-
nadas: hablar de diseos completamente aleatorizados equivale a hablar de muestras inde-
pendientes (a cada nivel del factor se asigna un grupo distinto de sujetos); y hablar de diseos
de bloques aleatorios o intrasujetos equivale a hablar de muestras relacionadas (bien porque
los sujetos de un mismo bloque han sido igualados atendiendo a algn vnculo relevante pa-
ra el anlisis, bien porque cada bloque est formado por un nico sujeto).

Forma de establecer los niveles del factor


Los niveles o categoras de una variable independiente o factor pueden establecerse de dos
maneras distintas: (1) fijando los niveles que se desea estudiar (por ejemplo, cantidad de fr-
maco: 0 mg, 250 mg, 500 mg) o utilizando los niveles que posee el factor (por ejemplo, nivel
educativo: sin estudios, primarios, secundarios, medios, superiores) o (2) seleccionando alea-
toriamente unos pocos niveles de la poblacin de posibles niveles del factor (por ejemplo,
seleccionando una muestra aleatoria de los hospitales de una ciudad).
Si se establecen, por ejemplo, 3 dosis de frmaco (0 mg, 250 mg y 500 mg) porque esas
dosis son justamente las que interesa estudiar, entonces el factor es de efectos fijos (al corres-
pondiente modelo de ANOVA se le llama modelo de efectos fijos o modelo I). Los niveles
que interesa estudiar son justamente esos 3. Si se replicara el experimento, los sujetos seran
diferentes, pero los niveles del factor seran exactamente los mismos. Cuando se utiliza un
factor de efectos fijos, el propsito del anlisis es el de valorar justamente los niveles concre-
tos incluidos en el estudio. Las inferencias se limitan a esos niveles.
Si en lugar de fijar los niveles que se desea estudiar se eligen al azar unos pocos niveles
entre todos los posibles porque las inferencias que interesa realizar se refieren, no a unos nive-
les concretos, sino a cualquiera de los posibles, entonces el factor es de efectos aleatorios (al
correspondiente modelo de ANOVA se le llama modelo de efectos aleatorios o modelo II).
Ahora ya no interesa estudiar unos niveles concretos del factor, sino cualquiera de sus posi-
bles niveles. Si se llevara a cabo una rplica del estudio, tanto los sujetos como los niveles
del factor podran ser diferentes.
Los factores utilizados con mayor frecuencia en los modelos de ANOVA son de efectos
fijos. Sin embargo, no son infrecuentes los estudios donde lo apropiado es utilizar factores
de efectos aleatorios. Por ejemplo, al estudiar el tiempo de convalecencia de los pacientes tras
una determinada intervencin quirrgica pueden utilizarse factores de efectos fijos como la
gravedad de la enfermedad, el tipo de intervencin, etc. Pero, probablemente, los pacientes
hay que seleccionarlos de distintos hospitales y este hecho no puede pasarse por alto (pues
la eficacia, la organizacin, etc., de todos los hospitales no es la misma). Para estudiar el
Captulo 6. ANOVA de un factor 189

efecto del factor hospital podra seleccionarse aleatoriamente una muestra de hospitales (no
sera necesario ni tal vez posible seleccionar todos los hospitales). Y los resultados del
estudio estaran indicando, no si dos hospitales concretos difieren entre s (aqu no interesa
averiguar si tal hospital concreto difiere de tal otro), sino si el factor hospital se relaciona con
el tiempo de convalecencia post-quirrgica.

Clasificacin de los modelos de anlisis de varianza


Los tres criterios propuestos en el apartado anterior constituyen una sencilla gua para clasifi-
car e identificar los diferentes modelos de ANOVA que estudiaremos en ste y en los prxi-
mos captulos.
En los modelos de un factor, el tipo de asignacin de las unidades de anlisis a las con-
diciones del estudio define dos modelos distintos: el modelo de un factor completamente
aleatorizado (A-CA) y el modelo de un factor aleatorizado en bloques, tambin llamado
modelo de un factor con medidas repetidas (A-MR). En ambos casos el factor puede ser
de efectos fijos o de efectos aleatorios.
En los modelos de dos factores aumentan las posibilidades. En el modelo de dos facto-
res completamente aleatorizados (AB-CA) se utilizan grupos aleatorios en ambos factores
(grupos distintos de sujetos en cada combinacin entre los niveles de ambos factores). En los
modelos de dos factores aleatorizados en bloques, tambin llamado dos factores con me-
didas repetidas en ambos (AB-MR), se utilizan bloques aleatorios en ambos factores (un
nico grupo de sujetos o bloques pasa por todas las combinaciones entre los niveles de ambos
factores). En los modelos de dos factores con medidas repetidas en un factor (AB-CA-MR)
se utilizan grupos aleatorios en el primer factor y bloques aleatorios en el segundo (varios gru-
pos, tantos como niveles tiene el primer factor, pasan por todos los niveles del segundo fac-
tor). En todos los casos, los factores pueden ser de efectos fijos o de efectos aleatorios.
Ms adelante tendremos ocasin de estudiar los detalles de cada uno de estos modelos.
De momento, vamos a centrarnos en la lgica en la que se basan todos ellos.

Lgica del anlisis de varianza


La forma convencional de comparar las medias de dos distribuciones consiste en restarlas.
Esto es lo que hemos hecho, por ejemplo, al contrastar la hiptesis de igualdad de medias con
la prueba T de Student. Pero, cuando se tienen ms de dos medias, no es posible comparar-
las simultneamente con una resta. Y, sin embargo, los diseos con tres o ms grupos son
frecuentes en las ciencias sociales y de la salud. Qu podemos hacer para comparar las
medias de ms de dos distribuciones? La respuesta a esta pregunta se le ocurri a Fisher y
se basa, no en el anlisis de las medias de las distribuciones, sino en el de sus varianzas (de
ah el nombre del procedimiento).
Para entender la solucin propuesta por Fisher, imaginemos que extraemos una muestra
aleatoria de tamao n de una determinada poblacin. Justamente por tratarse de una muestra,
los valores obtenidos no sern todos iguales entre s, sino que mostrarn variabilidad. A esta
variabilidad la llamamos intragrupo porque se trata de variabilidad que se da dentro (intra)
de la misma muestra o grupo. Imaginemos ahora que extraemos, no una, sino tres muestras
190 Anlisis de datos (vol. II)

de la misma poblacin. Con tres muestras seguimos teniendo variabilidad intragrupos (la que
se da entre los valores de una misma muestra). Pero, adems, tambin tenemos la variabilidad
que se da entre las muestras, pues los valores de una cualquiera de las muestras no tienen por
qu ser iguales, ni siquiera en promedio, a los valores de las dems muestras. A esta segunda
forma de variabilidad entre las muestras la llamamos intergrupos.
La variabilidad intragrupos refleja las diferencias entre las puntuaciones dentro de cada
muestra; la variabilidad intergrupos refleja las diferencias entre las distintas muestras. La
esencia del anlisis de varianza consiste en comparar ambas fuentes de variabilidad para
determinar cmo de grande es la variabilidad intergrupos en comparacin con la variabili-
dad intragrupos.
Comencemos con el diseo ms simple: una variable categrica A (con J categoras o
niveles) y una variable cuantitativa Y (ver Tabla 6.1). Supongamos que la variable cuantita-
tiva Y se distribuye normalmente en las J poblaciones definidas por los J niveles de la varia-
ble categrica A y que todas esas poblaciones normales tienen la misma varianza, es decir,

= = = = = = [6.1]

Supongamos adems que de cada poblacin se extrae una muestra aleatoria de tamao nj de
puntuaciones Yi j (i se refiere a los diferentes elementos de la misma muestra: i = 1, 2, ..., nj;
j se refiere a las diferentes muestras: j = 1, 2, ..., J ; por ejemplo, Y52 se refiere a la 5 puntua-
cin de la 2 muestra).
En este escenario, el valor de cada varianza muestral es una estimacin concreta de
la varianza de su poblacin. Pero como se est asumiendo que las J poblaciones tienen la
misma varianza, la estimacin de esa nica varianza poblacional2 puede mejorarse si, en lu-
gar de hacer J estimaciones distintas, se hace una sola estimacin basada en la media pon-
derada de las J varianzas muestrales3:

MCE = = = [6.2]

(con N = n1 + n2 + + nJ). A este estimador basado en la variabilidad existente dentro de


cada grupo o muestra se le llama media cuadrtica intragrupos (es una media cuadrtica
porque se trata del promedio de las distancias a la media elevadas al cuadrado) y se repre-
senta mediante MCE. Tambin se le llama media cuadrtica error o residual porque las
distancias a la media de cada grupo se consideran errores o residuos del modelo (ver Captu-
lo 1 del tercer volumen). Puesto que en el clculo de MCE nicamente intervienen las va-
rianzas, su valor no depende del valor de las medias4.

2
No debe confundirse (la varianza de Y en cada poblacin) con la varianza de todas las puntuaciones de Y tomadas
juntas (la varianza total). Estas dos varianzas solamente son iguales cuando todas las poblaciones tienen, adems de la misma
varianza, la misma media. Cuando tengamos que utilizar esta segunda varianza quedar claro que nos referimos a ella.
3
En el caso de que todas las muestras tengan el mismo tamao (es decir, si n1 = n2 = = nJ = n), la ecuacin [6.2] se puede
simplificar bastante:

MCE = = = [6.3]
4
La varianza de un conjunto de puntuaciones no se ve alterada si a esas puntuaciones se le aade una constante. Por tanto,
el estimador propuesto en [6.2] no depende del valor de las medias.
Captulo 6. ANOVA de un factor 191

Supongamos ahora que las J poblaciones normales, adems de la misma varianza, tam-
bin tienen la misma media. Si esto es as, las J muestras aleatorias seleccionadas pueden
considerarse muestras de la misma poblacin (pues han sido seleccionadas de J poblaciones
idnticas). Esto significa que las medias de esas muestras pueden utilizarse para obtener un
nuevo estimador de la varianza poblacional. Sabemos que la varianza de la distribucin
muestral de la media5 se relaciona con la varianza poblacional mediante = (n es el
tamao de la muestra). Por tanto, si se tienen J muestras de la misma poblacin, la varianza
de Y puede estimarse mediante6

MCI = MCA = = [6.4]

A este estimador de basado en la variabilidad existente entre las medias de las diferen-
tes muestras se le llama media cuadrtica intergrupos y se representa mediante MCI. Y
puesto que, de momento, esta MCI nicamente incluye la variabilidad debida al factor A,
tambin se le llama MCA.
Por tanto, tenemos dos estimadores de la varianza poblacional. Uno de ellos, MCE, es
independiente del valor de las medias poblacionales, pues se basa en la variabilidad de las
puntuaciones individuales respecto de la media de su propia muestra. El otro, MCA, depen-
de del valor de las medias poblacionales porque se basa en la variabilidad existente entre las
medias muestrales; nicamente es un estimador de la varianza poblacional cuando las mues-
tras se extraen de la misma poblacin o de J poblaciones idnticas.
Por tanto, si MCA y MCE se calculan a partir de muestras aleatorias extradas de pobla-
ciones con la misma media, sus valores sern parecidos. Por el contrario, si se calculan en
muestras extradas de poblaciones que no tienen la misma media, el valor de MCA ser ma-
yor que el valor de MCE, pues MCA estar reflejando no solamente variabilidad aleatoria en-
tre las medias muestrales, sino variabilidad debida al hecho de que las medias poblacionales
son distintas. Esto significa que el tamao relativo de MCA respecto del de MCE est infor-
mando del grado de parecido existente entre las medias poblacionales.
Ahora bien, aunque las medias poblacionales sean iguales, como MCA y MCE son valo-
res muestrales, raramente tomarn valores idnticos. Cabe esperar que, aun siendo iguales
las medias poblacionales, entre MCA y MCE existan ligeras diferencias atribuibles a las fluc-
tuaciones propias del azar muestral. La clave est precisamente en poder determinar cundo
la diferencia entre MCA y MCE es lo bastante grande como para pensar que no se debe al azar
muestral, sino al hecho de que las medias poblacionales son distintas. Justamente esto es lo
que hace el anlisis de varianza comparando MCA y MCE mediante

F = = [6.6]

5
La distribucin muestral de la media es la distribucin de las medias calculadas en todas las muestras de tamao n que
es posible extraer de una determinada poblacin (en caso necesario, repasar el concepto de distribucin muestral en el
Captulo 6 del primer volumen).
6
En el caso de que todas las muestras tengan el mismo tamao (n1 = n2 = = nJ = n), la ecuacin [6.4] se reduce a:

MCA = = n = [6.5]
192 Anlisis de datos (vol. II)

La distribucin muestral de este cociente (ver Apndice 6) fue establecida por Fisher (1924)
y etiquetada distribucin F en su honor por Snedecor (1934). El estadstico F refleja el gra-
do de parecido existente entre las medias poblacionales. Si las medias poblacionales son
iguales, las medias muestrales de los diferentes grupos sern parecidas, existiendo entre ellas
tan solo diferencias atribuibles al azar. En ese caso, el numerador (basado en las diferencias
entre las medias muestrales) reflejar un grado de variacin similar al del denominador (ba-
sado en las diferencias entre las puntuaciones individuales dentro de cada grupo) y el cocien-
te F tomar un valor prximo a 1. Por el contrario, si las medias muestrales son distintas, el
numerador ser mayor que el denominador y el estadstico F tomar un valor mayor que 1.
Cuanto ms diferentes sean las medias muestrales, mayor ser el valor de F.
Si las poblaciones muestreadas son normales y sus varianzas iguales, el estadstico F
se aproxima a la distribucin F con J !1 y N ! J grados de libertad (ver, en el Apndice 6, el
apartado Distribucin muestral del estadstico F ). Y puesto que el estadstico F, adems de
informar del grado de parecido entre las medias, tiene distribucin muestral conocida, te-
nemos todo lo necesario para disear un contraste sobre la hiptesis de igualdad de medias.

ANOVA de un factor completamente aleatorizado (A-CA)


El anlisis de varianza de un factor completamente aleatorizado (A-CA) o, simplemente,
ANOVA de un factor, sirve para comparar varios grupos en una variable cuantitativa. Se tra-
ta, por tanto, de una generalizacin de la prueba T para dos muestras independientes al caso
de ms de dos muestras. A la variable categrica (nominal u ordinal) que define los grupos
o muestras se le llama independiente o factor. A la variable cuantitativa (de intervalo o ra-
zn) en la que se desea comparar los grupos se le llama dependiente o respuesta.
Consideremos un ejemplo sobre la relacin entre el nivel de activacin o ansiedad (va-
riable categrica con tres niveles: bajo, medio y alto) y el rendimiento (variable cuantitativa)
en el que se han seleccionado aleatoriamente 20 sujetos de cada nivel de ansiedad y se les
ha hecho trabajar en una tarea de solucin de problemas. El objetivo del estudio es compro-
bar si el rendimiento es o no el mismo en los distintos niveles de ansiedad. El anlisis de
varianza de un factor permite comparar el rendimiento medio de los tres grupos y valorar si
existen diferencias.
Otro ejemplo. Supongamos que una muestra aleatoria de 40 pacientes depresivos (todos
ellos con puntuaciones mayores de 30 en la escala de depresin de Hamilton) se reparten
aleatoriamente en cuatro grupos. Al primer grupo se le aplica un tratamiento farmacolgico
convencional; al segundo, un nuevo tratamiento farmacolgico; al tercero, una combinacin
de tratamiento farmacolgico y psicoterapia; al cuarto, solamente psicoterapia. El objetivo
del estudio consiste en valorar si hay algn tratamiento ms eficaz que los otros. El anlisis
de varianza permite valorar si, al cabo de las doce semanas de tratamiento, el nivel de depre-
sin medio es o no el mismo en las poblaciones definidas por los cuatro tratamientos. Tam-
bin permite realizar comparaciones para identificar el tratamiento ms eficaz.
La Tabla 6.1 muestra la estructura de los datos y la notacin que utilizaremos en un di-
seo de un factor. Usaremos reglas fciles de seguir a la hora de representar cada elemento
de la tabla. Y mantendremos la misma lgica en la notacin cuando incorporemos ms
factores al diseo. A los factores los representaremos por letras latinas maysculas empe-
zando por la primera: A, B, etc. Al nico factor del modelo de un factor lo llamaremos A. Y
a la variable dependiente (la variable cuantitativa) la llamaremos Y.
Captulo 6. ANOVA de un factor 193

Tabla 6.1. Estructura de los datos y notacin en un diseo de un factor completamente aleatorizado (A-CA)

Factor A Puntuaciones Totales Medias

a1
a2

aj

aJ

Los subndices son necesarios para identificar cada elemento de la tabla. A los J grupos o
niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ; por tanto, j = 1, 2, ..., J.
En el modelo de un factor es necesario utilizar dos subndices para representar cada valor de
Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos) del
mismo grupo: i = 1, 2, ..., nj ; el segundo ( j) se refiere a los diferentes grupos. As, por
ejemplo, Y52 se refiere a la puntuacin obtenida por el 5 sujeto del 2 grupo.
Los grupos pueden tener o no el mismo tamao; el tamao de cada grupo lo represen-
taremos mediante nj , con N = n1 + n2 + + nj + + nJ. El signo + colocado como subn-
dice se refiere a todos los valores del subndice al que sustituye. Por ejemplo, Y+2 se refie-
re a todas las puntuaciones (todos los valores i) del segundo grupo ( j = 2). Para representar
estas sumas o totales utilizaremos la letra T. Las sumas o totales de cada grupo ( ) se ob-
tienen sumando desde 1 hasta nj todas las puntuaciones de ese grupo:

= = [6.7]

Por ejemplo, el total del grupo 1 (T1) se obtiene sumando las n1 puntuaciones de la primera
fila de la tabla (es decir, sumando la fila a1). Y el gran total (T ) se obtiene sumando todas las
puntuaciones de la tabla:

= = = [6.8]

A partir de estos totales es fcil obtener las medias de cada grupo y la media total; basta con
dividir los correspondientes totales por el nmero de puntuaciones utilizadas para obtenerlos:

= = y = = [6.9]

La hiptesis nula que se pone a prueba con el ANOVA de un factor es que las J medias po-
blacionales son iguales. El Cuadro 6.1 ofrece un resumen de los pasos que seguiremos para
contrastar esta hiptesis. Para que el estadstico F propuesto en [6.6] permita contrastar la
hiptesis de igualdad de medias estamos asumiendo que se dan ciertas condiciones: muestras
aleatorias extradas de poblaciones normales con la misma varianza. En el siguiente aparta-
do hablaremos de estas condiciones.
194 Anlisis de datos (vol. II)

Cuadro 6.1. Resumen del ANOVA de un factor completamente aleatorizado (A-CA)7

1. Hiptesis: H0: = = = (todas las medias son iguales).


H 1: =/ para algn j o jN ( j =/ jN) (no todas las medias son iguales).
2. Supuestos: J muestras aleatoriamente seleccionadas de J poblaciones normales con la
misma varianza.
3. Estadstico del contraste (ver ecuacin [6.6]): F = MCA MCE.
4. Distribucin muestral: F se distribuye segn F con J !1 y N ! J grados de libertad.
$ FJ ! 1, N ! J ; 1 ! .
5. Zona crtica: F >
6. Regla de decisin: se rechaza H0 si el estadstico F cae en la zona crtica; en caso con-
trario, se mantiene. El rechazo de H0 indica que no todas las medias poblacionales son
iguales, es decir, que hay al menos una media que difiere de al menos otra.
$ Fh ), siendo Fh el valor muestral concreto que to-
7. Nivel crtico (valor p): p = P (F >
ma el estadstico F.

Ejemplo. ANOVA de un factor completamente aleatorizado (A-CA)


Al estudiar la prueba de Kruskal-Wallis (ver Captulo 4) hemos analizado los datos de un
estudio sobre la relacin entre ansiedad y rendimiento. Vamos a analizar esos mismos datos
con el estadstico F. Se han formado aleatoriamente tres grupos de 10 sujetos. A cada grupo
se le ha inducido (mediante instrucciones y manipulando los objetivos de la tarea) un nivel
distinto de ansiedad (bajo, medio, alto) mientras realizaban una tarea de solucin de proble-
mas con un rompecabezas. Al evaluar el rendimiento de cada sujeto en una escala de 0 a 20
puntos se han obtenido los resultados que muestra la Tabla 6.2. El objetivo del estudio es,
de momento, averiguar si los grupos de ansiedad difieren en rendimiento, es decir, si el nivel
de ansiedad est relacionado con el rendimiento ( = 0,05).

Tabla 6.2. Puntuaciones en rendimiento de 30 sujetos con diferente nivel de ansiedad


_
Nivel de ansiedad (A) Rendimiento (Y) Yj S j2
a1 = bajo 4 11 7 10 4 9 11 8 14 12 9 10,89
a2 = medio 19 14 13 16 15 18 12 7 10 16 14 13,33
a3 = alto 3 11 5 10 14 5 7 9 4 2 7 15,11
Promedios 10 13,11

Tenemos una variable categrica o factor (nivel de ansiedad) con tres niveles que definen tres
grupos y una variable cuantitativa ( puntuaciones en rendimiento) en la cual queremos com-

7
A partir de ahora suprimiremos el subndice Y de las medias poblacionales para simplificar la notacin. Por tanto, siem-
pre que utilicemos el smbolo sin indicacin de la variable a la que se refiere (X, Y, Z, etc.), asumiremos que se trata de
la media poblacional de Y.
Captulo 6. ANOVA de un factor 195

parar los grupos. La Figura 6.1 muestra los diagramas de caja correspondientes a los tres gru-
pos del estudio. En ninguno de ellos se observan casos atpicos; tampoco se aprecian indicios
de asimetra; y el grado de dispersin es parecido en todos ellos. El grupo de nivel de ansie-
dad medio es el que obtiene el rendimiento medio ms alto; el de nivel de ansiedad alto, el
que muestra el rendimiento medio ms bajo.

Figura 6.1. Diagramas de caja correspondientes a los tres grupos de la tabla 6.2

Veamos si las diferencias que se aprecian en los diagramas de caja son estadsticamente sig-
nificativas. Asumiendo que las tres muestras se han seleccionado aleatoriamente de pobla-
ciones normales con la misma varianza, la hiptesis de igualdad de medias puede contras-
tarse aplicando un ANOVA de un factor completamente aleatorizado:
1. Hiptesis: H0: bajo = medio = alto .
H1: j =/ jN para algn j o jN (j =/ jN).
2. Supuestos: tenemos 3 muestras aleatorias extradas de poblaciones que asumimos nor-
males y con la misma varianza.
3. Estadstico del contraste (ver ecuaciones [6.3], [6.5] y [6.6]):
_
Y = (9 + 14 + 7) / 3 = 10.
= [(9 ! 10)2 + (14 ! 10)2 + (7 ! 10)2 ] / 2 = 13.
MCA = 10 (13) = 130.
MCE = (10,89 + 13,33 + 15,11) / 3 = 13,11.
F = MCA MCE = 130 / 13,11 = 9,92.
4. Distribucin muestral: F se distribuye segn FJ !1, N !J = F3 !1, 30 ! 3 = F2, 27.
5. Zona crtica: F >$ F2, 27; 0,95 . 3,35.
6. Decisin: como el valor del estadstico del contraste (9,92) es mayor que el punto crti-
co (3,35), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hiptesis de igualdad de medias nos dice que
el rendimiento medio no es el mismo en los tres grupos, pero no nos dice qu grupos di-
fieren de qu otros. Para saber esto es necesario seguir haciendo comparaciones. Estas
comparaciones (llamadas mltiples) se estudian ms adelante en este mismo captulo.
7. Nivel crtico: p = P (F > $ 9,92) < 0,01.
196 Anlisis de datos (vol. II)

Supuestos del ANOVA de un factor

En el apartado anterior hemos presentado lo que podramos llamar una versin abreviada del
ANOVA de un factor completamente aleatorizado. Para contrastar la hiptesis de igualdad
de medias basta con conocer esta versin abreviada.
Pero el anlisis de varianza es una concrecin de un modelo estadstico en el que se basan
varios de los procedimientos que hemos estudiando y que estudiaremos ms adelante: el mo-
delo lineal general (ver el Captulo 1 del tercer volumen). Y ocurre que todo modelo estads-
tico necesita ir acompaado de una serie de aclaraciones referidas a las condiciones que deben
darse para que el modelo funcione correctamente. A estas condiciones las llamamos supues-
tos. En este apartado nos vamos a ocupar de los supuestos asociados al modelo de un factor.
El estadstico F propuesto en [6.6] permite tomar decisiones sobre la hiptesis de igual-
dad de medias porque, si se dan ciertas condiciones, se aproxima a la distribucin F con J !1
y N ! J grados de libertad. Estas condiciones (supuestos) son las que garantizan que la pro-
babilidad de cometer errores Tipo I y Tipo II es la que estamos asumiendo que es y no otra.
Al definir el estadstico F hemos considerado en todo momento que estbamos traba-
jando con muestras aleatorias procedentes de poblaciones normales con la misma varianza.
De estas condiciones iniciales es de donde se derivan los tres supuestos del ANOVA de un
factor completamente aleatorizado: independencia entre las puntuaciones, normalidad de las
poblaciones y homocedasticidad (varianzas poblacionales iguales).
El incumplimiento de uno o ms de estos supuestos puede hacer que la distribucin
muestral del estadstico F cambie y, consecuentemente, que el nivel de significacin adopta-
do (generalmente 0,05) no coincida con el nivel de significacin real, pasando a ser menor
(haciendo el contraste ms conservador) o mayor (haciendo el contraste ms liberal). Esto
significa que el incumplimiento de uno o ms de estos supuestos puede llevar a tomar deci-
siones equivocadas. Lo cual es especialmente relevante si se tiene en cuenta que los datos de
los estudios que suelen llevarse a cabo en el mbito de las ciencias sociales y de la salud
raramente cumplen todos los supuestos en los que se basa la distribucin muestral del esta-
dstico F. En general, el estadstico F es robusto (es decir, ofrece resultados correctos en
condiciones desfavorables) frente a desviaciones moderadas de los supuestos en los que se
basa (ver Glass, Peckham y Sanders, 1972), pero desviaciones ms acusadas pueden alterar
de forma importante la probabilidad de cometer errores Tipo I y II, y esto puede tener graves
consecuencias sobre las conclusiones del anlisis. Veamos algunos aspectos relacionados con
estos supuestos.

Independencia
En el anlisis de varianza de un factor, el supuesto de independencia se refiere a que cada
puntuacin debe ser independiente de las dems (independiente de las de su mismo grupo y
de las del resto de los grupos). En la prctica, la independencia se consigue con la seleccin
aleatoria de los sujetos y/o la asignacin aleatoria de los mismos a las condiciones del estu-
dio8. Las consecuencias del incumplimiento del supuesto de independencia pueden ser gra-

8
La independencia entre las puntuaciones no es un requisito exclusivamente estadstico; tambin es un requisito experi-
mental . Recordemos que, si las unidades de anlisis no se asignan aleatoriamente a las condiciones del estudio, no habr
forma de separar el efecto de la variable independiente o factor del efecto de posibles variables extraas.
Captulo 6. ANOVA de un factor 197

ves (ver Kenny y Judd, 1986; Scariano y Davenport, 1987), de modo que es muy importan
te cuidar los aspectos relativos a la seleccin y asignacin de sujetos.
No es infrecuente encontrar incumplimientos de este supuesto. Un ejemplo tpico se da
cuando se realizan repetidas mediciones de los mismos sujetos, de manera que el nmero to-
tal de puntuaciones es mayor que el nmero total de sujetos. En un diseo completamente
aleatorizado hay que procurar que cada puntuacin se corresponda con un sujeto distinto. No
obstante, esto no necesariamente garantiza la independencia entre las puntuaciones. Siempre
es posible encontrar sujetos distintos que no se comportan de forma independiente; es decir,
sujetos distintos que muestran comportamientos similares en la variable estudiada: miembros
de la misma familia, estudiantes de la misma clase, pacientes de un mismo hospital, parti-
cipantes en un experimento que interaccionan entre s en su actividad cotidiana, miembros
de un mismo colectivo social o religioso, etc.
Si existen dudas acerca de la aleatoriedad de las puntuaciones de un estudio concreto,
puede utilizarse la prueba de las rachas para contrastar la hiptesis de que las muestras uti-
lizadas son aleatorias (ver Apndice 2).

Normalidad
El segundo de los supuestos se refiere a que las puntuaciones de cada grupo constituyen una
muestra aleatoria extrada de una poblacin normal. En varios trabajos ha quedado probado
que el estadstico F es robusto frente al incumplimiento de este supuesto (Box, 1953; Jagers,
1980; Lix, Keselman y Keselman, 1996).
Si las desviaciones de la normalidad son muy acusadas, pueden detectarse fcilmente
utilizando sencillos mtodos grficos (Chambers, Cleveland, Kleiner y Tukey, 1983; Iman
y Conover, 1983; Wainer y Thissen, 1993). Los grficos de normalidad ya estudiados (Q-Q
normal y Q-Q normal sin tendencias; ver, en el Captulo 2, el apartado Contrastes sobre la
forma de una distribucin), son una herramienta muy til en este sentido. Pero no olvidemos
que estos grficos son apropiados, sobre todo, para valorar la normalidad de muestras gran-
des; con muestras pequeas es preferible contrastar la hiptesis de normalidad mediante
alguno de los procedimientos descritos en el Captulo 2.
Si las poblaciones muestreadas, aun no siendo normales, son simtricas o tienen forma
parecida (por ejemplo, todas positivamente asimtricas y leptocrticas), el estadstico F ofrece
resultados correctos incluso con tamaos muestrales relativamente pequeos (ver Tan, 1982).
No obstante, siempre es recomendable trabajar con tamaos muestrales moderadamente gran-
des para tener la garanta de que el estadstico F se comportar correctamente incluso cuan-
do las poblaciones originales se desven sensiblemente de la normalidad. En el caso de tener
que trabajar con muestras pequeas procedentes de poblaciones no normales, es preferible
utilizar procedimientos alternativos al estadstico F como, por ejemplo, la prueba de Kruskal-
Wallis estudiada en el Captulo 4 (Wilcox, 1996; Good y Lunneborg, 2006).

Igualdad de varianzas (homocedasticidad)


El ltimo de los supuestos del modelo de un factor afirma que las varianzas de las poblaciones
son iguales (ver [6.1]). Durante aos se ha venido aceptando, a partir de trabajos como el de
Horsnell (1953) o Box (1954a), que el estadstico F es robusto frente al incumplimiento de
este supuesto si la varianza ms grande no es ms de tres veces mayor que la ms pequea
198 Anlisis de datos (vol. II)

y los tamaos muestrales son iguales y no demasiado pequeos. Pero en las ciencias sociales
y de la salud no es infrecuente tener que trabajar con datos en los que la varianza ms grande
es ms de doce veces mayor que la ms pequea (Tomarken y Serlin, 1986; Wilcox, 1987a).
Y cuando las varianzas poblacionales son distintas, el comportamiento del estadstico F puede
resultar insatisfactorio incluso con tamaos muestrales iguales (Harwell, Rubinstein, Hayes
y Olds, 1992; Rogan y Keselman, 1977; Tomarken y Serlin, 1986; Wilcox, 1987a; Wilcox,
Charlin y Thompson, 1986; etc.). Y si los tamaos muestrales son diferentes, varios trabajos
(ver Glass, Peckham y Sanders, 1972, para una revisin) coinciden en sealar que el estads-
tico F deja de ser robusto: se convierte en muy conservador cuando las varianzas ms gran-
des corresponden a los grupos de mayor tamao (perdiendo, adems, potencia) y en marca-
damente liberal cuando las ms grandes corresponden a los grupos de menor tamao.
Estas consideraciones sugieren que, cuando se tiene intencin de utilizar el estadstico
F para contrastar la hiptesis de igualdad de medias, es ms que recomendable contrastar
previamente la hiptesis de igualdad de varianzas. Existen varios procedimientos para esto,
pero no todos ellos son igualmente robustos frente al incumplimiento del supuesto de nor-
malidad (ver OBrien, 1981). Uno de los ms utilizados (incluido en el SPSS) es el propues-
to por Levene (1960). Consiste en transformar las puntuaciones originales en _ desviaciones
D i j en valor absoluto de las medias de sus respectivos grupos (D i j = | Yi j ! Y j |) y aplicar el
estadstico F a las puntuaciones transformadas. Si las varianzas poblacionales son iguales,
las desviaciones Di j tendrn promedios parecidos en todos los grupos y servirn como refe-
rencia del grado del parecido existente entre las varianzas. Una F significativa llevar al
rechazo de la hiptesis de igualdad de varianzas. Brown y Forsythe (1974a) han propuesto
un procedimiento idntico al de Levene, pero utilizando las medianas en lugar de las medias
para obtener las puntuaciones transformadas D i j.
Si alguno de estos procedimientos9 lleva al rechazo de la hiptesis de igualdad de va-
rianzas, lo razonable es contrastar la hiptesis de igualdad de medias con alguna prueba
alternativa al estadstico F. Ya hemos mencionado que la prueba de Kruskal-Wallis estudia-
da en el Captulo 4 representa una alternativa robusta cuando no puede asumirse normali-
dad; pero, cuando no puede asumirse igualdad de varianzas, Vargha y Delaney (1998; ver
tambin Keselman, Games y Rogan, 1979) recomiendan utilizar los estadsticos propuestos
por Welch (1951) y Brown y Forsythe (1974b) basados en una modificacin del estadstico
F (estos estadsticos son los que incluye el SPSS como mtodos alternativos al estadstico F
y se describen al final de este captulo, en el Apndice 6).

Transformacin de las puntuaciones

Acabamos de sealar que el estadstico F requiere trabajar con poblaciones normales y homo-
cedsticas; y que, cuando no se dan estas condiciones, lo recomendable es utilizar procedi-
mientos alternativos (hemos mencionado la prueba de Kruskal-Wallis ver Captulo 4 y las
de Welch y Brown-Forsythe ver Apndice 6). No obstante, cuando las poblaciones no son

9
En Conover, Johnson y Johnson (1981) se comparan 60 procedimientos diferentes para contrastar la igualdad de varian-
zas. OBrien (1981) ha diseado un mtodo de bastante aceptacin (ver, por ejemplo, Pardo y San Martn, 1998, pg. 271);
Cochran (1941) ha propuesto un estadstico basado en el cociente entre la varianza ms grande y la suma de las J varian-
zas (ver Kirk, 1995, pg. 101); el mtodo de Hartley (1940, 1950), uno de los ms utilizados en el pasado, se basa en el co-
ciente entre la varianza ms grande y la ms pequea (ver Kirk, 1995, pg. 101); etc.
Captulo 6. ANOVA de un factor 199

normales y homocedsticas, todava existe la posibilidad de seguir utilizando el estadstico


F si a las puntuaciones originales se les aplica alguna transformacin que permita normalizar
las distribuciones y homogeneizar las varianzas.
Las transformaciones que ayudan a conseguir este objetivo son, lgicamente, no linea les:
la transformacin raz cuadrada (Y * = ) permite disminuir la asimetra positiva y hacer
ms homogneas las varianzas. La transformacin logartmica (Y * = log [Y ]) reduce todava
ms la asimetra positiva y tambin hace ms homogneas las varianzas. La presencia de va-
lores muy extremos puede atenuarse transformando los valores originales en sus recprocos
o inversos (Y * = 1/Y ). Y la transformacin arcoseno de la raz cuadrada (Y * = arcsen )
suele aplicarse para poder trabajar con proporciones (en Howell, 2002, pgs. 344-349, pue-
de encontrarse una buena descripcin del efecto que produce cada tipo de transformacin y
de cundo aplicarla).
Varios de los ms importantes manuales de anlisis de datos dedican un apartado ms
o menos extenso a este tema (ver, por ejemplo, Howell, 2002, pgs. 342-349; Kirk, 1995,
pgs. 103-107; Maxwell y Delaney, 2004, pgs. 117-120; etc.). Pero los beneficios de esta
prctica estn poco claros y han sido, y siguen siendo, objeto de controversia.
En algunas reas de conocimiento existe la costumbre de trabajar con transformaciones
no lineales (decibelios, pH, escala Ritcher, etc.). En las ciencias sociales y de la salud no es
infrecuente transformar la variable dependiente en rangos o en percentiles. Y muchos de los
estadsticos que utilizamos son transformaciones no lineales que se utilizan con el objetivo
de conocer sus distribuciones muestrales para poder realizar inferencias. Pero todas estas
transformaciones tienen el objetivo de simplificar las cosas y facilitar la interpretacin de los
datos. Y no parece que esta forma de proceder haya provocado ninguna controversia.
El problema surge cuando las transformaciones se aplican con el objetivo de que los da-
tos se ajusten a determinados supuestos estadsticos. Si bien no faltan quienes encuentran
ventajas o beneficios en esta prctica10, tampoco faltan quienes se muestran poco partidarios
de ella11. Transformar la variable dependiente para conseguir normalizar las distribuciones
y homogenizar las varianzas tiene consecuencias que dependen de varios factores (ver Ga-
mes, 1983); y ni esos factores ni sus consecuencias parecen estar del todo claros.
Por tanto, la transformacin de las puntuaciones originales no es algo que deba hacerse
de forma rutinaria. Es legtimo intentar hacer que las distribuciones con las que se va a tra-
bajar sean razonablemente simtricas, con pocos o ningn valor extremo y con varianzas ms
o menos homogneas (todo ello con el objetivo de poder aplicar el estadstico F ). Pero si los
datos ya poseen esas caractersticas o si existe algn procedimiento que pueda analizar con
solvencia los datos disponibles, no se obtendr ninguna ganancia evidente aplicando una
transformacin cuya nica consecuencia segura es la de obligar al investigador a trabajar en
una mtrica desprovista de significado. Y existen procedimientos robustos para analizar casi
cualquier tipo de datos si necesidad de transformarlos (ver Wilcox, 2005).
10
Ver , por ejemplo, Fleiss (1986), Levine y Dunlap (1982, 1983), Luh (1992), Rasmussen (1989).
11
Los beneficios de la transformacin logartmica no parecen estar claros; entre otras cosas, los valores extremos pueden
quedar poco corregidos en unos grupos y demasiado en otros (Games y Lucas, 1966). Las transformaciones raz cuadrada
y arcoseno de la raz cuadrada suelen reducir la potencia sin mejorar la probabilidad de cometer errores Tipo I (Budescu
y Appelbaum, 1981; Milligan, 1987). Las transformaciones logartmica, raz cuadrada y recproca pueden, ocasionalmente,
invertir el orden de las medias originales (Kruskal, 1978; Milligan, 1987; Oshima y Algina, 1992; Steel, Torrie y Dickey,
1997). Incluso entre los partidarios de las transformaciones se reconoce que una transformacin que reduce la asimetra en
un grupo puede incrementarla en otro, y que una transformacin que reduce la asimetra en todos los grupos puede hacer
ms heterogneas las varianzas (Levine y Dunlap, 1982).
200 Anlisis de datos (vol. II)

Efectos fijos y aleatorios


Ya hemos mencionado al comienzo del captulo que una variable independiente o factor pue-
de ser de efectos fijos o de efectos aleatorios. Recordemos que los niveles de un factor de
efectos fijos los establece el investigador o vienen dados, mientras que los niveles de un factor
de efectos aleatorios se eligen aleatoriamente de la poblacin de posibles niveles del factor.
Esta diferencia en la forma de establecer los niveles de un factor tiene algunas consecuencias
sobre algunos elementos del contraste.
Cuando un factor es de efectos aleatorios, las hiptesis no se plantean sobre las medias
poblacionales de los niveles del factor sino sobre su varianza. En un modelo de efectos fijos,
el anlisis se centra en los J niveles del factor; y, dado que esos J niveles representan todos
los niveles de inters, la hiptesis nula que se pone a prueba se refiere justamente a las me-
dias de esos J niveles. Sin embargo, en un modelo de efectos aleatorios, los niveles utiliza-
dos son solamente algunos de los posibles; en estos casos, la hiptesis nula debe reflejar, no
ya la diferencia entre las medias de esos niveles concretos, que tambin, sino la diferencia
entre todos los posibles niveles del factor. Esto se consigue contrastando la hiptesis nula de
que la varianza de las medias de todos los posibles niveles del factor vale cero:

H0 : = 0 [6.10]

Puesto que la varianza de las medias solamente valdr cero cuando todas las medias sean
iguales, el rechazo de la hiptesis formulada en [6.10] permitir concluir que las medias po-
blacionales no son iguales.
Las hiptesis que se contrastan con uno y otro tipo de factores nos ponen en la pista del
tipo de inferencias que es posible hacer. Con un factor es de efectos fijos, las inferencias se
limitan a los niveles concretos incluidos en el anlisis; los niveles que interesa estudiar son
justamente los que se estn estudiando; ellos constituyen la poblacin de niveles del factor;
si se replicara el experimento, aunque los sujetos seran, muy probablemente, diferentes, los
niveles del factor seran los mismos. Con los factores de efectos aleatorios no ocurre esto:
los niveles concretos incluidos en el anlisis solamente constituyen una muestra aleatoria de
la poblacin de niveles que interesa estudiar; las inferencias, por tanto, se realizan, no sobre
los niveles incluidos en el estudio, sino sobre la poblacin de posibles niveles del factor.
Excepto por lo que se refiere a algn detalle relacionado con la cuantificacin del tama-
o del efecto (ver siguiente apartado), el hecho de que un factor sea de efectos fijos o de efec-
tos aleatorios no tiene consecuencias sobre los clculos involucrados en los modelos de un
factor; s las tiene, sin embargo, en los modelos de ms de un factor, de modo que ms ade-
lante tendremos que volver sobre esto.

Medidas del tamao del efecto


Al igual que ocurre con el estadstico T, el valor del estadstico F no depende nicamente del
verdadero efecto del factor (es decir, de la verdadera diferencia entre las medias poblacio-
nales), sino del tamao de las muestras y del grado de variabilidad de las puntuaciones. Por
tanto, una F significativa no necesariamente se corresponde con un efecto importante o un
resultado relevante. Para detectar un efecto o resultado de ese tipo es necesario hacer algo
ms.
Captulo 6. ANOVA de un factor 201

En el caso de J = 2 medias independientes (ver, en el Captulo 4, el apartado Medidas


del tamao del efecto), hemos propuesto dos estrategias distintas para cuantificar el tamao
del efecto: una basada en la diferencia entre las medias (ver [4.13]) y otra basada en la
relacin entre las variables (ver [4.18]). Y hemos tenido ocasin de comprobar que ambas
estrategias son equivalentes porque, tratndose de una variable categrica y una cuantitati-
va, comparar los grupos y relacionar las variables son la misma cosa: si los grupos definidos
por la variable categrica difieren en la variable cuantitativa, entonces la variable categri-
ca est relacionada con la variable cuantitativa. En este escenario, el resultado que se obtie-
ne cuantificando la magnitud de la diferencia entre las medias es exactamente el mismo que
el que se obtiene cuantificando la magnitud de la relacin entre las variables.
En el caso de J > 2 medias, no es posible comparar las J medias con una resta (como en
el caso de dos medias), pero s es posible utilizar la varianza de las medias como una medi-
da del grado en que difieren (ver apartado anterior). Basndose en este criterio, Cohen (1988,
1992a) ha propuesto una medida del tamao del efecto basada en el cociente entre la varian-
za de las medias y la varianza de las puntuaciones individuales:

= [6.11]

Esta medida (a la que Cohen llama f ) es equivalente a la que ya estudiada para el caso de dos
medias (ver ecuacin [4.12]). Sustituyendo las medias y la varianza poblacionales por sus
correspondientes estimadores muestrales se obtiene

= = [6.12]

Para interpretar , Cohen (1992a) ha propuesto una regla general que puede servir de gua
en la mayor parte de los contextos aplicados: valores en torno a 0,10, 0,25 y 0,40 represen-
tan, respectivamente, efectos de tamao pequeo, mediano y grande.
La variabilidad entre las medias y la variabilidad entre las puntuaciones individuales tam-
bin puede utilizarse para obtener la proporcin de varianza comn, es decir, el grado de re-
lacin existente entre la variable categrica o factor y la variable cuantitativa o dependien-
te. Esto es justamente lo que hacen las medidas del tamao del efecto que estudiaremos a
continuacin: todas ellas intentan estimar el verdadero tamao del efecto en la poblacin (la
verdadera diferencia entre las medias) comparando distintas fuentes de variabilidad para
obtener una estimacin de la proporcin de varianza comn.
La ms antigua de estas medidas, eta-cuadrado, fue inicialmente propuesta por Pearson
(1905) e incorporada ms tarde por Fisher (1925, 1935) al contexto de los modelos de an-
lisis de varianza:

= = [6.13]

El valor de expresa el grado de asociacin (no solo lineal, sino de cualquier tipo) existen-
te entre la variable categrica o factor y la variable cuantitativa o dependiente (si se aplica
al caso de dos medias, = RXY). El numerador de es una cuantificacin de la variabilidad
existente entre las medias; el denominador, una cuantificacin de la variabilidad total; el
cociente entre ambas cuantificaciones indica cmo es de grande la variabilidad entre las
202 Anlisis de datos (vol. II)

medias en comparacin con la variabilidad total. Por tanto, puede interpretarse como la
proporcin de varianza que comparten la variable categrica o factor y la variable cuantita-
tiva o dependiente: indica el grado en que aumenta el conocimiento (o se reduce la incer-
tidumbre) de las puntuaciones de la variable dependiente por el hecho de saber a qu nivel
del factor (a qu grupo) pertenecen.
El problema de es que tiende a ofrecer estimaciones sesgadas de la verdadera pro-
porcin de varianza comn (en concreto, la sobrestima; es decir, tiende a ofrecer valores ms
altos que el del parmetro que estima; ver, por ejemplo, Fowler, 1985). Una correccin debi-
da a Wherry (1931) permite reducir ese sesgo:

= [6.14]

Tambin para corregir el sesgo de , Kelley (1935, pgs. 554-559) y, posteriormente, Pe-
ters y Van Voorhis (1940) y Cohen (1966), han propuesto utilizar una modificacin de
llamada psilon-cuadrado:

= [6.15]

Esta sencilla modificacin de permite obtener estimaciones de la verdadera proporcin


de varianza comn solo ligeramente sesgadas. Su comportamiento, en general, es sensible-
mente mejor que el de (Fowler, 1985).
Por ltimo, Hays (1963, 1994) ha propuesto una medida de asociacin llamada omega-
cuadrado ( ). Esta medida es muy parecida a y ha llegado a convertirse en una de las
de mayor aceptacin12. Su valor concreto13 depende de que el factor sea de efectos fijos o de
efectos aleatorios (ver Winer, Brown y Michels, 1991, pgs. 124-126). Si el factor es de efec-
tos fijos14,

= [6.16]

y si el factor es de efectos aleatorios,

= [6.17]

(n se refiere al tamao de cada grupo o al promedio de los tamaos en caso de que sean dis-
tintos). La ecuacin [6.17] tambin se conoce como coeficiente de correlacin intraclase,
una medida que indica el grado de parecido entre las puntuaciones del mismo grupo en com-
paracin con el grado de parecido entre las puntuaciones de grupos distintos.

12
No deja de ser sorprendente que, a pesar de ser de la medida de asociacin que acapara las preferencias de los expertos,
muchos programas de anlisis estadstico, incluido el SPSS, no la incluyan como tal entre sus opciones.
13
Si el estadstico F es menor que 1 (es decir, si MCA < MCE ), las ecuaciones [6.16] y [6.17] ofrecen un valor negativo.
Puesto que una proporcin no puede ser negativa, cuando ocurre esto se considera que 2 vale cero.
14
El valor de tambin puede obtenerse a partir del estadstico F. Cuando el factor es de efectos fijos, la ecuacin [6.16]
equivale a = [(J ! 1) (F ! 1)] / [N + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuacin [6.17] equivale
a = (F ! 1) / [(N ! 1) + F].
Captulo 6. ANOVA de un factor 203

De las cuatro medidas de asociacin propuestas, ( , , y ), las tres lti-


mas son preferibles a porque el sesgo de es mayor. Entre el resto de medidas, aunque
todas ellas ofrecen resultados muy parecidos, tiene la ventaja de que puede aplicarse a
modelos y diseos ms complejos (Maxwell, Camp y Arvey, 1981). Adems, el sesgo de 2
como estimador de la verdadera proporcin de varianza comn es muy pequeo (ver Carroll
y Nordholm, 1975).
Para interpretar el tamao de , Cohen (1988) ha propuesto una especie de regla general
que puede resultar til en muchos contextos aplicados: valores en torno a 0,01, 0,06 y 0,14
indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
En los datos de la Tabla 6.2 tenemos 3 grupos (J = 3) y 10 sujetos por grupo (N = 30).
Y sabemos que MCA = 130 y MCE = 13,11. Aplicando las ecuaciones [6.13] a [6.16] a estos
datos obtenemos

= = =

= =

= = =

= = =

El valor de es mayor que el del resto de las medidas (ya hemos sealado que, como esti-
mador de la verdadera proporcin de varianza comn, ofrece estimaciones infladas). El
resto de medidas toman el mismo valor. La interpretacin de una medida de este tipo (va-
rianza comn) puede hacerse en trminos del grado de incertidumbre en que se reduce nues-
tro conocimiento de la variable dependiente por el hecho de saber a qu grupo pertenece ca-
da sujeto. En nuestro ejemplo, saber a qu grupo (nivel de ansiedad) pertenecen los sujetos
reduce nuestra incertidumbre (mejora nuestro conocimiento) sobre su rendimiento un 38 %.
Y de acuerdo con la regla de Cohen para este tipo de medidas (0,01; 0,06; 0,14), puede
concluirse que la intensidad de la asociacin encontrada es alta.
Aplicando la ecuacin [6.12] para calcular la medida del tamao del efecto con estos
mismos datos obtenemos

= =

Valor que, de nuevo con la regla de Cohen (0,10; 0,25; 0,40), representa un efecto de tama-
o grande.
Es evidente que las medidas del tamao del efecto ofrecen informacin adicional a la del
estadstico F : contribuyen a distinguir entre la significacin estadstica de un resultado y su
relevancia o importancia prctica (Kirk, 1996); sirven para estimar la potencia de un contras-
te y elegir el tamao muestral idneo al planificar un estudio (Cohen, 1988; ver siguiente
apartado); y facilitan la recopilacin de los resultados de diferentes estudios al realizar un
meta-anlisis (Hunter y Schmidt, 2004; Rosenthal, 1991). stas son, sin duda, algunas de las
razones por las que muchos autores (tambin los editores de las ms importantes revistas
cientficas), recomiendan utilizar las medidas del tamao del efecto e incluirlas en los in-
204 Anlisis de datos (vol. II)

formes de investigacin (Abelson, 1995; Cohen, 1988; Murphy, 1997; Thomson, 1994, 1997;
etc.). Especialmente relevantes en este sentido son las recomendaciones del informe de Wil-
kinson y la APA Task Force on Statistical Inference (1999).
No obstante, ya hemos sealado (ver, en el Captulo 1, el apartado Tamao del efecto)
que las medidas del tamao del efecto no deben ser consideradas una panacea en el anlisis
de datos. La razn principal de esto es que su significado no parece estar del todo claro (en
relacin con esta problemtica merecen destacarse las interesantes reflexiones de Chow,
1996, pgs. 89-118; y OGrady, 1982).

Clculo de la potencia y del tamao muestral

La estrategia que presentamos en este apartado para calcular la potencia asociada al esta-
dstico F se basa en una medida del tamao del efecto llamada (phi) y en la distribucin
F no centrada (Tabla G del Apndice final)15.
Si la hiptesis de igualdad de medias es verdadera, el estadstico F sigue el modelo de
distribucin de probabilidad F con parmetros J !1 y N ! J (sus grados de libertad). Si la
hiptesis de igualdad de medias es falsa, el estadstico F se distribuye segn la F no centra-
da con un tercer parmetro de no-centralidad llamado (letra griega lambda):

= [6.18]

( es la media total no ponderada). Un parmetro de no-centralidad indica cmo de grande


es la variabilidad entre las medias en comparacin con la variabilidad de las puntuaciones
individuales. Por tanto, expresa el grado en que difieren las medias poblaciones: cuanto
mayor es la diferencia entre las medias, mayor es el valor de . Cuando las medias pobla-
cionales son iguales, vale cero; en cuyo caso, la distribucin del estadstico F es la dis-
tribucin F centrada (con los dos parmetros correspondientes a los grados de libertad del
numerador y del denominador). Aunque existen tablas de la distribucin F no centrada ba-
sadas en el parmetro , la mayor parte de ellas utilizan la transformacin

= [6.19]

La potencia asociada al estadstico F puede obtenerse de la Tabla G a partir del valor de


y de los grados de libertad del estadstico F. Para saber cul ser la potencia de un contras-
te, las medias y la varianza poblacionales incluidas en [6.18] pueden estimarse a partir de
estudios previos. El numerador de [6.18] tambin puede estimarse mediante el valor o can-
tidad que, a partir de argumentos tericos o prcticos, se considera mnimamente relevante.
Si no se tiene esta informacin, puede disearse un estudio piloto, con unos pocos datos, pa-

15
Un tratamiento completo de todo lo relacionado con la definicin y clculo de la potencia puede encontrarse en Cohen
(1988). Kirk (1995, pgs. 182-188) y Maxwell y Delaney (2004, pgs. 120-126) presentan el clculo de la potencia a par-
tir de grficos explcitamente diseados para ello. Y Hays (1994, pgs. 408-410) utiliza un procedimiento basado en su
estadstico 2. Todas estas aproximaciones, incluida la que nosotros proponemos aqu, son equivalentes, es decir, ofrecen
los mismos resultados (ver Winer, Brown y Michels, 1991, pgs. 126-140).
Captulo 6. ANOVA de un factor 205

ra obtener una estimacin de estos parmetros. Cualquiera que sea la forma de obtener esta
informacin, una vez obtenida el valor de puede estimarse mediante16

= = = [6.20]

En nuestro ejemplo sobre la relacin entre ansiedad y rendimiento con J = 3 grupos (ver Ta-
bla 6.2) hemos obtenido MCA = 130 y MCE = 13,11. Por tanto,

= =

Para calcular la potencia del contraste llevado a cabo con los datos de la Tabla 6.2 necesi-
tamos = 0,05, gl1 = J ! 1 = 2, gl2 = N ! J = 27 y = 2,57. En la Tabla G del Apndice fi-
nal (redondeando a gl2 = 30 y = 2,6), encontramos que la probabilidad de cometer errores
Tipo II () vale 0,02. Por tanto, la potencia de este contraste vale 1 ! = 1 ! 0,02 = 0,98.
Puesto que tanto gl2 como se han redondeado por arriba, es muy posible que el valor de
la potencia sea una o dos dcimas menor de 0,98.
Calcular la potencia de un contraste despus de llevarlo a cabo tiene el inters de saber
con qu potencia se ha trabajado (potencia observada) asumiendo que el efecto en la po-
blacin es el efecto observado en la muestra. Si la potencia observada es alta, perfecto; pero
si la potencia observada es baja, ya no hay forma de arreglar el problema. Lo realmente in-
teresante es poder disear cada estudio de tal forma que pueda conocerse de antemano la
potencia con la que se va a trabajar. Y esto pasa por calcular el tamao muestral necesario pa-
ra alcanzar una determinada potencia. Puesto que la potencia depende del nivel de signifi-
cacin (), del tamao del efecto ( ) y del nmero (J ) y tamao (n) de los grupos, una vez
establecido el nivel de significacin (generalmente 0,05), el tamao del efecto que se desea
poder detectar o que se considera mnimamente relevante ( o ), la potencia que se desea
alcanzar (generalmente 0,80) y el nmero de grupos con el que se va a trabajar (J ), tenemos
todo lo necesario para calcular el tamao muestral. Ahora bien, para esto hace falta separar
el tamao muestral del resto de los elementos en la ecuacin [6.20]. Al eliminar el tamao
muestral de [6.20], queda la medida del tamao del efecto definida por Cohen (ver [6.12]):

= n = [6.21]

(n se refiere al tamao de cada grupo). Supongamos que en un estudio con 3 grupos (gl1 = 2)
y = 0,05 queremos que la potencia del contraste para detectar un efecto de tamao medio
( = 0,25 segn la regla de Cohen) valga 0,80 ( = 0,20). Tenemos que utilizar la Tabla G
al revs de como lo hemos hecho antes, pero ahora nos encontramos con que no conocemos
los grados de libertad gl2, pues dependen del tamao muestral que estamos buscando. Esto,
sin embargo, no representa ningn problema porque utilizar un valor de partida de 30 o ma-
yor no hace cambiar las cosas. Podemos elegir, por ejemplo, gl2 = . As, con gl1 = 2, gl2 =
y = 0,20, la Tabla G ofrece un valor de 1,8 para . Por tanto, n = (1,8 / 0,25)2 = 51,8. Es
decir, para alcanzar una potencia de 0,80 hacen falta, redondeando al entero mayor, 52 suje-
tos por grupo.

16
Aunque la ecuacin [6.18] permite entender fcilmente el significado del parmetro de no-centralidad , este parmetro
puede estimarse fcilmente mediante (J ! 1) F. En cuyo caso, puede estimarse mediante = .
206 Anlisis de datos (vol. II)

Para comprobar que nuestros clculos son correctos podemos realizar la accin inver-
sa de averiguar cunto vale la potencia de un estudio con J = 3 grupos (gl1 = 2), 52 sujetos
por grupo (gl2 = 153) y un efecto de tamao medio ( = 0,25). Con estos datos, el parmetro
vale = = 1,80. Y la Tabla G indica que el valor de es algo menor de 0,24.
Por tanto, el valor de la potencia, 1 ! , es algo mayor de 0,76.

Comparaciones mltiples entre medias


La hiptesis nula que se contrasta con el estadstico F en el ANOVA de un factor es una
hiptesis global referida al conjunto de las J medias poblacionales incluidas en el estudio.
El rechazo de esta hiptesis permite concluir que no todas las medias poblacionales son igua-
les, pero no permite concretar qu medias difieren de qu otras. En este sentido, un estadsti-
co F significativo solamente es, por lo general, el primer paso del anlisis. Tras rechazar la
hiptesis global de igualdad de medias, todava falta por aclarar dnde se encuentran las
diferencias. Esto se consigue aplicando un conjunto de procedimientos agrupados bajo la
denominacin de comparaciones mltiples.
En este apartado se describen algunos de estos procedimientos17 agrupados en dos blo-
ques: (1) comparaciones planeadas o a priori y (2) comparaciones post hoc o a posteriori.
Pero antes debemos revisar algunos conceptos.

Comparaciones lineales
En el contexto de los contrastes sobre medias, una comparacin lineal (o contraste lineal)
es una combinacin lineal (suma ponderada) de medias con pesos o coeficientes, no todos
iguales a cero, que suman cero.
Utilizaremos los smbolos para representar la h-sima comparacin entre J medias
poblacionales y para representar el valor muestral o estimado de esta comparacin.
Aclaremos la definicin de comparacin lineal que acabamos de presentar. Imaginemos
un estudio con cinco tratamientos o grupos y, por tanto, con cinco medias poblacionales: 1,
2, 3, 4 y 5. Con estas cinco medias es posible realizar, por ejemplo, comparaciones en-
tre pares de medias como
= 1 ! 2
[6.23]
= 2 ! 3

Pero las comparaciones entre pares de medias no son las nicas que es posible plantear. Tam-
bin es posible plantear comparaciones del tipo
= ( 1 + 2 ) ! ( 3 + 4 )
= ( 1 + 2 + 3 ) / 3 ! ( 4 + 5 ) / 2 [6.24]
= ( 1 + 2 + 3 + 4 ) / 4 ! 5

17
Los procedimientos diseados para efectuar comparaciones mltiples entre medias son muchos y muy variados. El lector
interesado en ampliar los aqu expuestos puede consultar, por ejemplo, Hochberg y Tamhane (2009), Hsu (1996) , Miller
(1981) y Toothaker (1991, 1999).
Captulo 6. ANOVA de un factor 207

En se estn comparando las medias 1 y 2 tomadas juntas con las medias 3 y 4 tomadas
juntas; en , las medias 1, 2 y 3 tomadas juntas con las medias 4 y 5 tomadas juntas; y en
, las cuatro primeras medias tomadas juntas con la ltima.
Las llamamos comparaciones mltiples porque se estn planteando varias comparacio-
nes simultneamente. Cada una de estas comparaciones (y cualquier otra que se nos ocurra
formular) puede expresarse como una combinacin lineal de J medias con coeficientes cj
conocidos que verifican dos condiciones: (1) al menos uno de los coeficientes cj es distinto
de cero y (2) la suma de todos ellos vale cero. Es decir:

= c1 1 + c2 2 + + cJ J = cj j [6.25]

con cj =/ 0 para algn j, y ' cj = 0. La pregunta que surge en este momento es cmo asignar
coeficientes a las medias para que la comparacin resultante exprese justamente la dife-
rencia entre medias que se desea plantear.
Para asignar coeficientes correctamente hay que tener presente que cualquiera que sea
el tipo de comparacin planteada, en una comparacin concreta siempre se estn comparan-
do dos cosas. Aunque sean varias las medias involucradas, la comparacin siempre consis-
te en comparar una cosa (una media o grupo de medias) con otra cosa (otra media o grupo
de medias). Y esas dos cosas se comparan restndolas (igual que hemos hecho, por ejemplo,
para comparar dos medias con la prueba T de Student).
La asignacin de coeficientes para comparar dos medias (como en las comparaciones
y propuestas en [6.23]) es bastante simple: se asigna un 1 a una de las medias que se de-
sea comparar, un !1 a la otra media (da igual a cul de las dos medias se le asigne el valor
negativo) y ceros al resto de las medias para eliminarlas de la comparacin. As, para defi-
nir las comparaciones y de [6.23] en el formato propuesto en [6.25] haremos

= (1) 1 + (!1) 2 + (0) 3 + (0) 4 + (0) 5


= (0) 1 + (1) 2 + (!1) 3 + (0) 4 + (0) 5

Para comparar dos grupos de medias (situacin que se da cuando en uno de los dos grupos
o en los dos hay al menos dos medias, como en las comparaciones , y propuestas
en [6.24]), se asignan a las medias de cada grupo coeficientes iguales al nmero de medias
que forman parte del otro grupo y, arbitrariamente, se hacen negativos los coeficientes de uno
de los dos grupos. As, al definir las comparaciones y de [6.24] en el formato pro-
puesto en [6.25], nos queda

= (2) 1 + (2) 2 + (2) 3 + (!3) 4 + (!3) 5


= (1) 1 + (1) 2 + (1) 3 + (1) 4 + (!4) 5

El tamao de los coeficientes es irrelevante. Aunque en se han asignado los coeficien-


tes 1, 1, 1, 1 y !4, igualmente se podran haber asignado los coeficientes 2, 2, 2, 2 y !8, o
los coeficientes 5, 5, 5, 5 y !20.
Cuando los dos grupos de medias que se comparan tienen el mismo nmero de medias
(como ocurre en las comparaciones , y ), la situacin se simplifica bastante asignan-
do nicamente unos y ceros:

= (1) 1 + (1) 2 + (!1) 3 + (!1) 4 + (0) 5


208 Anlisis de datos (vol. II)

Vemos, pues, que cualquier tipo de diferencia entre medias puede plantearse como una com-
binacin lineal si se eligen los coeficientes apropiados.
Si, en lugar de utilizar las medias
_ poblacionales j para definir una comparacin , se
utilizan las medias muestrales Y j , el resultado es una comparacin muestral que sirve co-
mo estimador de la comparacin poblacional:

= = [6.26]

Lo interesante de este tipo de combinaciones lineales no es solo que permiten definir cual-
quier comparacin entre medias, sino que es muy fcil trabajar con ellas porque conocemos
tanto su valor esperado como su varianza (ver Pardo y San Martn, 1998, pg. 289):

= y = = [6.27]

No todas las comparaciones que pueden definirse con J medias son independientes entre s:
algunas de ellas pueden obtenerse combinando otras. Por ejemplo, el nmero de compara-
ciones por pares que pueden definirse con J medias es J (J ! 1) / 2 (es decir, combinaciones
de J elementos tomados de 2 en 2). As, con J = 4 medias es posible definir 4 (4 !1) / 2 = 6
comparaciones por pares. Pero no todas ellas son independientes entre s, lo cual significa
que incluyen informacin redundante. Por ejemplo, la comparacin 2 ! 3 puede obtener-
se a partir de las comparaciones 1 ! 2 y 1 ! 3 :
( 1 ! 3) ! ( 1 ! 2) = 2 ! 3

Del mismo modo, la comparacin ( 1 + 2) ! (2) 3 puede obtenerse a partir de las compa-
raciones 1 ! 3 y 2 ! 3 :
( 1 ! 3) + ( 2 ! 3) = ( 1 + 2) ! (2) 3

A las comparaciones independientes entre s se les llama comparaciones o contrastes or-


togonales. Existe una sencilla regla para saber si dos comparaciones son ortogonales. Con-
sideremos un diseo con J medias y dos comparaciones referidas a esas medias: la primera,
, con coeficientes simbolizados por cj1 y la segunda, , con coeficientes simbolizados por
cj 2. Dos comparaciones son ortogonales si se verifica

= 0 [6.28]

Esta condicin es vlida cuando los tamaos muestrales son iguales. Si los tamaos mues-
trales no son iguales debe verificarse

= 0 [6.29]

Supongamos que en un diseo con, por ejemplo, 3 medias, definimos las siguientes dos com-
paraciones (con nj iguales):

= (1) 1 + (!1) 2 + (0) 3


= (1) 1 + (0) 2 + (!1) 3
Captulo 6. ANOVA de un factor 209

Aplicando la regla propuesta en [6.28], puede comprobarse que y no son ortogonales,


pues la suma del producto de sus coeficientes no vale cero: (1) (1) + (!1) (0) + (0) (!1) = 1.
Sin embargo, la comparacin:
= (1) 1 + (1) 2 + (!2) 3

s es independiente de la comparacin ; la suma de los productos de sus coeficientes vale


cero: (1) (1) + (!1) (1) + (0) (!2) = 0.
Con J medias solo es posible definir J ! 1 comparaciones ortogonales. Con 3 medias, por
ejemplo, solo es posible definir 2 comparaciones independientes entre s. Esto significa que,
una vez definida la comparacin , la nica comparacin que es independiente de ella es
. Sin embargo, con tres medias, y no son las nicas dos comparaciones ortogona-
les. Otras dos comparaciones independientes entre s (aunque no de las anteriores) son:
= (1) 1 + (0) 2 + (!1) 3
= (1) 1 + (!2) 2 + (1) 3

pues (1) (1) + (0) (!2) + (!1) (1) = 0. La utilidad de trabajar con comparaciones ortogonales
est precisamente en que no contienen informacin redundante. Y la importancia de esta
propiedad se comprender enseguida al estudiar algunos de los procedimientos incluidos en
los siguientes apartados.

Tasa de error en las comparaciones mltiples

La clave de la discusin referida a los procedimientos de comparaciones mltiples est en


la probabilidad asociada a los errores Tipo I. Consideremos un ejemplo con J = 4 grupos. El
rechazo de la hiptesis nula de igualdad de medias implica que no todas las medias pobla-
cionales son iguales. Si, tras esto, decidimos comparar, por ejemplo, cada media con cada
otra para concretar qu medias difieren entre s, tendremos que efectuar J (J !1) / 2 = 6 com-
paraciones. En cada una de estas comparaciones existe una probabilidad de cometer un
error Tipo I. Si vale, por ejemplo, 0,05, la probabilidad de cometer un error Tipo I en ca-
da comparacin valdr 0,05. Pero, cul ser la probabilidad de cometer al menos un error
Tipo I al efectuar las seis comparaciones? Es decir, cul ser la probabilidad de cometer
uno, dos, tres, ..., seis errores en las seis comparaciones? Considerando cada uno de esos
contrastes como un ensayo de Bernoulli con probabilidad de error = 0,05, la probabilidad
de no cometer ningn error en los seis ensayos (en las seis comparaciones) vendr dada por:

P (ningn error Tipo I) = 0,050 0,956 = 0,735.

Y la probabilidad de cometer algn error en las seis comparaciones (es decir, la probabilidad
de cometer al menos un error), valdr:

P (un error Tipo I o ms) = 1 ! 0,735 = 0,265.

Es decir, al realizar seis comparaciones, la probabilidad de cometer algn error Tipo I es ms


de 5 veces ms grande que si se realiza una sola comparacin. En general, la probabilidad
210 Anlisis de datos (vol. II)

de cometer al menos un error Tipo I al efectuar k comparaciones utilizando en cada com-


paracin vale18
P (un error Tipo I o ms) = 1 ! (1 ! )k [6.30]
Si el nmero de grupos es grande, k tambin lo ser y la probabilidad de cometer algn error
Tipo I ser muy alta. Con 6 grupos, por ejemplo, pueden hacerse k = 15 comparaciones entre
pares de medias; y la probabilidad de cometer algn error Tipo I vale 0,54. Con 10 grupos
pueden hacerse k = 45 comparaciones entre pares de medias; y la probabilidad de cometer
algn error Tipo I vale 0,90 (siempre con = 0,05 en cada comparacin). Estas considera-
ciones, adems de alertar sobre la necesidad de controlar la probabilidad de cometer errores
Tipo I cuando se llevan a cabo varias comparaciones con los mismos datos, permiten intro-
ducir un concepto importante.
Comencemos llamando tasa de error Tipo I, o simplemente tasa de error, a la probabi-
lidad de cometer algn error Tipo I en k comparaciones. Al realizar una sola comparacin
con un nivel de significacin , la tasa de error es . Llamaremos tasa de error por compa-
racin ( C ) a la probabilidad de cometer un error Tipo I al realizar una sola comparacin:
C = [6.31]
Al comparar dos medias con la prueba T de Student se est realizando una nica compa-
racin. Por tanto, la probabilidad de cometer un error Tipo I, es decir, la tasa de error por
comparacin ( C ) es justamente el valor adoptado para (generalmente 0,05).
Si, en lugar de una comparacin, se lleva a cabo un conjunto o familia de k compara-
ciones utilizando en cada una de ellas un nivel de significacin , la tasa de error aumenta.
Llamaremos tasa de error por familia de comparaciones ( F ) a la probabilidad de come-
ter al menos un error Tipo I al realizar un conjunto de comparaciones:
F = 1 ! (1 ! C ) k [6.32]
En un diseo con varios grupos es posible comparar una media con otra, todas las medias
entre s por pares, las medias de dos grupos con la media de otro grupo, un grupo de medias
con otro grupo de medias, etc. De ese conjunto de posibles comparaciones, el investigador
estar interesado, por lo general, solamente en unas pocas. Ese conjunto de comparaciones
que realmente interesa llevar a cabo (y, por tanto, el conjunto de comparaciones que de he-
cho se llevan a cabo) constituyen lo que llamamos familia de comparaciones19. Y, puesto que
la tasa de error asociada a ese conjunto de comparaciones ( F ) es sensiblemente mayor que
, lo razonable es utilizar alguna estrategia que permita reducirla.
Los procedimientos de comparaciones mltiples han sido diseados precisamente para
controlar la tasa de error cuando se llevan a cabo varias comparaciones con los mismos da-
tos. En los siguientes apartados veremos que existen varios de estos procedimientos. La dife-
rencia fundamental entre ellos radica en la forma concreta de controlar la tasa de error. El he-
cho de que se hayan diseado diferentes procedimientos para resolver un mismo problema

18
Esta probabilidad es exacta si las J (J !1) / 2 comparaciones son independientes entre s. Pero esas comparaciones no son,
de hecho, independientes (ver apartado anterior). Cuando las comparaciones no son independientes, la probabilidad de
cometer algn error Tipo I es difcil de calcular, pero puede demostrarse que siempre es menor o igual que 1!(1! )k.
19
Algunos autores (por ejemplo, Kirk, 1995, pg. 122; ver tambin Hochber y Tamhane, 2009, pgs. 5-12) hablan de la tasa
de error por experimento tomando como referencia el conjunto de posibles comparaciones asociadas a un experimento.
Captulo 6. ANOVA de un factor 211

es un claro sntoma de que ninguno de ellos ofrece una solucin del todo satisfactoria. El con-
trol que consigue cada uno de ellos sobre la tasa de error depende de cosas como el nmero
de grupos (muchos o pocos), el tamao de los grupos (pequeo o grande, el mismo o distin-
to), las varianzas poblacionales (iguales o distintas), el tipo de comparaciones (ortogonales
o no), etc. No obstante, los procedimientos que hemos seleccionado suelen ofrecer un com-
portamiento aceptable cuando se dan las condiciones para las que han sido diseados.

Comparaciones planeadas o a priori


Cuando se disea un estudio con varios grupos con intencin de compararlos, lo habitual es
tener alguna expectativa acerca de lo que va a ocurrir (qu grupos van a diferir de qu otros).
Pero tambin son frecuentes los estudios en los que no se tiene una expectativa concreta o,
aun tenindola, se desea explorar otras posibilidades. En el primer caso, lo razonable es pla-
nificar unas pocas comparaciones antes de recoger los datos. En el segundo, lo habitual es
realizar muchas comparaciones (por ejemplo, todas las comparaciones por pares) para detec-
tar dnde estn realmente las diferencias.
A las comparaciones basadas en expectativas concretas se les llama planeadas o a priori.
Se planifican antes de recoger o examinar los datos y suelen ser pocas (dos, tres, cuatro). Los
procedimientos que analizan estas comparaciones no necesitan ir precedidos o acompaados
del estadstico F y, por tanto, su aplicacin es independiente de que el estadstico F sea o no
significativo. En este apartado se describen algunos de estos procedimientos.
A las comparaciones que se llevan a cabo tras examinar los datos se les llama post hoc
o a posteriori. Puesto que estas comparaciones no van dirigidas por expectativas previas, sue-
len ser ms numerosas que las a priori para intentar que no se escape nada (son ms bien de
tipo exploratorio). Se llevan a cabo tras detectar que existen diferencias (es decir, tras obte-
ner un estadstico F significativo). Se describen en el siguiente apartado.

Prueba de Dunn-Bonferroni

Para aplicar la prueba de Dunn-Bonferroni20 no es necesario aprender nada nuevo. En reali-


dad se trata del estadstico T de Student ya estudiado (y de su distribucin muestral t) acom-
paado de una sencilla estrategia de control de la tasa de error.
Dunn (1961) ha utilizado la desigualdad de Bonferroni21 (segn la cual la probabilidad
conjunta de dos o ms sucesos nunca excede la suma de sus probabilidades individuales) pa-

20
A este procedimiento tambin se le llama prueba de Dunn; la razn es que, a pesar de tratarse de un procedimiento cono-
cido desde hace tiempo, fue Dunn (1961) el primero en formalizarlo y en presentar las tablas necesarias para poder utilizarlo.
Tambin se le llama prueba de Bonferroni, por estar basado en la desigualdad de Bonferroni (los programas informticos
suelen utilizar este nombre). Nosotros hemos querido reconocer la aportacin de ambos llamando al procedimiento prueba
de Dunn-Bonferroni.
21
idk (1967) ha demostrado que F siempre es menor que 1 ! (1 ! C )k y ha propuesto utilizar C = 1 ! (1 ! F )1/k como
nivel de significacin en cada comparacin. Esta solucin ofrece para C valores ligeramente mayores que /k mantenien-
do al mismo tiempo la tasa de error total en el valor inicialmente establecido (F). Esta forma de controlar la tasa de error
hace el contraste algo ms potente, pero la ganancia en potencia es tan pequea que, en la prctica, la estrategia de Dunn-
Bonferroni, ms sencilla de calcular, ha tenido mayor aceptacin (para ms detalles sobre la solucin de idk puede
consultarse Kirk, 1995, pgs. 140-142; Holland y Copenhaver, 1988).
212 Anlisis de datos (vol. II)

ra demostrar que, al realizar k comparaciones, la tasa de error total (la tasa de error por fami-
lia de comparaciones) siempre es igual o menor que la suma de las tasas de error de cada
comparacin individual:
$ k C
F < [6.33]
Esto significa que, si cada una de las k comparaciones se lleva a cabo con un nivel de signifi-
cacin C = F / k = 0,05/ k, la tasa de error total F siempre ser igual o menor que 0,05.
No debe pasarse por alto el hecho de que la ecuacin [6.33] es una desigualdad. Cuando
se utiliza para corregir la tasa de error de un conjunto de comparaciones ortogonales funciona
correctamente: F vale aproximadamente 0,05. Pero cuando se utiliza para corregir la tasa
de error de un conjunto de comparaciones no ortogonales se vuelve conservadora: F pue-
de ser sensiblemente menor de 0,05 (tanto menor cuanto mayor sea el valor de k) (ver Max-
well y Delaney, 2004, pg. 203). Por tanto, aunque esta forma de corregir la tasa de error pue-
de aplicarse a cualquier tipo de comparacin, lo recomendable es que se utilice solamente
con comparaciones ortogonales o con un nmero reducido de comparaciones no ortogonales.
El procedimiento permite valorar cualquier comparacin lineal del tipo descrito en [6.26]
mediante el contraste de la hiptesis nula de que la comparacin vale cero:

H0 (h) : = c1 1 + c2 2 + + cJ J = 0 [6.34]

Ya sabemos que, cuando se comparan dos medias, la hiptesis nula afirma que la diferencia
entre ellas vale cero; tambin sabemos que, cuando se comparan ms de dos medias, en rea-
lidad se estn comparando dos cosas: una media con varias, o varias medias con varias; la
hiptesis nula recoge la idea de que esas dos cosas que se comparan son iguales; es decir, que
su diferencia vale cero.
Puesto que puede estimarse mediante (ver ecuacin [6.26]), y el valor esperado
y la varianza de son valores conocidos (ver ecuacin [6.27]), es posible tipificar el valor
de mediante

TDB = = [6.35]

En la transformacin [6.35] se est asumiendo que las J varianzas poblacionales son igua-
les, de ah que se utilice MCE como nico estimador de esas varianzas. Si no puede asumirse
que las varianzas poblacionales son iguales, basta con modificar el denominador sustitu-
yendo MCE por cada una de las varianzas muestrales:

T NDB = [6.36]

La Tabla J del Apndice final contiene los puntos crticos t bilaterales22 de la distribucin
muestral de TDB y T NDB para F = 0,05 y F = 0,01, y para diferentes valores de k (nmero de
22
Estos puntos crticos se han obtenido de la distribucin t con glerror grados de libertad dividiendo el correspondiente nivel
de significacin bilateral entre el nmero de comparaciones planeadas: ( /2)/k. La tabla ofrece los puntos crticos de la cola
derecha de la distribucin, de ah que el numerador de TDB se tome en valor absoluto.
Captulo 6. ANOVA de un factor 213

comparaciones) y glerror (grados de libertad del denominador de [6.35] y [6.36]). La diferen-


cia entre las distribuciones muestrales de TDB y T NDB est nicamente en el valor de glerror. En
el caso de TDB , estos grados de libertad son los asociados a MCE, es decir, N ! J. En el caso
de T NDB, estos grados de libertad se obtienen mediante

glNerror = [6.37]

Se rechaza la hiptesis nula definida en [6.34] si el valor de TDB (o de T NDB) es mayor que el
correspondiente punto crtico de la Tabla J.
El valor de junto con su error tpico y su distribucin muestral pueden utilizarse pa-
ra construir un intervalo de confianza para la comparacin :

= [6.38]

donde t es el punto crtico que se obtiene de la Tabla J y es el error tpico de (es decir,
el denominador de TDB si las varianzas poblacionales son iguales, y el denominador de T NDB
si no son iguales); k es el nmero de comparaciones; y glerror es igual a N ! J si las varianzas
poblacionales son iguales e igual a [6.37] si no son iguales. El intervalo de confianza indica
entre qu valores cabe esperar que se encuentre el valor poblacional de .

Volvamos al ejemplo de la Tabla 6.2 en el que J = 3 grupos de nj = 10 sujetos (N = 30) con


diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos que estamos interesados en realizar dos comparaciones. En la primera de ellas he-
mos decidido comparar el grupo de nivel de ansiedad medio (que es el grupo del que cabe
esperar un mayor rendimiento) con los otros dos grupos tomados juntos; en la segunda, el
grupo de menor ansiedad (grupo 1) con el de mayor ansiedad (grupo 3); es decir,
= (!1) 1 + (2) 2 + (!1) 3
= (1) 1 + (0) 2 + (!1) 3

Puesto que se trata de pocas comparaciones y adems son ortogonales (la suma del producto
de sus coeficientes vale cero: (!1) (1) + (2) (0) + (!1) (!_1) = 0),_ la prueba
_ de Dunn-Bonferro-
ni permite controlar la tasa de error. Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamao 10 aleatoriamente seleccionadas de poblacio-
nes que asumimos normales y con la misma varianza.
3. Estadsticos del contraste (ecuacin [6.35]):
! = (!1) 9 + (2)14 + (!1) 7 = 12.
= (1) 9 + (0)14 + (!1) 7 = 2.
214 Anlisis de datos (vol. II)

! = = 2,80.

= = 1,62.
! TDB (1) = = 12 / 2,80 = 4,29.
TDB (2) = = 2 / 1,62 = 1,23.
4. Distribucin muestral: los puntos crticos de la distribucin muestral de TDB se encuen-
tran en la Tabla J del Apndice final, con k = 2, glerror = N ! J = 30 ! 3 = 27 y F = 0,05.
5. Zona crtica: TDB > $ t2, 27; 0,95 = 2,37 (hemos tomado un valor intermedio entre los corres-
pondientes a glerror = 25 y glerror = 30).
6. Decisin: nicamente el valor de TDB (1) = 4,29 es mayor que el punto crtico 2,37. Por
tanto, debe rechazarse H0 (1) pero no H0 (2). El rechazo de H0 (1) indica que la media del
grupo 2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados
juntos. Y el no rechazo de H0 (2) indica que, con los datos disponibles, no es posible afir-
mar que el rendimiento medio del grupo 1 difiera del rendimiento medio del grupo 3.
Aunque los contrastes son bilaterales, el valor positivo de indica que el rendimiento
medio del segundo grupo, es decir, del grupo que est ponderado con un coeficiente posi-
tivo en , es mayor que el rendimiento medio de los otros dos grupos tomados juntos.
7. Intervalo de confianza (asumiendo varianzas iguales, ecuacin [6.38]). Al asignar coe-
ficientes para definir cada comparacin lineal utilizamos nmeros enteros para facilitar
los clculos. Esta estrategia no es apropiada cuando se trata de calcular un intervalo de
confianza. Para que los lmites del intervalo se encuentren en la misma mtrica que la
variable dependiente, es necesario que los coeficientes con signo positivo sumen 1 y que
los coeficientes con signo negativo sumen !1 (exactamente igual que cuando se com-
paran dos medias):
! = (!0,5) 9 + (1)14 + (!0,5) 7 = 6.
= (1) 9 + (0)14 + (!1) 7 = 2.

! = = 1,40.

= = 1,62.

! = 6 2,37 (1,40) = 6 3,32 = (2,7; 9,3).


= 2 2,37 (1,62) = 2 3,84 = (!1,8; 5,8).

El intervalo de no incluye el valor cero, pero s el intervalo de . Este resultado es


coherente con la decisin que ya hemos tomado sobre ambas comparaciones. Los lmites
de estos intervalos indican entre qu valores estimamos (con una confianza de 1 ! F =
1 ! 0,05 = 0,95) que se encuentra el valor poblacional de cada comparacin, es decir, la
diferencia poblacional entre los promedios comparados en y en . En el caso de la
primera comparacin, el rendimiento medio del segundo grupo vale 14 y el rendimien-
to medio de los otros dos grupos tomados juntos vale (9 + 7) / 2 = 8. La diferencia entre
ambas medias es el valor de : 14 ! 8 = 6. Y el intervalo de confianza obtenido indica
que, basndonos en esa diferencia muestral de 6 puntos, podemos estimar, con una
confianza del 95 %, que la diferencia poblacional entre los promedios comparados se
Captulo 6. ANOVA de un factor 215

encuentra entre 2,7 y 9,3 puntos. Este mismo argumento sirve para la segunda compa-
racin, pero el intervalo obtenido para ella incluye el valor cero y esto significa que no
puede afirmarse que los promedios comparados sean distintos.

Comparaciones de tendencia
Sabemos que el rechazo de la hiptesis global del ANOVA est indicando que las medias
comparadas no son iguales. Esto significa que los valores de la variable dependiente cam-
bian cuando cambian los de la independiente; significa, por tanto, que ambas variables estn
relacionadas. Pero una F significativa no dice nada sobre la pauta concreta que sigue ese
cambio; es decir, no dice nada acerca del tipo de relacin que se da entre las variables.
Sin embargo, conocer el tipo de relacin existente entre la variable independiente o fac-
tor y la dependiente, no solo puede resultar interesante en muchos contextos, sino que pue-
de constituir el objetivo principal de algunos estudios. Tal es el caso de los ensayos clnicos
en los que se analiza la relacin dosis-respuesta, o de los estudios psicolgicos en los que se
valora, por ejemplo, la relacin entre el nivel de ansiedad y el rendimiento.
Para que tenga sentido estudiar el tipo de relacin es imprescindible que los niveles de
la variable independiente o factor se encuentren cuantitativamente ordenados (de no ser as,
no tendra sentido estudiar el tipo de relacin, pues la ordenacin arbitraria de los niveles
dara como resultado diferentes tipos de relacin). Cuando los niveles estn cuantitativamen-
te ordenados pueden darse diferentes pautas de relacin; puede ocurrir, por ejemplo, que los
valores de la variable dependiente aumenten conforme lo hacen los de la independiente, en
cuyo caso la relacin ser de tipo lineal (ver Figura 6.2, grficos a, b y d ); tambin puede
ocurrir que los valores de la variable dependiente vayan aumentando conforme lo hacen los
de la independiente hasta llegar a un punto a partir del cual el aumento en los valores de la
variable independiente se corresponde con una disminucin en los de la dependiente (ver
Figura 6.2, grficos c y e); y tambin puede ocurrir que la relacin sea algo ms compleja,
con subidas y cadas en la variable dependiente conforme los valores de la independiente van
aumentando (ver Figura 6.2, grfico f ).
Por tanto, la relacin entre una variable categrica (con categoras cuantitativamente
ordenadas) y una variable cuantitativa puede ser de tipo lineal, cuadrtico, cbico, etc. Las
comparaciones de tendencia sirven para estudiar estos tipos de relacin.
Debe tenerse en cuenta que las comparaciones de tendencia son comparaciones ortogo-
nales. Por tanto, con J medias, nicamente ser posible definir J ! 1 tendencias ortogonales.
En los grficos de la Figura 6.2 se aprecia con claridad esta idea: con J = 2 solamente pue-
de darse una relacin de tipo lineal (ver Figura 6.2, grfico a); con J = 3, la relacin puede
ser lineal o cuadrtica (ver Figura 6.2, grficos b y c); con J = 4, la relacin puede ser lineal,
cuadrtica o cbica (ver Figura 6.2, grficos d, e y f ); etc.
En todos los contrastes propuestos hasta ahora en el contexto del ANOVA de un factor
y en todos los que estudiaremos ms adelante, la disposicin de los niveles de la variable
independiente o factor es completamente irrelevante: se comparan medias con independen-
cia de la posicin que ocupan. Ahora, sin embargo, el estudio del tipo de relacin existente
entre la variable independiente y la dependiente nicamente tiene sentido si la variable in-
dependiente es, al igual que la dependiente, cuantitativa.
216 Anlisis de datos (vol. II)

Figura 6.2. Diferentes tipos de relacin entre dos variables: lineal (a, b y d), cuadrtica (c y e) y cbica (f )
a b c

a1 a2 a1 a2 a3 a1 a2 a3

d e f

a1 a2 a3 a4 a1 a2 a3 a4 a1 a2 a3 a4

La forma concreta de realizar comparaciones de tendencia es idntica a la descrita en el apar-


tado anterior a propsito de la prueba de Dunn-Bonferroni. nicamente hay que tener en
cuenta que los coeficientes que se asignan ahora deben definir justamente las tendencias que
se desea estudiar (lineal, cuadrtica, cbica, etc.). Afortunadamente, no es necesario calcu-
lar estos coeficientes en cada situacin concreta. Cuando todos los grupos tienen el mismo
tamao (n1 = n2 = = nJ = n), la Tabla H del Apndice final ofrece, para diferentes valores
de J, coeficientes que definen comparaciones que, adems de ser ortogonales, representan
cada una de las J ! 1 posibles tendencias (lineal, cuadrtica, etc.).
Con J = 3, por ejemplo, los coeficientes de la Tabla H llevaran a plantear las dos com-
paraciones siguientes (recordemos que con tres medias solamente es posible plantear dos
comparaciones ortogonales):
= (!1) 1 + (0) 2 + (1) 3
= (1) 1 + (!2) 2 + (1) 3
Los grficos de la Figura 6.3 muestran que, efectivamente, al asignar estos coeficientes se
estn definiendo dos tendencias. Los coeficientes !1, 0 y 1 asignados en definen una
tendencia lineal ascendente (no importa que se les cambie el signo; seguirn definiendo una
tendencia lineal, aunque descendente; y poco importa que se valore si la tendencia es ascen-
dente o descendente porque lo que se est haciendo en realidad es valorar diferencias en valor
absoluto). Y los coeficientes 1, !2 y 1 asignados en definen una tendencia cuadrtica.
Con J = 4, los coeficientes de la Tabla H llevaran a plantear las siguientes tres comparacio-
nes de tendencia:
= (!3) 1 + (!1) 2 + (1) 3 + (3) 4
= (1) 1 + (!1) 2 + (!1) 3 + (1) 4
= (!1) 1 + (3) 2 + (!3) 3 + (1) 4
Captulo 6. ANOVA de un factor 217

En los grficos de la Figura 6.4 se puede apreciar que los coeficientes !3, !1, 1 y 3 definen
una tendencia lineal; los coeficientes 1, !1, !1 y 1, una tendencia cuadrtica; y los coefi-
cientes !1, 3, !3 y 1, una tendencia cbica. Lo que se hace al valorar cada tendencia es sim-
plemente correlacionar los coeficientes asignados con las medias a las que se asignan.

Figura 6.3. Coeficientes de polinomios ortogonales con J = 3; tendencias lineal y cuadrtica


cj lineal cj cuadrtica
1 1

0 0

-1 -1

-2 -2

1 2 3 1 2 3

Figura 6.4. Coeficientes de polinomios ortogonales con J = 4; tendencias lineal, cuadrtica y cbica
cj lineal cj cuadrtica cj cbica
3 3 3
2 2 2
1 1 1
0 0 0
-1 -1 -1
-2 -2 -2
-3 -3 -3

1 2 3 4 1 2 3 4 1 2 3 4

Tras asignar coeficientes a las medias para definir cada tendencia ( , , etc), es po-
sible contrastar hiptesis del tipo:
H 0: =0
aplicando la prueba de Dunn-Bonferroni exactamente igual que hemos hecho en el apartado
anterior23 (de hecho, las dos comparaciones del ejemplo del apartado anterior son exacta-
mente las correspondientes a las tendencias lineal y cuadrtica, aunque con los coeficientes
cambiados de signo). La hiptesis = 0 significa que no existe relacin lineal; el rechazo
de esta hiptesis indica que existe relacin lineal significativa.

23
Los coeficientes de la Tabla H solamente son apropiados si los niveles del factor estn igualmente espaciados (por ejem-
plo, 1-2-3 frente a 1-2-5) y los tamaos de los grupos son iguales. No es fcil asignar coeficientes cuando no se dan estas
dos condiciones. Afortunadamente, los programas informticos tienen resuelto el problema. El SPSS calcula los coeficien-
tes de cada tendencia teniendo en cuenta el espaciamiento existente entre los niveles del factor: a diferentes espaciamientos
corresponden diferentes coeficientes (ver Pardo y San Martn, 1998, pgs. 301-303). Y cuando los tamaos muestrales no
son iguales, el SPSS ofrece dos soluciones para cada tendencia: una ponderada y una no ponderada. En la solucin no
ponderada, los coeficientes se calculan sin tener en cuenta el tamao de los grupos (el inconveniente de esta estrategia es
que las comparaciones resultantes no son ortogonales; ver ecuacin [6.29]). En la solucin ponderada, los coeficientes se
calculan teniendo en cuenta el tamao de los grupos. No est claro cul de las dos soluciones es mejor, pero parece que,
cuando la nica tendencia real en los datos es la lineal, es preferible la solucin ponderada; mientras que, cuando hay otras
tendencias presentes, es preferible la solucin no ponderada (ver Maxwell y Delaney, 2004, pgs. 267-269).
218 Anlisis de datos (vol. II)

Prueba de Dunnett
Dunnett (1955) ha propuesto un mtodo especficamente diseado para controlar la tasa de
error cuando se realizan las J ! 1 comparaciones entre los grupos experimentales y el grupo
control, si existe. La propuesta de Dunnett consiste en obtener un valor, llamado diferencia
mnima_ significativa
_ (DMS ), que es el valor ms pequeo a partir de la cual una diferencia
= | Y control ! Y j | puede ser declarada significativa (con j =/ control ):

DMS Dunnett = [6.39]

donde t es el valor de la Tabla K del Apndice final que corresponde a un nivel de signifi-
cacin F con J medias (incluida la del grupo control) y N ! J grados de libertad. La tabla
ofrece puntos crticos para F = 0,05 y F = 0,01, y para contrastes bilaterales y unilaterales.
Tanto si el _contraste_ es bilateral como si es unilateral, la diferencia que se compara con
DMS Dunnett es | Y control ! Y j |, es decir, la diferencia en valor absoluto; pero si el contraste es
unilateral, es necesario prestar atencin al signo de esa diferencia para tomar la decisin apro-
piada.
El procedimiento de Dunnett tambin puede utilizarse para construir intervalos de con-
fianza (IC ) para las J ! 1 diferencias entre los grupos experimentales y el control:
_ _
= | Y control ! Y j | DMSDunnett (con j =/ control) [6.40]

Volvamos a los datos de la Tabla 6.2, donde J = 3 grupos de nj = 10 sujetos (N = 30) con di-
ferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos, solamente para poder ilustrar el procedimiento, que el grupo de ansiedad baja (es
decir, el grupo 1) es un grupo control y que estamos interesados en comparar los otros dos
grupos con el control; es decir, supongamos que estamos interesados en llevar a cabo estas
dos comparaciones:
= 1 ! 2
= 1 ! 3
Puesto que J = 3,
_ solamente
_ es posible
_ realizar dos comparaciones con el grupo control. Re-
cordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extradas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadstico del contraste (ecuacin [6.39]). Puesto que los tamaos muestrales son igua-
les, basta con calcular una nica DMS; si los tamaos muestrales fueran distintos habra
que calcular una DMS para cada comparacin (debe tenerse en cuenta que la diferencia
entre las DMS de dos comparaciones est nicamente en el tamao del grupo que se com-
para con el control):
Captulo 6. ANOVA de un factor 219
_ _
= | Y_1 ! Y_2 | = | 9 ! 14 | = 5.
= | Y 1 ! Y 3 | = | 9 ! 7 | = 2.
DMS Dunnett = = 2,33 (1,62) = 3,77.
(considerando que ambos contrastes son bilaterales y utilizando F = 0,05).
6. Decisin: nicamente el valor de = 5 es mayor que el valor de la DMSDunnett = 3,77.
Por tanto, nicamente el grupo 2 (nivel de ansiedad medio) difiere del grupo 1 o control
(nivel de ansiedad bajo).
7. Intervalo de confianza (ecuacin [6.40]):
= 5 3,77 = (1,23; 8,77).
= 2 3,77 = (!1,77; 5,77).
El intervalo de no incluye el valor cero, pero s el intervalo de . Este resultado
coincide con la decisin ya tomada sobre ambas comparaciones (rechazar H0 (1) y no
rechazar H0 (2)). En el caso de la primera comparacin, la diferencia entre el rendimien-
to medio del segundo grupo (14) y el del grupo control (9) vale 5 puntos. El intervalo de
confianza obtenido indica que, basndonos en esa diferencia muestral de 5 puntos,
podemos estimar, con una confianza del 95 %, que la diferencia poblacional entre los
promedios comparados se encuentra entre 1,76 y 8,24 puntos. Este mismo argumento
sirve para la segunda comparacin; pero el intervalo obtenido para la segunda compa-
racin incluye el valor cero y esto significa que no puede afirmarse que el tercer grupo
difiera del grupo control.

Comparaciones post hoc o a posteriori


Al comienzo del apartado anterior hemos distinguido entre comparaciones planeadas o a
priori y comparaciones post hoc o a posteriori. Esta distincin se basa, fundamentalmente,
en la existencia o no de expectativas previas acerca de cmo se van a comportar los datos.
Las comparaciones post hoc se utilizan, por lo general, cuando, no existiendo tales expecta-
tivas, el propsito del anlisis es realizar muchas comparaciones (por ejemplo, todas las com-
paraciones por pares) para detectar dnde estn las diferencias. Tambin se utilizan cuando,
aun existiendo expectativas concretas, se desea explorar otras posibilidades.
Puesto que estas comparaciones no van dirigidas por expectativas previas, suelen ser ms
numerosas que las comparaciones a priori para intentar que no se escape nada (son ms bien
de tipo exploratorio). Y solamente tiene sentido aplicarlas tras rechazar la hiptesis nula de
igualdad de medias, es decir, tras obtener un estadstico F significativo.
En el apartado anterior hemos visto que la prueba de Dunn-Bonferroni permite contro-
lar la tasa de error cuando se realizan unas pocas comparaciones (preferiblemente ortogona-
les, aunque no necesariamente) y que la prueba de Dunnett controla la tasa de error cuando
se realizan las J !1 comparaciones entre los grupos experimentales y el control. En realidad,
la prueba de Dunn-Bonferroni sirve para valorar cualquier tipo de comparacin entre me-
dias, pero conforme va aumentando el nmero de comparaciones se va haciendo ms con-
servadora y perdiendo potencia. En este apartado vamos a estudiar algunos procedimientos
220 Anlisis de datos (vol. II)

diseados para controlar la tasa de error cuando se llevan a cabo todas las comparaciones
posibles, ya sean comparaciones por pares (como la prueba de Tukey), ya sean comparacio-
nes de cualquier otro tipo (como la prueba de Scheff).

Prueba de Tukey
La prueba de Tukey (1953) representa uno de los primeros intentos por controlar la tasa de
error cuando se realizan comparaciones mltiples. Est diseada especficamente para contro-
lar la tasa de error cuando se llevan a cabo las J (J ! 1) / 2 posibles comparaciones por pares
(comparaciones dos a dos) entre J medias.
Se basa en la distribucin del rango studentizado (derivada, al igual que la t de Student,
por William Sealy Gosset). La diferencia entre estas dos distribuciones radica en que la dis-
tribucin del rango studentizado tiene en cuenta el nmero de medias involucradas en el
conjunto de comparaciones. Si J = 2, el procedimiento de Tukey, basado en la distribucin
del rango studentizado, es equivalente a la prueba T para dos muestras independientes, basa-
da en la distribucin t de Student. Los puntos crticos q de la distribucin del rango stu-
dentizado se encuentran en la Tabla L del Apndice final (para F = 0,05 y F = 0,01).
La estrategia propuesta por Tukey para realizar las J (J ! 1) / 2 comparaciones por pares
entre J medias consiste en obtener un valor llamado DMS (diferencia mnima significativa)
que
_ es _ la diferencia mnima (en valor absoluto) que debe darse entre dos medias muestrales,
Y j e Y j N, para decidir que las correspondientes medias poblacionales son distintas24:

DMS Tukey = [6.41]

donde q es el cuantil de la distribucin del rango studentizado que corresponde a un nivel


de significacin F con J medias y N ! J grados de libertad25. Los puntos crticos de la Ta-
bla L se refieren siempre a contrastes bilaterales.
El valor de DMS Tukey puede utilizarse para construir intervalos de confianza para la di-
ferencia entre dos medias poblacionales:
_ _
= | Y j ! Y j N | DMS Tukey [6.42]

En las ecuaciones [6.41] y [6.42] se est asumiendo que todos los grupos tienen el mismo ta-
mao (n1 = n2 = = nJ = n). Si los tamaos de los grupos no son iguales, Kramer (1956) ha
demostrado que el procedimiento de Tukey sigue siendo vlido si se aplica la siguiente mo-
dificacin:

DMS Tukey-Kramer = [6.43]

24
Lo que estamos llamando diferencia mnima significativa de Tukey (DMSTukey) es la diferencia honestamente significati-
va de Tukey (honestly significant difference: HSD ). El propio Tukey ha desarrollado una variante de este procedimiento
al que ha llamado diferencia completamente significativa (WSD). Este otro procedimiento aparece en el SPSS como Tukey-b
y ofrece una solucin intermedia entre el valor de DMSTukey y el valor de DMSS-N-K (Student-Newman-Keuls) para medias
separadas r pasos (la DMSS-N-K se describe en el Apndice 6, en el apartado Comparaciones mltiples por pares: procedi-
mientos alternativos).
25
En realidad, el error tpico de la diferencia entre dos medias es y el punto crtico con el que se construye el
valor de DMS Tukey es . Los clculos se simplifican eliminando de ambas expresiones.
Captulo 6. ANOVA de un factor 221

Sustituyendo DMS Tukey por DMS Tukey-Kramer en [6.42] pueden obtenerse intervalos de confian-
za cuando los tamaos muestrales no son iguales26.
La prueba de Tukey y la modificacin de Kramer no son los nicos procedimientos post
hoc disponibles para llevar a cabo comparaciones por pares. De hecho, existen multitud de
procedimientos para realizar comparaciones por pares. En el apartado Comparaciones post
hoc: procedimientos alternativos del Apndice 6 se describen varios ms; tambin se des-
criben procedimientos vlidos para cuando no es posible asumir que las varianzas pobla-
cionales son iguales.

Retomemos el ejemplo de la Tabla 6.2 en el que J = 3 grupos de nj = 10 sujetos (N = 30) con


diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Tras
rechazar la hiptesis de igualdad de medias con el estadstico F hemos decidido realizar
comparaciones por pares para averiguar qu media difiere de qu otra:
= 1 ! 2
= 1 ! 3
= 2 ! 3
_ _ _
Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
H0 (3) : = 0 ; H1 (3) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extradas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadstico del contraste. Puesto que los tamaos muestrales son iguales, vamos a utili-
zar DMS Tukley (ecuacin [6.41]):
_ _
= | Y_1 ! Y_2 | = | 9 ! 14 | = 5.
= | Y_1 ! Y_3 | = | 9 ! 7 | = 2.
= | Y 2 ! Y 3 | = | 14 ! 7 | = 7.
DMS Tukey = = 3,51 (1,145) = 4,02.

6. Decisin: los valores =5y = 7 son mayores que DMS Tukley = 4,02. Por tanto,
podemos afirmar que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3. No puede afirmarse, sin embargo, que las
medias de los grupos 1 y 3 sean distintas ( = 2 < 4,02). Parece, por tanto, que el
rendimiento es ms alto con niveles de ansiedad medios que con niveles bajos o altos.

26
Hochberg (1974) ha propuesto el procedimiento GT2 como alternativa al de Tukey-Kramer para el caso de varianzas
poblacionales iguales y tamaos muestrales distintos, pero la solucin de Hochberg es algo ms conservadora que la de
Tukey-Kramer y, por tanto, menos recomendable (ver Dunnett, 1980a). La DMS de Hochberg es idntica a [6.42] con la
nica diferencia de que el cuantil q se busca en la distribucin del mdulo mximo studentizado (ver Pardo y San Martn,
1998, Tabla K del Apndice final) con k = J (J ! 1) / 2 y gl grados de libertad (gl se obtiene con la ecuacin [6.37]).
222 Anlisis de datos (vol. II)

7. Intervalo de confianza (ecuacin [6.40]):


= 5 4,02 = (0,98; 9,02).
= 2 4,02 = (!2,02; 6,02).
= 7 4,02 = (2,98; 11,02).
Los intervalos de y no incluyen el valor cero. Por tanto, el resultado coincide con
las decisiones ya tomadas a partir de DMS Tukey. Estos intervalos se interpretan de la
misma manera que los intervalos calculados en el apartado anterior con el mtodo de
Dunnett.

Prueba de Scheff
La prueba de Scheff (1953) permite valorar simultneamente no solo las posibles compa-
raciones por pares entre J medias, sino cualquier otro tipo de comparacin. Es decir, cual-
quier comparacin que pueda plantearse en el formato de la ecuacin [6.25].
Por tanto, la prueba de Scheff permite contrastar el mismo tipo de hiptesis que la prue-
ba de Dunn-Bonferroni. La diferencia entre ellas est en la forma de controlar la tasa de error.
La prueba de Dunn-Bonferroni (que utiliza C = F / k) controla bien la tasa de error cuando
se llevan a cabo unas pocas comparaciones (preferiblemente ortogonales, aunque no nece-
sariamente), pero se va haciendo conservadora conforme va aumentando el nmero de com-
paraciones. La prueba de Scheff controla la tasa de error para el total de posibles compa-
raciones entre J medias; si se utiliza para valorar solamente unas pocas comparaciones (por
ejemplo, para valorar solamente las comparaciones por pares), es muy conservadora.
La prueba de Scheff se basa en la distribucin F y, por tanto, exige, al igual que el es-
tadstico F, trabajar con poblaciones normales y homocedsticas. Como en otros procedi-
mientos estudiados, se considera que una comparacin es significativamente distinta de
cero si su valor absoluto es mayor que

DMS Scheff = [6.44]

El procedimiento de Scheff tambin puede utilizarse para obtener intervalos de confianza


para una comparacin mediante

= [6.45]

En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, Brown y
Forsythe (1974b) recomiendan utilizar

DMS Brown-Forsythe = [6.46]

donde F es el cuantil de la distribucin F correspondiente a un nivel de significacin F con


J ! 1 y glerror grados de libertad (glerror se obtiene con la ecuacin [6.37]). En el caso de que
las poblaciones originales se alejen sensiblemente de la normalidad, Keselman, Lix y Ko-
walchuk (1998) recomiendan utilizar mtodos basados en las medias recortadas.
Captulo 6. ANOVA de un factor 223

Volviendo una vez ms al ejemplo de la Tabla 6.2, en el que J = 3 grupos de nj = 10 sujetos


(N = 30) con diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de ren-
dimiento, supongamos que estamos interesados en comparar todos los grupos entre s (com-
paraciones por pares) y, adems, cada grupo con los otros dos tomados juntos. Esto signifi-
ca que tenemos que llevar a cabo las siguientes seis comparaciones:
=(1) 1 + (!1) 2 + (0) 3
=(1) 1 + (0) 2 + (!1) 3
=(0) 1 + (1) 2 + (!1) 3
=(2) 1 + (!1) 2 + (!1) 3
=(!1) 1 + (2) 2 + (!1) 3
=(!1) 1 + (!1) 2 + (2) 3
_ _ _
Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hiptesis: H0 (1) : = 0; H1 (1) : =/ 0.
H0 (2) : = 0; H1 (2) : =/ 0.
H0 (3) : = 0; H1 (3) : =/ 0.
H0 (4) : = 0; H1 (4) : =/ 0.
H0 (5) : = 0; H1 (5) : =/ 0.
H0 (6) : = 0; H1 (6) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extradas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadstico del contraste (ecuacin [6.44]:
= | (1) 9 + (!1) 14 + (0) 7 | = 5.
= | (1) 9 + (0) 14 + (!1) 7 | = 2.
= | (0) 9 + (1) 14 + (!1) 7 | = 7.
= | (2) 9 + (!1) 14 + (!1) 7 | = 3.
= | (!1) 9 + (2) 14 + (!1) 7 | = 12.
= | (!1) 9 + (!1) 14 + (2) 7 | = 9.
Para valorar estas comparaciones no es necesario calcular seis DMS Scheff distintas. Pues-
to que lo nico en que difieren las DMS Scheff de dos comparaciones es en la suma de los
cuadrados de sus coeficientes, basta con calcular dos: una para las comparaciones 1, 2
y 3 (donde = 2), y otra para las comparaciones 4, 5 y 6 (donde = 6):
DMS Scheff = = = 4,19.

DMS Scheff = = = 7,26.

6. Decisin: los valores =5y = 7 son mayores que DMS Tukley = 4,19. Por tanto,
puede concluirse que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3; y no hay evidencia de que las medias de los
224 Anlisis de datos (vol. II)

grupos 1 y 3 sean distintas. Aunque esta conclusin es idntica a la que ya habamos


llegado aplicando el procedimiento de Tukey para estas mismas comparaciones, debe
repararse en el hecho de que el valor de la DMS es mayor en el caso de Scheff (4,19)
que en el de Tukey (4,02); esto significa que el procedimiento de Scheff llevar a me-
nos rechazos que el de Tukey cuando se utiliza para valorar solamente las J (J ! 1) / 2
comparaciones por pares.
Por lo que se refiere a las otras tres comparaciones, los valores = 12 y =9
son mayores que DMS Scheff = 7,26. Por tanto, puede concluirse que la media del grupo
2 difiere significativamente de la media de los otros dos grupos tomados juntos, y que
la media del grupo 3 difiere de la media de los otros dos grupos tomados juntos; y no
existe evidencia de que la media del grupo 1 difiera de la media de los otros dos grupos
tomados juntos.

Comparaciones mltiples: qu procedimiento elegir


De los numerosos procedimientos disponibles para efectuar comparaciones mltiples (ver,
por ejemplo, Hochberg y Tamhane, 2009), aqu hemos incluido solamente unos pocos (en el
Apndice 6 se describen algunos ms). Nuestra seleccin, por tanto, ya est hecha. Y entre
los procedimientos que hemos incluido, la eleccin es bastante sencilla si se tiene en cuen-
ta que cada uno de ellos ha sido diseado para cubrir un objetivo distinto.
En primer lugar hay que considerar si existen o no hiptesis previas a la recogida de
datos: si existen, lo habitual ser tener que realizar solamente unas pocas comparaciones; si
no existen, habr que explorar todas las posibilidades y eso incrementar sensiblemente el
nmero de comparaciones. Esta diferencia en el nmero y caractersticas de las compara-
ciones que se realizan es el primer criterio que debe aplicarse al elegir el procedimiento que
conseguir un mejor control de la tasa de error.
Si antes de la recogida de datos se han planificado unas pocas comparaciones, lo apro-
piado es utilizar la prueba de Dunn-Bonferroni. Si las nicas comparaciones que interesa
hacer son las de cada grupo experimental con el control (si existe), el procedimiento idneo
es el de Dunnett. Y las comparaciones de tendencia son apropiadas cuando el objetivo del
anlisis es conocer el tipo de relacin existente entre la variable independiente y la depen-
diente (sin olvidar que estas comparaciones solamente tiene sentido aplicarlas si los niveles
del factor se encuentran cuantitativamente ordenados).
Si antes de la recogida de datos no se ha planificado efectuar ninguna comparacin
concreta sino que el inters del estudio apunta ms bien a intentar averiguar dnde estn las
diferencias, entonces los procedimientos apropiados son el de Tukey para efectuar compa-
raciones por pares y el de Scheff para efectuar comparaciones de todo tipo (una media con
otra, una media con varias, varias medias con varias medias). Aunque el procedimiento de
Scheff puede utilizarse, sustituyendo al de Tukey, para estudiar las posibles diferencias en-
tre pares de medias, limitarlo a ese tipo de comparaciones lo convierte en excesivamente
conservador y poco potente. Tanto la prueba de Tukey como la de Scheff asumen que las
varianzas poblacionales son iguales. Si no es posible asumir tal cosa, entonces es preferible
utilizar la prueba de Games-Howell (ecuacin [6.55]) en lugar de la de Tukey y la de Brown-
Forsythe (ecuacin [6.46]) en lugar de la de Scheff.
Captulo 6. ANOVA de un factor 225

ANOVA de un factor con SPSS


En este apartado se explica cmo utilizar el SPSS para: (1) chequear los supuestos del mode-
lo de un factor (independencia, normalidad y homocedasticidad), (2) contrastar la hiptesis
global de igualdad de medias con el estadstico F y con otros estadsticos robustos, (3) esti-
mar el tamao del efecto y la potencia observada, (4) realizar comparaciones mltiples post
hoc y (5) realizar comparaciones planeadas o a priori (incluidas las de tendencia). Todo ello,
con los datos del ejemplo que hemos venido utilizando a lo largo de este capitulo (ver Tabla
6.2). Estas cinco tareas, que son las que suelen llevarse a cabo cuando se aplica un ANOVA
de un factor, no pueden realizarse con un nico procedimiento SPSS; es necesario utilizar
varios. El procedimiento Anova de un factor es, en principio, el procedimiento diseado para
ajustar el modelo de un factor completamente aleatorizado, pero no incluye algunos de los
estadsticos que hemos estudiado en este captulo:
1. Chequea el supuesto de igualdad de varianzas pero no el de normalidad. Y para chequear
el supuesto de igualdad de varianzas, ofrece la prueba de Levene (basada en las medias)
pero no la de Brown-Forsythe (basada en las medianas). Por tanto, para chequear los
supuestos del modelo de un factor lo recomendable es utilizar el procedimiento Explo-
rar, el cual permite chequear ambos supuestos (normalidad e igualdad de varianzas) y,
adems, ofrece tanto la prueba de Levene (basada en las medias) como la de Brown-For-
sythe (basada en las medianas).
2. Contrasta la hiptesis de igualdad de medias tanto con el estadstico F (que asume varian-
zas poblacionales iguales) como con los estadsticos de Welch y Brown-Forsythe (que
no asumen varianzas poblacionales iguales).
3. No incluye ninguna medida del tamao del efecto. Para esto puede utilizarse el proce-
dimiento Univariante, el cual ofrece las medidas de asociacin 2 y 2corregida .
4. Tampoco incluye el clculo de la potencia observada. Para esto puede utilizarse el pro-
cedimiento Univariante, el cual ofrece, adems de la potencia observada, una estimacin
del parmetro de no-centralidad de la distribucin F.
5. Ofrece todas las pruebas post hoc que hemos estudiado en este captulo, incluidas las que
se describen en el Apndice 6 (el procedimiento Univariante ofrece las mismas pruebas
post hoc) y permite llevar a cabo comparaciones planeadas o a priori, incluidas las com-
paraciones de tendencia (el procedimiento Univariante tambin ofrece esta posibilidad).
En lo relativo a las comparaciones planeadas o a priori, cada procedimiento tiene sus
peculiaridades. El procedimiento Anova de un factor ofrece dos estadsticos para contras-
tar comparaciones planeadas: uno asumiendo varianzas poblacionales iguales y otro sin
asumir tal cosa; pero no calcula los intervalos de confianza de las comparaciones soli-
citadas. El procedimiento Univariante s calcula los intervalos de confianza de las com-
paraciones planeadas, pero asume varianzas poblacionales iguales tanto para evaluar las
comparaciones como para construir los intervalos de confianza.
En las comparaciones de tendencia, el procedimiento Anova de un factor siempre ofrece
la solucin ponderada basada en el espaciamiento existente entre los niveles del factor;
si el espaciamiento entre niveles es homogneo ofrece, adems, la solucin no ponderada;
y si el espaciamiento es homogneo y los tamaos muestrales iguales nicamente ofrece
una solucin (pues ambas coinciden).
226 Anlisis de datos (vol. II)

Supuestos
Por lo general, la primera tarea que hay que abordar al analizar unos datos es la de intentar
formarnos una idea lo ms exacta posible acerca de sus caractersticas. Con una variable ca-
tegrica o factor y una cuantitativa o dependiente, que es el caso que estamos considerando
en todo este captulo, esta tarea inicial se lleva a cabo calculando varios estadsticos descrip-
tivos y obteniendo algn grfico con el doble objetivo de (1) valorar el centro, la dispersin
y la forma de la distribucin de la variable dependiente en cada grupo y (2) detectar posibles
anomalas en los datos. Esta fase inicial tambin suele incluir el chequeo de los supuestos en
los que se basarn las herramientas inferenciales que se tenga intencin de utilizar ms tar-
de. El procedimiento Explorar suele ser el ms indicado para hacer todo esto.
En este apartado se muestra cmo utilizar el procedimiento Explorar para obtener algu-
nos estadsticos descriptivos y para contrastar los supuestos del ANOVA de un factor: norma-
lidad y homogeneidad o igualdad de varianzas (el supuesto relativo a la independencia de las
puntuaciones puede contrastarse mediante la prueba de las rachas descrita en el Captulo 2):
' Reproducir en el Editor de datos los datos de la Tabla 6.2 (o abrir el archivo Tabla 6.2
ansiedad rendimiento que se encuentra en la pgina web del manual).
' Seleccionar la opcin Estadsticos descriptivos > Explorar del men Analizar para acceder
al cuadro de dilogo Explorar y trasladar la variable rendimiento a la lista Dependientes
y la variable ansiedad a la lista Factores.
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Explorar: Grficos y mar-
car la opcin Grficos con pruebas de normalidad y la opcin No transformados del recuadro
Dispersin por nivel con prueba de Levene27. A las opciones correspondientes a los diagra-

27
Ya hemos sealado (ver, en este mismo captulo, el apartado Transformacin de las puntuaciones) que, cuando se incum-
plen el supuesto de normalidad o el de igualdad de varianzas, existe la posibilidad de aplicar algn tipo de transformacin
a los datos originales para conseguir normalizarlos y homogeneizar las varianzas. Una transformacin basada en potencias
(opcin Estimacin de potencia) consiste en elevar las puntuaciones originales a una potencia especfica. Para determinar el
valor de esa potencia, el SPSS genera un grfico de dispersin comparando, en cada grupo, el logaritmo natural de la media-
na (en el eje de horizontal) con el logaritmo natural de la amplitud intercuartil (en el eje de vertical). Cuando las varianzas
son iguales, los puntos del grfico (tantos como grupos) se encuentran a la misma altura, es decir, alineados horizontalmen-
te. El grfico tambin incluye el valor de la pendiente (inclinacin) de la recta de regresin mnimo-cuadrtica (ver Captu-
lo 10). Basndose en el valor de esa pendiente, el SPSS ofrece una estimacin de la potencia a la que habra que elevar las
puntuaciones originales de la variable dependiente para intentar homogeneizar las varianzas de esa variable en cada nivel
de la variable factor (no siempre se consigue). El valor de esta potencia se estima restando a uno el valor de la pendiente
de la recta de regresin. Aunque la potencia as estimada puede tomar cualquier valor, lo habitual es utilizar potencias re-
dondeadas a mltiplos de 0,5 (incluyendo el cero). Algunas de las potencias ms utilizadas son las siguientes: !1 = rec-
proco; 1/2 = recproco de la raz cuadrada; 0 = logaritmo natural; = raz cuadrada; 1 = sin transformacin;
2 = cuadrado; 3 = cubo. Todas estas transformaciones, que son las habitualmente recomendadas para transformar da-
tos, estn recogidas en la opcin Transformados.
Una vez estimada la potencia apropiada para homogeneizar las varianzas, puede utilizarse la opcin Transformados para
aplicar la transformacin sugerida por el SPSS. Esta opcin incluye, dentro de la lista desplegable Potencia, las siguientes
transformaciones: logaritmo natural, recproco de la raz cuadrada, recproco, raz cuadrada, cuadrado y cubo. Todas ellas
intentan homogeneizar las varianzas alterando (aumentando en unos casos y disminuyendo en otros) las varianzas de las
distribuciones y corrigiendo el grado de asimetra.
Al solicitar un grfico de dispersin por nivel seleccionando algn tipo de transformacin, tanto la prueba de Levene
como el grfico de dispersin se obtienen a partir de los datos transformados. Pero, excepto en el caso de la transformacin
logartmica, al solicitar una transformacin basada en alguna de las potencias disponibles, el grfico de dispersin por ni-
vel se obtiene a partir de la mediana y de la amplitud intercuartlica, no a partir de sus logaritmos (estos logaritmos son los
que se utilizan en las opciones Estimacin de potencia y No transformados).
Captulo 6. ANOVA de un factor 227

mas de caja y al resto de los grficos (tallo y hojas, histograma) no les prestaremos aten-
cin en este ejemplo; para esto, ver el Captulo 4 del primer volumen).
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.3 a 6.5.
Para describir el rendimiento en cada grupo de ansiedad, la Tabla 6.3 incluye algunos esta-
dsticos referidos a las tres propiedades de una distribucin a las que hay que prestar atencin
para poder formarnos una idea precisa sobre las caractersticas de los datos: centro (media,
media recortada y mediana), dispersin (varianza, desviacin tpica, amplitud o rango y am-
plitud intercuartil) y forma (ndices de asimetra y curtosis). A la espera de lo que digan los
contrastes de normalidad e igualdad de varianzas, el hecho de que los ndices de asimetra y
curtosis sean menores que sus respectivos errores tpicos est indicando que en las pobla-
ciones muestreadas no parece haber problemas de asimetra ni de curtosis. Los diagramas de
caja (ver Figura 6.1) apuntan en la misma direccin: no muestran asimetras ni tampoco
excesiva dispersin; tampoco hay indicios de casos anmalos o atpicos.
Las pruebas de normalidad de la Tabla 6.4 (los detalles de estas pruebas se explican en
el en el Captulo 2) indican que no hay motivos para preocuparse por este supuesto. En nin-
guno de los tres casos (tres grupos) se rechaza la hiptesis de normalidad ( p > 0,05 tanto con
la prueba de Kolmogorov-Smirnov como con la de Shapiro-Wilk).

Tabla 6.3. Descriptivos (procedimiento Explorar)


Rendimiento
Nivel de ansiedad
Bajo Medio Alto
Estadstico Media 9,00 14,00 7,00
Intervalo de confianza Lmite inferior 6,64 11,39 4,22
para la media al 95% Lmite superior 11,36 16,61 9,78

Media recortada al 5% 9,00 14,11 6,89


Mediana 9,50 14,50 6,00
Varianza 10,889 13,333 15,111
Desv. tp. 3,300 3,651 3,887
Mnimo 4 7 2
Mximo 14 19 14
Rango 10 12 12
Amplitud intercuartil 5 5 7
Asimetra -,348 -,599 ,497
Curtosis -,647 ,066 -,757
Error tp. Media 1,043 1,155 1,229
Asimetra ,687 ,687 ,687
Curtosis 1,334 1,334 1,334

Tabla 6.4. Pruebas de normalidad (procedimiento Explorar)


Rendimiento
Kolmogorov-Smirnov Shapiro-Wilk
Nivel de ansiedad Estadstico gl Sig. Estadstico gl Sig.
Bajo ,14 10 ,200* ,95 10 ,636
Medio ,11 10 ,200* ,97 10 ,879
Alto ,20 10 ,200* ,95 10 ,683
*. ste es un lmite inferior de la significacin verdadera.
228 Anlisis de datos (vol. II)

Tampoco parece que haya que preocuparse por el supuesto relativo a la igualdad de las va-
rianzas (ver Tabla 6.5). Tanto la prueba de Levene (basada en las medias y en las medias re-
cortadas) como la de Brown-Forsythe (basada en las medianas, con y sin correccin de los
grados de libertad) tienen asociados valores p (sig.) mayores que 0,05.

Tabla 6.5. Pruebas de homogeneidad de varianzas (procedimiento Explorar)


Rendimiento
Estadstico
de Levene gl1 gl2 Sig.
Basndose en la media ,24 2 27 ,789
Basndose en la mediana ,21 2 27 ,813
Basndose en la mediana y con gl corregido ,21 2 26,56 ,813
Basndose en la media recortada ,24 2 27 ,790

Hiptesis de igualdad de medias


El estadstico F para el contraste de la hiptesis global de igualdad de medias puede obtenerse
con varios procedimientos SPSS: ANOVA de un factor, Medias, Univariante, etc. Pero solamente
el primero de ellos ofrece las versiones robustas de Welch y Brown-Forsythe. Aunque en los
datos de nuestro ejemplo sobre la relacin entre ansiedad y rendimiento no hay problemas
con las varianzas poblacionales, vamos a utilizar el procedimiento ANOVA de un factor para
obtener, adems del estadstico F, los de Welch y Brown-Forsythe:
' Seleccionar la opcin Comparar medias > ANOVA de un factor del men Analizar para acce-
der al cuadro de dilogo ANOVA de un factor. La lista de variables contiene un listado
de todas las variables numricas del archivo de datos (no aparecen listadas las variables
con formato de cadena).
' Trasladar la variable cuantitativa rendimiento a la lista Dependientes28 y la variable cate-
grica ansiedad al cuadro Factor.
' Pulsar el botn Opciones para acceder al cuadro de dilogo ANOVA de un factor: Opcio-
nes y marcar las opciones Welch y Brown-Forsythe. Pulsar el botn Continuar para volver
al cuadro de dilogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.6. y
6.7. La primera de ellas, la tabla resumen del ANOVA, es la forma estndar de presentar los
resultados de un ANOVA. La primera columna recoge una cuantificacin de los dos tipos de
variabilidad analizados en un ANOVA de un factor: la suma de cuadrados intergrupos refle-
ja la variabilidad existente entre las medias (es el numerador de la ecuacin [6.4]); la suma
de cuadrados intragrupos refleja la variabilidad existente dentro de cada grupo (es el nume-
rador de la ecuacin [6.2]). Dividiendo estas sumas de cuadrados entre sus correspondientes
grados de libertad (J ! 1 = 2 para la variabilidad inter y N ! J = 27 para la intra) se obtienen
las medias cuadrticas: MCA y MCE (ver ecuaciones [6.2] y [6.4]). Y el cociente entre ellas
da como resultado el estadstico F. La tercera fila de la tabla (total) es la suma de las dos

28
Puede seleccionarse ms de una variable dependiente: el SPSS genera un anlisis de varianza completo por cada variable
dependiente seleccionada.
Captulo 6. ANOVA de un factor 229

primeras. Puesto que el nivel crtico o valor p asociado al estadstico F (sig. = 0,001) es me-
nor que 0,05, lo razonable es rechazar la hiptesis de igualdad de medias y concluir que el
rendimiento medio no es el mismo en las tres poblaciones compradas.

Tabla 6.6. Resumen del ANOVA de un factor (procedimiento ANOVA de un fator)


Rendimiento
Suma de cuadrados gl Media cuadrtica F Sig.
Inter-grupos 260,00 2 130,00 9,92 ,001
Intra-grupos 354,00 27 13,11
Total 614,00 29

En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, los esta-
dsticos de Welch y de Brown-Forsythe (ver Apndice 6) ofrecen una solucin robusta pa-
ra el contraste de la hiptesis de igualdad de medias. La Tabla 6.7 incluye el valor de estos
estadsticos junto con sus grados de libertad y niveles crticos. Puesto que el valor p asocia-
do a ambos (sig.) es menor que 0,05, la decisin sobre la hiptesis de igualdad de medias es
la misma que con el estadstico F de la Tabla 6.6.

Tabla 6.7. Estadsticos F robustos (procedimiento ANOVA de un factor)


Rendimiento
Estadstico gl1 gl2 Sig.
Welch 9,10 2 17,92 ,002
Brown-Forsythe 9,92 2 26,54 ,001

Tamao del efecto y potencia observada


El procedimiento Univariante permite obtener las medidas de asociacin 2 y 2corregida y una
estimacin de la potencia del contraste (potencia observada o a posteriori). Para ello:
' Seleccionar la opcin Modelo lineal general > Univariante del men Analizar para acceder
al cuadro de dilogo Univariante y trasladar la variable rendimiento al cuadro Dependien-
te y la variable ansiedad a la lista Factores fijos.
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Univariante: Opciones
y seleccionar las opciones Estimaciones del tamao del efecto y Potencia observada.
Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 6.8. Esta
tabla contiene el resumen del ANOVA de un factor. Equivale a la Tabla 6.6 que se obtiene
con el procedimiento ANOVA de un factor, pero incluye informacin adicional. La que a noso-
tros nos interesa se encuentra en las ltimas columnas. La columna eta al cuadrado parcial
contiene el valor de (ver ecuacin [6.13]) correspondiente a la variable independiente o
factor ansiedad (0,423). Y el valor de (ver ecuacin [6.14]) se ofrece en una nota
a pie de tabla (R cuadrado corregida = 0,381). El SPSS no ofrece el valor de ni el de
(ecuaciones [6.15] y [6.16]), pero con la informacin que contiene la Tabla 6.9 pueden cal-
cularse fcilmente. Por ejemplo, el valor de puede obtenerse mediante

= = 0,38
230 Anlisis de datos (vol. II)

La siguiente (penltima) columna de la tabla contiene el parmetro de no-centralidad de la


distribucin F no centrada (19,83; ver ecuacin [6.18]). Recordemos que el parmetro de no-
centralidad refleja cmo de grande es la variabilidad entre las medias en comparacin con
la variabilidad de las puntuaciones individuales. Este parmetro es el que se utiliza para cal-
cular la potencia observada que aparece en la ltima columna de la tabla. En nuestros cl-
culos de la potencia observada (ver pg. 205) habamos llegado a la conclusin de que la
potencia del contraste era ligeramente menor de 0,98 (la Tabla G obliga a interpolar valores
y eso hace perder algo de precisin); ahora sabemos que la potencia del contraste vale 0,972.
No parece, por tanto, que se pierda mucha precisin en los clculos basados en la Tabla G.
El hecho de que la informacin que contienen las filas modelo corregido y ansiedad sea
idntica se debe a que estamos ajustando un modelo de ANOVA que nicamente incluye el
efecto de la variable ansiedad. En el siguiente captulo tendremos ocasin de comprobar que,
al aadir nuevos efectos, las cosas cambian.

Tabla 6.8. Resumen del ANOVA de un factor (procedimiento MLG > Univariante)
Variable dependiente: Rendimiento
Suma de Eta al Parmetro
cuadrados Media cuadrado de no Potencia
a
Fuente tipo III gl cuadrtica F Sig. parcial centralidad observada
b
Modelo corregido 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Interseccin 3.000,00 1 3.000,00 228,81 ,000 ,894 228,814 1,000
ansiedad 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Error 354,00 27 13,11
Total 3.614,00 30
Total corregida 614,00 29
a. Calculado con alfa = ,05
b. R cuadrado = ,423 (R cuadrado corregida = ,381)

Comparaciones post hoc


Tanto el procedimiento ANOVA de un factor como el procedimiento Univariante incluyen todos
los estadsticos estudiados en este captulo para realizar comparaciones mltiples. Comence-
mos con las comparaciones post hoc o a posteriori:
' Seleccionar la opcin Comparar medias > ANOVA de un factor del men Analizar para ac-
ceder al cuadro de dilogo ANOVA de un factor y trasladar la variable rendimiento a la
lista Dependientes y la variable ansiedad al cuadro Factor.
' Pulsar el botn Post hoc para acceder al cuadro de dilogo ANOVA de un factor: Com-
paraciones mltiples post hoc y marcar la opcin29 Tukey.
Con estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.9 y 6.10. La
Tabla 6.9 incluye, para cada par de medias, (1) el valor de la diferencia, (2) el error tpico
de esa diferencia (ver nota a pie de pgina nmero 25), (3) el valor p asociado al contraste

29
Todos los estadsticos disponibles en este subcuadro de dilogo persiguen el mismo objetivo: controlar la tasa de error
cuando se realizan comparaciones post hoc. Ya hemos explicado las diferencias entre ellos y hemos recomendado cules
elegir en cada caso. En este ejemplo nos vamos a centrar en uno de ellos: Tukey. El SPSS ofrece para todos ellos la misma
informacin; y todos ellos se interpretan de la misma manera.
Captulo 6. ANOVA de un factor 231

de la hiptesis nula de que esa diferencia vale cero en la poblacin (sig.) y (4) el intervalo
de confianza para a cada diferencia. Por ejemplo, la diferencia entre el nivel de ansiedad
medio y el nivel de ansiedad bajo vale 5 puntos; el error tpico de esa diferencia vale 1,62;
y el nivel crtico o valor p asociado al contraste de esa diferencia vale sig. = 0,012. Puesto
que 0,012 < 0,05, puede concluirse que las medias poblacionales de esos dos grupos son dis-
tintas. Los valores p asociados a cada comparacin indican que el grupo medio difiere tan-
to del grupo bajo como del grupo alto y que estos dos grupos no difieren significativamente.
Los intervalos de confianza de las dos ltimas columnas permiten: (1) estimar entre qu
limites se encuentra la diferencia poblacional entre las medias de los grupos comparados y
(2) contrastar la hiptesis nula de que las medias poblacionales de los dos grupos compara-
dos son iguales. Rechazar esta hiptesis cuando el intervalo de confianza no incluye el valor
cero es equivalente a rechazarla cuando el nivel crtico (sig.) es menor que 0,05.

Tabla 6.9. Comparaciones mltiples post hoc: prueba de Tukey (procedimiento ANOVA de un factor)
Variable dependiente: Rendimiento
HSD de Tukey
Intervalo de confianza
al 95%
(I) Nivel de (J) Nivel de Diferencia de Error
ansiedad ansiedad medias (I-J) tpico Sig. L. inferior L. superior
Bajo Medio -5,00* 1,62 ,012 -9,01 -,99
Alto 2,00 1,62 ,443 -2,01 6,01
Medio Bajo 5,00* 1,62 ,012 ,99 9,01
Alto 7,00* 1,62 ,001 2,99 11,01
Alto Bajo -2,00 1,62 ,443 -6,01 2,01
Medio -7,00* 1,62 ,001 -11,01 -2,99
*. La diferencia de medias es significativa al nivel .05.

La Tabla 6.10 ofrece una clasificacin de los grupos (niveles del factor) basada en el grado
de parecido existente entre sus medias, es decir, basada en los resultados de la Tabla 6.9.
Cada subconjunto de la tabla incluye los grupos cuyas medias no difieren significativamen-
te entre s; los grupos cuyas medias difieren significativamente aparecen en subconjuntos
distintos. En la Tabla 6.10, por ejemplo, en el subconjunto 1 estn incluidos dos grupos (alto
y bajo) cuyas medias no difieren significativamente (sig. = 0,443); y en el subconjunto 2 est
incluido un solo grupo (medio) que difiere de los dos anteriores y que, obviamente, no difie-
re de s mismo (sig. = 1,00). Esta clasificacin de los grupos en subconjuntos no est dispo-
nible con todos los mtodos post-hoc, sino solamente con algunos: S-N-K, Tukey, Tukey-b,
Duncan, Scheff, Gabriel, R-E-G-W F y Q, GT2 de Hochberg y Waller-Duncan.

Tabla 6.10. Subconjuntos homogneos (procedimiento ANOVA de un factor)


a
HSD de Tukey
Subconjunto para alfa = ,05
Nivel de ansiedad N 1 2
Alto 10 7,00
Bajo 10 9,00
Medio 10 14,00
Sig. ,443 1,000
a. Usa el tamao muestral de la media armnica = 10,000.
232 Anlisis de datos (vol. II)

Comparaciones planeadas y de tendencia


Para ilustrar cmo llevar a cabo comparaciones planeadas, vamos a solicitar al SPSS, en
primer lugar, que realice comparaciones de tendencia para poder determinar si la relacin
entre las variables ansiedad y rendimiento es lineal o cuadrtica; y, en segundo lugar, que
compare el grupo de nivel de ansiedad bajo (grupo 1) con el de nivel alto (grupo 3) y el gru-
po de nivel de ansiedad medio (grupo 2) con los otros dos tomados juntos. Para ello:
' En el cuadro de dilogo ANOVA de un factor, pulsar el botn Contrastes para acceder al
subcuadro de dilogo.
' Marcar la opcin Polinmico (aqu es donde se solicitan las comparaciones de tendencia)
y, en el men desplegable Orden, elegir Cuadrtico. Las opciones de este men permiten
fijar cul es el polinomio de mayor orden que se desea estudiar: si se elige la opcin
Lineal, se contrasta la tendencia lineal; si se elige la opcin Cuadrtico, se contrastan las
tendencias lineal y cuadrtica; etc. El lmite en el nmero de tendencias que se contras-
tan viene impuesto por el polinomio elegido o por J ! 1, el valor menor de ambos.
' En el cuadro de texto Coeficientes, introducir (uno a uno, pulsando cada vez el botn Aa-
dir), los coeficientes 1, 0 y !1, es decir, los coeficientes que definen la comparacin en-
tre los grupos 1 y 3 (aqu es donde es posible solicitar al SPSS que realice comparacio-
nes de cualquier tipo; ver ecuacin [6.34]). Para definir el segundo contraste, pulsar el
botn Siguiente del recuadro Contraste 1 de 1 y comenzar a introducir los coeficientes del
segundo contraste, es decir, 1, !2 y 1. La cabecera Contraste # de ## indica el contraste
en el que se est (#) y el nmero total de contrastes definidos (##). El botn Anterior
permite moverse por contrastes previamente definidos.
El orden en el que se asignan los coeficientes se corresponde con el orden ascenden-
te de los cdigos de los niveles de la variable independiente o factor (el primer coefi-
ciente corresponde al grupo con el cdigo ms pequeo). Hay que asignar tantos coe-
ficientes como grupos (J ); por tanto, a los grupos que no intervengan en un contraste
concreto se les debe asignar un cero. Los botones Cambiar y Borrar pueden utilizarse pa-
ra modificar y eliminar, respectivamente, coeficientes previamente aadidos.
Aunque para definir una comparacin lineal los coeficientes asignados deben sumar
cero, es posible definir comparaciones cuyos coeficientes no sumen cero (en ese caso,
el SPSS muestra un mensaje de aviso). La lnea Total para los coeficientes va mostrando
la suma de los coeficientes aadidos.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.11,
6.12 y 6.13. La Tabla 6.12 recoge las comparaciones de tendencia. Se trata de la tabla resu-
men del ANOVA ya obtenida anteriormente (ver Tabla 6.6), pero con informacin nueva.
La informacin relativa a las comparaciones de tendencia aparece integrada dentro de la
variabilidad intergrupos. Cada tendencia aparece acompaada de su correspondiente suma
de cuadrados, grados de libertad, media cuadrtica, estadstico F y valor p. Puesto que los
niveles de la variable independiente o factor (ansiedad ) estn igualmente espaciados (con
cdigos 1, 2 y 3) y todos los grupos tienen el mismo tamao, las soluciones ponderada y no
ponderada son equivalentes (y el SPSS solamente ofrece una de ellas).
La hiptesis nula que se contrasta con cada tendencia es que la relacin representada por
esa tendencia concreta es nula. La tendencia o trmino lineal tiene un nivel crtico asociado
de 0,227; puesto que ese valor es mayor que 0,05, se mantiene la hiptesis de que la tenden-
Captulo 6. ANOVA de un factor 233

cia lineal es nula y se concluye que no es posible afirmar que entre la ansiedad y el rendi-
miento exista relacin lineal significativa.
A continuacin aparece informacin referida al resto de tendencias todava no contras-
tadas (desviacin). Puesto que en este ejemplo nicamente es posible valorar las tendencias
lineal y cuadrtica (recordemos que con tres grupos solamente es posible valorar dos ten-
dencias), la nica tendencia todava no contrastada es la cuadrtica. El nivel crtico asociado
a las tendencias no contrastadas (sig. < 0,0005) indica que entre las de orden mayor que el
lineal existe alguna que es significativa. En el ejemplo esa nica tendencia es la cuadrtica.
Y es significativamente distinta de cero. Los resultados correspondientes al trmino cua-
drtico son idnticos a los de la desviacin del trmino lineal.
Puede concluirse, por tanto, que la relacin entre las variables ansiedad y rendimiento
es cuadrtica. El grfico de lneas (Figura 6.2) muestra con claridad lo que est ocurriendo
(este grfico se ha obtenido mediante la opcin Grfico de las medias del subcuadro de dilo-
go ANOVA de un factor: Opciones).

Tabla 6.11. Resumen del ANOVA con comparaciones de tendencia (procedimiento ANOVA de un factor)
Rendimiento
Suma de Media
cuadrados gl cuadrtica F Sig.
Inter-grupos (Combinados) 260,00 2 130,00 9,92 ,001
Trmino lineal Contraste 20,00 1 20,00 1,53 ,227
Desviacin 240,00 1 240,00 18,31 ,000
Trmino cuadrtico Contraste 240,00 1 240,00 18,31 ,000
Intra-grupos 354,00 27 13,11
Total 614,00 29

Figura 6.2. Grfico de lneas: relacin entre ansiedad y rendimiento

Las Tablas 6.12 y 6.13 contienen la informacin relativa a las dos comparaciones planeadas
que se han solicitado. La Tabla 6.12 muestra los coeficientes asignados. Estos coeficientes
sirven para identificar las comparaciones que se estn llevando a cabo y, por supuesto, para
comprobar que, efectivamente, se corresponden con las dos comparaciones solicitadas. La
Tabla 6.13 ofrece los resultados de ambas comparaciones agrupados en dos bloques. En el
primero de ellos, las comparaciones estn evaluadas asumiendo que las varianzas pobla-
234 Anlisis de datos (vol. II)

cionales son iguales; en el segundo, sin asumir igualdad de varianzas. Aunque es habitual que
ambas estrategias lleven a la misma conclusin, debe utilizarse la que se ajuste a las carac-
tersticas de los datos; para tomar esta decisin debe tenerse en cuenta el resultado obtenido
previamente al evaluar la hiptesis de igualdad de varianzas mediante la prueba de Levene.
Puesto que el contraste de Levene aplicado a los datos del ejemplo permite asumir varianzas
poblacionales iguales (ver Tabla 6.5), la decisin sobre la hiptesis de que los promedios
comparados son iguales puede basarse en el primer bloque de informacin (asumiendo
igualdad de varianzas).
La tabla muestra, para cada uno de los dos contrastes definidos, el valor del contraste,
su error tpico, el estadstico del contraste (t), sus grados de libertad y el nivel crtico (sig.
bilateral ). La hiptesis nula que se pone a prueba con cada contraste es que los promedios
poblacionales comparados son iguales. Teniendo en cuenta los niveles crticos asociados a
cada contraste debe decidirse: (1) mantener la hiptesis nula referida al primer contraste
(pues 0,227 > 0,05) y (2) rechazar la referida al segundo contraste (pues 0,0005 < 0,05). En
consecuencia, puede concluirse, en primer lugar, que no existe evidencia para pensar que el
rendimiento medio de los grupos 1 y 3 sea distinto; y, en segundo lugar, que el rendimiento
medio del grupo 2 difiere significativamente del rendimiento medio de los dos grupos to-
mados juntos.

Tabla 6.12. Coeficientes de las comparaciones planeadas (procedimiento ANOVA de un factor)


Nivel de ansiedad
Contraste Bajo Medio Alto
1 1 0 -1
2 1 -2 1

Tabla 6.13. Resultado de las comparaciones planeadas (procedimiento ANOVA de un factor)


Rendimiento
Valor del Error Sig.
Contraste contraste tpico t gl (bilateral)
Asumiendo igualdad de varianzas 1 2,00 1,62 1,24 27 ,227
2 -12,00 2,80 -4,28 27 ,000
No asumiendo igualdad de varianzas 1 2,00 1,61 1,24 17,54 ,231
2 -12,00 2,82 -4,26 17,75 ,000

Apndice 6
Distribucin muestral del estadstico F
Hemos definido el estadstico F como el cociente entre MCA y MCE. Sabemos que, si es un esti-
mador insesgado de , la transformacin

[6.47]
Captulo 6. ANOVA de un factor 235

es una variable con n ! 1 grados de libertad (ver, en el Apndice 6 del primer volumen, el apartado
Distribucin muestral del estadstico varianza). Tambin sabemos (ver ecuacin [6.4]) que, si las J
medias poblacionales son iguales, MCA es un estimador insesgado de . Por tanto, la transformacin

[6.48]

se distribuye segn con J ! 1 grados de libertad. Y tambin sabemos, por ltimo, que, tanto si las
medias poblacionales son iguales como si no, MCE es un estimador insesgado de (ver ecuacin
[6.2]). Por tanto, la transformacin
[6.49]

es una variable con N ! J grados de libertad.


Ahora bien, la distribucin F se define (ver, por ejemplo, Kirk, 1995, pg. 76) como el cociente
entre dos independientes30, cada uno de ellos dividido por sus grados de libertad. Es decir:

= [6.50]

Por tanto, puesto que [6.48] y [6.49] son dos variables independientes, el conciente entre ambas
tras dividirlas por sus respectivos grados de libertad es una variable F con los grados de libertad de
[6.48] y [6.49]:

= = [6.51]

Al igual que ocurre con otras distribuciones de probabilidad tericas (binomial, normal, , t), no exis-
te una nica distribucin F sino toda una familia. La diferencia entre cada distribucin F nicamente
est en los grados de libertad, es decir, en gl1 y gl2.
Puesto que una variable F es el cociente de dos variables ji-cuadrado, es decir, el cociente de dos
variables asimtricas positivas, su distribucin tambin es asimtrica positiva. En relacin con la for-
ma de la distribucin F, los grficos de la Figura 6.3 muestran: (1) asimetra extrema cuando gl1 = 2,
sin importar cmo de grande es gl2 ; y (2) reduccin paulatina del grado de asimetra conforme va
aumentando el valor de gl1.
En el eje horizontal de estos grficos estn representados los valores F ; en el vertical, sus densi-
dades. Cada grfico se corresponde con un valor de gl1: 2, 4, 6, 8, 10 y 12. Y las distintas curvas den-
tro de un mismo grfico se corresponden con diferentes valores de gl2: 20, 50, 100 y 500. El rango de
valores representados permite formarse una idea bastante precisa de cmo va cambiando la forma de
la distribucin. Cuando gl1 = 2, los valores de gl2 apenas alteran la forma de la distribucin; las cua-
tro curvas dibujadas estn tan solapadas que parece que solamente hay una curva; el cuantil 95 (que
es el que habitualmente se utiliza para tomar decisiones en el anlisis de varianza), vara entre el va-
lor F = 3,49 para gl2 = 20 y el valor F = 3,01 para gl2 = 500. Conforme va aumentando gl1, las curvas
correspondientes a los diferentes valores de gl2 se van separando un poco ms; y tambin va dismi-
nuyendo el grado de asimetra (las curvas ms altas y ms estrechas corresponden a ms grados de
libertad). Con gl1 = 12, los valores de gl2 permiten distinguir cuatro curvas distintas; sin embargo, las

30
MCA y MCE son estimadores independientes de , pues MCA se basa en las medias muestrales y MCE se basa en las
varianzas muestrales. Y no olvidemos que la media y la varianza de una distribucin normal, caso en el que nos encontra-
mos, son independientes.
236 Anlisis de datos (vol. II)

diferencias en el cuantil 95 se mantienen en aproximadamente medio punto (igual que con gl1 = 2): el
cuantil 95 vara entre el valor F = 2,28 para gl2 = 20 y el valor F = 1,77 para gl2 = 500.

Figura 6.3. Distribuciones F con diferentes grados de libertad (gl2 = 20, 50, 100, 500).
gl1 = 2 gl1 = 4 gl1 = 6

gl1 = 8 gl1 = 10 gl1 = 12

Tabla de la distribucin F
Al igual que con otras distribuciones de probabilidad estudiadas, el trabajo con la distribucin F sue-
le limitarse a calcular la proporcin de rea bajo la curva asociada a diferentes valores del eje horizon-
tal o a encontrar el valor concreto del eje horizontal asociado a una determinada proporcin de rea
bajo la curva. Para esta tarea, asumimos que toda el rea bajo la curva vale 1 y, por tanto, que hablar
de proporcin de rea es equivalente a hablar de probabilidad.
La Tabla F del Apndice final ofrece los cuantiles 95 y 99 de la distribucin F. Las cabeceras de
las columnas (gl1) contienen los grados de libertad del numerador del estadstico F ; las cabeceras de
las filas (gl2) contienen los grados de libertad del denominador. Por tanto, cada valor del interior de la
tabla corresponde a una distribucin F distinta. Estos valores son los que acumulan, en sus respectivas
distribuciones, un rea bajo la curva de tamao 1 ! = 0,95 y 1 ! = 0,99.
Con 1 ! = 0,95, el valor F que corresponde a gl1 = 2 y gl2 = 24 es 3,40. Esto significa que, en
la distribucin F con 2 y 24 grados de libertad, el valor 3,40 acumula (o sea, deja por debajo o a la
izquierda) una proporcin de rea de tamao 0,95. Es decir,
P (F < 3,40) = F (3,40) = 0,95
Ahora bien, si por debajo del valor 3,40 queda una proporcin de rea de tamao 0,95, entonces la
probabilidad de encontrar valores F menores que 3,40 vale 0,95 (esto es lo que se quiere indicar al de-
cir que proporcin de rea es equivalente a probabilidad). Para representar este resultado utilizamos
la siguiente expresin:
F2, 24; 0,95 = 3,40
Los dos primeros subndices se refieren a los grados de libertad; el tercero, a la proporcin de rea que
queda a la izquierda cada valor F (probabilidad acumulada). La tabla nicamente ofrece los cuantiles
95 y 99 de algunas distribuciones F. Para conocer otros valores puede utilizarse un programa infor-
mtico como el SPSS.
Captulo 6. ANOVA de un factor 237

La distribucin F con SPSS


La opcin Calcular del men Transformar incluye varias funciones relacionadas con la distribucin F.
La funcin CDF.F (F, n1, n2) calcula la probabilidad acumulada hasta el valor F en la distribucin con
n1 y n2 grados de libertad. Por tanto, para calcular la probabilidad acumulada hasta el valor 3,40 en una
distribucin F con 2 y 24 grados de libertad, haremos
CDF.F (3.4, 2, 24)
La funcin IDF.F ( p, n1, n2) devuelve el valor del cuantil p, es decir, el valor F que acumula una
probabilidad p en la distribucin F con n1 y n2 grados de libertad. La siguiente expresin permite
conocer el valor del cuantil 95 en la distribucin F con 2 y 24 grados de libertad:
IDF.F (0.95, 2, 24)
Por ltimo, la funcin PDF.F (F, n1, n2) permite obtener la densidad (altura de la curva) que correspon-
de al valor F en la distribucin F con n1 y n2 grados de libertad. No debe olvidarse que el separador de-
cimal que debe utilizarse en las expresiones numricas del SPSS es el punto (como en una calculadora),
no la coma (como se hace al escribir en espaol).

Estadsticos F robustos: Welch y Brown-Forsythe


Ya hemos insistido en que el estadstico F requiere trabajar con poblaciones normales y homoceds-
ticas. El incumplimiento del supuesto de normalidad no tiene consecuencias relevantes sobre el anlisis
si los tamaos muestrales son moderadamente grandes; y si se tiene que trabajar con poblaciones no
normales y tamaos muestrales pequeos, puede utilizarse la prueba de Kruskal-Wallis estudiada en
el Captulo 4.
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales tambin existen
algunos estadsticos robustos que permiten contrastar la hiptesis global de igualdad de medias sin te-
ner que estar preocupados por el tamao de las varianzas. En este apartado describimos dos de estos
procedimientos: uno debido a Welch y otro debido a Brown y Forsythe (son los dos estadsticos F
robustos que incluye el SPSS).
El estadstico FW (Welch, 1951) es uno de los ms apropiados en trminos de potencia y control
de la tasa de error (Kohr y Games, 1974; Tomarken y Serlin, 1986). Su clculo es algo tedioso, pero
no complicado:

FWelch = [6.52]

donde

El estadstico FW se distribuye segn el modelo de probabilidad F con J ! 1 y grados de libertad


(el smbolo no debe confundirse con un estadstico muy conocido llamado lambda de Wilks que
utilizaremos en los Captulos 8 y 9).
238 Anlisis de datos (vol. II)

Brown y Forsythe (1974b) han propuesto una modificacin del estadstico F cuya lgica es algo
ms intuitiva que la de FWelch y que sirve igualmente para contrastar la hiptesis global de igualdad de
medias cuando no puede asumirse que las varianzas poblacionales son iguales:

FBrown-Forsythe = [6.53]

Este estadstico se distribuye segn el modelo de probabilidad F con J ! 1 y gl grados de libertad. Y


gl se obtiene mediante

gl = con = [6.54]

Comparaciones post hoc: procedimientos alternativos


Si no puede asumirse que las varianzas poblacionales son iguales, varios estudios (Dunnett, 1980b;
Games, Keselman y Rogan, 1981; Keselman, Games y Rogan, 1979; Keselman y Rogan, 1978; Ta-
mhane, 1979) coinciden en apoyar, particularmente cuando los tamaos muestrales son grandes, la
solucin propuesta por Games y Howell31 (1976):

DMS Games-Howell = [6.55]

donde q, al igual que en el procedimiento de Tukey, es el valor de la distribucin del rango studen-
tizado que acumula una probabilidad 1 ! F con J medias y gl grados de libertad (gl se obtiene con la
ecuacin [6.37]). No obstante, el mtodo de Games-Howell se vuelve algo liberal con tamaos mues-
trales pequeos. En estos casos es preferible utilizar la DMS basada en el estadstico T3 de Dunnett32
(1980b):

DMS T3-Dunnett = [6.56]

donde q es el valor de la distribucin del mdulo mximo studentizado (ver Pardo y San Martn, 1998,
Tabla K del Apndice final) que acumula una probabilidad 1 ! F con k = J (J ! 1) / 2 y gl grados de
libertad (gl se obtiene con la ecuacin [6.37]).

Mtodos secuenciales
No todos los procedimientos diseados para llevar a cabo comparaciones a posteriori por pares se ba-
san en la misma lgica. Mientras la prueba de Tukey, por ejemplo, utiliza un mismo nivel de signifi-
cacin y un nico punto crtico (una nica DMS) para las J (J !1) / 2 posibles comparaciones por pares,

31
Dunnett (1980b) ha propuesto una solucin similar a la de Games-Howell: el mtodo C. Este mtodo consiste en utilizar
como estimacin de los grados de libertad del error (gl) la solucin de Cochran y Cox (ver Pardo y San Martn, 1998,
Captulo 4, ecuacin [4.13]), en lugar de la solucin de Welch (que es lo que hace el mtodo de Games-Howell).
32
El estadstico T3 de Dunnett se basa en el T2 de Tamhane (1977, 1979). El estadstico T2 utiliza como estimacin del
error tpico de la diferencia de medias el mismo valor que el estadstico T3 de Dunnett, pero se basa en la distribucin t de
Student y utiliza la desigualdad de Sidk para controlar la tasa de error (ver, en este mismo captulo, la nota a pie de pgina
nmero 21). El valor t que se utiliza en la ecuacin de la DMS es el cuantil 100 (1 ! /2)1/k de la distribucin t de Student
con gl grados de libertad (gl se obtiene con la ecuacin [6.37]) y k = J (J ! 1)/ 2.
Captulo 6. ANOVA de un factor 239

otros procedimientos realizan las comparaciones por pasos o de forma secuencial, cambiando el nivel
de significacin y el punto crtico en cada paso.
En los mtodos secuenciales, tras ordenar de forma ascendente las J medias por su tamao, las
comparaciones entre pares de medias se llevan a cabo teniendo en cuenta el nmero de pasos (r) que
separan a las medias comparadas: con J medias, la media ms pequea y la ms grande estn separa-
das r = J pasos; la media ms pequea y la segunda ms grande estn separadas r = J ! 1 pasos; la
media ms pequea y la tercera ms grande estn separadas r = J ! 2 pasos; etc. Dos medias adya-
centes tras la ordenacin estn separadas r = 2 pasos. El nmero de pasos existente entre las medias
comparadas condiciona el nivel de significacin (y, por tanto, el punto crtico) con el que se evala
cada comparacin. En este apartado se describen dos de estos mtodos secuenciales33: la prueba de
Student-Newman-Keuls y la de Ryan-Einot-Gabriel-Welch.
La prueba de Student-Newman-Keuls (S-N-K) fue propuesta inicialmente por Gosset (1927),
Newman (1939) y Keuls (1952), y ha sido muy revitalizada en las ltimas dcadas (ver Jaccard, Bec-
ker y Wood, 1984; Toothaker, 1991). Utiliza, al igual que la prueba de Tukey, un estadstico basado
en la distribucin del rango studentizado, pero, a diferencia de la de Tukey, la prueba de S-N-K sigue
una estrategia secuencial basada en una ordenacin de las medias por su tamao.
La diferencia mnima significativa de Student-Newman-Keuls (DMSSNK) se calcula de la misma
manera que DMSTukey (ver ecuacin [6.27]), con la nica diferencia de que los grados de libertad que
se utilizan para obtener el cuantil 100(1 ! F) de la distribucin del rango studentizado cambian:
donde el procedimiento de Tukey utiliza J para obtener un nico punto crtico q y, en consecuencia,
un nico valor DMSTukey, el procedimiento S-N-K utiliza r = nmero de pasos entre las medias com-
paradas para obtener tantos puntos crticos como valores r distintos pueda haber con J medias:
DMSS-N-K = [6.57]

Por ejemplo, con cuatro grupos (J = 4), la media ms grande y la ms pequea estn separadas 4 pa-
sos; para comparar esas dos medias, el valor de DMSS-N-K se obtiene utilizando r = 4 grados de liber-
tad. Las medias 1-3 y 2-4, que se encuentran separadas 3 pasos, se comparan utilizando r = 3. Y las
medias 1-2, 2-3 y 3-4, que estn separadas 2 pasos, se comparan utilizando r = 2.
En todos los casos se contrasta la hiptesis nula de que las dos medias comparadas son iguales, es
decir, H0: j = j . Estas comparaciones se llevan a cabo de forma secuencial, por pasos:
1. Se compara la media ms grande con la ms pequea, es decir, las dos medias separadas r = J
pasos. Si se mantiene la hiptesis nula referida a esta primera comparacin, se detiene el proce-
so y se concluye que entre las J medias consideradas no se han encontrado diferencias signifi-
cativas. Si se rechaza la hiptesis nula, se contina con el paso 2.
2. Se comparan las medias separadas r = J ! 1 pasos, pero por orden. Primero se comparan las dos
medias cuya diferencia es mayor; si se mantiene la hiptesis nula referida a esa comparacin, se
detiene el proceso y se consideran no significativas el resto de diferencias; si se rechaza la hip-
tesis nula, se comparan las dos medias cuya diferencia es la siguiente mayor. Si se rechazan todas
las hiptesis referidas a las medias separadas r = J ! 1 pasos, se contina con el paso 3.
3. Se comparan las medias separadas r = J ! 2 pasos, tambin por orden y siguiendo la misma l-
gica del paso 2.
4. Se contina el proceso hasta que se obtiene una diferencia no significativa o hasta que se compa-
ran todas las medias separadas r = 2 pasos.

33
Existen otros mtodos secuenciales adems de los dos incluidos aqu. Duncan (1955), por ejemplo, ha propuesto un m-
todo secuencial, conocido como prueba del rango mltiple, que se basa en la misma lgica que la de Student-Newman-Keuls
pero utilizando como nivel de significacin para cada grupo de medias separadas r pasos el valor r = 1 ! (1 ! ) r!1. A pe-
sar de su amplia utilizacin en el pasado, la prueba del rango mltiple parece ms bien poco recomendable (ver Seaman,
Levin y Serlin, 1991).
240 Anlisis de datos (vol. II)

La consecuencia de esta forma de proceder es que, para J > 3, la tasa de error por familia de compa-
raciones (F) es siempre mayor que el nivel de significacin nominal (ver, por ejemplo, Keselman,
Keselman y Games, 1991). De hecho, lo que hace el procedimiento SNK es controlar F para cada
conjunto de medias separadas r pasos.
Cuantos ms pasos existen entre dos medias, mayor es la diferencia mnima necesaria para consi-
derar que esas medias difieren significativamente. Esto convierte al procedimiento de S-N-K en ms
potente que el de Tukey, pero a costa de incrementar la tasa de error por familia de comparaciones (F).
La prueba de Ryan-Einot-Gabriel-Welsch (R-E-G-W Q) debe su nombre a varios participan-
tes en su diseo final. Ryan (1960) propuso una modificacin del procedimiento de S-N-K para ate-
nuar la disminucin tan rpida que se produce en el valor de DMSSNK como consecuencia de la dismi-
nucin de r. Segn la propuesta de Ryan, es posible controlar F si, al comparar dos medias sepa-
radas r pasos, en lugar de utilizar (como hace el procedimiento de S-N-K), se utiliza r = / (J / r).
Puesto que la fraccin J / r aumenta conforme disminuye r, el valor de r ser tanto ms pequeo cuan-
to menor sea r, lo cual significa que, aunque el valor de la DMS vaya disminuyendo con r, esta dis-
minucin ser ms lenta que la que se produce con el mtodo de S-N-K. De hecho, la solucin pro-
puesta por Ryan permite ejercer un buen control sobre la tasa de error.
La propuesta inicial de Ryan ha sufrido dos modificaciones en un intento de incrementar la po-
tencia del procedimiento sin alterar su control sobre F. En primer lugar, Einot y Gabriel (1975) han
propuesto utilizar r = 1 ! (1 ! )r/J; con esta solucin, r tambin disminuye conforme lo hace r, pero
ms despacio que en la solucin propuesta por Ryan. En segundo lugar, Welsch (1977) ha argumen-
tado que es posible incrementar todava ms la potencia del procedimiento sin perder control sobre F
si, permaneciendo todo igual, las medias separadas r = J ! 1 pasos se comparan utilizando (en lugar
de r ). Estas dos modificaciones de la propuesta inicial de Ryan unidas a la lgica del procedimien-
to de S-N-K es lo que se conoce como mtodo de R-E-G-W Q. La letra Q hace referencia a la distri-
bucin del rango studentizado.

Efectos aleatorios
Recordemos que los niveles concretos que adopta un factor de efectos fijos son los niveles que intere-
sa estudiar; por este motivo la hiptesis nula se plantea justamente sobre las medias poblacionales
correspondientes a esos niveles: H0: 1 = 2 = = J . Por el contrario, los niveles concretos que adop-
ta un factor de efectos aleatorios nicamente constituyen una muestra aleatoria de la poblacin de los
niveles que interesa estudiar; por este motivo la hiptesis nula no se plantea sobre las medias de los
niveles utilizados, sino sobre su varianza:

H0: = 0
( se refiere a la varianza de las medias de todos los posibles niveles del factor). Puesto que los ni-
veles de un factor de efectos aleatorios son solamente algunos de los posibles, la hiptesis debe refle-
jar, no la diferencia entre las medias de los niveles concretos utilizados, sino la diferencia entre todos
los posibles niveles del factor (y la varianza de esas medias ser cero cuando todas ellas sean iguales).
Por tanto, en un modelo de efectos aleatorios, el inters del anlisis no se centra en las medias de los
niveles del factor, sino en su varianza; en concreto, el inters se centra en intentar cuantificar la con-
tribucin de cada trmino aleatorio a la varianza de la variable dependiente.
En el modelo de un factor de efectos aleatorios hay dos trminos aleatorios: el factor y la varia-
ble dependiente (en el modelo de efectos fijos, el factor no se considera una variable aleatoria); y se
asume que la variabilidad de la variable dependiente dentro de cada nivel del factor es independiente
del nivel del factor (ste es el supuesto de igualdad de varianzas al que nos hemos referido repeti-
damente a lo largo de este captulo); por tanto, se verifica:
= + [6.58]
Captulo 6. ANOVA de un factor 241

Es decir, la varianza total (la varianza del conjunto de puntuaciones Y tomadas como si pertenecieran
a un nico grupo) es la suma de dos trminos o componentes independientes: la varianza del factor
( ; la varianza entre las medias de los niveles del factor) y la varianza de Y ( ; la varianza de la
variable dependiente en cada poblacin; se asume que todas las poblaciones tienen la misma varian-
za). De ah el nombre de componentes de la varianza que recibe esta versin del anlisis de varianza
(para profundizar en los modelos de efectos aleatorios, puede consultarse Rao y Kleffe, 1988; o Sear-
le, Casella y McCulloch, 1992).
El procedimiento ANOVA de un factor permite contrastar la hiptesis nula = 0 y estimar tanto
como . Veamos cmo hacer esto con un ejemplo. El ejemplo se basa en los mismos datos que hemos
analizado con el modelo de efectos fijos (Tabla 6.2; ejemplo sobre la relacin entre la ansiedad y el ren-
dimiento). Obviamente, un mismo factor (nivel de ansiedad: bajo, medio, alto) no puede ser de efectos
fijos y al mismo tiempo de efectos aleatorios. Sin embargo, vamos a utilizar los mismos datos para que
se entienda dnde estn las diferencias entre el modelo de efectos fijos y el de efectos aleatorios:
' Reproducir en el Editor de datos los datos de la Tabla 6.2 (o abrir el archivo Tabla 6.2 ansiedad
rendimiento que se encuentra en la pgina web del manual).
' Seleccionar la opcin Comparar medias > ANOVA de un factor del men Analizar para acceder al cua-
dro de dilogo ANOVA de un factor y trasladar la variable rendimiento a la lista Dependiente y la
variable ansiedad al cuadro Factor.
' Pulsar el botn Opciones para acceder al subcuadro de dilogo ANOVA de un factor: Opciones y
marcar la opcin Efectos aleatorios y fijos. Pulsar el botn Continuar para volver al cuadro de dilo-
go principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.14 y 6.15. La Ta-
bla 6.14 muestra el resumen del ANOVA y es idntica a la que ya hemos obtenido cuando hemos
asumido que el factor ansiedad era de efectos fijos (ver Tabla 6.6). Por tanto, en el modelo de un factor,
ni las medias cuadrticas ni el estadstico F cambian porque el factor sea de efectos fijos o de efectos
aleatorios. La nica diferencia en este punto est en que, ahora, la hiptesis nula que se est contras-
tando se refiere a la varianza de las medias del factor. Cuando el factor es de efectos fijos, el rechazo
de la hiptesis de igualdad de medias permite concluir que los promedios comparados no son iguales;
y como los niveles del factor son justamente los que interesa estudiar, tiene sentido realizar compa-
raciones mltiples para indagar entre qu medias en concreto se dan las diferencias. Cuando el factor
es de efectos aleatorios, el rechazo de la hiptesis nula permite concluir que el nivel de ansiedad est
relacionado con el rendimiento; y como los niveles concretos del factor solamente son una muestra
aleatoria de los posibles niveles, no tiene sentido realizar comparaciones mltiples entre ellos.

Tabla 6.14. Resumen del ANOVA de un factor


Rendimiento
Suma de cuadrados gl Media cuadrtica F Sig.
Inter-grupos 260,00 2 130,00 9,92 ,001
Intra-grupos 354,00 27 13,11
Total 614,00 29

La novedad del anlisis en relacin con el hecho de estar utilizando un factor de efectos aleatorios se
encuentra en la Tabla 6.15. La ltima columna de la tabla (componentes de la varianza) ofrece una
estimacin de la varianza del factor ( = 11,69). De acuerdo con la relacin establecida en [6.58], es-
ta estimacin de la varianza del factor puede utilizarse para conocer cmo de grande es la variabilidad
debida al factor en comparacin con la variabilidad total:

CCI = [6.59]
242 Anlisis de datos (vol. II)

Puesto que el CCI (coeficiente de correlacin intraclase) est calculado como el tamao relativo de la
varianza de las medias del factor respecto de la varianza total, lo que realmente est expresando es la
proporcin de varianza comn o compartida entre el factor y la variable dependiente.

Tabla 6.15. Componentes de la varianza


Rendimiento
Intervalo de confianza para la
Desviacin Error media al 95% Componentes
tpica tpico Lm. inferior Lm. superior de la varianza
Modelo Efectos fijos 3,62 ,66 8,64 11,36
Efectos aleatorios 2,08 1,04 18,96 11,69

Para obtener CCI mediante [6.59], adems de , necesitamos , es decir, una estimacin de la va-
rianza de Y en cada poblacin; pero la tenemos. Recordemos que, puesto que estamos asumiendo que
las varianzas poblacionales son iguales, la mejor estimacin de esa nica varianza poblacional se ob-
tiene promediando las J varianzas muestrales, es decir, calculando MCE. Y este clculo lo incluye la
Tabla 6.14 (MCE = 13,11). Por tanto,

CCI = = 11,69 / (11,69 + 13,11) = 0,47

Este resultado indica que el factor ansiedad comparte el 47 % de la varianza del rendimiento. Lo cual
significa que nuestro conocimiento del rendimiento de los sujetos mejora un 47 % cuando conocemos
su nivel de ansiedad. Vemos que el CCI se interpreta exactamente igual que las medidas de asociacin
estudiadas en el apartado Medidas del tamao del efecto. En realidad, cuando el factor es de efectos
aleatorios, el CCI coincide con la medida de asociacin omega-cuadrado (ver ecuacin [6.17]):

CCI = = = = 0,47

Ejercicios Soluciones en www.sintesis.com

6.1. En muchos trabajos sobre aprendizaje parece haber quedado demostrado que el rendimiento de los suje-
tos es tanto mejor cuanto mayor es la recompensa (refuerzo) que reciben. En uno de estos trabajos se
formaron aleatoriamente 3 grupos de ratas sedientas. Las seis ratas de cada grupo fueron reforzadas con
diferentes cantidades de agua (5, 10 y 15 cc) por recorrer el laberinto. La siguiente tabla muestra el
nmero de ensayos que ha necesitado cada rata para aprender a recorrer el laberinto bajo cada condicin
experimental:

5 cc 9 8 7 8 7 9
10 cc 6 6 3 4 5 6
15 cc 4 2 3 4 3 2

Utilizando = 0,05,
a. Puede afirmarse que la cantidad de recompensa afecta a la velocidad de aprendizaje de las ratas?
b. Obtener una estimacin del tamao del efecto. Interpretar el resultado.
Captulo 6. ANOVA de un factor 243

c. Calcular la potencia del contraste.


d. Realizar las comparaciones pertinentes para determinar entre qu grupos existen diferencias sig-
nificativas.
e. Puede afirmarse que la relacin entre la cantidad de recompensa y la velocidad de aprendizaje es
de tipo lineal?

6.2. La siguiente tabla muestra las puntuaciones de una muestra de 32 pacientes depresivos en la escala de
depresin de Hamilton tras recibir tratamiento durante 12 semanas. Todos los pacientes seleccionados
tenan puntuaciones iniciales mayores de 30 puntos. Se han formado aleatoriamente 4 grupos del mis-
mo tamao (8 pacientes por grupo) y a cada grupo se le ha asignado, tambin aleatoriamente, un trata-
miento distinto. Al primer grupo se le ha administrado un tratamiento farmacolgico convencional a
base fluoxetina (a1 = control); al segundo, una combinacin de fluoxetina con reboxetina (a2 = com-
puesto); al tercero, fluoxetina y psicoterapia (a3 = mixto); el cuarto grupo solamente ha recibido
psicoterapia (a4 = psicoterapia).
_
Tratamientos Puntuaciones escala Hamilton Yj S j2

a1 = control 24 26 21 15 19 31 33 29 24,75 38,50


a2 = compuesto 26 19 23 25 15 26 16 10 20,00 35,43
a3 = mixto 15 22 7 10 4 19 7 8 11,50 41,43
a4 = psicoterapia 15 23 21 17 25 31 14 28 21,75 37,93

Promedios 19,50 38,32

Utilizando = 0,05,
a. Contrastar la hiptesis nula de que el nivel medio de depresin es el mismo en los cuatro grupos.
b. Estimar el tamao del efecto. Interpretar el resultado.
c. Calcular la potencia del contraste.
d. Qu grupo difiere del control?
e. Comparar las medias de los dos grupos que han recibido psicoterapia con las de los dos que no la
han recibido.

6.3. En el contexto de la valoracin que se hace anualmente de la calidad percibida del servicio de cafete-
ras del campus de una determinada universidad, se desea estudiar la evolucin que han experimen-
tado esas valoraciones entre los aos 2002 y 2005. La hiptesis de los investigadores es que las valora-
ciones han ido mejorando con los aos. La siguiente tabal recoge las valoraciones medias registradas
cada ao:

2002 2003 2004 2005


5,2 5,5 6,0 6,2

Sabiendo que cada ao se ha entrevistado a 100 usuarios, que la media cuadrtica error (MCE ) vale
2,58, y utilizando un nivel de confianza de 0,95, qu puede concluirse sobre la hiptesis de los inves-
tigadores?

6.4. Para estudiar el efecto de la desnutricin proteica sobre el aprendizaje de las ratas se seleccionaron tres
tipos de dieta: A, B y C (cada una con diferente contenido proteico), y_se aplicaron_ a 30 ratas
_ (10 por
tratamiento). Las medias obtenidas por grupo fueron las siguientes: A = 3,8; B = 5,2; C = 6,3. Sa-
biendo que la media cuadrtica error vale 2,22, averiguar si la cantidad de contenido proteico en la
dieta influye sobre el aprendizaje de las ratas ( = 0,05).
244 Anlisis de datos (vol. II)

6.5. Se sospecha que el nivel de bienestar psicolgico est relacionado con la proximidad del periodo vaca-
cional estival. Para estudiar esta relacin se toma una muestra de 30 personas a las que se les pide que
valoren, en una escala de 0 a 10, su bienestar psicolgico en tres meses del ao: febrero, abril y junio.
a. Identificar qu variables estn involucradas y si son cuantitativas o categricas.
b. Qu prueba estadstica podra utilizarse para estudiar si el bienestar psicolgico est relacionado
con la proximidad del periodo vacacional estival?
c. Qu prueba estadstica podra utilizarse para estudiar si el bienestar psicolgico aumenta confor-
me se va aproximando el periodo vacacional estival?
d. Qu prueba estadstica permitira averiguar en qu mes(es) de los estudiados es mayor el nivel
de bienestar psicolgico?

6.6. (Sealar la alternativa correcta.) En un ANOVA de un factor A-CA ...


a. MCI es un estimador sesgado de la varianza poblacional solamente si H0 es verdadera.
b. MCE es un estimador sesgado de la varianza poblacional solamente si H0 es verdadera.
c. MCE es un estimador insesgado de la varianza poblacional solamente si H0 es falsa.
d. MCI es un estimador sesgado de la varianza poblacional solamente si H0 es falsa.
e. MCI es un estimador insesgado de la varianza poblacional solamente si H0 es falsa.

6.7. De un ANOVA A-CA con la variable dependiente Y tenemos la siguiente informacin: MCI = 32,3 y
MCE = 2,70. Si hacemos W = 2Y + 3 y llevamos a cabo un ANOVA con la variable dependiente W,
a. Cunto valdr la media cuadrtica intergrupos MCI ?
b. Cunto valdr la media cuadrtica error MCE ?
c. Cunto valdr el estadstico F ?

6.8. (Sealar la alternativa correcta.) En un ANOVA A-CA...


a. La poblacin de niveles del factor es infinita.
b. El supuesto de homocedasticidad no es importante si las muestras ms pequeas proceden de pobla-
ciones normales.
c. El supuesto de independencia no afecta al error Tipo I si las poblaciones son homocedsticas.
d. El estadstico F es poco sensible al incumplimiento del supuesto de normalidad cuando se trabaja
con muestras grandes.
e. La hiptesis alternativa afirma que todas las medias son distintas.

6.9. (Sealar la alternativa correcta.) En un ANOVA A-CA, la MCE (media cuadrtica error)...
a. Siempre es mayor que cero.
b. Es, a veces, negativa.
c. Siempre es igual o mayor que cero.
d. Es negativa cuando la variabilidad total es menor que la variabilidad entre los niveles del factor.
e. No puede valer cero.

6.10. (Sealar la/s alternativa/s correcta/s.) En un ANOVA de un factor completamente aleatorizado, el


estadstico F toma el valor 1,63. Sabiendo que P ( F > 1,63) = 0,108 y utilizando un nivel de signifi-
cacin = 0,01, qu decisin debe tomarse sobre H0?
a. Rechazarla porque F cae en la zona crtica.
b. Rechazarla porque 0,108 > 0,01.
c. Rechazarla porque 1,63 > 0,99.
d. Mantenerla porque 1,63 > 0,01.
e. Mantenerla porque 0,108 > 0,01.
f. Mantenerla porque 0,108 > 0,95.
Captulo 6. ANOVA de un factor 245

6.11. Un psiclogo afirma que al aumentar el nivel de adrenalina en sangre tambin aumenta el nmero de
errores que se cometen en una determinada tarea de atencin. Un colega suyo piensa que la relacin
entre la adrenalina y el nmero de errores tiene forma de U invertida. Para aclarar la situacin, toman
una muestra aleatoria de 60 sujetos y la dividen en tres grupos a los que ponen a realizar la tarea tras
inducirles distintos niveles de adrenalina: bajo, medio y alto. Miden los errores cometidos por cada
sujeto y se disponen a analizar los datos obtenidos.
a. Plantea con palabras y estadsticamente las hiptesis nulas que deben formularse para poder con-
trastar las sospechas de ambos psiclogos.
b. Al contrastar la hiptesis del primer psiclogo se obtiene un nivel crtico p = 0,261. Utilizando un
nivel de confianza de 0,95, qu decisin debe tomarse?
c. Al contrastar la hiptesis del segundo psiclogo se obtiene un nivel crtico p = 0,002. Utilizando
un nivel de confianza de 0,95, qu decisin debe tomarse?
d. Con estos resultados, cul es la conclusin razonable?
( ) Tiene razn el primer psiclogo.
( ) Tiene razn el segundo psiclogo.
( ) No tiene razn ninguno de los dos.
( ) Con los datos disponibles no podemos saber cul de los dos tiene razn.

6.12. (Sealar la alternativa correcta.) En un ANOVA de un factor con J grupos independientes, siendo ver-
dadera la hiptesis H0: 1 = 2 = = J , y siendo el nivel de significacin, la probabilidad de que
k hiptesis nulas referidas a comparaciones independientes entre pares de medias sean...
a. Rechazadas, vale .
b. Mantenidas, vale ( k ! 1) .
c. Rechazadas, vale (1 ! ) k !1.
d. Mantenidas, vale (1 ! ).
e. Rechazadas, vale 1 ! (1 ! ) k.

6.13. En un diseo con J = 4 grupos se quiere comparar la media del grupo 4 con las medias de los grupos
1, 2 y 3 tomados juntos. Qu hiptesis nula debe plantearse?
a. H0 : L = (1) 1 + (1) 2 + (1) 3 + (!1) 4 = 0.
b. H0 : L = (!1) 1 + (!1) 2 + (1) 3 + (1) 4 = 0.
c. H0 : L = (1) 1 + (!1) 2 + (!1) 3 + (1) 4 = 0.
d. H0 : L = (1) 1 + (1) 2 + (1) 3 + (!3) 4 = 0.
e. Ninguna de las anteriores hiptesis es correcta.

6.14. Al analizar los datos de un diseo con tres grupos se plantean las siguientes hiptesis:
! H0(1) : L1 = 1 + 2 ! 2 3 = 0.
! H0(2) : L2 = 1 ! 3 = 0.
Son independientes L1 y L2? Por qu?

6.15. Queremos utilizar la prueba de Scheff para contrastar la hiptesis de que los promedios de dos trata-
mientos tomados juntos (a1 y a2) no difieren del promedio de otros cuatro combinados (a3, a4, a5 y a6).
Elegir el conjunto de coeficientes que permiten definir la comparacin:
a1 a2 a3 a4 a5 a6
a. !1 !1 1 1 1 1
b. 1 1 !1 !1 !1 !1
c. 2 2 !2 !2 !2 !2
d. 4 4 !2 !2 !2 !2
e. 2 2 !1 !1 !1 !1
246 Anlisis de datos (vol. II)

6.16. A continuacin se ofrece, incompleta, la tabla resumen de un ANOVA A-CA. Adems de la informa-
cin que contiene la tabla, sabemos que J = 3.

Fuente de variacin gl MC F p
Intergrupos ( ) 30 6 0,010
Trmino lineal ( ) ( ) ( ) 0,005
Trmino cuadrtico ( ) 10 ( ) 0,100
Trmino cbico ( ) ( ) ( )
Intragrupos o error ( ) ( )
Total 17

a. Completar la tabla.
b. Puede concluirse que la VI y la VD estn relacionadas? Por qu? ( = 0,05).
c. La relacin entre la VI y la VD es: lineal?, cuadrtica?, cbica?, ninguna de ellas? Por qu?
d. Cuntos sujetos han participado en el estudio?
e. Qu porcentaje de la varianza de la atencin explica la dosis de frmaco?

6.17. Como parte de un estudio sobre inseguridad ciudadana, un ayuntamiento ha recogido datos del nme-
ro de denuncias registradas en comisara en cuatro das diferentes (martes, jueves, sbado y domingo)
durante cinco semanas. El objetivo del estudio es contrastar dos hiptesis con = 0,05: (1) si el pro-
medio de denuncias registradas en sbado es mayor que el promedio de denuncias registradas en el
resto de los das de la semana tomados juntos y (2) si el nmero de denuncias registradas aumenta a lo
largo de la semana.
a. Qu hiptesis nula debe plantearse para contrastar la hiptesis 1? Con qu prueba estadstica
puede contrastarse esa hiptesis? Cul ser la conclusin si p = 0,001?
b. Qu hiptesis nula debe plantearse para contrastar la hiptesis 2? Con qu prueba estadstica
puede contrastarse esa hiptesis? Cul ser la conclusin si p = 0,001?

6.18. En un diseo con tres grupos, cul de las siguientes hiptesis nulas hay que contrastar para averiguar
si la relacin entre la VI y la VD es lineal?
a. H0: (!1) 1 + 2 + (1) 3 = 0.
b. H0: (!2) 1 + (1) 2 + (1) 3 = 0.
c. H0: 1 + (!1) 2 + (1) 3 = 0.
d. H0: ! 1 + 3 = 0.
e. H0: (!1) 1 + (!1) 2 + (2) 3 = 0.
7
Anlisis de varianza (II)
Dos factores
completamente aleatorizados

En todos los procedimientos estadsticos revisados hasta ahora nos hemos limitado a estudiar
una o dos variables. En este captulo vamos a abordar por primera vez el estudio de ms de
dos variables.
Los modelos factoriales de anlisis de varianza (factorial = ms de un factor) permiten
evaluar el efecto individual y conjunto de dos o ms factores (variables independientes ca-
tegricas) sobre una variable dependiente cuantitativa. En este captulo nos vamos a centrar
en el modelo de dos factores completamente aleatorizados. Este modelo permite analizar el
efecto de dos variables independientes categricas (factores) sobre una variable dependien-
te cuantitativa.
Un ANOVA de dos factores permite estudiar, por ejemplo, si el rendimiento en una tarea
(variable dependiente cuantitativa) cambia con el nivel de ansiedad de los sujetos (bajo, medio,
alto; variable independiente categrica) y con la dificultad de la tarea (fcil, difcil; variable
independiente categrica). Pero, adems, y esto es lo realmente interesante, tambin permite
estudiar si las diferencias entre sujetos con diferente nivel de ansiedad se mantienen o no
cuando cambia la dificultad de la tarea; es decir, permite estudiar si la interaccin entre los
factores nivel de ansiedad y dificultad de la tarea afecta a la variable dependiente rendimiento
de forma diferente a como lo hace cada factor por separado.
Una ventaja de los diseos de dos factores sobre los diseos de un factor es que necesitan
menos sujetos para alcanzar la misma potencia. Supongamos que tenemos dos variables in-
dependientes o factores (A y B), el primero con tres niveles y el segundo con dos. Para com-
parar los niveles de A utilizando un diseo de un factor podemos asignar una muestra aleato-
ria de 20 sujetos a cada nivel; 60 sujetos en total. Para comparar los niveles de B podemos
asignar una muestra aleatoria de 30 sujetos a cada nivel; otros 60 sujetos en total. Entre los
dos experimentos, 120 sujetos. En un diseo factorial las cosas cambian. Al combinar los
niveles de A y B es posible reducir el nmero de sujetos a la mitad: con 10 sujetos por cada
248 Anlisis de datos (vol. II)

combinacin AB tendremos un total de 60 sujetos y tanto los niveles de A como los de B po-
drn evaluarse con el mismo nmero de sujetos que en los correspondientes diseos de un
factor por separado.
Esta ventaja tiene su importancia, sobre todo si se tiene en cuenta que en muchas reas
de conocimiento no resulta nada fcil conseguir muestras grandes. Pero la ventaja verdade-
ramente importante de los diseos factoriales radica en el hecho de que el estudio simultneo
de ms de un factor permite determinar, no ya solo el efecto individual de cada factor sobre
la variable dependiente, sino, adems, si la interaccin entre los factores modifica el efecto
individual que cada factor tiene por separado.
Enseguida nos ocuparemos del importantsimo concepto de la interaccin entre factores.
Antes necesitamos conocer la estructura de un diseo de dos factores y la notacin que uti-
lizaremos para identificar cada elemento del diseo.

Estructura de los datos y notacin


En un diseo de dos factores completamente aleatorizados (AB-CA) tenemos dos variables
categricas independientes o factores (A y B) y una variable dependiente cuantitativa (Y ). A
los niveles del factor A los seguimos llamando a j ( j = 1, 2, ..., J ). A los niveles del factor B
los llamamos bk (k = 1, 2, ..., K ). Y a las combinaciones entre los niveles de A y de B las lla-
mamos abj k. La Tabla 7.1 muestra la estructura del diseo.

Tabla 7.1. Estructura de un diseo de dos factores AB-CA

Factor B
Factor A b1 b2 bk bK
a1 ab11 ab12 ab1k ab1K
a2 ab21 ab22 ab2k ab2K

aj abj 1 abj 2 abj k abj K

aJ abJ1 abJ 2 abJ k abJ K

Los niveles del factor A definen J poblaciones con medias1 1+, 2+, ..., J +. Los niveles del
factor B definen K poblaciones con medias +1, +2, ..., +K. La combinacin AB entre los
niveles de ambos factores definen JK poblaciones con medias 11, 12, ..., 21, 22, ..., +K.
A la media total la llamaremos . De cada combinacin abj k (es decir, de cada poblacin)
tenemos una muestra aleatoria de puntuaciones Yijk de tamao n (i = 1, 2, ..., n).
El nmero de puntuaciones (sujetos) de cada casilla abj k, es decir, el tamao de las ca-
sillas, puede o no ser el mismo, pero, de momento, nos centraremos en el caso en el que to-

1
Al igual que en el captulo anterior, suprimiremos el subndice Y de las medias poblacionales para simplificar la nota-
cin. Por tanto, siempre que utilicemos el smbolo (media poblacional) sin indicacin de la variable a la que se refiere
(X, Y, Z, etc.), estaremos asumiendo que se refiere a la variable dependiente Y.
Captulo 7. ANOVA de dos factores 249

das las casillas tienen el mismo tamao, es decir, n. Por tanto, N = n JK. Con las n puntua-
ciones de cada casilla abj k obtenemos los totales (sumas) que muestra la Tabla 7.2.

Tabla 7.2. Notacin utilizada en un diseo de dos factores AB-CA

Factor B
Factor A b1 b2 bk bK Suma
a1
a2

aj

aJ

Suma

En el modelo de dos factores es necesario utilizar tres subndices (ijk) para identificar cada
valor de Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos)
de la misma muestra o casilla: i = 1, 2, ..., n; el segundo ( j), a los diferentes niveles del fac-
tor A; y el tercero (k), a los diferentes niveles del factor B. As, por ejemplo, Y523 se refiere
a la puntuacin del 5 elemento (sujeto) en la casilla correspondiente a la combinacin del
2 nivel de A con el 3er nivel de B; es decir, a la 5 puntuacin de la casilla ab23.
El signo + colocado como subndice se refiere a todos los valores del subndice al que
sustituye. Por ejemplo, Y+24 se refiere a todas las puntuaciones (todos los valores i) de la ca-
silla correspondiente al cruce del 2 nivel de A ( j = 2) con el 4 nivel de B ( k = 4). Para re-
presentar estas sumas o totales utilizaremos la letra T.
Los totales de cada casilla ( ) se obtienen sumando desde 1 hasta n todas las puntua-
ciones de esa casilla:

= = [7.1]

Los totales correspondientes a cada nivel del factor A ( ) se obtienen sumando todas las
puntuaciones de la fila j:

= = = [7.2]

Los totales correspondientes a cada nivel del factor B ( ) se obtienen sumando todas las
puntuaciones de la columna k:

= = = [7.3]
250 Anlisis de datos (vol. II)

Y el gran total (T ) se obtiene sumando todas las puntuaciones de la tabla, lo cual puede ha-
cerse de diferentes maneras:

= = = = = [7.4]

A partir de estos totales pueden obtenerse las medias de cada casilla, de cada fila, de cada
columna y el total de la tabla simplemente dividiendo los correspondientes totales por el
nmero de puntuaciones utilizadas para obtenerlos:

= , = , = , = [7.5]

Para referirnos a un diseo de estas caractersticas utilizaremos el smbolo J K. El nmero


de letras indica el nmero de factores; el valor de las letras indica los niveles de los factores.
As, un diseo 3 5 es un diseo de dos factores, el primero con tres niveles y el segundo con
cinco.

La interaccin entre factores


Los efectos que interesa analizar en un modelo de dos factores completamente aleatorizados
son tres: los dos efectos principales (los efectos de cada factor individualmente considerado)
y el efecto de la interaccin entre ambos factores (el efecto conjunto o combinado de ambos
factores). Veremos que los efectos principales se definen y analizan tal como se ha explica-
do en el captulo anterior al estudiar el modelo de un factor. El efecto de la interaccin re-
quiere una atencin especial.
El concepto de interaccin entre factores admite varias formulaciones, todas ellas equiva-
lentes. Desde un punto de vista no formal, decimos que existe interaccin entre dos factores
cuando el efecto de uno de ellos sobre la variable dependiente no es el mismo en todos los
niveles del otro factor2. Esto equivale a afirmar que existe interaccin cuando el resultado de
la combinacin de dos factores difiere de la suma de los efectos principales de esos factores3.
Para poder presentar una definicin formal de la interaccin, consideremos la notacin
propuesta en la Tabla 7.3 para un diseo 2 3: el factor A con dos niveles ( j = 1, 2) y el fac-
tor B con tres niveles (k = 1, 2, 3).

Tabla 7.3. Medias poblacionales en un diseo 2 3

b1 b2 b3
a1 11 12 13 1+
a2 21 22 23 2+
+1 +2 +3

2
Ver, por ejemplo, Everitt y Howell (2005, pgs. 930-931); Kirk (1995, pg. 367); o Maxwell y Delaney (2004, pg. 278).
3
Ver, por ejemplo, Everitt y Howell (2005, pg. 931); Maxwell y Delaney (2004, pgs. 279-280); o Winer, Brown y Mi-
chels (1991, pg. 296).
Captulo 7. ANOVA de dos factores 251

En el modelo de dos factores de efectos fijos, el efecto de la interaccin, jk , se define co-


mo (ver, por ejemplo, Winer, Brown y Michels, 1991, pg. 318):
jk = j k ! j + ! +k + [7.6]

Existe interaccin cuando j k =/ 0 para algn j o k; y no existe interaccin cuando j k = 0


para todo j y k. Pero hay al menos dos formas alternativas de interpretar la definicin [7.6]
(ver Jaccard, 1998, pgs. 3-10):
1. Como la desviacin que experimentan las medias de las casillas respecto de los efectos
principales de los factores:
! No interaccin: j k = j + + +k ! (para todo j y k) [7.7]
! Interaccin: j k =/ j + + +k ! (para algn j o k)
De acuerdo con esta definicin, existe interaccin cuando la media de una o ms casillas
no es funcin directa de sus respectivas medias marginales. Esto significa que, cuando
existe interaccin, el efecto de la combinacin de los factores A y B difiere de la suma
de los efectos individuales de A y B.
2. Como diferencias entre las medias de las casillas y las medias marginales:
! No interaccin: j k ! j Nk = j + ! j N+ (para todo j, j N o k) [7.8]
! Interaccin: j k ! j Nk =/ j + ! j N+ (para algn j, j N o k)
De acuerdo con esta definicin, existe interaccin cuando la diferencia entre las medias
de dos casillas de la misma columna (o de la misma fila) no es igual que la diferencia
entre sus correspondientes medias marginales4.
Unas sencillas transformaciones permiten comprobar que la definicin [7.8] implica que, si
existe interaccin, la diferencia entre las medias de los niveles a1 y a2 no es la misma en los
tres niveles de B; y lo mismo vale decir de las diferencias entre las medias de los niveles b1,
b2 y b3 en los dos niveles de A.
Aclaremos esto con un ejemplo concreto. Imaginemos que las medias poblacionales que
corresponden al diseo 2 3 de la Tabla 7.3 son las que ofrece la Tabla 7.4.1 (diseo sin
interaccin). La media de a1 supera a la de a2 en 2 puntos tanto en b1 como en b2 y en b3; es
decir, cualquiera que sea el nivel de B que se considere, la diferencia entre las medias de a1

4
Las expresiones [7.7] y [7.8] se deducen, ambas, de [7.6]; por tanto, son equivalentes. En efecto, segn [7.7], cuando no
existe interaccin se verifica 11 = 1++ +1 ! y 21 = 2++ +1 ! . De estas igualdades se sigue que
11 ! 1+ ! +1 = ! y 21 ! 2+ ! +1 = !
Por tanto,
11 ! 1+ ! +1 = 21 ! 2+ ! +1
Lo cual lleva a 11 ! 21 = 1+ ! 2+, que no es otra cosa que la expresin [7.8]. De este argumento se desprende que es
irrelevante tomar [7.7] o [7.8] como referente para definir el efecto de la interaccin. Sin embargo, las interpretaciones basa-
das en [7.8] suelen resultar ms fciles de entender. La formulacin basada en [7.7] ha recibido especial atencin por parte
de Rosnow y Rosenthal (1989a, 1989b, 1991, 1995, 1996), quienes han llevado el argumento al extremo insistiendo en que
para poder interpretar correctamente el efecto de la interaccin hay que despojarlo de todos los elementos extraos que inclu-
ye. Es as como se llega a las medias residualizadas o residuos de interaccin que, siempre segn Rosnow y Rosenthal, son
los nicos que informan cabalmente sobre el efecto de la interaccin. Pero no parece que este enfoque haya merecido la
aceptacin de todos (ver Meyer, 1991; Petty, Fabrigar, Wegener y Priester, 1996); y tampoco parece que los investigadores
estn dispuestos a incorporar a sus hbitos el plus de comprensin que exige.
252 Anlisis de datos (vol. II)

y a2 siempre es la misma: 2 puntos. Y esta diferencia es justamente la que se da entre los


niveles de A cuando no se tiene en cuenta B, es decir, la que se da entre las medias margina-
les de a1 y a2. Cuando las medias de un diseo factorial se ajustan a esta pauta, decimos que
no existe interaccin, queriendo significar con ello que el efecto conjunto de los dos facto-
res sobre la variable dependiente no difiere del efecto individual de cada factor por separado.
Imaginemos ahora que las medias del diseo 2 3 de la Tabla 7.3 son las que recoge la
Tabla 7.4.2 (diseo con interaccin). La diferencia entre las medias de a1 y a2 ya no es la
misma en todos los niveles de B. En b1 y b3, la diferencia es de 2 puntos a favor de a1; en b2,
la diferencia es de 4 puntos a favor de a2. Y estas diferencias no se corresponden con la di-
ferencia existente entre las medias marginales de a1 y a2, las cuales son iguales. Cuando se
da esta discrepancia entre las medias de las casillas y sus correspondientes medias marginales
decimos que existe interaccin entre los factores, queriendo significar con ello que el efecto
conjunto de los dos factores sobre la variable dependiente difiere de la suma de los efectos
individuales de los factores.

Tabla 7.4. Medias poblacionales en un diseo 2 3


1. Diseo sin interaccin 2. Diseo con interaccin
b1 b2 b3 b1 b2 b3
a1 6 5 7 6 a1 6 4 5 5
a2 4 3 5 4 a2 4 8 3 5
5 4 6 5 5 6 4 5

La herramienta ms til para entender el concepto de interaccin entre factores es, proba-
blemente, un grfico de lneas basado en las medias de las casillas. En la Figura 7.1 (iz-
quierda) estn representadas las medias de la Tabla 7.4.1. El grfico muestra con claridad
que, cualquiera que sea el nivel de B que se considere, el comportamiento del factor A siem-
pre es el mismo: la media de a1 siempre supera en 2 puntos a la media de a2. La ausencia de
interaccin queda reflejada en el hecho de que las lneas que unen las medias son paralelas
entre cada dos niveles del eje horizontal (las lneas definen perfiles idnticos).

Figura 7.1. Grficos de lneas con las medias de las Tablas 7.4.1 (izquierda) y 7.4.2 (derecha)

En el grfico de la Figura 7.1 (derecha) estn representadas las medias de las casillas de la
Tabla 7.4.2. Ahora, las medias de a1 superan a las de a2 tanto en b1 como en b3, pero no en
Captulo 7. ANOVA de dos factores 253

b2, donde la media de a2 es mayor que la de a1. Es decir, la diferencia entre las medias de a1
y a2 cambia cuando cambian los niveles de B. La presencia de interaccin queda reflejada en
el hecho de que las lneas que unen las medias no son paralelas (definen perfiles distintos).
El significado de la interaccin puede entenderse mejor, quiz, poniendo contenido con-
creto a los factores. Supongamos que el factor A es tipo de tratamiento (a1 = tratamiento
convencional, a2 = nuevo tratamiento) y que el factor B se refiere a tres variantes de una
misma enfermedad (b1 = tipo 1, b2 = tipo 2, b3 = tipo 3). Supongamos adems que al
medir el efecto de los tratamientos hemos encontrado los resultados (medias) que recogen
las Tablas 7.4.1 y 7.4.2 (estas medias son las que estn representadas en la Figura 7.1). Su-
pongamos, por ltimo, que las medias ms altas indican que el tratamiento funciona mejor.
En el caso de la Tabla 7.4.1 (diseo sin interaccin), la media que se obtiene con el tra-
tamiento convencional (6) es ms alta que la que se obtiene con el nuevo tratamiento (4); y
esta pauta se repite con todas las variantes de la enfermedad. Por tanto, el tratamiento con-
vencional (a1) es mejor que el nuevo tratamiento (a2) independientemente de la variante de
la enfermedad tratada.
En el caso de la Tabla 7.4.2 (diseo con interaccin), el efecto global de los dos trata-
mientos es el mismo (ambas medias marginales valen 5), pero este resultado es engaoso
precisamente por la presencia de interaccin. El efecto de los tratamientos est condiciona-
do por la variante de la enfermedad tratada: con las variantes 1 y 3, el tratamiento
convencional (a1) consigue mejores resultados que el nuevo tratamiento (a2); con la varian-
te 2, es el nuevo tratamiento el que consigue mejores resultados. Por tanto, el efecto de los
tratamientos cambia cuando cambia la variante de la enfermedad tratada.

ANOVA de dos factores completamente aleatorizados (AB-CA)


Ya hemos sealado que, en un modelo de dos factores, los efectos que interesa analizar son
tres: (1) el efecto individual del factor A o efecto principal de A, (2) el efecto individual del
factor B o efecto principal de B y (3) el efecto conjunto de los factores A y B o efecto de la
interaccin AB.
El factor A define J poblaciones. El factor B define K poblaciones. La combinacin de
los niveles de ambos factores define JK poblaciones. Supongamos que la variable cuantitati-
va Y se distribuye normalmente en esas JK poblaciones y que la varianza de Y es la misma
en todas ellas:

= = = = = = [7.10]

Supongamos, adems, que, de cada una de esas JK poblaciones, extraemos una muestra
aleatoria de tamao n. En este escenario es posible identificar varios tipos de variabilidad.
Comencemos con las dos que ya nos resultan familiares: (1) la variabilidad que existe den-
tro de cada muestra o variabilidad intragrupos y (2) la variabilidad que existe entre las di-
ferentes muestras o variabilidad intergrupos.
Estas dos formas de variabilidad pueden cuantificarse tal como hemos hecho en el ca-
ptulo anterior a propsito del modelo de un factor. En primer lugar, con JK muestras alea-
torias tenemos JK varianzas muestrales cada una de las cuales puede utilizarse para es-
timar la varianza de su propia poblacin. No obstante, como estamos asumiendo que las JK
254 Anlisis de datos (vol. II)

varianzas poblaciones son iguales (ver [7.10]), en lugar de utilizar cada varianza muestral por
separado, obtendremos una mejor estimacin de esa nica varianza poblacional, , combi-
nando en un nico estimador las JK varianzas muestrales:

MCE = = [7.11]

Ya sabemos que a este estimador de la varianza poblacional basado en la variabilidad exis-


tente dentro de cada grupo o muestra se le llama media cuadrtica intragrupos y se repre-
senta mediante MCE. Recordemos que tambin se le llama media cuadrtica error o residual.
Y, puesto que en su clculo nicamente intervienen las varianzas de cada muestra, su valor
no depende del valor de las medias.
En segundo lugar, si asumimos que las JK poblaciones muestreadas, adems de la misma
varianza, tambin tienen la misma media, entonces podremos utilizar la variabilidad entre las
JK medias muestrales (en caso necesario, repasar, en el captulo anterior, el apartado sobre
La lgica del anlisis de varianza) para obtener una estimacin de la varianza poblacional
de Y mediante

MCI = [7.12]

A este estimador de la varianza poblacional basado en la variabilidad existente entre las


diferentes muestras se le llama media cuadrtica intergrupos y se representa mediante
MCI (este valor es el mismo que obtendramos si, en lugar de considerar que tenemos dos
factores con J y K niveles cuya combinacin genera JK casillas, tomramos las JK casillas
como los niveles de un nico factor).
Esta variabilidad intergrupos no nos sirve de mucho porque contiene, mezclados, los tres
efectos que nos interesa analizar (A, B y AB). Es decir, la variabilidad de las JK medias res-
pecto de la media total (variabilidad intergrupos) incluye tres fuentes diferentes de variabi-
lidad: (1) la que se da entre las J medias correspondientes a los niveles del factor A, (2) la que
se da entre las K medias correspondientes a los niveles del factor B y (3) la que se da entre
las JK medias respecto de sus respectivas medias marginales. Para poder cuantificar cada una
de estas fuentes de variabilidad es necesario aislarlas identificando qu parte de la variabi-
lidad intergrupos corresponde a cada una de ellas.
En el modelo de un factor (ver captulo anterior) hemos utilizado la variabilidad exis-
tente entre las J medias muestrales para obtener una estimacin de la varianza poblacional
de Y que, adems, serva como una cuantificacin del grado de parecido existente entre las
J medias. Aplicando ahora la misma lgica al modelo de dos factores, la variabilidad entre
las J medias de los niveles del factor A y la variabilidad entre las K medias de los niveles del
factor B, no solo permiten cuantificar el grado de parecido existente entre las medias de los
J niveles de A y entre las medias de los K niveles de B, sino que pueden utilizarse para ob-
tener sendas estimaciones de la varianza poblacional de Y:

MCA = [7.13]

MCB = [7.14]
Captulo 7. ANOVA de dos factores 255

La ecuacin [7.13] es un estimador de la varianza poblacional de Y basado en la variabi-


lidad existente entre las J medias muestrales correspondientes a los niveles del factor A. A
esta varianza muestral la llamaremos media cuadrtica del factor A y la representaremos
mediante MCA. La ecuacin [7.14] es un estimador de la varianza poblacional de Y basado
en la variabilidad existente entre las medias muestrales correspondientes a los niveles del
factor B. A esta varianza muestral la llamaremos media cuadrtica del factor B y la re-
presentaremos mediante MCB.
Por ltimo, tambin la variabilidad entre las medias de las JK muestras respecto de sus
medias marginales puede utilizarse para obtener una estimacin de la varianza poblacional
de Y mediante

MCAB = [7.15]

La ecuacin [7.15] es un estimador de la varianza poblacional de Y basado en la variabilidad


existente entre las medias de las JK casillas y sus respectivas medias marginales. Si se tiene
en cuenta la definicin de interaccin propuesta en [7.6] se comprender que MCAB, al
cuantificar cmo se alejan las medias de las casillas de sus respectivas medias marginales,
est informando sobre el efecto de la interaccin. A esta varianza muestral la llamaremos
media cuadrtica de la interaccin AB y la representaremos mediante MCAB.
Aplicando ahora la lgica estudiada en el captulo anterior, sabemos que el cociente en-
tre MCA y MCE

FA = = [7.16]

es una variable que, adems de informar del grado de parecido entre las medias de los nive-
les del factor A, se distribuye segn F con los grados de libertad del numerador, J ! 1, y los
del denominador, N ! JK. Tambin sabemos que el cociente entre MCB y MCE

FB = = [7.17]

es una variable que informa del grado de parecido existente entre las medias de los niveles
del factor B y que se distribuye segn F con los grados de libertad del numerador, K ! 1, y
los del denominador, N ! JK. Por ltimo, el cociente entre MCAB y MCE

FAB = = [7.18]

es una variable que, adems de informar del grado de parecido existente entre las medias de
las casillas y sus medias marginales (interaccin), sabemos que se distribuye segn F con los
grados de libertad del numerador, (J ! 1) (K ! 1), y los del denominador N ! JK .
Por tanto, los estadsticos FA, FB y FAB pueden utilizarse para evaluar los tres efectos de
inters (A, B y AB) en un diseo de dos factores, de efectos fijos, completamente aleatori-
zados. El Cuadro 7.1 ofrece un resumen del procedimiento.
256 Anlisis de datos (vol. II)

Cuadro 7.1. Resumen del ANOVA de dos factores completamente aleatorizados (AB-CA)

1. Hiptesis:
a. H0 (A) : 1+ = 2+ = = J+ (las medias poblacionales correspondientes a los J
niveles del factor A son iguales). Es decir, no existe efecto del factor A.
H1(A): j + =/ jN+ para algn j o jN (con j =/ jN) (no todas las medias correspondien-
tes a los niveles del factor A son iguales). Es decir, existe efecto del factor A.
b. H0 (B) : +1 = +2 = = +K (las medias poblacionales correspondientes a los K
niveles del factor B son iguales). Es decir, no existe efecto del factor B.
H1 (B): + k =/ + kN para algn k o kN (con k =/ kN) (no todas las medias correspon-
dientes a los niveles del factor B son iguales). Es decir, existe efecto del factor B.
c. H0(AB) : jk ! jNk = j+ ! jN+ para todo j, jN o k (con j =/ jN) (la diferencia entre las
medias de dos casillas cualesquiera de la misma columna es igual a la diferencia
entre las medias marginales correspondientes a esas casillas). Es decir, no existe
efecto de la interaccin.
H1 (AB) : j k ! j Nk =/ j + ! j N+ para algn j, jN o k (con j =/ jN) (no todas las dife-
rencias entre las medias de dos casillas cualesquiera de la misma columna son
iguales a la diferencia entre las medias marginales correspondientes a esas ca-
sillas). Es decir, existe efecto de la interaccin.
2. Supuestos: JK muestras de tamao n aleatoriamente seleccionadas de JK poblacio-
nes normales con la misma varianza.
3. Estadsticos del contraste (ver ecuaciones [7.16], [7.17] y [7.18]):
a. Para H0 (A) : FA = MCA MCE .
b. Para H0 (B) : FB = MCB MCE .
c. Para H0 (AB) : FAB = MCAB MCE .
4. Distribuciones muestrales:
a. FA se distribuye segn F con J !1 y N ! JK grados de libertad.
b. FB se distribuye segn F con K !1 y N ! JK grados de libertad.
c. FAB se distribuye segn F con (J !1)(K !1) y N ! JK grados de libertad.
5. Zonas crticas:
a. FA $
> FJ !1, N !JK; 1! .
b. FB $
> FK !1, N !JK; 1! .
c. FAB $
> F(J !1)(K !1), N !JK; 1! .
6. Reglas de decisin:
a. Se rechaza H0 (A) si el estadstico FA cae en la zona crtica; en caso contrario, se
mantiene. El rechazo de H0 (A) implica que existe efecto significativo del factor A.
b. Se rechaza H0 (B) si el estadstico FB cae en la zona crtica; en caso contrario, se
mantiene. El rechazo de H0 (B) implica que existe efecto significativo del factor B.
c. Se rechaza H0 (AB) si el estadstico FAB cae en la zona crtica; en caso contrario, se
mantiene. El rechazo de H0 (AB) implica que existe efecto significativo de la interac-
cin AB.
Captulo 7. ANOVA de dos factores 257

7. Niveles crticos (valores p):


$ Fh ), siendo Fh el valor muestral concreto
a. Para el efecto del factor A: p = P (FA >
que toma el estadstico FA.
$ Fh ), siendo Fh el valor muestral concreto
a. Para el efecto del factor B: p = P (FB >
que toma el estadstico FB.
a. Para el efecto de la interaccin AB: p = P (FAB > $ Fh ), siendo Fh el valor muestral
concreto que toma el estadstico FAB.

Ejemplo. ANOVA de dos factores completamente aleatorizados (AB-CA)


En un estudio inicialmente diseado para evaluar la relacin entre el nivel de ansiedad y el
rendimiento se ha incluido una nueva variable: la dificultad de la tarea. La Tabla 7.5 mues-
tra los resultados obtenidos con una muestra aleatoria de 30 sujetos repartidos, tambin
aleatoriamente, en 6 grupos del mismo tamao. Cada grupo ha realizado la prueba de rendi-
miento bajo una de las seis condiciones resultantes de combinar dos niveles de dificultad
(fcil, difcil) con tres de ansiedad (bajo, medio, alto). El rendimiento se ha medido aplican-
do una escala de 0 a 20 puntos. El objetivo del estudio es valorar qu impacto tiene sobre el
rendimiento la dificultad de la tarea, el nivel de ansiedad y la interaccin entre la dificultad
de la tarea y el nivel de ansiedad ( = 0,05).

Tabla 7.5. Dificultad de la tarea (A), nivel de ansiedad (B) y rendimiento (Y )

(B ) Nivel de ansiedad
(A ) Dificultad
de la tarea (b1) Bajo (b2) Medio (b3) Alto Totales
12 15 8
17 12 6
(a1) Fcil 9 18 5 180
14 14 10
13 (65) 16 (75) 11 (40)
8 10 13
6 14 10
(a2) Difcil 9 16 9 150
8 14 12
4 (35) 11 (65) 6 (50)
Totales 100 140 90 330
Los valores entre parntesis son los totales (sumas) de las casillas.

Se trata de un diseo 2 3 completamente aleatorizado. Es decir, de un diseo de dos facto-


res (A: dificultad de la tarea, con J = 2 niveles; B: nivel de ansiedad, con K = 3 niveles) en
el que se ha asignado una muestra aleatoria de n = 5 sujetos a cada una de las JK = 6 con-
258 Anlisis de datos (vol. II)

diciones resultantes de combinar los niveles de ambos factores. El anlisis de varianza de dos
factores completamente aleatorizados es el modelo apropiado para analizar estos datos. La
Figura 7.2 muestra los diagramas de caja del rendimiento correspondientes a cada combi-
nacin entre la dificultad de la tarea y el nivel de ansiedad. Ninguno de los diagramas mues-
tra casos anmalos ni asimetras evidentes. Pero el rendimiento medio vara sensiblemente
entre condiciones. Veamos cmo evaluar los tres efectos presentes en el diseo.

Figura 7.2. Diagramas de caja correspondientes a las casillas de la Tabla 7.5

1. Hiptesis:
a. H0 (A) : fcil = difcil (el rendimiento medio es el mismo con tareas fciles y con ta-
reas difciles; es decir, la dificultad de la tarea no afecta al rendimiento).
H1 (A): el rendimiento medio no es el mismo con tareas fciles y con tareas difciles
(es decir, la dificultad de la tarea afecta al rendimiento).
b. H0 (B) : bajo = medio = alto (el rendimiento medio es el mismo en los tres niveles de
ansiedad; es decir, el nivel de ansiedad no afecta al rendimiento).
H1 (B): el rendimiento medio no es el mismo en los tres niveles de ansiedad (es decir,
el nivel de ansiedad afecta al rendimiento).
c. H0 (AB) : j k ! j Nk = j + ! j N+ para todo j, j N o k (con j =/ jN) (la interaccin entre la
dificultad de la tarea y el nivel de ansiedad no afecta al rendimiento).
H1 (AB) : jk ! jNk =/ j+ ! jN+ para algn j, jN o k (con j =/ jN) (la interaccin entre la
dificultad de la tarea y el nivel de ansiedad afecta al rendimiento).
2. Supuestos: tenemos 6 muestras de tamao 5 aleatoriamente seleccionadas de 6 pobla-
ciones normales con la misma varianza.
3. Estadsticos del contraste. Para facilitar la obtencin de FA, FB y FAB (ecuaciones [7.16],
[7.17] y [7.18]) hemos transformado las puntuaciones originales de la Tabla 7.5 en las
medias y varianzas que muestra la Tabla 7.6:

Tabla 7.6. Medias (varianzas) correspondientes a los datos de la Tabla 7.5.

b1 b2 b3
a1 13 (8,5) 15 (5,0) 8 (6,5) 12
a2 7 (4,0) 13 (6,0) 10 (7,5) 10
10 14 9 11
Captulo 7. ANOVA de dos factores 259

MCI = 5 [(13 ! 11)2 + (15 ! 11)2 + + (10 ! 11)2] / 5 = 5 (50) / 5 = 50 (ver [7.12])
2 2
MCA = 15 [(12 ! 11) + (10 ! 11) ] / 1 = 15 (2) / (2 ! 1) = 30 (ver [7.13])
MCB = 10 [(130 ! 11)2 + (14 ! 11)2 + (9 ! 11)2] / (3 ! 1) = 10 (14) / 2 = 70 (ver [7.14])
MCAB5 = [5 (50) ! 15 (2) ! 10 (14)] / 2 = (250 ! 30 ! 140)/2 = 40
MCE = (8,5 + 5,0 + 6,5 + 4,0 + 6,0 + 7,5) / 6 = 6,25 (ver [7.11])
a. FA = MCA MCE = 30 / 6,25 = 4,80.
b. FB = MCB MCE = 70 / 6,25 = 11,20.
c. FAB = MCAB MCE = 40 / 6,25 = 6,4.
4. Distribuciones muestrales (con J = 2, K = 3 y N = 30):
a. FA F con J !1 = 1 y N ! JK = 24 grados de libertad, es decir, F1, 24.
b. FB F con K !1 = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
c. FAB F con (J !1)(K !1) = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
5. Zonas crticas:
a. FA $
> F1, 24; 0,95 = 4,26.
b. FB $
> F2, 24; 0,95 = 3,40.
c. FAB $
> F2, 24; 0,95 = 3,40.
6. Reglas de decisin:
a. Puesto que FA = 4,80 es mayor que el punto crtico 4,26, se rechaza H0(A). Puede con-
cluirse que el rendimiento medio no es el mismo con tareas fciles y con tareas dif-
ciles. Por tanto, la dificultad de la tarea afecta al rendimiento.
b. Puesto que FB = 11,20 es mayor que el punto crtico 3,40, se rechaza H0(B). Puede con-
cluirse que el rendimiento medio no es el mismo en los tres niveles de ansiedad. Por
tanto, el nivel de ansiedad afecta al rendimiento.
c. Puesto que FAB = 6,4 es mayor que el punto crtico 3,40, se rechaza H0(AB). Puede con-
cluirse que el efecto de la interaccin AB es estadsticamente significativo. Por tanto,
el efecto de cada factor sobre el rendimiento est condicionado o modulado por la
presencia del otro factor.
Un estadstico F significativo indica que los promedios comparados no son iguales, pero no
permite concretar qu promedios difieren de qu otros. Para esto es necesario llevar a cabo
comparaciones mltiples. Y en el caso de la interaccin, adems de realizar comparaciones
mltiples, es necesario recurrir a grficos de perfil para precisar su significado. Ms adelan-
te, en el apartado Comparaciones mltiples, veremos cmo hacer todo esto.

5
Teniendo en cuenta que el numerador de MCI es igual a la suma de los numeradores de MCA, MCB y MCAB, y que el clcu-
lo de MCI es sensiblemente ms breve que el de MCAB, la forma ms rpida de calcular MCAB consiste en restar al numera-
dor de MCI = 5(50) = 250 la suma de los numeradores de MCA = 15(2) = 30 y MCB = 10(14) = 140, y dividir el resultado
entre los grados de libertad de MCAB. No obstante, puede comprobarse que aplicando la ecuacin [7.15] se llega exacta-
mente al mismo resultado:
MCAB = [(13 !12 !10 +11)2 + (15 !12 !14 +11)2 (8 !12 ! 9 +11)2 + + (10 !10 ! 9 +11)2] / [(2 !1) (3 !1)] = 40.
260 Anlisis de datos (vol. II)

Supuestos del ANOVA de dos factores


Los estadsticos F propuestos en [7.16], [7.17] y [7.18] permiten tomar decisiones sobre sus
respectivas hiptesis porque, si se dan ciertas condiciones, tienen distribucin muestral co-
nocida. Estas condiciones, a las que solemos llamar supuestos del contraste, son las que ga-
rantizan que la probabilidad de cometer errores Tipo I y II es la que estamos asumiendo que
es y no otra.
Para poder definir los estadsticos F hemos considerado en todo momento que estba-
mos trabajando con muestras aleatorias procedentes de poblaciones normales con la misma
varianza. En estas condiciones iniciales estn implcitos los tres supuestos que ya hemos es-
tudiado en el captulo anterior a propsito del modelo de un factor: independencia, norma-
lidad y homocedasticidad. La nica diferencia con el modelo de un factor es que ahora no
tenemos J poblaciones, sino JK. Y asumimos que esas JK poblaciones son normales y tienen
la misma varianza; y tambin asumimos que, de cada una de esas poblaciones, tenemos una
muestra aleatoria de observaciones independientes entre s e independientes de las obser-
vaciones del resto de las muestras.

Efectos fijos y aleatorios


Hasta ahora, en todo momento hemos asumido que los dos factores del diseo son de efec-
tos fijos (Modelo I). Si los dos factores son de efectos aleatorios, decimos que el modelo es
de efectos aleatorios (Modelo II). Y si uno de los factores es de efectos fijos y el otro de
efectos aleatorios, decimos que el modelo es de efectos mixtos (Modelo III).
Esta clasificacin tiene su importancia porque la forma de obtener los estadsticos F
viene condicionada por el tipo de modelo utilizado, lo cual se debe a que el valor esperado
de cada efecto depende de la forma de establecer los niveles del correspondiente factor (ver
Kirk, 1995, pgs. 373-375; Pardo y San Martn, 1998, pgs. 349-351). A efectos prcticos,
basta con saber que los estadsticos F de cada modelo se obtienen de la forma que muestra
la Tabla 7.7. El valor de las medias cuadrticas no cambia, pero s cambian las medias cua-
drticas que intervienen en la obtencin de cada estadstico F.

Tabla 7.7. Estadsticos F correspondientes a cada modelo AB-CA

Modelo I Modelo II Modelo III Modelo III


A y B fijos A y B aleatorios A fijo, B aleatorio A aleatorio, B fijo,

FA = MCA / MCE MCA / MCAB MCA / MCAB MCA / MCE


FB = MCB / MCE MCB / MCAB MCB / MCE MCB / MCAB
FAB = MCAB / MCE MCAB / MCE MCAB / MCE MCAB / MCE

Por supuesto, los grados de libertad de cada estadstico F son los grados de libertad de las
medias cuadrticas en las que se basan. Por tanto, los grados de libertad del numerador de
todos los estadsticos F son los mismos en los tres modelos, pues las medias cuadrticas del
numerador son las que corresponden a cada efecto; pero los grados de libertad del denomi-
nador cambian dependiendo de la media cuadrtica que interviene.
Captulo 7. ANOVA de dos factores 261

Medidas del tamao del efecto


Ya sabemos que el valor de un estadstico F no depende nicamente de la magnitud real del
efecto analizado (es decir, de la verdadera diferencia entre las medias que se estn com-
parando), sino del tamao de las muestras y del grado de variabilidad de las puntuaciones. Por
tanto, una F significativa no necesariamente se corresponde con un efecto importante o un
resultado relevante desde el punto de vista terico o prctico. Para detectar un efecto o re-
sultado de ese tipo utilizamos medidas del tamao del efecto: un estadstico F significativo
indica que existe algn tipo de relacin; una medida del tamao del efecto intenta cuantifi-
car la magnitud de esa relacin.
Una forma de cuantificar el tamao del efecto consiste en estimar la proporcin de varian-
za compartida. Esto puede hacerse, por ejemplo, con la medida de asociacin eta-cuadrado
( ). Ahora bien, en un modelo de dos factores hay tres efectos distintos (A, B y AB). Pode-
mos obtener, por un lado, una medida global de la proporcin de varianza compartida (una
medida basada en todos los efectos tomados juntos) y, por otro, una medida individual de
cada efecto por separado. La medida global se basa, lgicamente, en la MCI :

= [7.19]

El numerador de es una cuantificacin de la variabilidad intergrupos, la cual incluye la


variabilidad entre las medias de A, entre las medias de B y entre las medias de las casillas
respecto de sus medias marginales. El denominador es una cuantificacin de la variabilidad
total. Por tanto, el valor de expresa el grado de asociacin existente entre el conjunto de
efectos presentes en el modelo y la variable dependiente. En nuestro ejemplo sobre la rela-
cin entre el rendimiento y la dificultad de la tarea y el nivel de ansiedad:

= =

Este valor indica que el conjunto de efectos presentes en el modelo (la dificultad de la tarea,
el nivel de ansiedad y la interaccin entre la dificultad y la ansiedad) comparten el 63 % de
la varianza del rendimiento. Por tanto, nuestro conocimiento del rendimiento de los sujetos
mejora un 63 % cuando conocemos su nivel de ansiedad y la dificultad de la tarea que rea-
lizan. La ecuacin [7.19] puede formularse de esta otra manera:

= [7.20]

Para obtener una estimacin del tamao de cada efecto (A, B y AB) basta con colocar en
[7.20] los correspondientes estadsticos F y grados de libertad (estas estimaciones se llaman
parciales porque en el denominador no se utiliza la variabilidad total, sino la de cada efec-
to y la del error). Por ejemplo, con el efecto del factor B (nivel de ansiedad), la ecuacin
[7.20] ofrece el siguiente resultado:

= = =
262 Anlisis de datos (vol. II)

Este valor indica que el nivel de ansiedad (factor B) comparte el 48 % de la varianza del rendi-
miento. Por tanto, saber cul es el nivel de ansiedad de los sujetos permite mejorar un 48 %
nuestro conocimiento del rendimiento.
Aunque esta forma de estimar el tamao de un efecto est muy extendida (es, por ejem-
plo, la que utiliza el SPSS), lo cierto es que las estimaciones que se obtienen con (tanto
si son parciales como si no) contienen un sesgo importante (estn infladas; ver, por ejemplo,
Fowler, 1985). Algunas correcciones pueden atenuar este sesgo (ver captulo anterior), pe-
ro, en lugar de aplicar estas correcciones, suele ser ms recomendable utilizar la medida de
asociacin omega-cuadrado ( ).
El valor concreto de depende de si los factores son de efectos fijos o de efectos alea-
torios (ver Winer, Brown y Michels, 1991, pgs. 405-415). Cuando ambos factores son de
efectos fijos (Modelo I), el valor para cada efecto por separado puede obtenerse aplican-
do la siguiente regla6:

= = [7.22]

Sustituyendo efecto por A, B y AB puede obtenerse el valor de para cada efecto. Por ejem-
plo, con el efecto del factor B, tenemos

= = =

que es un valor menor que el obtenido con porque, como ya se ha sealado, suele
ofrecer estimaciones infladas de la verdadera proporcin de varianza compartida.
Para interpretar el tamao de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar til en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
La Tabla 7.8 muestra los valores de y obtenidos al aplicar las ecuaciones [7.20]
y [7.22] a los datos de nuestro ejemplo sobre la relacin entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5). Puede comprobarse que, efectivamente, los
valores parciales de son sistemticamente menores que los valores parciales de .

Tabla 7.8. Medidas del tamao del efecto

Efecto
A 0,17 0,11
B 0,48 0,40
AB 0,35 0,26

Al igual que para el modelo de un factor (ver captulo anterior, ecuacin [6.11]), Cohen
(1988) ha propuesto, para el modelo de dos factores, una medida del tamao del efecto basada

6
Si el estadstico F es menor que 1, el valor de es negativo. Puesto que una proporcin no puede ser negativa, cuando
ocurre esto se considera que vale cero.
Captulo 7. ANOVA de dos factores 263

en una tipificacin de la diferencia entre los promedios comparados. Su estrecha relacin con
permite obtener este estadstico a partir de lo que ya sabemos:

= [7.23]

(aunque el propio Cohen llama f a su medida del tamao del efecto, nosotros seguiremos
manteniendo la consistencia en nuestra notacin para evitar confusin). Siguiendo la regla
ya conocida, valores en torno a 0,10, 0,25 y 0,40 representan, respectivamente, efectos de
tamao pequeo, mediano y grande.

Clculo de la potencia y del tamao muestral


Al igual que en el captulo anterior, la estrategia propuesta en este apartado para calcular la
potencia se basa en una medida del tamao del efecto llamada (phi) y en la distribucin
F no centrada (Tabla G del Apndice final).
El valor del parmetro es una transformacin del parmetro de no centralidad (ver
ecuacin [6.18]) que puede estimarse aplicando la misma lgica utilizada en el captulo an-
terior (ver ecuacin [6.20]). La nica diferencia es que, ahora, no tenemos un nico efecto,
sino tres. Y cada efecto (por tanto, cada estadstico F ) tiene asociado un parmetro de no
centralidad y, consecuentemente, un valor que puede estimarse mediante:

= [7.24]

Estos estadsticos representan una cuantificacin del tamao de cada efecto. De hecho, estn
estrechamente relacionados con la medida del tamao del efecto de Cohen:

= [7.25]

(donde nefecto = nK para el efecto de A, nefecto = nJ para el efecto de B y nefecto = n para el efec-
to de AB).
En el ejemplo que venimos utilizando sobre la relacin entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5) tenemos J = 2, K = 3, MCA = 30, MCB = 70,
MCAB = 40 y MCE = 6,25. Por tanto,

= =

= =

= =

Para calcular la potencia asociada al contraste del efecto del factor B, por ejemplo, necesita-
mos = 0,05, gl1 = K ! 1 = 2, gl2 = N ! JK = 24 y = 2,73. En la Tabla G del Apndice
264 Anlisis de datos (vol. II)

final (redondeando a = 2,6) encontramos que la probabilidad de cometer errores Tipo II ()


vale 0,03. Por tanto, la potencia de este contraste vale 1 ! = 1 ! 0,03 = 0,97 (puesto que
tanto gl2 como se han redondeado a la baja, es muy posible que el valor exacto de la po-
tencia sea una o dos dcimas mayor de 0,97).
Este valor (0,97) es la potencia observada, es decir la potencia del contraste cuando se
asume que la diferencia poblacional entre los niveles del factor B (el verdadero tamao del
efecto) es la diferencia de hecho observada. Para conocer de antemano la potencia de un es-
tudio concreto es necesario calcular el tamao muestral que permitir alcanzar la potencia
deseada. Y para esto, basta con tener en cuenta la relacin establecida en [7.24]:

n = [7.26]

Imaginemos un estudio con J = 3 y K = 4. Supongamos que, para evaluar el efecto del fac-
tor B con = 0,05, queremos que la potencia del contraste para detectar un efecto de tama-
o medio ( = 0,25 siguiendo la regla de Cohen) valga 0,80 ( = 0,20). Tenemos que utilizar
la Tabla G al revs de como lo hemos hecho antes. Conocemos gl1 = 3, pero no gl2 (pues
depende del tamao muestral que estamos buscando). Esto, sin embargo, no representa un
problema serio porque utilizar un valor de partida de 30 o mayor no hace cambiar las cosas.
Vamos a elegir, por ejemplo, gl2 = . Con gl1 = 3, gl2 = y = 0,20 (tomamos 0,23), la
Tabla G arroja un valor = 1,6. Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir, hacen falta
aproximadamente 41 sujetos por grupo para alcanzar una potencia de 0,80.

Comparaciones mltiples
Los estadsticos FA, FB y FAB permiten valorar los efectos globales de A, B y AB, respec-
tivamente, y decidir cul de ellos es estadsticamente significativo. El rechazo de la hipte-
sis nula referida al efecto del factor A indica que las medias poblacionales correspondientes
a los niveles de ese factor no son iguales, pero no permite precisar qu media en concreto
difiere de qu otra (este problema es el mismo que nos hemos encontrado en el captulo
anterior al estudiar el modelo de un factor). Lo mismo vale decir del efecto de B y de su hi-
ptesis nula. Y el rechazo de la hiptesis nula referida al efecto de la interaccin indica que
el efecto combinado de los factores A y B difiere de la suma de los efectos individuales de
ambos factores, pero no permite precisar cul es el significado de esa diferencia.
Por tanto, en los tres casos (A, B y AB), el rechazo de la correspondiente hiptesis nula
est delatando la presencia de un efecto significativo sin llegar a precisar la naturaleza o el
significado del mismo. Tanto para conocer con exactitud qu niveles de un factor difieren de
qu otros como para poder entender el significado de una interaccin significativa es nece-
sario seguir adelante con el anlisis realizando comparaciones mltiples.
A los efectos individuales de A y B los hemos llamado efectos principales. Al efecto
combinado de A y B lo hemos llamado efecto de la interaccin. En nuestro ejemplo sobre
la relacin entre la dificultad de la tarea (fcil, difcil), el nivel de ansiedad (bajo, medio, al-
to) y el rendimiento, el efecto de la dificultad de la tarea es un efecto principal; el efecto del
nivel de ansiedad es un efecto principal; y el efecto combinado de la dificultad de la tarea y
el nivel de ansiedad es el efecto de la interaccin. Para entender el significado de la interac-
cin entre factores es necesario definir un nuevo tipo de efectos llamados efectos simples,
Captulo 7. ANOVA de dos factores 265

los cuales se refieren al efecto de un factor en cada uno de los niveles del otro. El efecto de
la dificultad de la tarea en un nivel concreto de ansiedad (por ejemplo, nivel bajo) es un efec-
to simple. Volveremos sobre esto enseguida.

Efectos principales
Para realizar comparaciones mltiples con los niveles del factor A y con los niveles del factor
B no es necesario aprender nada nuevo. Todos los procedimientos estudiados en el captulo
anterior para realizar comparaciones mltiples con un factor son aplicables a cada uno de los
efectos principales de un diseo factorial completamente aleatorizado. Esto significa que
puede utilizarse la prueba de Dunn-Bonferroni para realizar comparaciones planeadas y de
tendencia; la prueba de Dunnett para realizar comparaciones con un grupo control, si exis-
te; y las pruebas de Tukey y Scheff para realizar comparaciones post hoc. nicamente hay
que tener en cuenta unas sencillas modificaciones que afectan a las ecuaciones [6.34] a [6.46]:
1. El subndice j debe cambiarse por los subndices j + al analizar los niveles del fac-
tor A y por los subndices + k al analizar los niveles del_ factor B. As, _por ejemplo,
para comparar las medias del factor A, en lugar de utilizar Y j utilizaremos Y j+ y en lugar
de utilizar nj utilizaremos nj +, es decir, nK.
2. El nmero de niveles del factor A sigue siendo J (igual que en el modelo de un factor),
pero el nmero de niveles del factor B es K. Por tanto, al analizar los niveles del factor
B, J debe sustituirse por K.
3. Los grados de libertad asociados a MCE en el modelo de un factor (N ! J ) deben sustituir-
se por los grados de libertad asociados a MCE en el modelo de dos factores (N ! JK ).

Ejemplo. Comparaciones mltiples: efectos principales


En nuestro ejemplo sobre la relacin entre el rendimiento, la dificultad de la tarea (fcil, di-
fcil) y el nivel de ansiedad (bajo, medio, alto) hemos declarado estadsticamente signifi-
cativos los dos efectos principales presentes en el diseo: el del factor A y el del factor B.
El resultado obtenido con el efecto del factor A (dificultad de la tarea) indica que el ren-
dimiento medio es ms alto con tareas fciles que con tareas difciles. Como el factor A sola-
mente tiene dos niveles, no es necesario seguir haciendo comparaciones (las comparaciones
mltiples nicamente tienen sentido cuando se tienen ms de dos medias).
El resultado obtenido con el efecto del factor B (nivel de ansiedad) indica que el rendi-
miento medio no es el mismo en los tres niveles de ansiedad. Para seguir indagando en este
resultado vamos a realizar dos comparaciones. En la primera vamos a comparar el grupo de
nivel de ansiedad medio (que es el grupo del que cabe esperar un mayor rendimiento) con los
otros dos grupos tomados juntos; en la segunda, el grupo de menor ansiedad (grupo 1) con
el de mayor ansiedad (grupo 3); es decir,
= (!1) 1 + (2) 2 + (!1) 3
= (1) 1 + (0) 2 + (!1) 3
266 Anlisis de datos (vol. II)

Se trata de dos comparaciones ortogonales, pues la suma del producto de sus coeficientes
vale cero: (!1) (1)_+ (2) (0) +
_ (!1) (!1)
_ = 0. Vamos a aplicar la prueba de Dunn-Bonferroni.
Recordemos que Y +1 = 10, Y +2 = 14, Y +3 = 9 y MCE = 6,25:
1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamao nJ = 10 aleatoriamente seleccionadas de po-
blaciones que asumimos normales y con la misma varianza.
3. Estadsticos del contraste (ver ecuacin [6.35] en el captulo anterior):
! = =
= =

! = =

= =

! TDB (1) = = =
TDB (2) = = =
4. Distribucin muestral: los puntos crticos de la distribucin muestral de TDB estn en la
Tabla J del Apndice final, con F = 0,05, k = 2 y glerror = N ! JK = 30 ! 2(3) = 24.
$ t2, 24; 0,05 = 2,39.
5. Zona crtica: TDB >
6. Decisin: nicamente el valor TDB (1) = 4,64 es mayor que el punto crtico 2,39. Por tan-
to, debe rechazarse H0 (1) pero no H0(2). El rechazo de H0(1) indica que la media del grupo
2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados juntos.
Y el no rechazo de H0(2) indica que, con los datos disponibles, no es posible afirmar que
el rendimiento medio de los grupos 1 y 3 (los grupos de menor y mayor ansiedad) sea
distinto. Aunque estos contrastes son bilaterales, el valor positivo de indica que el
rendimiento medio del segundo grupo (es decir, del grupo ponderado con un coeficien-
te positivo en ) es mayor que el rendimiento medio de los otros dos grupos tomados
juntos.

Es importante tener en cuenta que el significado de un efecto principal est condicionado por
el efecto de la interaccin. Aunque volveremos sobre esta cuestin, conviene empezar a to-
mar conciencia de un hecho que no siempre es correctamente tenido en cuenta.
Cuando no existe interaccin, los efectos principales agotan toda la informacin del dise-
o. Imaginemos que, en nuestro ejemplo sobre la relacin entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad, el efecto de la interaccin no fuera significativo. Si se fue-
ra el caso, el resultado obtenido con el factor A (dificultad de la tarea) estara indicando que
el rendimiento medio es ms alto con tareas fciles (media = 12) que con tareas difciles
(media = 10). Y el resultado obtenido con el factor B estara indicando que el rendimiento
medio es ms alto cuando el nivel de ansiedad es medio (media = 14) que cuando es bajo
(media = 10) o alto (media = 9). Pero el hecho de que el efecto de la interaccin sea signi-
Captulo 7. ANOVA de dos factores 267

ficativo lo cambia todo. Una interaccin significativa acapara todo el protagonismo del dise-
o relegando los efectos principales a un segundo plano. Ms adelante veremos cmo se pro-
duce esto, pero, de momento, puesto que los resultados de nuestro ejemplo indican que el
efecto de la interaccin es significativo, sabemos que no es posible afirmar que el rendi-
miento con las tareas fciles es mejor que con las tareas difciles (efecto principal de la difi-
cultad) pues esto depende del nivel de ansiedad; y tambin sabemos que tampoco es posible
afirmar que el rendimiento es mejor cuando el nivel de ansiedad es medio que cuando es ba-
jo o alto (efecto principal de la ansiedad ) porque esto depende de la dificultad de la tarea.
Volveremos sobre este importante aspecto del anlisis en el apartado Efecto de la interaccin.

Efectos simples
Un efecto simple es el efecto de un factor cuando nicamente se tiene en cuenta un nico
nivel del otro factor.
Consideremos un diseo 2 3 como el que se muestra en la Tabla 7.9. Para valorar el
efecto del factor A se comparan las medias de sus dos niveles, es decir las medias de las filas:
1+ ! 2+. La diferencia entre estas medias representa el efecto principal del factor A.
Un efecto simple consiste en esto mismo pero referido a un nico nivel de B. Por ejem-
plo, la diferencia entre las medias 11 ! 21 es un efecto simple: el efecto simple de A en b1;
la diferencia entre las medias 12 ! 22 es el efecto simple de A en b2; y la diferencia entre
las medias 13 ! 23 es el efecto simple de A en b3. Por tanto, el factor A puede descompo-
nerse en tres efectos simples, uno por cada nivel de B.

Tabla 7.9. Medias poblacionales en un diseo 2 3

b1 b2 b3
a1 11 12 13 1+
a2 21 22 23 2+
+1 +2 +3

Estos efectos pueden evaluarse de la forma convencional contrastando la hiptesis nula de


igualdad de medias:
: 1k = 2 k = = J k [7.27]

Contrastar esta hiptesis nula equivale a llevar a cabo un ANOVA de un factor (el factor A)
con cada nivel del factor B. Haciendo

= [7.28]

tenemos las mismas medias cuadrticas que utilizaramos al aplicar un ANOVA de un fac-
tor K veces para comparar las medias de A en cada nivel de B. La hiptesis [7.27] puede
ponerse a prueba mediante el estadstico
= [7.29]
268 Anlisis de datos (vol. II)

el cual se distribuye segn F con J ! 1 y N ! JK grados de libertad (debe tenerse en cuenta


que hay K contrastes de este tipo, es decir, uno por cada efecto simple de A, es decir, uno por
cada nivel de B ).
Exactamente lo mismo vale decir del factor B. Las diferencias entre las medias de los
niveles del factor B en el primer nivel de A constituyen el efecto simple de B en a1. Y las
diferencias entre las medias de los niveles del factor B en el segundo nivel de A constituyen
el efecto simple de B en a2. Estos efectos simples pueden evaluarse contrastando la hipte-
sis nula de que las medias involucradas son iguales:
: j1 = j2 = = jK [7.30]

Y, siguiendo la misma lgica que para los efectos simples del factor A, la media cuadrtica
asociada a cada efecto simple del factor B puede obtenerse

= [7.31]

Y, a partir de esta media cuadrtica, es posible contrastar la hiptesis nula [7.30] mediante
el estadstico

= [7.32]

el cual se distribuye segn F con K ! 1 y N ! JK grados de libertad (debe tenerse en cuenta


que hay J contrastes de este tipo, es decir, uno por cada efecto simple de B, es decir, uno por
cada nivel de A).
El anlisis de los efectos simples nicamente tiene sentido cuando el efecto de la inte-
raccin AB es significativo. Segn veremos en el siguiente apartado, una interaccin signi-
ficativa implica que los efectos simples de A (tambin los de B) no son iguales entre s, de
ah que tenga sentido estudiarlos para valorar cmo difieren. Pero si la interaccin no es sig-
nificativa, no hay motivo para analizar los efectos simples: todos ellos dirn lo mismo que
el correspondiente efecto principal.

Ejemplo. Comparaciones mltiples: efectos simples


Volvamos a nuestro ejemplo sobre la relacin entre el rendimiento, la dificultad de la tarea
(fcil, difcil) y el nivel de ansiedad (bajo, medio, alto). Los datos de este ejemplo se en-
cuentran en la Tabla 7.5. Y la Tabla 7.10 ofrece un resumen de esos datos con las medias de
las casillas y las medias marginales. Recordemos que J = 2, K = 3, n = 5 y MCE = 6,25.

Tabla 7.10. Medias correspondientes a los datos de la Tabla 7.5

b1 b2 b3
a1 13 15 8 12
a2 7 13 10 10
10 14 9 11
Captulo 7. ANOVA de dos factores 269

Veamos cmo contrastar los efectos simples de A en cada nivel de B aplicando las ecuacio-
nes [7.27], [7.28] y [7.29]:
1. Hiptesis: : 11 = 21
: 12 = 22
: 13 = 23
2. Supuestos: tenemos 6 muestras de tamao n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadsticos del contraste:
! = = 5 [(13 !10)2 + (7 !10)2 ] / (2 !1) = 90.
= = 5 [(15 !14)2 + (13 !14)2 ] / (2 !1) = 10.
= = 5 [(8 ! 9)2 + (10 ! 9)2 ] / (2 !1) = 10.
! = = 90 / 6,25 = 14,4.
= = 10 / 6,25 = 1,6.
= = 10 / 6,25 = 1,6.
4. Distribuciones muestrales: los tres estadsticos se aproximan a la distribucin de
probabilidad F con J !1 = 2 !1 = 1 y N ! JK = 30 ! 6 = 24 grados de libertad.
5. Zona crtica: $ F1, 24; 0,95 = 4,26.
>
6. Decisiones: solamente el estadstico (14,4) es mayor que el punto crtico (4,26). Es
decir, solamente es significativo el efecto simple de A en b1. Por tanto, puede concluirse
que la dificultad de la tarea (efecto de A) nicamente afecta al rendimiento cuando el nivel
de ansiedad de los sujetos es bajo (b1); cuando el nivel de ansiedad es medio (b2) o alto
(b3), no puede afirmarse que el rendimiento se vea afectado por la dificultad de la tarea.

Conviene llamar la atencin sobre dos cuestiones relativas al anlisis de los efectos simples.
La primera de ellas tiene que ver con el control de la tasa de error. A pesar de que el anli-
sis de los efectos simples implica llevar a cabo varias comparaciones, el procedimiento pro-
puesto no incorpora ningn mecanismo de control de la tasa de error. Cuando los factores
tienen dos o tres niveles, esto no es un problema importante porque el nmero de efectos que
se analizan es muy pequeo. Pero cuando los factores tienen ms niveles, la falta de control
sobre la tasa de error puede convertirse en un problema serio. Aunque no existe un acuerdo
generalizado acerca de cul es la mejor manera de controlar la tasa de error cuando se ana-
lizan efectos simples, siempre cabe la posibilidad de controlar F aplicando la correccin de
Bonferroni, la cual, recordemos, consiste realizar cada contraste utilizando C = F / k en lu-
gar de C = F (k se refiere aqu al nmero de efectos simples que se estn valorando).
La segunda cuestin tiene que ver con las posibilidades que surgen cuando un efecto
simple es declarado significativo. Afirmar que el efecto de A en b1 es significativo es lo mis-
mo que decir que los promedios comparados en no son iguales. En nuestro ejemplo,
como el factor A solamente tiene dos niveles, no es necesario hacer ningn anlisis adicio-
nal: sabemos que los promedios que difieren son justamente esos dos. Pero si un efecto sim-
270 Anlisis de datos (vol. II)

ple incluye ms de dos medias, el rechazo de la hiptesis nula podra estar exigiendo con-
tinuar el anlisis para poder determinar qu medias en concreto difieren de qu otras. Esto
puede hacerse definiendo comparaciones lineales del tipo

= c1 1k + c2 2k + + cJ J k [7.33]

y contrastando la hiptesis nula de que la comparacin vale cero mediante la prueba de Dunn-
Bonferroni (ver captulo anterior). En nuestro ejemplo, los efectos simples de B en a1 y a2 son
ambos significativos. Y estos efectos incluyen tres medias. Para saber qu medias difieren
de qu otras habra que realizar comparaciones del tipo propuesto en [7.33] y contrastarlas
tal como se ha hecho en el captulo anterior.

Efecto de la interaccin
La interaccin entre factores ya la hemos definido al comienzo del captulo. Existe interac-
cin entre dos factores cuando el efecto de uno de ellos sobre la variable dependiente no es
el mismo en todos los niveles del otro factor. Dicho de otro modo, existe interaccin cuan-
do los efectos simples correspondientes a un mismo efecto principal no son iguales.
De la misma manera que es posible definir comparaciones lineales de un grado de liber-
tad para interpretar, descomponindolo, un efecto principal (esto es lo que hacemos, por
ejemplo, con las comparaciones planeadas y las de tendencia), tambin es posible definir
comparaciones lineales de un grado de libertad para conseguir interpretar una interaccin
significativa. El nmero de estas comparaciones puede llegar a ser muy elevado (Abelson y
Prentice, 1997), pero las comparaciones que ms ayudan a los investigadores a interpretar
una interaccin significativa suelen ser aquellas que permiten comparar entre s los efectos
simples. Por ejemplo, en un diseo factorial 2 3 como el propuesto en la Tabla 7.9, la nece-
sidad de interpretar una interaccin significativa quedar cubierta, por lo general, comparan-
do entre s cada efecto de A en cada nivel de B, es decir, comparando entre s los efectos
simples de A (o comparando entre s los efectos simples de B, lo cual es equivalente desde
el punto de vista de las conclusiones a las que se llega).
Ahora bien, para comparar entre s los efectos simples de A no basta con valorar si un
efecto simple es significativo y otro no para, de esta forma, decidir que son distintos. A pe-
sar del uso generalizado de esta estrategia, lo cierto es que no sirve para aislar el efecto de la
interaccin. Un efecto simple incluye parte del correspondiente efecto principal y parte del
efecto de la interaccin (ver Kirk, 1995, pgs. 380-381). Esto implica que un efecto simple
puede ser significativo porque lo es su parte de efecto principal, porque lo es su parte de
interaccin o porque lo son ambas partes. Por tanto, para comparar entre s los efectos sim-
ples no basta con saber cules son significativos y cules no (ver Pardo, Garrido, Ruiz y San
Martn, 2007). Comparar entre s los efectos simples de A requiere:
1. Comparar la diferencia entre 11 y 21 (o efecto simple de A en b1) con la diferencia en-
tre 12 y 22 (o efecto simple de A en b2);
2. Comparar la diferencia entre 11 y 21 (o efecto simple de A en b1) con la diferencia en-
tre 13 y 23 (o efecto simple de A en b3);
3. Comparar la diferencia entre 12 y 22 (o efecto simple de A en b2), con la diferencia en-
tre 13 y 23 (o efecto simple de A en b3).
Captulo 7. ANOVA de dos factores 271

Es decir, comparar entre s los efectos simples de A requiere efectuar estas tres7 compara-
ciones:
1 = ( 11 ! 21 ) ! ( 12 ! 22 )
2 = ( 11 ! 21 ) ! ( 13 ! 23 ) [7.35]
3 = ( 12 ! 22 ) ! ( 13 ! 23 )

Por tanto, comparar los efectos simples requiere comparar diferencias. Ordenando y asignan-
do coeficientes se obtiene
1 = (1) 11 + (!1) 12 + (0) 13 + (!1) 21 + (1) 22 + (0) 23
2 = (1) 11 + (0) 12 + (!1) 13 + (!1) 21 + (0) 22 + (1) 23 [7.36]
3 = (0) 11 + (1) 12 + (!1) 13 + (0) 21 + (!1) 22 + (1) 23

En la Figura 7.3 estn representadas las medias de la Tabla 7.6. Los recuadros 1, 2 y 3que
hemos trazado en el grfico representan los efectos simples de A (dificultad de la tarea) en
cada nivel de B (nivel de ansiedad). Con la comparacin 1 se intenta averiguar si lo que
ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 2; con la comparacin 2 se
intenta averiguar si lo que ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 3;
y con la comparacin 3 se intenta averiguar si lo que ocurre en el recuadro 2 difiere de lo
que ocurre en el recuadro 3. Estas tres comparaciones aslan el efecto de la interaccin y son
independientes del efecto principal de A (ver Pardo, Garrido, Ruiz y San Martn, 2007).
Para contrastar hiptesis del tipo h = 0 puede utilizarse la prueba de Dunn-Bonferroni
en los trminos ya conocidos. El siguiente ejemplo muestra cmo hacer esto.

Figura 7.3. Grfico de lneas correspondiente a las medias de la Tabla 7.6.


2
1

7
En un diseo 2 2 (dos factores con dos niveles cada factor), unas sencillas transformaciones permiten comprobar que
la definicin de no interaccin propuesta en [7.8] equivale a:
11 ! 21 = 12 ! 22 [7.34]
La comparacin [7.34] es la que corresponde al nico grado de libertad asociado a la interaccin en un diseo 2 2. Por
tanto, si el estadstico F asociado al efecto de la interaccin es significativo, una interpretacin basada en las diferencias
comparadas en [7.34] agota el significado de la interaccin, lo cual implica que no es necesario recurrir a comparaciones
adicionales para interpretar una interaccin significativa.
Debe tenerse en cuenta que, si se verifica [7.34], tambin se verifica 11 ! 12 = 21 ! 22 ; y una interaccin significa-
tiva en un diseo 2 2 puede interpretarse recurriendo a cualquiera de estas dos comparaciones, sin necesidad de clculos
adicionales.
272 Anlisis de datos (vol. II)

Ejemplo. Comparaciones mltiples: efecto de la interaccin


En nuestro ejemplo sobre la relacin entre el rendimiento, la dificultad de la tarea (fcil,
difcil) y el nivel de ansiedad (bajo, medio, alto) hemos encontrado que el efecto de la in-
teraccin es significativo. Para interpretar este efecto vamos a realizar dos tareas: (1) com-
parar entre s los efectos simples y (2) representar las medias de las casillas en un grfico de
lneas. La primera tarea es imprescindible para saber dnde se encuentran las diferencias; la
segunda es recomendable para entender mejor lo que est ocurriendo.
Las medias de las casillas (Tabla 7.6) estn representadas en el grfico de lneas de la Fi-
gura 7.3. Un grfico de lneas, tambin llamado grfico de perfiles, se construye colocando
uno de los factores en el eje horizontal (normalmente el que tiene ms niveles) y las medias
en el vertical. En el interior del grfico se representan las medias uniendo con lneas las que
corresponden al mismo nivel del segundo factor (el que no se ha colocado en el eje horizon-
tal). En el grfico de la Figura 7.3, cada lnea (cada efecto simple de B en aj) se corresponde
con una fila de la Tabla 7.6 y cada recuadro (cada efecto simple de A en bk) con una columna.

Tabla 7.6 (bis). Medias de las casillas de la Tabla 7.5

b1 b2 b3
a1 13 15 8
a2 7 13 10

1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.


H0 (2) : = 0 ; H1 (2) : =/ 0.
H0 (3) : = 0 ; H1 (3) : =/ 0.
Estas hiptesis se refieren a las tres comparaciones definidas en [7.36], las cuales, segn
se ha sealado ya, permiten comparar entre s, por pares, los tres efectos simples de A (es
decir, los tres efectos simples marcados con un recuadro en la Figura 7.3).
2. Supuestos: tenemos 6 muestras de tamao n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadsticos del contraste (ver ecuaciones [6.34] y [6.35] en el captulo anterior):
! = (1)13 + (!1)15 + (0) 8 + (!1) 7 + (1)13 + (0)10 = 4.
= (1)13 + (0)15 + (!1) 8 + (!1) 7 + (0)13 + (1)10 = 8.
= (0)13 + (1)15 + (!1) 8 + (0) 7 + (!1)13 + (1)10 = 4.

! = = 2,236.
Puesto que los coeficientes de las tres comparaciones son los mismos (aunque en di-
ferente orden), las tres comparaciones tienen el mismo error tpico.
! TDB (1) = = 4 / 2,24 = 1,79.
TDB (2) = = 8 / 2,24 = 3,58.
TDB (3) = = 4 / 2,24 = 1,79.
Captulo 7. ANOVA de dos factores 273

4. Distribucin muestral: los puntos crticos de la distribucin muestral de TDB estn en la


Tabla J del Apndice final, con F = 0,05, k = 3 y glerror = N ! JK = 30 ! 2(3) = 24.
$ t3, 24; 0,95 = 2,57.
5. Zona crtica: TDB >
6. Decisin: nicamente el valor de TDB (2) = 3,58 es mayor que el punto crtico 2,57. Por
tanto, debe rechazarse H0 (2) pero no H0 (1) ni H0 (3). El rechazo de H 0(2) indica que el efec-
to simple de A en b1 difiere del efecto simple de A en b3. Referido al grfico de la Figu-
ra 7.3, esto significa que lo que ocurre en el recuadro 1 no es lo mismo que lo que ocurre
en el recuadro 3. Y lo que esto quiere decir es que el efecto de la dificultad de la tarea
sobre el rendimiento (efecto de A) no es el mismo cuando el nivel de ansiedad de los su-
jetos es bajo (b1) que cuando es alto (b2). En la tabla de medias (Tabla 7.6) se puede ob-
servar que, cuando el nivel de ansiedad es bajo (b1), el rendimiento en las tareas fciles
es 6 puntos mayor que en las difciles; mientras que, cuando el nivel de ansiedad es alto
(b3), el rendimiento medio en las tareas fciles es 2 puntos menor que en las difciles. El
rechazo de H 0(2) indica que la diferencia entre estas diferencias (los 8 puntos de la com-
paracin n 2) es estadsticamente significativa.
Por tanto, el resultado ms destacable del anlisis del efecto de la interaccin es que
el efecto de la dificultad de la tarea (A) sobre el rendimiento (Y ) es uno cuando el nivel
de dificultad es bajo (b1) y otro distinto cuando el nivel de ansiedad es alto (b3).
Los resultados del anlisis tambin indican que no es posible afirmar que el efecto
simple de A en b1 difiera del efecto simple de A en b2 (comparacin n 1 no significati-
va); y tampoco es posible afirmar que el efecto simple de A en b2 difiera del efecto sim-
ple de A en b3 (comparacin n 3 no significativa).

Tres comentarios ms sobre el efecto de la interaccin. En primer lugar, conviene saber que
el efecto de la interaccin puede ser significativo tanto si los efectos principales son signi-
ficativos como si no. Y al revs.
En segundo lugar, es importante recordar que los efectos simples no informan de lo mis-
mo que el efecto de la interaccin. Interpretar la interaccin requiere comparar efectos sim-
ples; pero, analizar los efectos simples y decidir que difieren cuando unos son significativos
y otros no, no es comparar los efectos simples. En nuestro ejemplo sobre la relacin entre el
rendimiento, la dificultad de la tarea y el nivel de ansiedad, hemos encontrado que el efecto
simple de A en b1 era significativo y que los efectos simples de A en b2 y b3 no lo eran. Sig-
nifica esto que lo que ocurre con el efecto de A en b1 difiere de lo que ocurre con el efecto
de A en b2 y en b3? La respuesta es no: el resultado de las comparaciones entre los efectos
simples indican otra cosa. En el Apndice 7 se discute ms a fondo esta cuestin.
Por ltimo, tambin es importante saber qu hacer con los efectos principales en pre-
sencia de una interaccin significativa. Dado que una interaccin significativa est indican-
do que el efecto de un factor no es el mismo en todos los niveles del otro factor, puede afir-
marse que el significado de los efectos principales queda matizado (incluso alterado) por la
presencia de una interaccin significativa8 (ver Len y Montero, 2003, pgs. 278-282).

8
El grado en que un efecto principal puede verse alterado por la presencia de una interaccin significativa depende de varios
factores, pero uno bastante determinante es que las lneas del grfico de perfiles se crucen (interaccin no ordinal) o no
(interaccin ordinal).
274 Anlisis de datos (vol. II)

Algunos autores sugieren que, siendo significativa la interaccin, todava podra tener senti-
do interpretar los efectos principales en determinadas circunstancias (ver, por ejemplo, Ho-
well, 2002, pg. 432; Keppel y Wickens, 2004, pg. 244; Len y Montero, 2003, pgs. 278-
279 y 295), pero otros muchos recomiendan no prestar atencin a los efectos principales en
presencia de una interaccin significativa (Games, 1973; Kirk, 1995, pg. 370; Maxwell y
Delaney, 2004, pg. 301; Pedhazur y Pedhazur, 1991, pg. 523; Winer, Brown y Michels,
1991, pgs. 326-327). Cualquiera que sea la postura que se adopte, lo importante es tener
presente que, si el efecto de la interaccin es significativo, los efectos principales no solo no
estarn contando toda la historia, sino que, adems, es muy posible que la estn contando
mal. Y esto es algo que no debe pasarse por alto.

ANOVA de dos factores completamente aleatorizados con SPSS


En este apartado se explica cmo utilizar el SPSS para: (1) contrastar las hiptesis globales
referidas a los efectos de A, B y AB en un diseo de dos factores completamente aleatoriza-
dos, (2) estimar el tamao del efecto y la potencia observada de esos tres efectos, (3) reali-
zar comparaciones post hoc para interpretar los efectos principales, (4) realizar compara-
ciones mltiples para valorar los efectos simples y (5) realizar comparaciones mltiples pa-
ra valorar el efecto de la interaccin.
Todas estas tareas pueden llevarse a cabo con el procedimiento Univariante. No obstan-
te, veremos que las comparaciones necesarias para analizar el efecto de la interaccin (la 5
tarea) es ms fcil llevarlas a cabo con el procedimiento ANOVA de un factor. Utilizaremos el
ejemplo propuesto en la Tabla 7.5 sobre la relacin entre el rendimiento (variable depen-
diente), la dificultad de la tarea (factor A) y el nivel de ansiedad (factor B ).

Hiptesis globales (efecto de A, de B y de AB )


Para llevar a cabo un anlisis de varianza de dos factores completamente aleatorizados con
los datos de la Tabla 7.5:
' Reproducir en el Editor de datos los datos de la Tabla 7.5 (o abrir el archivo Tabla 7.5
dificultad ansiedad rendimiento que se encuentra en la pgina web del manual).
' Seleccionar la opcin Modelo lineal general > Univariante del men Analizar para acceder
al cuadro de dilogo Univariante y trasladar la variable rendimiento al cuadro Depen-
diente y las variables dificultad (dificultad de la tarea) y ansiedad (nivel de ansiedad) a
la lista Factores fijos9.

9
La lista Factores aleatorios permite ajustar modelos con factores de efectos aleatorios. La lista Covariables permite ajus-
tar modelos de anlisis de covarianza (ver Apndice 10). Y el cuadro Ponderacin MCP permite utilizar una variable de
ponderacin. En los modelos de ANOVA se asume que la varianza de la variable dependiente es la misma en todas las
poblaciones objeto de estudio. Cuando las varianzas poblacionales no son iguales (por ejemplo, cuando las casillas con pun-
tuaciones mayores muestran ms variabilidad que las casillas con puntuaciones menores), el mtodo de mnimos cuadra-
dos no consigue ofrecer estimaciones ptimas. En estos casos, si la diferencia en la variabilidad de las casillas puede esti-
marse a partir de alguna variable, el mtodo de mnimos cuadrados ponderados (MCP) permite tener en cuenta esa variable
de ponderacin al estimar los parmetros de un modelo lineal, dando ms importancia a las observaciones ms precisas (es
decir, a aqullas con menor variabilidad).
Captulo 7. ANOVA de dos factores 275

Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 7.11 y
7.12. La Tabla 7.11 informa del nombre de las variables independientes (factores), de sus
niveles, incluidos los cdigos que se les ha asignado (valores) y las etiquetas de los valores,
y del nmero de casos en cada nivel de ambos factores (N).

Tabla 7.11. Factores inter-sujetos


Etiqueta del valor N
Dificultad de la tarea 1 Fcil 15
2 Difcil 15
Nivel de ansiedad 1 Bajo 10
2 Medio 10
3 Alto 10

La tabla resumen del ANOVA (Tabla 7.12) contiene la misma informacin que la tabla
resumen del modelo de un factor: las fuentes de variacin, las sumas de cuadrados, los gra-
dos de libertad (gl ), las medias cuadrticas, los estadsticos F y los niveles crticos (sig.)
asociados a cada estadstico F. Pero, ahora, toda esa informacin no est referida a un ni-
co factor, sino a los tres efectos presentes en el modelo de dos factores: A, B y AB.
La fila modelo corregido se refiere a los tres efectos tomados juntos. Por tanto, recoge
la informacin relativa a lo que nosotros hemos llamado variabilidad intergrupos. La media
cuadrtica de esta fila es MCI . El nivel crtico asociado al estadstico F (sig. < 0,0005) indi-
ca que el modelo (los tres efectos tomados juntos) explica una parte significativa de la va-
riabilidad de la variable dependiente (rendimiento).
En la fila interseccin se est contrastando la hiptesis nula de que la media total vale
cero. Por tanto, contiene informacin que no tiene nada que ver con los efectos que realmen-
te interesa analizar en un modelo de dos factores (la suma de cuadrados de la interseccin se
obtiene elevando al cuadrado la media total y multiplicando el resultado por el nmero de
observaciones).
Las tres filas siguientes informan de los efectos principales (dificultad y ansiedad ) y del
efecto de la interaccin (dificultad * ansiedad ). Los correspondientes niveles crticos (sig.)
indican que los tres efectos son significativos (en los tres casos, sig. < 0,05). En consecuen-
cia, tanto la dificultad de la tarea como el nivel de ansiedad afectan al rendimiento. Pero el
hecho de que el efecto de la interaccin sea significativo est indicando que el efecto de la
dificultad de la tarea sobre el rendimiento est condicionado por el nivel de ansiedad; o,
tambin, que el efecto del nivel de ansiedad sobre el rendimiento est condicionado por la
dificultad de la tarea. Enseguida haremos las comparaciones necesarias para interpretar el
efecto de la interaccin.
La fila error contiene la informacin referida a la variabilidad intragrupos o error. Re-
cordemos que MCE es la mejor estimacin que tenemos de la varianza del rendimiento en las
seis poblaciones con las que estamos trabajando.
La penltima fila (total ) ofrece la suma de los cuadrados de todos los valores de la varia-
ble dependiente; sus grados de libertad son el nmero total de casos incluidos en el anlisis.
Y la ltima fila (total corregida) informa sobre la variabilidad total, es decir sobre la
variabilidad de las puntuaciones de la variable dependiente como si todas ellas constituye-
ran una nica muestra extrada de una nica poblacin. Esta variabilidad total (400) es la que
descomponemos en variabilidad intergrupos (250) y variabilidad intragrupos o error (150).
276 Anlisis de datos (vol. II)

Tabla 7.12. Resumen del ANOVA. Contrastes de los efectos inter-sujetos


Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados tipo III gl cuadrtica F Sig.
a
Modelo corregido 250,00 5 50,00 8,00 ,000
Interseccin 3.630,00 1 3.630,00 580,80 ,000
dificultad 30,00 1 30,00 4,80 ,038
ansiedad 140,00 2 70,00 11,20 ,000
dificultad * ansiedad 80,00 2 40,00 6,40 ,006
Error 150,00 24 6,25
Total 4.030,00 30
Total corregida 400,00 29
a. R cuadrado = ,625 (R cuadrado corregida = ,547)

Tamao del efecto y potencia observada


La tabla resumen del ANOVA (Tabla 7.12) incluye, en una nota a pie de tabla, los valores
de R cuadrado = 0,625 y R cuadrado corregida = 0,547. R cuadrado se corresponde con lo
que nosotros hemos llamado (ver ecuacin [7.19]). Y R cuadrado corregida = 0,547 es
el resultado de aplicar a la correccin propuesta en [6.14] (sustituyendo J por JK). Para
obtener las estimaciones del tamao de cada efecto y la potencia observada:
' En el cuadro de dilogo Univariante, pulsar el botn Opciones para acceder al cuadro de
dilogo Univariante: Opciones y marcar las opciones Estimaciones del tamao del efecto
y Potencia observada.
Al marcar estas dos opciones, la tabla resumen del ANOVA (Tabla 7.12) ofrece varias co-
lumnas adicionales con la informacin solicitada (Tabla 7.13).

Tabla 7.13. Resumen del ANOVA. Contrastes de los efectos inter-sujetos


Variable dependiente: Rendimiento
Suma de Media Eta cuad. Parm. de Potencia
a
Fuente cuad. tipo III gl cuadrtica F Sig. parcial no central. observada
b
Modelo corregido 250,00 5 50,00 8,00 ,000 ,63 40,00 1,00
Interseccin 3.630,00 1 3.630,00 580,80 ,000 ,96 580,80 1,00
dificultad 30,00 1 30,00 4,80 ,038 ,17 4,80 ,56
ansiedad 140,00 2 70,00 11,20 ,000 ,48 22,40 ,98
dificultad * ansiedad 80,00 2 40,00 6,40 ,006 ,35 12,80 ,86
Error 150,00 24 6,25
Total 4.030,00 30
Total corregida 400,00 29
a. Calculado con alfa = ,05
b. R cuadrado = ,625 (R cuadrado corregida = ,547)

La columna eta cuadrado parcial contiene los valores de correspondientes a cada


efecto (ver ecuacin [7.20]). El valor del modelo corregido (que incluye los tres efectos de
inters) coincide con el de R cuadrado. El SPSS no estima (ecuacin [7.22]), pero con
la informacin que contiene la Tabla 7.14 es fcil hacerlo. Por ejemplo, el valor de (an-
siedad ) puede obtenerse mediante
Captulo 7. ANOVA de dos factores 277

= = =

La siguiente (penltima) columna de la tabla contiene los parmetros de no-centralidad de


cada distribucin F. Estos valores son los que se utilizan para calcular la potencia observa-
da que aparece en la ltima columna de la tabla. En nuestros clculos de la potencia ob-
servada (ver pg. 264) habamos llegado a la conclusin de que la potencia del contraste era
ligeramente mayor de 0,97 (la Tabla G obliga a interpolar valores y eso hace perder algo de
precisin); ahora sabemos que la potencia del contraste vale 0,98. Por tanto, no parece que
se pierda mucha precisin con los clculos basados en la Tabla G.

Comparaciones post hoc : efectos principales


Aunque ambos efectos principales (dificultad y ansiedad ) son significativos, interpretar el
efecto del factor A (dificultad ) no requiere realizar comparaciones adicionales porque sola-
mente tiene dos niveles. Para llevar a cabo comparaciones post hoc entre los tres niveles del
factor B (ansiedad ):
' En el cuadro de dilogo Univariante, pulsar el botn Post hoc para acceder al subcuadro
de dilogo Univariante: Comparaciones mltiples post hoc y trasladar la variable an-
siedad de la lista Factores a la lista Pruebas post hoc para.
' Marcar la opcin Tukey del recuadro Asumiendo varianzas iguales y la opcin Games- Ho-
well del recuadro No asumiendo varianzas iguales. Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
' Pulsar el botn Opciones para acceder al cuadro de dilogo Univariante: Opciones y
marcar la opcin Pruebas de homogeneidad.
Aceptando estas elecciones, el Visor ofrece los resultados que recogen las Tablas 7.14 y 7.15.
La Tabla 7.14 ofrece el resultado de la prueba de Levene. La hiptesis que se contrasta con
esta prueba es que la varianza de la variable dependiente es la misma en las 6 poblaciones
definidas por la combinacin de los niveles de ambos factores. El resultado de esta prueba
sirve para valorar si puede asumirse o no que las varianzas poblacionales son iguales y, por
tanto, para decidir si los datos deben interpretarse utilizando la prueba de Tukey o la prueba
de Games-Howell. En nuestro ejemplo, puesto que el estadstico F de Levene tiene asocia-
do un nivel crtico de 0,988 (mayor que 0,05), podemos asumir que las varianzas pobla-
cionales son iguales.

Tabla 7.14. Prueba de Levene sobre igualdad de varianzas


Variable dependiente: Rendimiento
F gl1 gl2 Significacin
,115 5 24 ,988

La Tabla 7.15 muestra el resultado de los dos procedimientos post hoc solicitados: Tukey y
Games-Howell. Con ambos procedimientos se llega a la misma conclusin: el rendimiento
de los sujetos con nivel de ansiedad medio es distinto del rendimiento de los sujetos con ni-
278 Anlisis de datos (vol. II)

vel de ansiedad bajo (sig. = 0,004) y alto (sig. < 0,0005); y no puede afirmarse que el ren-
dimiento de estos dos grupos sea distinto (sig. = 0,649).
Si puede asumirse que las varianzas poblacionales son iguales es porque las varianzas
muestrales son parecidas; cuando ocurre esto, calcular el error tpico de cada comparacin
promediando las varianzas o sin promediarlas no supone una diferencia importante; y esto
se traduce en que los resultados obtenidos asumiendo varianzas iguales (Tukey) y sin asumir
tal cosa (Games-Howell) son parecidos. Si no puede asumirse que las varianzas poblaciona-
les son iguales, es posible que las pruebas de Tukey y de Games-Howell no den el mismo
resultado; en ese caso habr que fiarse de lo que diga la prueba de Games-Howell.

Tabla 7.15. Comparaciones mltiples post hoc. Pruebas de Tukey y Games-Howell


Variable dependiente: Rendimiento
Intervalo de confianza
al 95%.
(I) Nivel de (J) Nivel de Diferencia entre Lmite Lmite
ansiedad ansiedad medias (I-J) Error tp. Sig. inferior superior
DHS de Tukey Bajo Medio -4,00 1,118 ,004 -6,79 -1,21
Alto 1,00 1,118 ,649 -1,79 3,79
Medio Bajo 4,00 1,118 ,004 1,21 6,79
Alto 5,00 1,118 ,000 2,21 7,79
Alto Bajo -1,00 1,118 ,649 -3,79 1,79
Medio -5,00 1,118 ,000 -7,79 -2,21
Games-Howell Bajo Medio -4,00 1,468 ,039 -7,81 -,19
Alto 1,00 1,513 ,789 -2,91 4,91
Medio Bajo 4,00 1,468 ,039 ,19 7,81
Alto 5,00 1,155 ,001 2,05 7,95
Alto Bajo -1,00 1,513 ,789 -4,91 2,91
Medio -5,00 1,155 ,001 -7,95 -2,05

Comparaciones mltiples: efectos simples


Analizar los efectos simples con el SPSS requiere utilizar la sintaxis. Para valorar los efec-
tos simples de A (dificultad ) en cada nivel de B (ansiedad ):
' En el cuadro de dilogo Univariante, pulsar el botn Opciones para acceder al subcuadro
de dilogo Univariante: Opciones.
' Seleccionar el efecto de la interaccin dificultad*ansiedad y trasladarlo a la lista Mostrar
las medias para; hacer lo mismo con uno de los dos efectos principales (aunque no te-
nemos ningn inters en ello, es necesario seleccionar algn efecto principal, da igual
cul sea, para activar la opcin Comparar los efectos principales).
' Marcar la opcin Comparar los efectos principales y seleccionar Bonferroni en el men des-
plegable Ajuste del intervalo de confianza. Pulsar el botn Continuar para volver al cuadro
de dilogo Univariante (ver Figura 15.1).
' Pulsar el botn Pegar para escribir en el Editor de sintaxis la sintaxis SPSS correspon-
diente a las elecciones hechas y modificar la lnea /EMMEANS = TABLES(dificultad*ansie-
dad) aadiendo lo siguiente: COMPARE(dificultad) ADJ(BONFERRONI).
Captulo 7. ANOVA de dos factores 279

Al ejecutar la sintaxis se obtienen los resultados que muestran las Tablas 7.16 a 7.18. La
Tabla 7.16 contiene las medias estimadas10 de las casillas (es decir, de cada combinacin
dificultad*ansiedad ). stas son las medias en las que se basan las comparaciones solicita-
das. Cuando los tamaos muestrales son iguales, el valor de las medias estimadas es el mis-
mo que el de las medias observadas (ver Tabla 7.16).

Tabla 7.16. Medias estimadas


Variable dependiente: Rendimiento
Dificultad Nivel de Intervalo de confianza al 95%.
de la tarea ansiedad Media Error tp. Lmite inferior Lmite superior
Fcil Bajo 13,00 1,12 10,69 15,31
Medio 15,00 1,12 12,69 17,31
Alto 8,00 1,12 5,69 10,31
Difcil Bajo 7,00 1,12 4,69 9,31
Medio 13,00 1,12 10,69 15,31
Alto 10,00 1,12 7,69 12,31

Las Tablas 7.17 y 7.18 son el resultado de las modificaciones introducidas en la sintaxis. La
Tabla 7.17 ofrece el contraste de los efectos simples de A (dificultad de la tarea) en cada nivel
de B (nivel de ansiedad). En cada contraste se est comparando el rendimiento medio obteni-
do con tareas fciles y con tareas difciles. El nico contraste significativo es el que se refiere
al nivel de ansiedad bajo. Esto quiere decir que la dificultad de la tarea nicamente afecta al
rendimiento cuando el nivel de ansiedad de los sujetos es bajo. Puede comprobarse que estos
resultados son idnticos a los que hemos obtenido en el ejemplo del apartado Efectos simples.

Tabla 7.17. Contrastes de los efectos simples (dificultad de la tarea)


Variable dependiente: Rendimiento
Suma de Media
Nivel de ansiedad cuadrados gl cuadrtica F Sig.
Bajo Contraste 90,00 1 90,00 14,40 ,001
Error 150,00 24 6,25
Medio Contraste 10,00 1 10,00 1,60 ,218
Error 150,00 24 6,25
Alto Contraste 10,00 1 10,00 1,60 ,218
Error 150,00 24 6,25
Cada prueba F contrasta el efecto de Dificultad de la tarea. Estos contrastes se basan en las
comparaciones por pares, linealmente independientes, entre las medias marginales estimadas.

10
Las medias estimadas son medias no ponderadas. Se calculan sin tener en cuenta el tamao de las casillas (ver Searle,
Speed y Milliken, 1980). Todos los contrastes se realizan a partir de estas medias (son las medias que se utilizan en la es-
trategia conocida como sumas de cuadrados Tipo III , que es la que se aplica por defecto):

Las medias observadas son medias ponderadas (se utilizan en los contrastes cuando se opta por aplicar la estrategia cono-
cida como sumas de cuadrados Tipo I ):
, ,

Estas medias son las que se obtienen, por ejemplo, cuando se solicitan estadsticos descriptivos. Cuando todas las casillas
tienen el mismo nmero de casos, las medias estimadas (no ponderadas) y las observadas (ponderadas) son iguales.
280 Anlisis de datos (vol. II)

Por ltimo, la Tabla 7.18 ofrece las comparaciones por pares entre las medias de cada efecto
simple. Estas comparaciones se llevan a cabo controlando la tasa de error con el mtodo de
Bonferroni (recordar la modificacin que hemos introducido en la sintaxis) y se interpretan
exactamente igual que las comparaciones post hoc ya estudiadas. Puesto que en los efectos
simples analizados (dificultad de la tarea) nicamente intervienen dos medias (fcil, difcil),
las comparaciones de esta tabla coinciden con las de la Tabla 7.14 (adems, al comparar
solamente dos medias, la correccin de Bonferroni no tiene ningn efecto).

Tabla 7.18. Comparaciones por pares entre las medias de cada efecto simple (dificultad de la tarea)
Variable dependiente: Rendimiento

Intervalo de confianza al
a
95 % para la diferencia
Nivel de (I) Dificultad (J) Dificultad Diferencia entre Lmite Lmite
a
ansiedad de la tarea de la tarea medias (I-J) Error tp. Sig. inferior superior
Bajo Fcil Difcil 6,00 1,58 ,001 2,74 9,26
Medio Fcil Difcil 2,00 1,58 ,218 -1,26 5,26
Alto Fcil Difcil -2,00 1,58 ,218 -5,26 1,26
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.

Comparaciones mltiples: efecto de la interaccin


Para interpretar el efecto de la interaccin vamos a realizar dos tareas: (1) obtener un grfi-
co de lneas o perfiles basado en las medias de las casillas y (2) comparar entre s los efec-
tos simples de A (dificultad de la tarea) en cada nivel de B (nivel de ansiedad). Seguimos
trabajando con el procedimiento Univariante:
' En el cuadro de dilogo Univariante, pulsar el botn Grficos para acceder al subcuadro
de dilogo Univariante: Grficos de perfil.
' Trasladar la variable ansiedad al cuadro Eje horizontal y la variable dificultad al cuadro
Lneas separadas, y pulsar el botn Aadir para hacer efectiva la seleccin de variables.
Aceptando estas elecciones, el Visor de resultados ofrece un grfico de lneas como el que
muestra la Figura 7.4. En l estn representadas las medias de las casillas (ver Tabla 7.6).

Figura 7.4. Grfico de perfiles: nivel de ansiedad por dificultad de la tarea


Captulo 7. ANOVA de dos factores 281

Una rpida inspeccin del grfico permite formarse una primera impresin sobre el posible
significado de la interaccin. Parece que lo que ocurre cuando el nivel de ansiedad es bajo
(se rinde mucho mejor en las tareas fciles) no es lo mismo que lo que ocurre cuando el nivel
de ansiedad es medio (se rinde un poco mejor en las tareas fciles) o alto (se rinde un poco
mejor en las tareas difciles). Tambin parece que lo que ocurre cuando el nivel de ansiedad
es medio no es lo mismo que lo que ocurre cuando el nivel de ansiedad es alto.
Pero todo esto no son ms que conjeturas basadas en las diferencias observadas. Los
contrastes de los efectos simples llevados a cabo en el apartado anterior indican que la nica
diferencia significativa se da en el nivel de ansiedad bajo. Quiere esto decir que lo que
ocurre en ese nivel es distinto de lo que ocurre en los otros dos, y que lo que ocurre en estos
dos es lo mismo? Ya hemos sealado que la respuesta a esta pregunta es no. Para poder ha-
cer una afirmacin de este tipo es necesario comparar entre s los efectos simples; no basta
con decidir cul de ellos es significativo y cul no.
Para comparar entre s los efectos simples vamos a realizar las comparaciones definidas
en [7.36]. Y lo vamos a hacer con el procedimiento ANOVA de un factor. Es decir, vamos a
tratar las 6 casillas de nuestro diseo como si fueran los 6 niveles de un nico factor. Para
hacer esto necesitamos crear una variable con 6 cdigos distintos (uno por casilla). En el ar-
chivo Tabla 7.5 dificultad ansiedad rendimiento hemos creado la variable grupo asignando
el cdigo 1 a la casilla ab11, el cdigo 2 a la casilla ab12, el cdigo 3 a la casilla ab13, el cdi-
go 4 a la casilla ab21, el cdigo 5 a la casilla ab22 y el cdigo 6 a la casilla ab23. Una vez crea-
da esta variable:
' Seleccionar la opcin Comparar medias > ANOVA de un factor del men Analizar para acce-
der al cuadro de dilogo ANOVA de un factor y trasladar la variable rendimiento a la lista
Dependientes y la variable grupo al cuadro Factor.
' Pulsar el botn Contrastes para acceder al cuadro de dilogo ANOVA de un factor: Con-
trastes y comenzar a introducir los coeficientes correspondientes a las tres comparaciones
definidas en [7.36] utilizando el cuadro de texto Coeficientes y el botn Aadir: introducir
los coeficientes de la primera comparacin (1, !1, 0, !1, 1, 0) y pulsar el botn Siguiente;
introducir los coeficientes de la segunda comparacin (1, 0, !1, !1, 0, 1) y pulsar el bo-
tn Siguiente; introducir los coeficientes de la tercera comparacin (0, 1, !1, 0, !1, 1).
Aceptando estas selecciones el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 7.19 y 7.20. La primera de ellas contiene los coeficientes asignados a las tres compa-
raciones que hemos definido. Estos coeficientes sirven para identificar las comparaciones que
se estn llevando a cabo y, por supuesto, para comprobar que, efectivamente, se correspon-
den con las que hemos definido.

Tabla 7.19. Coeficientes para comparar los efectos simples


Dificultad de la tarea x Nivel de ansiedad
Contraste Fcil - Bajo Fcil - Medio Fcil - Alto Difcil - Bajo Difcil - Medio Difcil - Alto
1 1 -1 0 -1 1 0
2 1 0 -1 -1 0 1
3 0 1 -1 0 -1 1

La Tabla 7.20 ofrece los resultados de las tres comparaciones solicitadas agrupados en dos
bloques. En el primer bloque, las comparaciones estn evaluadas asumiendo que las varian-
282 Anlisis de datos (vol. II)

zas poblacionales son iguales; en el segundo, sin asumir tal cosa. Aunque ambas estrategias
suelen llevar a la misma conclusin, debe utilizarse la que se ajuste a las caractersticas de
los datos. Para esto, debe tenerse en cuenta el resultado obtenido previamente al contrastar
la hiptesis de igualdad de varianzas con la prueba de Levene. Puesto que en nuestro ejem-
plo puede asumirse que las varianzas poblacionales son iguales (ver Tabla 7.14), los resul-
tados que deben interpretarse son los del primer bloque (asumiendo igualdad de varianzas).
El contenido de esta tabla ya se ha explicado en el captulo anterior. Incluye, para cada
comparacin solicitada, el valor de la comparacin (contraste), su error tpico, el estadsti-
co del contraste (t), sus grados de libertad y el nivel crtico (sig. bilateral ). La hiptesis nula
que se pone a prueba con cada contraste es que los promedios poblacionales comparados son
iguales. Para tomar decisiones sobre estas hiptesis debe tenerse en cuenta que el procedi-
miento no aplica ninguna correccin para controlar la tasa de error. Para aplicar la correc-
cin de Bonferroni, basta con comparar cada nivel crtico (sig. bilateral) con F dividida por
el nmero de comparaciones; en nuestro ejemplo, C = 0,05/ 3 = 0,017.
Con los niveles crticos obtenidos (sig. bilateral ) debe decidirse: (1) mantener la hip-
tesis nula referida al primer contraste (pues 0,086 > 0,017), (2) rechazar la hiptesis nula re-
ferida al segundo contraste (pues 0,002 < 0,017) y (3) mantener la hiptesis nula referida al
tercer contraste (pues 0,086 > 0,017). En consecuencia, puede concluirse que el efecto de la
dificultad de la tarea no es el mismo cuando el nivel de ansiedad es bajo y cuando es alto. En
el apartado Efecto de la interaccin puede encontrarse un comentario ms detallado de estos
resultados.

Tabla 7.20. Comparaciones entre los efectos simples (dificultad de la tarea)


Rendimiento
Valor del Error Sig.
Contraste contraste tpico t gl (bilateral)
Asumiendo igualdad de 1 4,00 2,24 1,79 24 ,086
varianzas 2 8,00 2,24 3,58 24 ,002
3 4,00 2,24 1,79 24 ,086
No asumiendo igualdad 1 4,00 2,17 1,85 14,80 ,085
de varianzas 2 8,00 2,30 3,47 15,04 ,003
3 4,00 2,24 1,79 15,67 ,093

Apndice 7
Casillas con tamaos muestrales distintos
Aunque lo habitual es planificar un estudio con la intencin de utilizar el mismo nmero de casos en
todas las condiciones (diseo equilibrado o balanceado), lo cierto es que esta circunstancia raramen-
te se da. Las razones por las que podemos encontrarnos con tamaos muestrales distintos son de diver-
sa naturaleza: puede haber descuido del investigador al seleccionar los sujetos o errores al registrar sus
respuestas; puede que algunos sujetos de los seleccionados no ofrezcan respuestas vlidas para el estu-
dio; puede que se est trabajando con grupos ya formados cuyo tamao no depende del investigador
(estudiantes de un aula); etc. Cuando se trabaja con tamaos muestrales distintos las inferencias se
Captulo 7. ANOVA de dos factores 283

complican bastante, pues los efectos de A, B y AB dejan de ser independientes entre s; no obstante,
todava es posible analizarlos.
Por qu la presencia de tamaos muestrales distintos complica las cosas? Consideremos un di-
seo 2 2 como el que muestra la Tabla 7.21. El factor A (tratamiento) define dos grupos: sujetos tra-
tados y no tratados (grupos experimental y control); el factor B (sexo) define dos grupos: hombres y
mujeres. La variable dependiente es una variable cuantitativa que vamos a llamar recuperacin. Ima-
ginemos que hemos seleccionado una muestra de 10 hombres y otra de 10 mujeres y que hemos
aplicado el tratamiento a la mitad de los sujetos de cada muestra (5 sujetos por condicin o casilla).
Por circunstancias ajenas al investigador, al final del estudio han quedado 6 hombres y 6 mujeres. La
tabla muestra las puntuaciones de los 12 sujetos, las medias de las casillas y las medias marginales.
Tanto las medias de las casillas como las medias marginales de las filas indican que los sujetos
tratados (grupo experimental) puntan en recuperacin el doble que los sujetos no tratados (grupo
control); y esto, tanto en el caso de los hombres como en el de las mujeres. Sin embargo, las medias
marginales de las columnas (las medias de las seis puntuaciones de cada columna) dicen otra cosa:
parece que los hombres (media = 8) se benefician del tratamiento menos que las mujeres (media = 10).
Esta aparente inconsistencia se debe al hecho de que, entre los hombres, el grupo que punta ms alto
es el menos numeroso, mientras que, entre las mujeres, el grupo que punta ms alto es el ms nume-
roso. Por supuesto, esta aparente inconsistencia tambin se debe al hecho de que las medias margi-
nales se han calculado teniendo en cuenta el tamao de las casillas.
Si los tamaos de las casillas reflejaran el tamao de sus respectivas poblaciones, estas medias
marginales (8 y 10) podran tener algn sentido; de hecho, desde el punto de vista descriptivo, estas
medias seran las que mejor estaran informando de lo que ocurre en la poblacin; incluso podra ocu-
rrir que estas medias fueran el objetivo principal de un estudio inferencial. Pero, por lo general, esto
no es lo que suele ocurrir en un diseo factorial; al analizar diferencias, las medias marginales no de-
beran decir nada distinto de lo que estn diciendo las medias de las casillas. No parece razonable que
el efecto de un tratamiento pueda depender del nmero de sujetos a los que se aplica; como tampoco
parece razonable que las posibles diferencias entre hombres y mujeres puedan variar en funcin del
nmero de hombres y mujeres incluidos en el estudio.

Tabla 7.21. Diseo 2 2 con tamaos muestrales distintos (no balanceado)

Sexo
Tratamiento Hombres Mujeres Medias

11 10, 11
Grupo
13 13, 14 12
experimental
media = 12 media = 12

4, 5 5
Grupo
7, 8 7 6
control
media = 6 media = 6

Medias 8 10 9

La solucin pasa por calcular las medias marginales sin tener el cuenta el tamao de las casillas. Esto
dara para las dos medias marginales de las columnas un valor de (12 + 6) / 2 = 9, que es lo que cabra
esperar despus de ver lo que ocurre en las casillas. Ambas formas de calcular las medias son num-
ricamente correctas, pero informan de cosas distintas (ver nota a pie de pgina n 10).
Aunque se han propuesto diferentes procedimientos para analizar los diseos con tamaos mues-
trales distintos, ninguno de ellos parece representar una solucin definitiva. Si los tamaos de las ca-
284 Anlisis de datos (vol. II)

sillas son proporcionales a los tamaos de sus respectivos marginales (nj k = nj+ n+k /N ), siguen siendo
vlidas las frmulas propuestas en este captulo para el caso de tamaos muestrales iguales. Si los ta-
maos de las casillas no son proporcionales, una solucin sencilla, que funciona bastante bien, consis-
te en aplicar las frmulas descritas en este captulo sustituyendo n por la media armnica de los ta-
maos de las casillas. Otras soluciones ms complejas es preferible abordarlas utilizando algn pro-
grama informtico (Maxwell y Delaney, 2004, pgs. 320-343, ofrecen un amplia discusin de toda
esta problemtica).
Nuestra intencin al incluir este breve apartado sobre la complicacin aadida que supone utili-
zar tamaos muestrales distintos no es que aprendamos a hacer clculos a mano. Las soluciones que
mejor funcionan son lo bastante complejas como para requerir la ayuda de un programa informtico.
Y eso es lo que debemos aprender a hacer. Pero conviene no olvidar que hay distintas formas de calcu-
lar medias marginales y que esas diferentes formas de clculo pueden llevar a conclusiones distintas.

Ms sobre los efectos simples y el efecto de la interaccin


Los efectos simples estn estrechamente relacionados con el efecto de la interaccin. De hecho, una
de las formas habituales de definir el efecto de la interaccin se basa en la relacin entre los efectos
simples: decimos que existe interaccin entre dos factores cuando los efectos simples correspondien-
tes al mismo efecto principal no son iguales.
Consideremos un diseo 2 2. La diferencia 11 ! 21 es el efecto simple de A en b1; y la dife-
rencia 12 ! 22 es el efecto simple de A en b2. Afirmar que existe efecto de la interaccin equivale a
afirmar que el efecto simple de A en b1 difiere del efecto simple de A en b2. Esta forma de entender la
interaccin entre factores implica que la comparacin entre efectos simples puede utilizarse para ana-
lizar e interpretar el efecto de la interaccin.
Pero comparar efectos simples no es lo mismo que analizarlos por separado. Y lo que ocurre con
frecuencia en la investigacin aplicada (ver Pardo, Garrido, Ruiz y San Martn, 2007) es que la compa-
racin entre efectos simples se interpreta de esta incorrecta manera: si al valorar la significacin de los
dos efectos simples del factor A se comprueba que uno de ellos es significativo y el otro no, se puede
concluir que los efectos simples del factor A no son iguales. Por qu decimos que esta interpretacin
es incorrecta? Porque se est afirmando que son distintas dos cosas que no se han comparado; es decir,
porque se est afirmando que el efecto simple de A en b1 difiere del efecto simple de A en b2 sin haber
comparado entre s ambos efectos simples. Y ocurre que uno de los dos efectos simples de A podra ser
significativo y el otro no tanto si existe interaccin significativa como si no; y ambos efectos simples
podran ser significativos o no significativos tanto si existe interaccin significativa como si no (ver
Keppel y Wickens, 2004, pg. 254). La razn de esta aparente inconsistencia radica en el hecho de que
un efecto simple incluye parte del efecto principal y parte del de la interaccin. Lo cual implica que un
efecto simple puede ser significativo porque es significativa la parte de efecto principal que incluye,
porque es significativa la parte del efecto de la interaccin, o porque son significativas ambas partes.
Que los efectos simples incluyen tanto efectos principales como de interaccin est suficiente-
mente documentado en la bibliografa estadstica (Kirk, 1995, pgs. 377-378; Winer, Brown y Mi-
chels, 1991, pgs. 326-332). Expertos de la talla de Kirk han llegado a afirmar que contrastar hipte-
sis sobre los efectos simples... puede ser interesante, pero no ayuda a comprender la interaccin entre
dos variables(1995, pg. 383). A pesar de esto, no pocos manuales de diseo y anlisis presentan los
efectos simples como la estrategia apropiada (y en algunos casos nica) para interpretar los datos en
presencia de una interaccin significativa (Howell, 2002, pgs. 432, 489; Jaccard, 1998, pg. 20; Ke-
ppel y Wickens, 2004, pgs. 247; Maxwell y Delaney, 2004, pg. 308; Myers y Well, 2003, pg. 304;
Pedhazur y Pedhazur, 1991, pg. 509; etc.). Algo parecido sucede tambin con las referencias en es-
paol (ver, por ejemplo, Ato y Vallejo, 2007, pgs. 193, 198-200; Pascual, 1998, pg. 97).
La razn por la cual nos parece conveniente destacar esta idea es por las importantes implicaciones
prcticas que se derivan de ella. Imaginemos que el factor A define dos grupos de tratamiento (GE =
experimental y GC = control) y que el factor B representa dos momentos en el tiempo (pre- y postrata-
Captulo 7. ANOVA de dos factores 285

miento). En un diseo de estas caractersticas el investigador suele estar interesado en averiguar si el


tratamiento tiene algn efecto sobre el grupo experimental; por supuesto, algn efecto distinto del no-
tratamiento sobre el grupo control. Para obtener esta informacin no basta con analizar el efecto prin-
cipal del factor A, sino que es necesario comparar lo que ocurre en el postratamiento (efecto simple de
A en b2) con lo que ocurre en el pretratamiento (efecto simple de A en b1). Ahora bien, si para realizar
esta comparacin se recurre al anlisis de los efectos simples por separado (estrategia habitualmente
utilizada; ver Pardo, Garrido, Ruiz y San Martn, 2007), puede ocurrir que, siendo significativo el efec--
to de la interaccin, no haya diferencias significativas entre GE y GC ni en el pre- ni en el postrata-
miento (ver Figura 7.5.a), o haya diferencias significativas tanto en el pre- como en el postratamiento
(ver Figura 7.5.b). En la estrategia basada en el anlisis de los efectos simples por separado, cualquie-
ra de estos dos resultados llevara a concluir que no es posible afirmar que exista efecto del tratamien-
to. Sin embargo, en clara discrepancia con esta conclusin, la presencia de una interaccin significativa
estara indicando que la diferencia entre GE y GC no es la misma en el pre- y en el postratamiento; lo
cual debera llevar a concluir que existe efecto del tratamiento (pues, en un diseo de estas caracte-
rsticas, una interaccin significativa implica efecto del tratamiento).
Tambin puede ocurrir que, no siendo significativo el efecto de la interaccin (es decir, no ha-
biendo diferencias entre lo que ocurre en el pre- y en el postratamiento), la diferencia entre GE y GC
en el pretratamiento (efecto simple de A en b1) no sea significativa y s lo sea la diferencia entre GE y
GC en el postratamiento (efecto simple de A en b2). Este resultado podra llevar a afirmar que existe
efecto del tratamiento cuando el hecho de que la interaccin sea no significativa estara descartando es-
ta posibilidad (ver Figura 7.5.c).

Figura 7.5. Diferentes pautas de interaccin en un diseo 2 2


a b c

5 5 GE 5
GE
4 4 4
GE
3 3 3
2 GC 2 2
GC
1 1 GC 1
0 0 0
pre- post- pre- post- pre- post-

Por tanto, para poder afirmar que existe efecto del tratamiento no basta con saber que GE y GC no difie-
ren en el pre- y s en el postratamiento, como tampoco basta con saber que GE cambia entre el pre- y
el postratamiento mientras que GC no lo hace (de todo esto es de lo que informan los efectos simples).
Para poder afirmar que existe efecto del tratamiento, la diferencia observada en el post- hay que refe-
rirla a la observada en el pretratamiento (o, de forma equivalente, el cambio observado en GE entre el
pre- y el postratamiento hay que referirlo al cambio observado en GC), y esto solo es posible hacerlo
comparando diferencias, que es justamente lo que se hace cuando se analiza el efecto de la interaccin.
Aunque una interaccin significativa coincidir, en muchos casos, con la presencia de efectos sim-
ples diferenciados (es decir, unos significativos y otros no), esto no tiene por qu ser necesariamente
as. Por tanto, si bien el anlisis de los efectos simples por separado puede llevar a las mismas con-
clusiones que la comparacin entre ellos, esa estrategia debe considerarse inapropiada porque puede
llevar a conclusiones incorrectas.

La sentencia LMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de dilogo del SPSS,
la sentencia LMATRIX permite efectuar cualquier tipo de comparacin mediante sintaxis: permite va-
286 Anlisis de datos (vol. II)

lorar la significacin de los efectos simples, realizar comparaciones entre los diferentes niveles de un
mismo efecto simple para precisar dnde estn las diferencias, realizar comparaciones entre diferentes
efectos simples para interpretar el efecto de la interaccin, etc.
La sentencia LMATRIX permite realizar estas comparaciones asignando valores a los coeficientes
de la matriz L en la hiptesis general LB = 0 (B representa el vector de parmetros). El modelo esta-
dstico correspondiente a un diseo de dos factores completamente aleatorizados (ver Captulo 1 del
tercer volumen) adopta la forma

( j se refiere a los niveles del primer factor y k a los niveles del segundo factor). En nuestro ejemplo,
el modelo puede representarse mediante
rendimiento jk = constante + dificultad j + ansiedad k + dificultad*ansiedad jk
(con j = 1, 2; k = 1, 2, 3). La parte izquierda de la ecuacin recoge los pronsticos del modelo, es de-
cir, el rendimiento que el modelo pronostica para cada combinacin entre los niveles de los factores
(para cada casilla del diseo). La parte derecha de la ecuacin recoge las dos variables independien-
tes y la interaccin entre ambas. El modelo incluye doce parmetros: la constante, los dos niveles de
dificultad, los tres niveles de ansiedad y los seis parmetros resultantes de combinar los dos niveles
de dificultad con los tres niveles de ansiedad. Es decir, el vector de parmetros B incluye los siguien-
tes parmetros:
B N = (constante, dificultad 1, dificultad 2, ansiedad 1, ansiedad 2, ansiedad 3,
dificultad*ansiedad 11, dificultad*ansiedad 12, dificultad*ansiedad 13,
dificultad*ansiedad 21, dificultad*ansiedad 22, dificultad*ansiedad 23)
Y la matriz de coeficientes L incluye el peso o coeficiente asignado a cada parmetro del modelo:
L = (l1, l2, l3, l4, l5, l6, l7, l8, l9, l10, l11, l12)
Para definir contrastes personalizados basta con especificar los valores que deben tomar los coeficien-
tes de la matriz L en la expresin LB:
LB = l1 constante + l2 dificultad 1 + l3 dificultad 2 + l4 ansiedad 1 + l5 ansiedad 2 + l6 ansiedad 3 +
l7 dificultad*ansiedad 11 + l8 dificultad*ansiedad 12 + l9 dificultad*ansiedad 13 +
l10 dificultad*ansiedad 21 + l11 dificultad*ansiedad 22 + l12 dificultad*ansiedad 23

Anlisis de los efectos simples

La sentencia LMATRIX permite definir contrastes personalizados asignando a cada parmetro los coe-
ficientes apropiados. Para comparar, por ejemplo, las dos dificultades (fcil, difcil) en el primer nivel
de ansiedad (bajo), a los coeficientes l2 y l7 asociados a los parmetros correspondientes a la primera
categora de dificultad (dificultad 1) y a la combinacin de la primera categora de dificultad con la
primera de ansiedad (dificultad*ansiedad 11) se les asigna un valor de 1; y a los coeficientes l3 y l10
asociados a los parmetros correspondientes a la segunda categora de dificultad (dificultad 2) y a la
combinacin de la segunda categora de dificultad con la primera de ansiedad (dificultad*ansiedad 21)
se les asigna un valor de !1. Al resto de coeficientes se les asignan ceros para excluir del contraste los
efectos que no intervienen en la comparacin. Por tanto, la expresin LB correspondiente a la com-
paracin de las dos dificultades en el primer nivel de ansiedad queda de la siguiente manera:
LB = (1) dificultad 1 + (1) dificultad*ansiedad 11 + (!1) dificultad 2 + (!1) dificultad*ansiedad 21
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 11 ! dificultad*ansiedad 21)
Captulo 7. ANOVA de dos factores 287

En la primera parte de la expresin se estn comparando las dos dificultades; en la segunda parte se
indica que la comparacin entre las dos dificultades debe limitarse al primer nivel de ansiedad. De
modo similar, la expresin LB correspondiente a la comparacin de las dos dificultades en el segun-
do nivel de ansiedad adopta la forma
LB = (1) dificultad 1 + (1) dificultad*ansiedad 12 + (!1) dificultad 2 + (!1) dificultad*ansiedad 22
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 12 ! dificultad*ansiedad 22)

Por ltimo, la expresin LB correspondiente a la comparacin de las dos dificultades en el tercer nivel
de ansiedad adopta la forma
LB = (1) dificultad 1 + (1) dificultad*ansiedad 13 + (!1) dificultad 2 + (!1) dificultad*ansiedad 23
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 13 ! dificultad*ansiedad 23)

Como ya hemos dicho, la sentencia LMATRIX permite valorar cualquier comparacin entre medias
mediante el contraste de hiptesis nulas del tipo LB = 0. Para contrastar estas hiptesis (los datos se
encuentran en el archivo Tabla 7.5 dificultad ansiedad rendimiento):
' En el cuadro de dilogo Univariante, trasladar la variable rendimiento a la lista Dependiente y las
variables dificultad (dificultad de la tarea) y ansiedad (nivel de ansiedad) y trasladarlas a la lis-
ta Factores fijos.
' Pulsar el botn Pegar para obtener la sintaxis correspondiente a las elecciones hechas.

El Editor de sintaxis muestra el siguiente resultado:


UNIANOVA
Rendimiento BY dificultad ansiedad
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = dificultad ansiedad dificultad*ansiedad.

METHOD indica que se van a utilizar las sumas de cuadrados Tipo III; INTERCEPT recuerda que el
modelo solicitado incluye la constante; CRITERIA establece el nivel de significacin que se utilizar
para construir los intervalos de confianza; y DESIGN recoge los efectos incluidos en el modelo. Los
valores asignados a estas cuatro sentencias son los que el procedimiento UNIANOVA utiliza por defec-
to; por tanto, no es necesario incluirlos. Para poder efectuar contrastes personalizados es necesario
aadir a la sintaxis la sentencia LMATRIX:
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = Comparaciones entre las dos dificultades en cada nivel de ansiedad
dificultad 1 1 dificultad*ansiedad 1 0 0 1 0 0;
dificultad 1 1 dificultad*ansiedad 0 1 0 0 1 0;
dificultad 1 1 dificultad*ansiedad 0 0 1 0 0 1.

La expresin entre apstrofos de la sentencia LMATRIX es una etiqueta descriptiva que servir para
identificar los resultados en el Visor. A continuacin aparecen definidas las tres comparaciones entre
las dos dificultades dentro de cada nivel de ansiedad; es decir, las tres comparaciones correspondien-
tes a los efectos simples del factor A (dificultad ). En la primera lnea, los coeficientes de la primera
parte (dificultad ) comparan las dos dificultades (estos coeficientes son los que en la expresin LB es-
tn asociados a los efectos dificultad1 y dificultad 2); y los coeficientes de la segunda parte (dificultad*
ansiedad ) indican que esa comparacin entre las dos dificultades debe hacerse dentro del primer ni-
288 Anlisis de datos (vol. II)

vel de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parmetros dificultad*ansiedad 11
y dificultad*ansiedad 21 (estos 6 coeficientes se corresponden con las 6 casillas del diseo en el orden
1-1, 1-2, 1-3, 2-1, 2-2 y 2-3 ). En la segunda lnea, los coeficientes indican que la comparacin entre
las dos dificultades debe hacerse dentro del segundo nivel de ansiedad, pues los coeficientes 1 y !1 se
han asignado a los parmetros dificultad*ansiedad 12 y dificultad*ansiedad 22. En la tercera lnea, los
coeficientes indican que la comparacin entre las dos dificultades debe hacerse dentro del tercer nivel
de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parmetros dificultad*ansiedad 13 y
dificultad*ansiedad 23.
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 7.22. Estos
resultados son idnticos a los ya obtenidos al estudiar los efectos simples con otra estrategia diferen-
te (ver Tabla 7.18), con la diferencia de que ahora no se est aplicando la correccin de Bonferroni al
calcular los niveles crticos ni al construir los intervalos de confianza. Los niveles crticos (sig.) per-
miten concluir que la dificultad de la tarea nicamente afecta al rendimiento cuando el nivel de an-
siedad es bajo (contraste L1 ).

Tabla 7.22. Contrastes de los efectos simples de dificultad de la tarea


Variable dependiente: Rendimiento
Intervalo de confianza al 95
Estimacin Valor Diferencia (Estim. Error % para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) tpico Sig. Lm. inferior Lm. superior
L1 6,00 0 6,00 1,58 ,001 2,74 9,26
L2 2,00 0 2,00 1,58 ,218 -1,26 5,26
L3 -2,00 0 -2,00 1,58 ,218 -5,26 1,26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: comparaciones entre las dos
dificultades en cada nivel de ansiedad

Comparaciones entre los niveles de un mismo efecto simple

Puesto que la variable dificultad nicamente tiene dos niveles, basta con hacer una comparacin entre
dificultades por cada nivel de ansiedad (tres comparaciones en total); cada una de esas tres compara-
ciones capta el efecto de la dificultad en cada nivel de ansiedad; es decir, cada una de esas tres com-
paraciones corresponde a uno de los tres efectos simples del factor dificultad.
Cuando el factor analizado tiene ms de dos niveles, adems de valorar los efectos simples, pue-
de interesar comparar entre s las medias involucradas en cada efecto simple. Por ejemplo, los efectos
simples del factor ansiedad son dos: uno por cada dificultad. Pero cada efecto simple del factor an-
siedad incluye tres medias. Para precisar el significado de cada efecto simple del factor ansiedad hay
que comparar por pares las medias correspondientes a sus tres niveles (tres comparaciones por cada
dificultad; seis comparaciones en total). Estas comparaciones pueden hacerse utilizando dos sentencias
LMATRIX: una con las comparaciones referidas a la primera dificultad (fcil) y otra con las referidas
a la segunda dificultad (difcil). La sintaxis correspondiente a estas comparaciones es la siguiente:
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = Comparaciones entre los niveles de ansiedad en dificultad = fcil
ansiedad 1 1 0 dificultad*ansiedad 1 1 0 0 0 0;
ansiedad 1 0 1 dificultad*ansiedad 1 0 1 0 0 0;
ansiedad 0 1 1 dificultad*ansiedad 0 1 1 0 0 0
/LMATRIX = Comparaciones entre los niveles de ansiedad en dificultad = difcil
ansiedad 1 1 0 dificultad*ansiedad 0 0 0 1 1 0;
ansiedad 1 0 1 dificultad*ansiedad 0 0 0 1 0 1;
ansiedad 0 1 1 dificultad*ansiedad 0 0 0 0 1 1.
Captulo 7. ANOVA de dos factores 289

Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 7.23 a 7.26. La Tabla 7.23
ofrece las comparaciones entre los tres niveles de ansiedad dentro de la primera categora de dificul-
tad (fcil). La nota a pie de tabla muestra la etiqueta incluida en la sintaxis. En L1 se estn compa-
rando los niveles de ansiedad bajo y medio; en L2, los niveles bajo y alto; en L3, los niveles medio y
alto. El nivel crtico asociado a L2 (sig. = 0,004) indica que, cuando la tarea es fcil, el rendimiento
medio de los sujetos con nivel de ansiedad bajo difiere del rendimiento medio de los sujetos con nivel
de ansiedad alto. El nivel crtico asociado a L3 (sig. < 0,0005) indica que, cuando la tarea es fcil, el
rendimiento de los sujetos con nivel de ansiedad medio difiere del rendimiento de los sujetos con nivel
de ansiedad alto (no debe olvidarse que al realizar estas comparaciones no se est aplicando ningn
tipo de correccin para controlar la tasa de error).
Por tanto, cuando la tarea es fcil, el rendimiento en los tres niveles de ansiedad no es el mismo.
La Tabla 7.24 ofrece una valoracin del efecto global del nivel de ansiedad en la primera categora de
dificultad (fcil), es decir, una valoracin del primero de los dos efectos simples del nivel de ansiedad.
El nivel crtico (sig. = 0,001) indica que ese efecto simple es significativamente distinto de cero (con-
firmando lo que ya nos ha dicho la Tabla 7.23, es decir, confirmando que, cuando la tarea es fcil, el
rendimiento medio no es el mismo en los tres niveles de ansiedad).

Tabla 7.23. Comparaciones entre las medias de nivel de ansiedad en el primer nivel de dificultad (fcil)
Variable dependiente: Rendimiento
Intervalo de confianza al
Estimacin Valor Diferencia (Estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) tpico Sig. Lm. inferior Lm. superior
L1 -2,00 0 -2,00 1,58 ,218 -5,26 1,26
L2 5,00 0 5,00 1,58 ,004 1,74 8,26
L3 7,00 0 7,00 1,58 ,000 3,74 10,26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = fcil

Tabla 7.24. Contraste del efecto simple de nivel de ansiedad en el primer nivel de dificultad (fcil)
Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados gl cuadrtica F Sig.
Contraste 130,00 2 65,00 10,40 ,001
Error 150,00 24 6,25

La Tabla 7.25 ofrece las comparaciones entre los tres niveles de ansiedad dentro del segundo nivel de
dificultad (difcil). Ahora solamente es significativa la comparacin L1 (sig. = 0,001): cuando la tarea
es difcil, el rendimiento de los sujetos con nivel de ansiedad bajo difiere del de los sujetos con nivel
de ansiedad medio. El resto de comparaciones no son significativas. Los resultados de la Tabla 7.26
confirman que el segundo efecto simple de nivel de ansiedad es significativo (sig. = 0,004).

Tabla 7.25. Comparaciones entre las medias de nivel de ansiedad en el segundo nivel de dificultad (difcil)
Variable dependiente: Rendimiento
Intervalo de confianza al
Estimacin Valor Diferencia (Estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) tpico Sig. Lm. inferior Lm. superior
L1 -6.00 0 -6.00 1.58 ,001 -9.26 -2.74
L2 -3.00 0 -3.00 1.58 ,070 -6.26 .26
L3 3.00 0 3.00 1.58 ,070 -.26 6.26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = difcil
290 Anlisis de datos (vol. II)

Tabla 7.26. Contraste del efecto simple de nivel de ansiedad en el segundo nivel de dificultad (difcil)
Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados gl cuadrtica F Sig.
Contraste 90,00 2 45,00 7,20 ,004
Error 150,00 24 6,25

Anlisis del efecto de la interaccin


Las sumas de cuadrados de los dos efectos simples de nivel de ansiedad suman 130 + 90 = 220 ver
Tablas 7.24 y 7.26), es decir, lo mismo que las sumas de cuadrados correspondientes al efecto prin-
cipal de nivel de ansiedad y a la interaccin: 140 + 80 = 220 (ver Tabla 7.12). Este dato viene a con-
firmar que los efectos simples incluyen el correspondiente efecto principal y el efecto de la interaccin.
Por esta razn, para aislar e interpretar el efecto de la interaccin, no basta con valorar la significa-
cin de los efectos imples, sino que es necesario compararlos. La siguiente sentencia LMATRIX permi-
te comparar entre s los tres efectos simples de dificultad de la tarea :
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = 'comparaciones entre las dos dificultades en cada nivel de ansiedad'
dificultad*ansiedad 1 1 0 1 1 0;
dificultad*ansiedad 1 0 1 1 0 1;
dificultad*ansiedad 0 1 1 0 1 1.

Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 7.27 y 7.28. La primera es
idntica a la que hemos obtenido al comparar los efectos simples con el procedimiento ANOVA de un
factor (ver Tablas 7.19 y 7.20); por tanto, se interpreta de idntica manera. La Tabla 7.28 ofrece una
valoracin global de las tres comparaciones de la Tabla 7.27. Estos resultados no tendran ningn
inters si no fuera porque permiten comprobar que el efecto global de las tres comparaciones entre
efectos simples llevadas a cabo en la Tabla 7.27 para poder asilar e interpretar el efecto de la interac-
cin es idntico al efecto de la interaccin (ver Tabla 7.12). Lo cual est indicando que estas tres
comparaciones, adems de agotar el efecto de la interaccin, no estn contaminadas por la presencia
de otros efectos distintos del de la interaccin.

Tabla 7.27. Comparaciones entre los efectos simples de dificultad de la tarea


Variable dependiente: Rendimiento
Intervalo de confianza al
Estimacin Valor Diferencia (estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - hipotetiz.) tpico Sig. Lm. inferior Lm. superior
L1 4,00 0 4,00 2,24 ,086 -,62 8,62
L2 8,00 0 8,00 2,24 ,002 3,38 12,62
L3 4,00 0 4,00 2,24 ,086 -,62 8,62
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: comparaciones entre las dos
dificultades en cada nivel de ansiedad

Tabla 7.28. Comparaciones entre los efectos simples de dificultad de la tarea


Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados gl cuadrtica F Sig.
Contraste 80,00 2 40,00 6,40 ,006
Error 150,00 24 6,25
Captulo 7. ANOVA de dos factores 291

Modelos jerrquicos o anidados


En el diseo estudiado en este captulo (dos factores completamente aleatorizados), los J niveles del
factor A se combinan con los K niveles del factor B. A estos diseos se les llama de clasificacin
cruzada. En los diseos de clasificacin jerrquica, uno de los factores est anidado en el otro factor;
esto significa que los niveles de uno de los factores no son los mismos en cada nivel del otro factor
(puede encontrarse un tratamiento muy completo de este tipo de diseos en Kirk, 1995, pgs. 476-
511). La peculiaridad de este tipo de diseos es que no permiten valorar el efecto de la interaccin.
Para ajustar modelos jerrquicos con el SPSS:
' En el cuadro de dilogo Univariante, trasladar la variable dependiente al cuadro Dependiente y las
variables independientes a la lista Factores fijos.
' Pulsar el botn Modelo para acceder al subcuadro de dilogo Univariante: Modelo y marcar la
opcin Personalizado.
' Seleccionar Efectos principales dentro del men desplegable Construir trminos y trasladar las dos
variables independientes o factores que aparecen en la lista Factores y covariables a la lista Modelo.
' Pulsar el botn Continuar para volver al cuadro de dilogo principal y el botn Pegar para gene-
rar la sintaxis correspondiente a las selecciones hechas.
' Ir al Editor de sintaxis para editar la sintaxis recin pegada. La ltima lnea de la sintaxis pegada
quedar de esta manera: Design A B. Si, por ejemplo, el nombre del factor no anidado es A y
el del anidado es B, modificar esta lnea de la sintaxis aadiendo, a continuacin del nombre del
factor no anidado, el nombre del factor anidado, entre parntesis. La ltima lnea de la sintaxis
debe quedar, por tanto, de la siguiente manera: Design A(B).

Ejercicios Soluciones en www.sintesis.com

7.1. En un centro de salud se vienen realizando estudios sobre la adiccin a una determinada sustancia. En
uno de estos estudios, 30 pacientes aleatoriamente seleccionados se han dividido en 6 grupos en fun-
cin de: (1) el lugar donde han recibido la terapia (en el centro o en el domicilio) y (2) el tiempo que
llevaban consumiendo antes de comenzar la terapia (menos de 2 aos, entre 2 y 5 aos, y ms de 5
aos). Se ha registrado la dosis (en mg) consumida durante una semana. Con los datos obtenidos se ha
construido la siguiente tabla de medias:

Tiempo consumiendo la sustancia


Lugar de la terapia (b1) < 2 aos (b2) 2 ! 5 aos (b3) > 5 aos Totales
(a1) Centro 7,8 12,4 16,4 12,2
(a2) Domicilio 14,2 11,0 10,2 11,8

Totales 11,0 11,7 13,3 12,0

Tras realizar el correspondiente anlisis de varianza se ha obtenido la siguiente tabla resumen (in-
completa):
292 Anlisis de datos (vol. II)

FV gl MC F Punto crtico Valor p


Lugar ( ) ( ) ( ) ( ) ( )
Tiempo ( ) ( ) ( ) ( ) ( )
Lugar Tiempo ( ) ( ) ( ) ( ) ( )
Error ( ) 1,41
Total ( )

Utilizando un nivel de confianza de 0,95,


a. Completar la tabla (utilizar el SPSS para obtener los niveles crticos (valores p) exactos).
b. Plantear estadsticamente las hiptesis nulas correspondientes a los tres efectos del diseo y tomar
una decisin justificada sobre cada una de ellas.
c. Estimar el tamao de los tres efectos del diseo. Interpretar el resultado.
d. Calcular la potencia asociada al contraste del efecto de la interaccin.
e. Aplicar la prueba pertinente para decidir entre qu niveles del factor tiempo existen diferencias
significativas ( = 0,05).
f. Representar grficamente el efecto de la interaccin con la variable tiempo en el eje horizontal.
g. Comparar entre s los efectos simples del factor lugar e interpretar el efecto de la interaccin.

7.2. Estamos interesados en estudiar el efecto de ciertas variables motivacionales sobre el rendimiento. Pa-
ra ello, se han aplicado dos programas de entrenamiento motivacional (a1 = instrumental, a2 = atri-
bucional) a dos grupos de sujetos seleccionados al azar. Un tercio de los sujetos de cada grupo ha
recibido el entrenamiento bajo un clima de clase diferente: b1 = cooperativo, b2 = competitivo y
b3 = individual. Al evaluar el rendimiento de los sujetos tras el entrenamiento se han obtenido las
medias que muestra la siguiente tabla (las varianzas se ofrecen entre parntesis):

Clima de clase

Entrenamiento (b1) Cooperativo (b2) Competitivo (b3) Individual Totales

(a1) Instrumental 6,7 (1,075) 5,0 (1,625) 9,2 (1,575) 6,97


(a2) Atribucional 5,7 (1,825) 4,3 (1,075) 5,1 (1,300) 5,03

Totales 6,20 4,65 7,15 6,00

Utilizando = 0,05,
a. Plantear las hiptesis estadsticas correspondientes al efecto del factor A, al efecto del factor B y
al efecto de la interaccin AB. Contrastarlas.
b. Estimar el tamao de los tres efectos del apartado a. Interpretar el resultado.
c. Calcular la potencia asociada al contraste del efecto de la interaccin.
d. Aplicar la prueba pertinente para decidir entre qu niveles del factor clima de clase existen dife-
rencias significativas ( = 0,05).
e. Representar grficamente el efecto de la interaccin con la variable tiempo en el eje horizontal.
f. Comparar entre s los efectos simples del factor entrenamiento e interpretar el efecto de la inte-
raccin.

7.3. Para estudiar el efecto de cierta protena sobre la actividad motora de las ratas, un investigador selec-
cion una muestra de 45 ratas que distribuy aleatoriamente en tres grupos de igual tamao. A cada
grupo le aplic durante una semana una de tres dietas distintas (factor A), cada una de ellas con diferen-
te contenido de la protena en cuestin. Sospechando que las horas de sueo tambin podran afectar
Captulo 7. ANOVA de dos factores 293

a la actividad motora de las ratas, el investigador control el nmero de horas dormidas diariamente
por cada rata (factor B), dejando dormir 2 horas o menos a unas, entre 2 y 4 a otras, y ms de 4 al resto.
Al final de la semana de tratamiento contabiliz el nmero de respuestas emitidas por cada rata en una
caja de ensayo durante 3 minutos y obtuvo los resultados que muestra la siguiente tabla:

Horas de sueo
Dieta (b1) < 2 horas (b2) 2 - 4 horas (b3) > 4 horas
8 10 5
12 8 2
(a1) Dieta 1 6 12 10
10 4 2
9 6 6
13 5 4
9 12 8
(a2) Dieta 2 8 8 0
14 16 1
6 14 7
12 16 11
23 8 9
(a3) Dieta 3 17 10 7
9 6 6
14 20 12

a. Reproducir los datos de la tabla en el SPSS.


b. Comprobar si puede asumirse que las 9 muestras utilizadas proceden de poblaciones normales con
la misma varianza ( = 0,05).
c. Contrastar las hiptesis nulas relativas a los dos efectos principales y al efecto de la interaccin.
d. Estimar el tamao de los tres efectos del apartado c. Interpretar el resultado.
e. Calcular la potencia asociada al contraste del efecto de la interaccin.
f. Realizar comparaciones post hoc con los niveles del factor dieta y con los niveles del factor ho-
ras de sueo ( = 0,05).

7.4. La siguiente tabla se refiere a las medias poblacionales de un diseo de dos factores AB-CA. Com-
pletarla sabiendo que no existe efecto del factor A ni del factor B.

b1 b2 b3
a1 2 ( ) ( ) ( )
a2 ( ) 4 ( ) ( )

( ) ( ) ( ) 4

7.5. Cuando en un ANOVA AB-CA se dice que el efecto de la interaccin es significativo, lo que se est
queriendo decir con ello es que... (elegir la/s alternativa/s correcta/s):
a. El factor A est relacionado con el factor B.
b. Los factores A y B son independientes entre s pero ambos estn relacionados con la VD.
294 Anlisis de datos (vol. II)

c. El efecto principal del factor A difiere del efecto principal del factor B.
d. Los efectos simples del factor A difieren de los efectos simples del factor B.
e. La diferencia entre las medias del factor A cambia cuando cambian los niveles del factor B.

7.6. La siguiente tabla contiene algunas medias poblacionales de un diseo AB-CA. Sabemos que la me-
dia total vale 40 y que no existe efecto de la interaccin.

b1 b2 b3
a1 ( ) ( ) ( ) 50
a2 ( ) ( ) ( ) ( )

( ) 40 20 ( )

a. Completar la tabla.
b. Existe efecto del factor A?
c. Existe efecto del factor B ?
d. Si, tomada una muestra aleatoria y hechos los correspondientes clculos, se decide rechazar la
hiptesis nula referida al factor A, qu error se podra estar cometiendo?
e. Cuntos efectos simples tiene el factor A?
f. En este escenario, es correcto afirmar que los efectos simples del factor A no difieren?

7.7. En un diseo AB-CA, con J = 3 y K = 2 se realizan J ! 1 comparaciones ortogonales entre los nive-
les del factor A y K ! 1 entre los niveles del factor B. Elegir la/s alternativa/s correcta/s:
a. Si FA es significativa, tambin lo sern las J ! 1 comparaciones ortogonales entre los niveles del
factor A.
b. Si FA no es significativa, puede que lo sea alguna de las J ! 1 comparaciones ortogonales entre los
niveles del factor A.
c. Si alguna de las comparaciones ortogonales planteadas es significativa, tambin lo ser FAB.
d. Solamente pueden plantearse 2 comparaciones ortogonales entre los niveles del factor B.
e. Si ninguna de las comparaciones ortogonales entre los niveles del factor A es significativa, puede
que sea significativa FA.

7.8. Elegir la/s alternativa/s correcta/s:


a Si J = 2 y el estadstico FA es significativo, la relacin entre el factor A y la variable dependiente
es lineal.
b Si K = 3 y el estadstico FB es significativo, la relacin entre el factor B y la variable dependien-
te es cuadrtica.
c Si J = 3, el estadstico FA es significativo y el componente cuadrtico es no significativo, la rela-
cin entre el factor A y la variable dependiente es lineal.
d Si K = 2 y el estadstico FB es significativo, la relacin entre el factor B y la variable dependien-
te puede ser cuadrtica.
e Si K = 3 y el estadstico FAB es significativo, la relacin entre el factor B y la variable dependien-
te necesariamente ser lineal o cuadrtica.
8
Anlisis de varianza (III)
Un factor con medidas repetidas

A los modelos de anlisis de varianza estudiados en los Captulos 6 y 7 los hemos llamado
completamente aleatorizados porque a cada condicin del diseo (es decir, a cada nivel del
factor, en el caso de un factor; o a cada combinacin entre los niveles de los factores, en el
caso de dos factores) se asigna una muestra aleatoria de sujetos distintos (grupos aleatorios).
A los modelos que vamos a estudiar en este captulo y en el siguiente se les llama de medi-
das repetidas (MR) porque se utilizan los mismos sujetos en ms de una condicin (bloques
aleatorios).
Consideremos un estudio diseado para conocer la opinin de los consumidores sobre
cinco productos rivales. Podemos seleccionar al azar tantos grupos de sujetos como productos
(cinco) y hacer que cada grupo opine sobre un producto; al proceder de esta manera tenemos
un diseo con un factor (tipo de producto, con cinco niveles) completamente aleatorizado
(tantos grupos de sujetos como niveles tiene el factor). En lugar de esto, podemos seleccionar
un nico grupo y pedir a cada sujeto que exprese su preferencia por cada uno de los cinco pro-
ductos; seguimos teniendo un factor (tipo de producto), pero con medidas repetidas (un nico
grupo de sujetos opina sobre todos los productos).
En este captulo estudiaremos el modelo de un factor con medidas repetidas (A-MR). En
el siguiente estudiaremos los modelos de dos factores: el de dos factores con medidas repe-
tidas en ambos (AB-MR) y el de dos factores con medidas repetidas en uno (AB-CA-MR).

Caractersticas de los diseos de medidas repetidas


Trabajar con medidas repetidas significa trabajar con dos o ms variables cuantitativas. Es-
tas variables pueden obtenerse de diferentes maneras. La ms habitual consiste en tomar
varias medidas a los mismos sujetos, ya sea midiendo dos o ms variables distintas (por
ejemplo, calificaciones en lengua, matemticas e ingls), ya sea midiendo la misma variable
en varios momentos distintos (por ejemplo, el peso antes de participar en un programa de
adelgazamiento, al terminar el programa y al cabo de un mes de terminado el programa).
296 Anlisis de datos (vol. II)

Tambin se obtienen medidas repetidas cuando, en lugar de utilizar los mismos sujetos,
se utilizan bloques de sujetos igualados mediante algn tipo de vnculo relevante para el an-
lisis (bloques aleatorios). Por ejemplo, en un estudio diseado para comparar tres mtodos
de enseanza de las matemticas, se pueden formar bloques de tres sujetos con el mismo
cociente intelectual y asignar cada sujeto del mismo bloque a un mtodo distinto. Aunque los
sujetos del mismo bloque son distintos, el hecho de que sean homogneos en una caracte-
rstica relevante para el anlisis permite considerar cada bloque como unidad de anlisis.
Tanto si se utilizan los mismos sujetos como si se utilizan bloques de sujetos igualados,
lo que caracteriza a las medidas repetidas es que no son independientes entre s; y no lo son
porque, tanto en el caso de puntuaciones pertenecientes a los mismos sujetos como en el de
puntuaciones pertenecientes a sujetos igualados, el conocimiento de una de las puntuaciones
de un sujeto o bloque permite saber algo de las dems puntuaciones del mismo sujeto o
bloque: los buenos estudiantes tienden a obtener puntuaciones altas en lengua, en matem-
ticas y en ingls; los sujetos que ms se benefician de un programa de adelgazamiento tien-
den a ser los que mejor mantienen ese beneficio al cabo de un mes; los sujetos con cociente
intelectual alto tienden a aprender mejor con cualquier mtodo de enseanza; etc. Puede que
una puntuacin no diga mucho de las dems, pero es seguro que algo dice. Y esta circunstan-
cia debe ser tenida en cuenta en el anlisis.
Los modelos de anlisis de varianza con medidas repetidas sirven para valorar el efecto
de uno o ms factores cuando al menos uno de ellos es un factor intrasujetos. En un factor
intersujetos o completamente aleatorizados (ver Captulos 6 y 7), cada nivel del factor se
asocia a un grupo de sujetos. Un factor intrasujetos o con medidas repetidas se distingue
porque todos los niveles del factor se aplican a los mismos sujetos. Los trminos intersu-
jetos e intrasujetos se aplican tanto a los factores como a los diseos. Los trminos diseo
intrasujetos y diseo con medidas repetidas se refieren al mismo tipo de diseo.
Los diseos intrasujetos o con medidas repetidas ya los hemos empezado a estudiar en
el Captulo 12 del primer volumen y en el Captulo 5 de ste. El ms simple de todos ellos
consiste en medir dos variables en una misma muestra de sujetos. Es lo que hemos hecho al
aplicar la prueba T para muestras relacionadas. Pero los diseos de medidas repetidas pue-
den tener ms de dos medidas y ms de un factor. Los ejemplos de las Tablas 8.1 a 8.3 pue-
den ayudar a comprender las diferencias entre los diseos completamente aleatorizados (CA)
y los de medidas repetidas (MR). Cada sujeto (cada participante en el estudio) est repre-
sentado con la letra s ; las letras con el mismo subndice se refieren al mismo sujeto; subn-
dices distintos indican sujetos distintos. Seguimos utilizando a1, a2, ..., aJ para identificar los
niveles del factor A y b1, b2, ..., bK para identificar los niveles del factor B.
En la Tabla 8.1 estn representados dos diseos de un factor. La Tabla 8.1.1 muestra un
diseo CA (grupos aleatorios o muestras independientes, es decir, sujetos distintos en cada
condicin). Con 5 sujetos por condicin, hacen falta 20 sujetos para completar las 4 condi-
ciones del diseo. Cada sujeto genera una puntuacin. Estos datos se analizan con el mode-
lo de un factor CA (ver Captulo 6). Si el factor solamente tiene dos niveles, los datos pue-
den analizarse con la prueba T de Student para muestras independientes (ver Captulo 4).
La Tabla 8.1.2 muestra un diseo MR (bloques aleatorios o muestras relacionadas, es
decir, los mismos sujetos en todas las condiciones). Las 4 condiciones del diseo se com-
pletan con los mismos 5 sujetos. Cada sujeto genera 4 puntuaciones. Estos datos se analizan
con el modelo de un factor MR (lo estudiaremos en este captulo). Cuando un factor con me-
didas repetidas tiene solamente dos niveles, los datos pueden analizarse con la prueba T de
Student para muestras relacionadas (ver Captulo 5).
Captulo 8. ANOVA. Un factor con medidas repetidas 297

Tabla 8.1. Diseos de un factor. 1: completamente aleatorizado; 2: medidas repetidas

1 a1 a2 a3 a4 2 a1 a2 a3 a4
s1 s6 s11 s16 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2
s3 s8 s13 s18 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5

En la Tabla 8.2 estn representados tres diseos de dos factores. En los tres casos se trata de
diseos 2 4. La Tabla 8.2.1 muestra un diseo CA. En este diseo ambos factores son in-
tersujetos. Con 5 sujetos por condicin, hacen falta 40 sujetos para completar las 8 condi-
ciones del diseo. Cada sujeto genera una sola puntuacin. Estos datos se analizan con el
modelo de dos factores completamente aleatorizados (ver Captulo 7).
La Tabla 8.2.2 muestra un diseo con medidas repetidas en ambos factores. Los dos
factores son intrasujetos. Las 8 condiciones del diseo se completan con los mismos 5 su-
jetos. Cada sujeto genera 8 puntuaciones. Estos datos se analizan con el modelo de dos fac-
tores con medidas repetidas en ambos (lo estudiaremos en el Captulo 9).
La Tabla 8.2.3 muestra un diseo con medidas repetidas en el segundo factor: A es un
factor intersujetos; B es un factor intrasujetos. A los niveles de A se han asignado sujetos
distintos; a los de B se han asignado los mismos sujetos. Las 8 condiciones del diseo se
completan con 10 sujetos (los 5 de la condicin a1 ms los 5 de la condicin a2 ). Cada suje-
to genera 4 puntuaciones. Estos datos se analizan con el modelo de dos factores con me-
didas repetidas en uno de ellos (lo estudiaremos en el Captulo 9).

Tabla 8.2. Diseos de dos factores. 1: dos factores completamente aleatorizados (AB-CA); 2: dos factores
con medidas repetidas en ambos (AB-MR); 3: dos factores con medidas repetidas en uno (el B) (AB-CA-MR)

1 b1 b2 b3 b4 2 b1 b2 b3 b4 3 b1 b2 b3 b4
s1 s6 s11 s16 s1 s1 s1 s1 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2 s2 s2 s2 s2
a1 s3 s8 s13 s18 a1 s3 s3 s3 s3 a1 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5 s5 s5 s5 s5
s21 s26 s31 s36 s1 s1 s1 s1 s6 s6 s6 s6
s22 s27 s32 s37 s2 s2 s2 s2 s7 s7 s7 s7
a2 s23 s28 s33 s38 a2 s3 s3 s3 s3 a2 s8 s8 s8 s8
s24 s29 s34 s39 s4 s4 s4 s4 s9 s9 s9 s9
s25 s30 s35 s40 s5 s5 s5 s5 s10 s10 s10 s10

Las ventajas de los diseos con medidas repetidas son evidentes: requieren menos sujetos que
un diseo completamente aleatorizado (ver Kirk, 1995, pgs. 286-288) y permiten eliminar
la variabilidad debida a las diferencias entre los sujetos (pues se utilizan los mismos). Como
contrapartida, los supuestos del anlisis se vuelven algo ms exigentes (estudiaremos esto ms
298 Anlisis de datos (vol. II)

adelante) y es necesario vigilar algunos efectos derivados del hecho de utilizar los mismos
sujetos. Por ejemplo, el efecto de arrastre, que ocurre cuando se aplica una condicin antes
de que haya finalizado el efecto de otra aplicada previamente, o el efecto del aprendizaje por
la prctica, que ocurre cuando las respuestas de los sujetos pueden mejorar con la repeticin
y, como consecuencia de ello, los tratamientos administrados en ltimo lugar parecen ms
efectivos que los administrados en primer lugar, sin que haya diferencias reales entre ellos
(cuando se sospecha de la presencia de este efecto es importante controlar el orden de pre-
sentacin de las condiciones). Conviene conocer las fortalezas y debilidades de estos dise-
os para decidir correctamente cundo utilizarlos (ver Len y Montero, 2003, pgs. 233-258).

ANOVA de un factor con medidas repetidas (A-MR)


Vamos a comenzar con el caso ms simple: el modelo de un factor (A-MR). Este modelo
sirve para analizar los datos procedentes de un diseo con un solo grupo de sujetos y un ni-
co factor por cuyos niveles pasan todos los sujetos (ver Tabla 8.1.2). Se trata de una gene-
ralizacin de la prueba T de Student para muestras relacionadas al caso de ms de dos va-
riables (ms de dos medidas repetidas).
Para ilustrar la aplicacin de este modelo pensemos en un estudio diseado para valorar
el efecto del paso del tiempo sobre la calidad del recuerdo. A un grupo de sujetos se les hace
memorizar una historia. Ms tarde, al cabo de una hora, de un da, de una semana y de un
mes, se les pide que intenten reproducir la historia. Un grupo de expertos evala la calidad
del recuerdo de cada sujeto en cada momento. Tenemos un factor (al que podemos llamar
tiempo) con cuatro niveles (los cuatro momentos en los que se registra el recuerdo) y una
variable dependiente (la calidad del recuerdo) de la que se toman cuatro medidas.
La Tabla 8.3 muestra la estructura de los datos y la notacin utilizada en un diseo de un
factor con medidas repetidas. Seguimos llamando A al nico factor del modelo e Y a la va-
riable dependiente (la variable cuantitativa de la que se toman varias medidas). Los subndi-
ces son necesarios para identificar cada elemento de la tabla. A los J niveles del factor A los
representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). Y a cada sujeto lo representamos
mediante si (i = 1, 2, ..., n).

Tabla 8.3. Estructura de los datos y notacin en un diseo de un factor con medidas repetidas (A-MR)

Factor A
Sujetos a1 a2 aj aJ Suma
s1
s2

si

sn

Suma
Captulo 8. ANOVA. Un factor con medidas repetidas 299

Recordemos que el signo + colocado como subndice se refiere a todos los valores del
subndice al que sustituye. Por ejemplo, Y2+ se refiere a todas las puntuaciones del segundo
sujeto (todos los valores j cuando i = 2). Los totales de cada nivel del factor ( ) se obtie-
nen sumando las n puntuaciones de cada columna; los de cada sujeto ( ) se obtienen su-
mando las J puntuaciones de cada fila; y el gran total (T ) se obtiene sumando todas las pun-
tuaciones de la tabla. Con estos totales se obtienen las medias de cada nivel del factor (me-
dias de las columnas), de cada sujeto (medias de las filas) y del total de la tabla; basta con
dividir esos totales entre el nmero de observaciones utilizadas para obtenerlos:

= , = , = = [8.1]

Los niveles del factor A definen J poblaciones. Supongamos que la variable cuantitativa Y
se distribuye normalmente en esas J poblaciones y que todas ellas tienen la misma varianza.
Y supongamos que, de cada una de esas J poblaciones, extraemos una muestra de n obser-
vaciones con la particularidad de que esas observaciones no son independientes entre s por-
que pertenecen a los mismos sujetos o a bloques de J sujetos igualados. En este escenario es
posible identificar varios tipos de variabilidad.
La variabilidad total recoge la variabilidad entre cada observacin y la media total. Es-
ta variabilidad total se puede descomponer en tres fuentes de variabilidad1: (1) la que se da
entre los diferentes niveles del factor o variabilidad intergrupos, tambin llamada intra-
sujetos por ser la variabilidad entre las puntuaciones de los mismos sujetos, (2) la que se da
entre los diferentes sujetos o variabilidad intersujetos y (3) la que se da entre cada obser-
vacin y sus respectivas medias marginales (es decir, la variabilidad de cada observacin
individual respecto de la media de su misma fila y columna); a esta forma de variabilidad la
llamamos variabilidad error porque representa el alejamiento de cada puntuacin respecto
de lo esperado en funcin de sus valores marginales.
Estas tres fuentes de variabilidad pueden cuantificarse aplicando la lgica ya utilizada
a propsito del modelo de un factor CA. As, la variabilidad intergrupos o intrasujetos, que
se refiere a las diferencias existentes entre las medias de las diferentes medidas (niveles del
factor), puede cuantificarse mediante la varianza o media cuadrtica intergrupos:

MCI = MCA = [8.2]

(puesto que la MCI nicamente incluye la variabilidad debida al factor A, tambin podemos
llamarla MCA ). La variabilidad intersujetos o variabilidad entre las medias de los sujetos
puede cuantificarse mediante la varianza o media cuadrtica intersujetos:

MCS = [8.3]

Y la variabilidad error o variabilidad entre cada puntuacin y sus correspondientes medias


marginales puede cuantificarse mediante la varianza o media cuadrtica error:

MCE = MCA S = [8.4]

1
Por supuesto, esta descomposicin de la variabilidad total en tres fuentes de variabilidad tiene su justificacin matem-
tica (ver Pardo y San Martn, 1998, pgs. 256-259 ). Pero esto es justamente lo que estamos intentando evitar aqu.
300 Anlisis de datos (vol. II)

Esta media cuadrtica refleja, en realidad, la interaccin entre los sujetos (filas) y los niveles
del factor (columnas), es decir, la interaccin AS, y sustituye a la variabilidad intragrupos o
error de los modelos CA que aqu no existe porque solamente hay una observacin por casilla.
Aplicando ahora la lgica estudiada a propsito del modelo completamente aleatoriza-
do, sabemos que el cociente entre MCA y MCA S expresa cmo de grande es la variabilidad
entre las medias de las diferentes medidas o niveles del factor (MCA) en comparacin con la
variabilidad error (MCA S ), que es la variabilidad que cabra esperar por azar independien-
temente del tamao de las medias poblacionales. Por tanto, el estadstico

F = = [8.5]

que sabemos que se distribuye segn el modelo de probabilidad F con los grados de libertad
del numerador (J ! 1), y los del denominador [(J !1) (n !1)], puede utilizarse para contrastar
la hiptesis de que las J medias poblacionales son iguales2. El Cuadro 8.1 ofrece un resumen
del procedimiento3.
El estadstico F propuesto en [8.5] permite contrastar la hiptesis de igualdad de medias
si, al igual que en cualquier otro modelo de ANOVA, se dan ciertas condiciones. Estas con-
diciones son las mismas que en el modelo completamente aleatorizado ms alguna otra adi-
cional que trataremos en el siguiente apartado.

Cuadro 8.1. Resumen del ANOVA de un factor con medidas repetidas (A-MR)

1. Hiptesis: H0: = = = (todas las medias son iguales).


H 1: =/ para algn j o jN ( j =/ jN) (no todas las medias son iguales).
2. Supuestos: J muestras aleatoriamente seleccionadas de J poblaciones normales con
la misma varianza; asumimos tambin que las varianzas de las diferencias entre cada
par de medidas son iguales (ver siguiente apartado).
3. Estadstico del contraste (ver ecuacin [8.5]): F = MCA MCA S.

2
El cociente entre MCS y MCA S podra utilizarse para comparar las n medias de los sujetos, pero esto es algo que, en este
contexto, no suele tener inters. Se da por hecho que los sujetos difieren (razn por la cual se utilizan varios). La variabi-
lidad entre los sujetos nicamente se tiene en cuenta para eliminarla de la variabilidad error.
3
La diferencia entre el modelo completamente aleatorizado (CA) y el de medidas repetidas (MR) est nicamente en la
variabilidad intersujetos. Recordemos que, en el modelo CA, la variabilidad total se descompone en dos fuentes de varia-
bilidad: intergrupos y error. Ahora, en el modelo MR, la variabilidad total se descompone en tres fuentes de variabilidad:
intergrupos, intersujetos y error. Puesto que las variabilidades total e intergrupos son idnticas en ambos modelos, la va-
riabilidad error es menor en el modelo MR que en el CA en la cantidad correspondiente a la variabilidad intersujetos. C-
mo de grande es esa cantidad es algo que depende del grado de relacin existente entre las medidas repetidas. Si la relacin
es alta, tambin lo ser la variabilidad intersujetos, pues los sujetos que tienden a puntuar bajo (alto) en una medida ten-
dern a puntuar bajo (alto) en las dems y las medias de los sujetos sern distintas. Pero si las medidas repetidas son in-
dependientes, la variabilidad intersujetos ser pequea, pues los sujetos tendern a puntuar indistintamente bajo y alto en
las diferentes medidas y sus medias sern parecidas. Por tanto, si las medidas repetidas no estn relacionadas, no se obten-
dr ningn beneficio aplicando un modelo MR (es decir, no se conseguir reducir la variabilidad error debida a las dife-
rencias entre los sujetos y, consecuentemente, no habr diferencia entre aplicar un modelo CA y un modelo MR).
Captulo 8. ANOVA. Un factor con medidas repetidas 301

4. Distribucin muestral: F se distribuye segn FJ ! 1, (n !1)(J ! 1) .


$ FJ ! 1, (J !1)(n ! 1) ; 1 ! .
5. Zona crtica: F >
6. Regla de decisin: se rechaza H0 si el estadstico F cae en la zona crtica; en caso
contrario, se mantiene. El rechazo de H0 indica que no todas las medias poblaciona-
les son iguales, es decir, que hay al menos una media que difiere de al menos otra.
$ Fh ), siendo Fh el valor muestral concreto que to-
7. Nivel crtico (valor p): p = P (F >
ma el estadstico F.

Ejemplo. ANOVA de un factor con medidas repetidas (A-MR)


En un experimento diseado para estudiar el efecto del paso del tiempo sobre la calidad del
recuerdo, a un grupo de 6 sujetos se les ha hecho memorizar una historia durante 20 minu-
tos. Ms tarde, al cabo de una hora, un da, una semana y un mes, se les ha solicitado re-
producir la historia escribiendo todo lo que recordaban. Un grupo de expertos ha evaluado
la calidad del recuerdo en cada uno de los 4 registros efectuados hasta elaborar los datos que
muestra la Tabla 8.4. A partir de estos datos, qu puede concluirse acerca del efecto del pa-
so del tiempo sobre la calidad del recuerdo? ( = 0,05)

Tabla 8.4. Datos de un diseo A-MR. Calidad del recuerdo en cuatro momentos

Sujetos Hora Da Semana Mes Medias


1 16 11 9 8 11
2 14 8 4 2 7
3 19 13 7 9 12
4 17 10 8 9 11
5 16 14 8 6 11
6 20 16 12 8 14

Medias 17 12 8 7 11

Se trata de un diseo con una variable independiente o factor (al que podemos llamar tiempo)
con cuatro niveles (J = 4). Los n = 6 sujetos incluidos en el estudio pasan por los 4 niveles
del factor (medidas repetidas). La variable dependiente, calidad del recuerdo (en realidad se
trata de 4 variables cuantitativas) se ha obtenido a partir de las valoraciones de varios exper-
tos. Tenemos, por tanto, un diseo de un factor con medidas repetidas.
Antes de comenzar el anlisis siempre es recomendable formarse una idea sobre los datos
que se van a analizar. Para esto, nada como un diagrama de cajas representando las puntua-
ciones individuales de las variables (de las medidas repetidas) y un grfico de lneas repre-
sentando las medias. La Figura 8.1 muestra ambas cosas. Aunque el diagrama correspon-
diente a un mes muestra una distribucin algo asimtrica, no da la impresin de que estemos
ante distribuciones muy asimtricas; de hecho, la prueba de normalidad de Shapiro-Wilk (ver
302 Anlisis de datos (vol. II)

Captulo 2) indica que ninguna de las cuatro distribuciones se aleja significativamente de la


normalidad). Al interpretar estos diagramas debe tenerse en cuenta que la muestra es muy
pequea (cada diagrama de caja se ha construido con 6 puntuaciones). El grfico de lneas
muestra que la calidad del recuerdo va disminuyendo con el paso del tiempo. La cuestin es-
t en determinar si esa tendencia es real o solamente refleja cambios atribuibles a las fluc-
tuaciones propias del azar muestral.

Figura 8.1. Diagramas de caja (izquierda) y grfico de lneas (derecha) de la calidad del recuerdo al cabo
de una hora, un da, una semana y un mes

1. Hiptesis:
H0: hora = da = semana = mes (el paso del tiempo no afecta a la calidad del recuerdo).
H1: j =/ jN para algn valor de j o jN (j =/ jN) (el paso del tiempo afecta a la calidad del
recuerdo).
2. Supuestos: tenemos 4 muestras aleatorias de puntuaciones extradas de poblaciones que
asumimos normales y con la misma varianza; asumimos tambin que las varianzas de las
diferencias entre cada par de medidas son iguales (ver siguiente apartado).
3. Estadstico del contraste (ver ecuacin [8.5]). Para obtener el estadstico F nicamente
necesitamos las puntuaciones y las medias que ofrece la Tabla 8.3:
MCA = 6 [(17 ! 11)2 + (12 ! 11)2 + (8 ! 11)2 + (7 ! 11)2 ] / (4 ! 1) = 124.
MCA S = [(16 ! 11 ! 17 + 11)2 + (14 ! 7 ! 17 + 11)2 + (19 ! 12 ! 17 + 11)2 +
+ (9 ! 11 ! 7 + 11)2 + (5 ! 11 ! 7 + 11)2 + (8 ! 7 ! 14 + 11)2 ] / [(4 ! 1)(6 ! 1) =
= 42 / 15 = 2,133.
F = MCA MCA S = 124 / 2,133 = 58,13.
4. Distribucin muestral: F se distribuye segn FJ ! 1, (J !1) (n ! 1) = F4 !1, (4 !1) (6 !1) = F3, 15 .
5. Zona crtica: F >$ F3, 15; 0,95 = 3,29.
6. Decisin: como el valor del estadstico del contraste (58,13) es mayor que el punto crti-
co (3,29), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hiptesis de igualdad de medias indica que
la calidad del recuerdo no es la misma en los cuatro momentos considerados. Sin em-
bargo, no permite precisar qu momentos difieren de qu otros; para esto es necesario
realizar las comparaciones mltiples que estudiaremos ms adelante.
7. Nivel crtico: p = P (F > $ 58,13) < 0,01.
Captulo 8. ANOVA. Un factor con medidas repetidas 303

Supuestos del modelo


Al igual que en el modelo de un factor CA, en el modelo de un factor MR se asume que los
sujetos son aleatoriamente seleccionados de poblaciones normales con la misma varianza.
Por tanto, se asume independencia, normalidad e igualdad de varianzas (ver el Captulo 6
para una aclaracin del significado de estos supuestos). La diferencia est en que, ahora, la
independencia se refiere a los distintos sujetos o bloques, no a las puntuaciones dentro del
mismo sujeto o bloque, las cuales, no solo pueden estar relacionadas, sino que cabe esperar
que lo estn. Adems de estos tres supuestos, en el modelo MR se asume que el efecto del
factor no depende de los sujetos o bloques a los que se aplica (la interaccin AS se conside-
ra error: ver, en el apndice 8, el apartado Prueba de no-aditividad de Tukey).
Este ltimo supuesto unido al de igualdad de las varianzas posee algunas implicaciones
relacionadas con la matriz de varianzas-covarianzas de las medidas repetidas (la matriz J J
que contiene las varianzas de cada medida en la diagonal principal y las covarianzas entre
cada par de medidas fuera de la diagonal). En concreto, de esos dos supuestos se deduce que
las varianzas son iguales e iguales tambin las covarianzas (es decir, las correlaciones entre
cada par de medidas). Esta caracterstica de la matriz de varianzas-covarianzas se denomina
simetra compuesta y es condicin suficiente para que el cociente MCA / MCA S se distri-
buya segn el modelo de probabilidad F con los grados de libertad propuestos.
Sin embargo, la simetra compuesta no es una condicin necesaria para que el cociente
MCA / MCA S se ajuste a la distribucin F. En realidad, es una condicin ms exigente de lo
necesario. La condicin necesaria y suficiente tiene que ver ms bien con las varianzas de
las diferencias entre cada par de medidas. Puesto que todos los sujetos pasan por los J ni-
veles del factor, es posible reorganizar los datos en trminos de todos los posibles pares de
combinaciones entre medidas. Con tres medidas, por ejemplo, tendremos J (J ! 1) / 2 = 3 pa-
res: a1a2, a1a3 y a2a3. Calculando en cada par de medidas la diferencia entre las dos puntua-
ciones de cada sujeto o bloque obtendremos tres grupos de diferencias; y calculando las va-
rianzas de esas diferencias obtendremos tres varianzas: las varianzas de las diferencias entre
cada par de medidas. Pues bien, lo que implican los supuestos de igualdad de varianzas y de
independencia entre el efecto del factor y los sujetos o bloques es que las varianzas de las
diferencias son iguales. A esta condicin se le llama esfericidad (o circularidad), y Huynh
y Feldt (1970) y Rouanet y Lpine (1970) han demostrado que es la condicin necesaria y
suficiente para que el estadstico F se distribuya como asumimos que se distribuye.
En condiciones de normalidad y esfericidad, el cociente F = MCA / MCAS permite con-
trastar la hiptesis de igualdad de medias con buen control sobre la tasa de error y con tan-
ta o ms potencia que cualquier otro procedimiento (y existen muchos). Pero ocurre que,
cuando se trabaja con medidas repetidas, la esfericidad es ms la excepcin que la regla.
Cuando las medidas repetidas se obtienen tomando varias medidas en el tiempo (por ejem-
plo, lnea base o pre-test, post-test y seguimiento), lo habitual es que las correlaciones entre
las medidas que se encuentran ms prximas en el tiempo sean ms altas que las correla-
ciones entre medidas ms alejadas; y esto dificulta que la matriz de varianzas-covarianzas
sea esfrica. Y cuando las medidas repetidas se obtienen midiendo distintas variables en el
mismo momento, no es infrecuente encontrar que unas variables son ms dispersas que otras.
Por tanto, en el contexto de las ciencias sociales y de la salud, raramente el estadstico F se-
r la solucin idnea para analizar los datos provenientes de un diseo de medidas repetidas.
Por lo general, ser preferible utilizar alguno de los procedimientos diseados para poder
lidiar con el incumplimiento del supuesto de esfericidad.
304 Anlisis de datos (vol. II)

Alternativas al estadstico F
En condiciones de no-esfericidad, el estadstico F se vuelve liberal (aumenta la probabilidad
de cometer errores Tipo I). Y esto puede afectar seriamente a las conclusiones basadas en el
rechazo de la hiptesis de igualdad de medias. Por tanto, antes de elaborar conclusiones ba-
sadas en el rechazo de esta hiptesis, es importante asegurarse de que puede asumirse que la
matriz de varianzas-covarianzas es esfrica. Para esto existen varios procedimientos. El ms
popular (aunque no el ms recomendable) es, quiz, el propuesto por Mauchly (1940); y es
el que incluye el SPSS4.
Qu hacer cuando se incumple el supuesto de esfericidad? El procedimiento SPSS que
utilizaremos en este captulo ofrece dos soluciones alternativas: (1) modificar los grados de
libertad de la distribucin F y (2) utilizar estadsticos multivariados que no asumen esferi-
cidad (en el Volumen III estudiaremos otras soluciones).

Estadstico F con los grados de libertad modificados


Box (1954a, 1954b) ha demostrado que, cualquiera que sea el grado de incumplimiento del
supuesto de esfericidad, el cociente MCA / MCA S se distribuye aproximadamente segn el
modelo de probabilidad F con (J !1) y (J !1)(n !1) grados de libertad.
Por tanto, la primera solucin al problema de la no-esfericidad consiste en multiplicar los
grados de libertad del cociente MCA / MCA S por un ndice corrector denominado . Este
ndice expresa el grado de esfericidad de la matriz de varianzas-covarianzas poblacional;
cuando esa matriz es completamente esfrica, vale 1, que es su valor mximo; cuanto me-
nos esfrica es esa matriz, ms se aproxima a su valor mnimo. Geiser y Greenhouse (1958)
han demostrado que ese mnimo es 1 / (J ! 1). Por tanto, la modificacin de los grados de li-
bertad basada en se produce siempre a la baja (haciendo el contraste ms conservador) y es
tanto mayor cuanto menos esfrica es la matriz de varianzas-covarianzas.
El problema de esta solucin es que es un parmetro y, por tanto, un valor desconoci-
do. No obstante, Box (1954b) y Huynh y Feldt (1976), entre otros, han propuesto estimacio-
nes para que suelen incluirse en los programas informticos (ver Apndice 8). La estima-
cin propuesta por Box aparece en el SPSS con el nombre Geisser-Greenhouse probable-
mente porque fueron Geisser y Greenhouse (1958; Greenhouse y Geisser, 1959) quienes ex-
tendieron la propuesta de Box a diseos ms complejos.

Aproximacin multivariada
La segunda solucin consiste en analizar los datos procedentes de un diseo de medidas re-
petidas mediante una serie de estadsticos agrupados bajo la denominacin aproximacin
multivariada (ver, por ejemplo, Maxwell y Delany, 2004, cap. 13). Para obtener estos esta-
dsticos es necesario recurrir al clculo matricial. No obstante, el SPSS ofrece los estadsticos
multivariados comnmente utilizados para este propsito (lamda de Wilks, T 2 de Hotelling-

4
La mayora de los procedimientos disponibles para chequear el supuesto de esfericidad son sensibles a la no normalidad
de las poblaciones originales (Keselman, Rogan, Mendoza y Breen, 1980). No obstante, Cornell, Young, Seaman y Kirk
(1992), tras comparar ocho de estos procedimientos, han llegado a la conclusin de que el locally best invariant test (John,
1971, 1972; Nagao, 1973; Sugiura, 1972) es el ms potente al tiempo que ofrece un buen control sobre la tasa de error (Kirk,
1995, pg. 278, explica cmo aplicar este procedimiento).
Captulo 8. ANOVA. Un factor con medidas repetidas 305

Lawley, raz mayor de Roy y traza de Pillai) acompaados de sus correspondientes niveles
crticos; y eso es todo lo que se necesita para contrastar la hiptesis de igualdad de medias.
La ventaja principal de estos estadsticos multivariados es que no exigen que la matriz
de varianzas-covarianzas sea esfrica (condicin que constituye la principal fuente de pro-
blemas con el estadstico F convencional). Como contrapartida, pierden potencia cuando se
utilizan con tamaos muestrales pequeos.

Qu solucin elegir
La pregunta inevitable en este momento es qu solucin de las disponibles debe adoptarse.
Aunque no pocos expertos se inclinan por la aproximacin multivariada (ver, por ejemplo,
Maxwell y Delaney, 2004, pgs. 671-676), la respuesta a esta pregunta es compleja. Podra
parecer que, puesto que la aproximacin multivariada no exige esfericidad, est libre de pro-
blemas. Pero las cosas no son exactamente as. Si puede asumirse esfericidad, el estadstico
F es ms potente que los multivariados. Y si no puede asumirse esfericidad, ninguna solu-
cin es sistemticamente ms potente que la otra. Aunque, en teora, la aproximacin multiva-
riada no exige esfericidad, lo cierto es que, en condiciones de no-esfericidad, va perdiendo
potencia conforme va disminuyendo el tamao muestral, hasta el punto de que con tamaos
muestrales pequeos no es nada recomendable (ver Davidson, 1972; o Jensen, 1982, 1987).
As las cosas, consideramos que, con los estadsticos mencionados, la forma razonable
de proceder es la siguiente:
1. Si puede asumirse esfericidad, utilizar el estadstico F (es la mejor estrategia cuando se
cumplen los supuestos del anlisis). Si no puede asumirse esfericidad, continuar con el
siguiente paso.
2. Utilizar la aproximacin multivariada (solucin apropiada con muestras grandes pero
poco potente con muestras pequeas). Si se rechaza la hiptesis nula, terminar el anli-
sis; si no se rechaza, continuar con el siguiente paso.
En algunos casos (por ejemplo, cuando el nmero de sujetos o bloques es menor que
el nmero de medidas repetidas) no es posible aplicar la aproximacin multivariada.
Cuando ocurre esto, puede utilizarse el estadstico F modificando los grados de libertad
con el valor mnimo o lmite inferior de (la estrategia ms conservadora de todas). Es-
ta estrategia consiste en asumir que el cociente MCA / MCA S se aproxima a la distri-
bucin F con 1 y n ! 1 grados de libertad. Si se rechaza la hiptesis nula, terminar el
anlisis; si no se rechaza, continuar con el siguiente paso.
3. Utilizar el estadstico F con los grados de libertad modificados mediante el valor esti-
mado de , es decir, con las soluciones propuestas para por Geisser-Greenhouse y
Huynh-Feldt (ninguna de ellas parece ser sistemticamente mejor que la otra, pero la
solucin de Greenhouse-Geisser es algo ms conservadora). Si se ha llegado hasta aqu,
adoptar como buena la decisin a la que lleve este paso.
Por supuesto, las peculiaridades de cada diseo (nmero de casos, nmero de medidas repeti-
das, grado de cumplimiento o incumplimiento de los supuestos de normalidad y esfericidad,
etc.), podran hacer preferible alguna solucin sobre otra. Pero los pasos propuestos llevarn
a una solucin aceptable en trminos de potencia y control de la tasa de error. Y, aunque esta
estrategia secuencial puede parecer engorrosa, debe tenerse en cuenta que este tipo de anlisis
suele realizarse con la ayuda de programas informticos.
306 Anlisis de datos (vol. II)

Medidas del tamao del efecto


Las medidas del tamao del efecto propuestas para el modelo completamente aleatorizado
(ver Captulo 6) son vlidas tambin aqu. La medida que acapara las preferencias de los
expertos es la versin parcial de omega-cuadrado ( ). Su valor concreto5 depende de que
el factor sea de efectos fijos o de efectos aleatorios (Kirk, 1995, pgs. 261-263). Si el factor
es de efectos fijos6,

= [8.6]

y si es de efectos aleatorios,

= [8.7]

Recordemos que este estadstico se interpreta como proporcin de varianza comn o com-
partida: indica cmo de grande es la variabilidad entre las medidas repetidas en compara-
cin con la variabilidad total (excluyendo la variabilidad entre los sujetos7 ). La ecuacin
[8.7] tambin se conoce como coeficiente de correlacin intraclase, una medida del grado
de parecido (relacin) existente entre las respuestas de los sujetos8.
El estadstico est estrechamente relacionado con la medida del tamao del efecto
de Cohen (1988):

= [8.8]

La regla propuesta por Cohen para interpretar estas medidas sigue siendo vlida aqu. En lo
relativo a , valores de 0,01, 0,06 y 0,14 indican efectos de tamaos pequeo, mediano y
grande. En el caso de ( f en la notacin utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
En nuestro ejemplo sobre la relacin entre la calidad del recuerdo y el paso del tiempo
(ver Tabla 8.4) tenemos J = 4 medidas repetidas, n = 6 sujetos, MCA = 124 y MCAS = 2,80.
Asumiendo que el factor (momentos en los que se registra el recuerdo) es de efectos fijos,

= = 0,88

5
Si el estadstico F es menor que 1 (es decir, sin MCA < MCAS ), las ecuaciones [8.6] y [8.7] ofrecen un valor negativo.
Puesto que una proporcin no puede ser negativa, cuando ocurre esto se considera que 2 vale cero.
6
El valor de tambin puede obtenerse a partir del estadstico F. Cuando el factor es de efectos fijos, la ecuacin [8.6]
equivale a = [(J ! 1) (F ! 1)] / [n J + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuacin [8.7] equiva-
le a = (F ! 1) / [(n ! 1) + F ].
7
Los estadsticos definidos en [8.6] y en [8.7] son medidas parciales, por contraposicin a las medidas completas, que
utilizan la variabilidad total en el denominador. En general, las medidas de asociacin parciales son preferibles a las com-
pletas, pues comparan la variabilidad debida al factor con una estimacin neta de la variabilidad error (Keppel y Wickens,
2004, pg. 235; Maxwell, Camp y Arvey, 1981).
8
Sustituyendo en [8.7] MCA por MCS y n ! 1 por J ! 1 se obtiene una estimacin del grado de variabilidad existente entre
los sujetos o bloques. Esta estimacin refleja el grado de parecido existente entre las medidas repetidas y es muy utiliza-
da en el contexto de la fiabilidad de las escalas (ver Abad, Olea, Ponsoda y Garca, 2010, Cap. 9).
Captulo 8. ANOVA. Un factor con medidas repetidas 307

= = 2,71

Ambos estadsticos indican que el efecto del paso del tiempo sobre la calidad del recuerdo
es de gran tamao. En concreto, conocer en qu momento se registra el recuerdo (hora, da,
semana, mes) mejora nuestro conocimiento sobre su calidad un 84 %.

Clculo de la potencia y del tamao muestral


La estrategia para calcular la potencia observada y el tamao muestral necesario para alcan-
zar una determinada potencia se ha descrito ya en el Captulo 6. Lo dicho all sirve tambin
aqu. Partimos del parmetro de no centralidad y de su transformacin en :

= , = [8.9]

La potencia asociada al estadstico F puede obtenerse de la Tabla G del Apndice final a


partir del valor de y de los grados de libertad del estadstico F:

= = = [8.10]

El parmetro de no centralidad tambin puede estimarse simplemente multiplicando el va-


lor del estadstico F por los grados de libertad de su numerador (J ! 1).
En nuestro ejemplo sobre la relacin entre el paso del tiempo y la calidad del recuerdo
con J = 4 medidas (ver Tabla 8.4) hemos obtenido MCA = 124 y MCAS = 2,133. Por tanto,

= = 6,60

(utilizando el estadstico F = 58,13 y los grados de libertad de su numerador (J ! 1 = 3) se


obtiene para un valor estimado de 58,13 3 = 174,39. Por tanto: = = 6,60).
Ahora, para calcular la potencia observada correspondiente a un valor = 6,60 necesi-
tamos = 0,05, gl1 = J ! 1 = 3 y gl2 = (J ! 1) (n ! 1) = 15. En la Tabla G del Apndice final
(redondeando a gl2 = 16 y tomando = 3, que es el valor mayor que ofrece la tabla), en-
contramos que la probabilidad de cometer errores Tipo II () vale cero. Por tanto, la poten-
cia de este contraste (1 ! ) vale 1.
Para estimar el tamao muestral necesario para alcanzar una determinada potencia es ne-
cesario establecer: (1) el nivel de significacin (generalmente 0,05), (2) el nmero de me-
didas repetidas del diseo (J ), (3) el tamao del efecto que se desea poder detectar o que se
considera mnimamente relevante ( o ), y (4) la potencia que se desea alcanzar (general-
mente 0,80). Al eliminar el tamao muestral de [8.10], queda la medida del tamao del efecto
definida por Cohen (ver [6.12]):

= n = [8.11]

Supongamos que en un estudio con 4 medidas repetidas (gl1 = 3) y = 0,05 queremos que
la potencia del contraste para detectar un efecto de tamao medio ( = 0,25 segn la regla de
308 Anlisis de datos (vol. II)

Cohen) valga 0,80 ( = 0,20). Tenemos que utilizar la Tabla G al revs de como lo hemos
hecho antes, pero ahora nos encontramos con que no conocemos los grados de libertad gl2,
pues dependen del tamao muestral que estamos buscando. Esto, sin embargo, no represen-
ta ningn problema porque utilizar un valor de partida de 30 o mayor no hace cambiar las
cosas. Podemos elegir, por ejemplo, gl2 = . As, con gl1 = 3, gl2 = y = 0,20 (tomamos
0,23), la Tabla G ofrece un valor de 1,6 para . Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir,
hacen falta al menos 41 sujetos para alcanzar una potencia de 0,77.

Comparaciones mltiples
El rechazo de la hiptesis global de igualdad de medias permite afirmar que hay medias que
no son iguales, pero no permite precisar qu medias difieren de qu otras. Para esto es nece-
sario realizar comparaciones mltiples.
En el caso de que pueda asumirse esfericidad, los procedimientos descritos a propsi-
to del modelo de un factor completamente aleatorizado (ver, en el Captulo 6, el apartado
Comparaciones mltiples) sirven para el modelo de un factor con medidas repetidas. ni-
camente hay que tener en cuenta que la media cuadrtica error, que ahora es MCA S , se
calcula de forma distinta y que sus grados de libertad son (J ! 1) (n ! 1) en lugar de N ! J.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados pa-
ra realizar comparaciones planeadas o a priori siguen siendo vlidos si se tiene la precau-
cin de utilizar las ecuaciones propuestas para el caso en que no puede asumirse que las va-
rianzas poblacionales son iguales (por ejemplo, utilizando la ecuacin [6.36] en lugar de la
[6.35]; ver, por ejemplo, Mitzel y Games, 1981).
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) estudiar las
comparaciones por pares utilizando la prueba T de Student para muestras relacionadas (ver
Captulo 5) corrigiendo la tasa de error por comparacin (C) mediante el mtodo de Dunn-
Bonferroni, es decir, dividiendo F , generalmente 0,05, entre el nmero de comparaciones
por pares llevadas a cabo (lo cual equivale a utilizar la tabla de Dunn-Bonferroni en lugar de
la tabla de la distribucin t)9. En el siguiente apartado se explica cmo hacer todo esto con
el SPSS.

ANOVA de un factor con medidas repetidas (A-MR) con SPSS


El ANOVA de un factor con medidas repetidas est disponible en el procedimiento GLM
Medidas repetidas. Este procedimiento permite obtener todos los estadsticos estudiados en los
apartados anteriores, contrastar el supuesto de esfericidad, estimar el tamao del efecto y la
potencia observada, y realizar comparaciones mltiples planeadas y post hoc.
Desde el punto de vista de la disposicin de los datos en el Editor de datos, la diferen-
cia ms evidente entre un factor completamente aleatorizado (CA) y un factor con medidas
repetidas (MR) se encuentra en la correspondencia existente entre el factor y el nmero de

9
Puede obtenerse un ligero incremento en la potencia (ver Hochberg y Tamhane, 2009) si el valor del estadstico T para
muestras relacionadas se compara con el cuantil 100 (1 ! ) de la distribucin del mdulo mximo studentizado (ver Par-
do y San Martn, 1998, Tabla M del Apndice final) con k = J (J ! 1) / 2 y n ! 1 grados de libertad.
Captulo 8. ANOVA. Un factor con medidas repetidas 309

variables del archivo de datos. Mientras que un factor CA es una variable del archivo (una
variable categrica que toma distintos valores, cada uno de los cuales define un nivel del
factor), un factor MR no es una variable del archivo de datos; no existe como tal; sus niveles
son las medidas repetidas; y cada medida repetida es una variable del archivo. Por tanto, pa-
ra poder ajustar un modelo de un factor MR, es necesario realizar algunas tareas extra: hay
que dar nombre al factor MR, fijar su nmero de niveles e indicar qu variable del archivo
de datos se corresponde con cada nivel.
En este apartado se explica cmo utilizar el procedimiento GLM Medidas repetidas para
analizar los datos de nuestro ejemplo sobre la relacin entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4). En concreto, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad 10, (2) obtener un grfico de lneas o de perfil representando las medias de
las medidas repetidas, (3) contrastar la hiptesis de igualdad de medias con los diferentes
estadsticos propuestos (es decir, con el estadstico F convencional, con el estadstico F con
los grados de libertad modificados y con los estadsticos de la aproximacin multivariada),
(4) estimar el tamao del efecto y calcular la potencia observada, (5) realizar comparacio-
nes planeadas o a priori (incluidas las comparaciones de tendencia) y (6) realizar compa-
raciones post hoc o a posteriori. Para llevar a cabo todas estas tareas:
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4
tiempo recuerdo que se encuentra en la pgina web del manual).
' Seleccionar la opcin Modelo lineal general > Medidas repetidas del men Analizar para acce-
der al cuadro de dilogo Medidas repetidas: Definir factores (en este cuadro de dilogo,
previo al principal, es donde se define el factor de medidas repetidas).
' Introducir el nombre del factor MR (tiempo) en el cuadro de texto Nombre del factor intra-
sujetos y el nmero de niveles de que consta el factor (4) en el cuadro de texto Nmero
de niveles. Pulsar el botn Aadir para validar y el botn Definir para acceder al cuadro de
dilogo principal Medidas repetidas.
' Seleccionar las variables hora, da, semana y mes, y trasladarlas (en el orden correcto)
a la lista Variables intrasujetos.
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Opcio-
nes y marcar las casillas Estadsticos descriptivos, Estimaciones del tamao del efecto y Po-
tencia observada.
' Seleccionar la variable tiempo en la lista Factores e interacciones de los factores y trasla-
darla, con el botn flecha, a la lista Mostrar las medias para.
' Marcar la opcin Comparar los efectos principales y seleccionar la opcin Bonferroni den-
tro del men desplegable Ajuste del intervalo de confianza (las comparaciones post hoc no
estn disponibles para los factores intrasujetos o de medidas repetidas; para realizar es-
te tipo de comparaciones con un factor intrasujetos es necesario utilizar la opcin Com-
parar efectos principales del cuadro de dilogo Opciones.). Pulsar el botn Continuar para
volver al cuadro de dilogo principal.

10
Los supuestos de independencia y normalidad se pueden contrastar aplicando a cada medida repetida la prueba de las
rachas (ver Apndice 2) y la prueba de normalidad de Shapiro-Wilk (ver, en el Captulo 2, el apartado Contrastes y grficos
de normalidad). Aplicando estas dos pruebas a los datos de la Tabla 8.4, con ninguna de las cuatro medidas repetidas se
rechaza la hiptesis de independencia o aleatoriedad ( p > 0,377 en todos los casos) ni la de normalidad ( p > 0,05 en todos
los casos).
310 Anlisis de datos (vol. II)

' Pulsar el botn Grficos para acceder al subcuadro de dilogo Medidas repetidas: Gr-
ficos de perfil, trasladar la variable tiempo de la lista Factores al cuadro Eje horizontal y
pulsar el botn Aadir para trasladar la variable seleccionada a la lista inferior y hacer
efectiva la seleccin.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.5 a la
8.11 y el grfico de lneas que muestra la Figura 8.1 (derecha). La Tabla 8.5 comienza ofre-
ciendo informacin descriptiva: las medias y las desviaciones tpicas de cada medida (es
decir, de cada nivel del factor tiempo); tambin ofrece el nmero de casos vlidos en cada
medida (este dato permite saber si existe algn valor perdido). En el grfico de lneas de la
Figura 8.1 (pg. 302) estn representadas estas medias; en l se aprecia un evidente descenso
de la calidad media del recuerdo conforme pasa el tiempo; el anlisis de varianza permite
decidir si ese descenso es real o puede explicarse por las fluctuaciones del azar muestral.

Tabla 8.5. Estadsticos descriptivos


Media Desv. tp. N
Una hora 17,00 2,19 6
Un da 12,00 2,90 6
Una semana 8,00 2,61 6
Un mes 7,00 2,68 6

Esfericidad
La Tabla 8.6 ofrece la prueba de esfericidad de Mauchly. Esta prueba permite contrastar la
hiptesis nula de que la matriz de varianzas-covarianzas correspondiente a las J medidas
repetidas es esfrica. El rechazo de esta hiptesis implica que no es posible asumir esferi-
cidad. Puesto que el nivel crtico asociado al estadstico W (sig. = 0,743) es mayo que 0,05,
no puede rechazarse la hiptesis de esfericidad; es decir, puede asumirse que la matriz de
varianzas-covarianzas es esfrica. Las tres ltimas columnas de la tabla (psilon) se expli-
can a continuacin.

Tabla 8.6. Contraste de esfericidad de Mauchly


Medida: MEASURE_1

psilon
W de Chi-cuadrado Greenhouse- Huynh- Lmite-
Efecto intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,47 2,77 5 ,743 ,69 1,00 ,33

Igualdad de medias
Las Tablas 8.7 y 8.8 recogen todos los estadsticos que incluye el procedimiento para el
contraste de la hiptesis global de igualdad de medias.
Si puede asumirse esfericidad, el estadstico F es la mejor eleccin. Este estadstico se
encuentra en la Tabla 8.8 en la fila encabezada esfericidad asumida (ste es el estadstico
que hemos calculado a mano con los datos de la Tabla 8.4). El nivel crtico asociado al es-
Captulo 8. ANOVA. Un factor con medidas repetidas 311

tadstico F = 58,12 (sig. < 0,0005) permite rechazar la hiptesis de igualdad de medias y
concluir que los promedios comparados no son iguales. Por tanto, la calidad del recuerdo no
es la misma en los cuatro momentos definidos por el factor tiempo (en una situacin real, el
contraste de la hiptesis global de igualdad de medias debera detenerse aqu; pero esto es
un ejemplo y debemos seguir explicando el resto de posibilidades).
Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estads-
ticos multivariados de la Tabla 8.7 y (2) el estadstico F con los grados de libertad modi-
ficados mediante el ndice corrector psilon.
La Tabla 8.7 ofrece cuatro estadsticos multivariados: traza de Pillai, lambda de Wilks,
T 2 de Hotelling y raz mayor de Roy (para una descripcin de estos estadsticos puede con-
sultarse Bock, 1975, o Tabachnik y Fidel, 2001). Se interpretan de la misma manera que el
resto de estadsticos ya estudiados: puesto que el nivel crtico (sig.) asociado a cada uno de
ellos (en el ejemplo es el mismo para todos: 0,003) es menor que 0,05, se puede rechazar la
hiptesis nula de igualdad de medias.

Tabla 8.7. Contrastes multivariados


Efecto Valor F Gl de la hiptesis Gl del error Sig.
tiempo Traza de Pillai ,98 62,50 3,00 3,00 ,003
Lambda de Wilks ,02 62,50 3,00 3,00 ,003
Traza de Hotelling 62,50 62,50 3,00 3,00 ,003
Raz mayor de Roy 62,50 62,50 3,00 3,00 ,003

Tabla 8.8. Contrastes univariados (estadsticos F con y sin modificacin de los grados de libertad)
Medida: MEASURE_1

a
Suma de cuadrados

Potencia observada
Media cuadrtica

Parmetro de no
Eta al cuadrado

centralidad
parcial
tipo III

Sig.
gl

Fuente
tiempo Esfericidad asumida 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Greenhouse-Geisser 372,00 2,06 180,19 58,12 ,000 ,92 120,00 1,00
Huynh-Feldt 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Lmite-inferior 372,00 1,00 372,00 58,12 ,001 ,92 58,12 1,00
Error (tiempo) Esfericidad asumida 32,00 15,00 2,13
Greenhouse-Geisser 32,00 10,32 3,10
Huynh-Feldt 32,00 15,00 2,13
Lmite-inferior 32,00 5,00 6,40
a. Calculado con alfa = ,05

En el caso de que la solucin basada en los estadsticos multivariados no lleve al rechazo de


la hiptesis de igualdad de medias (no es el caso de este ejemplo), el anlisis debe continuar
con los estadsticos F con los grados de libertad modificados. Estos estadsticos se encuen-
tran en la Tabla 8.8. La peculiaridad que los distingue es que su distribucin muestral est
modificada multiplicando los grados de libertad originales por el ndice corrector psilon ().
Este ndice corrector (Tabla 8.6, mitad derecha) expresa el grado de esfericidad de la matriz
312 Anlisis de datos (vol. II)

de varianzas-covarianzas (recordemos que, en condiciones de esfericidad perfecta, vale 1).


La tabla ofrece dos estimaciones de psilon: Greenhouse-Geisser y Huynh-Feldt; un tercer
valor, lmite inferior, expresa el valor que adoptara psilon en el caso de incumplimiento
extremo del supuesto de esfericidad.
Los resultados de la Tabla 8.8 indican que las tres versiones del estadstico F (Green-
house-Geisser, Huynh-Feldt y lmite inferior) conducen a la misma conclusin, que a su vez
coincide con la ya alcanzada con el estadstico F convencional (esfericidad asumida) y con
los estadsticos multivariados de la Tabla 8.7: puesto que el nivel crtico (sig.) es, en todos
los casos, menor que 0,05, se puede rechazar la hiptesis de igualdad de medias y concluir
que la calidad del recuerdo no es la misma en los cuatro momentos.

Tamao del efecto y potencia observada


Las tres ltimas columnas de la Tabla 8.8 informan del tamao del efecto y de la potencia
observada. La columna encabezada eta cuadrado parcial contiene la medida de proporcin
de varianza comn o compartida :

= = = 0,92

El procedimiento GLM Medidas repetidas no calcula (Ver ecuacin [8.6]), pero la Tabla 8.8
contiene la informacin necesaria para hacerlo:

= = = 0,88

La siguiente columna de la tabla contiene el parmetro de no-centralidad de la distribucin


F no centrada (174,37; ver ecuacin [8.9]). Este parmetro es el que se utiliza para calcular
la potencia observada que aparece en la ltima columna de la tabla.

Comparaciones planeadas
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinmico a los
factores MR. Estos contrastes permiten estudiar el tipo de relacin (lineal, cuadrtica, cbi-
ca, etc.) existente entre el factor y la variable dependiente11.
Si no se modifica la opcin por defecto del botn Contrastes (subcuadro de dilogo Me-
didas repetidas: Contrastes), el Visor ofrece los contrastes polinmicos (comparaciones de
tendencia) que muestra la Tabla 8.9. Puesto que se trata de contrastes ortogonales, la tabla
muestra tantos contrastes como niveles tiene el factor, menos uno; dado que el factor tiem-
po del ejemplo tiene cuatro niveles, aparecen tres contrastes: lineal, cuadrtico y cbico.
La tabla recoge la informacin necesaria para contrastar la hiptesis nula de que el po-
linomio (tendencia) evaluado vale cero en la poblacin; es decir, la hiptesis nula de que no
existe relacin lineal, cuadrtica, etc. En el ejemplo, los valores de los niveles crticos (sig.)
asociados a cada estadstico F permiten rechazar las hiptesis referidas a los componentes

11
Aunque el SPSS los ofrece por defecto, debe tenerse en cuenta que, dependiendo de las caractersticas del factor, estos
contrastes podran no tener sentido (ver, en el Captulo 6, el apartado Comparaciones de tendencia).
Captulo 8. ANOVA. Un factor con medidas repetidas 313

lineal y cuadrtico, pero no la referida al componente cbico. Esto significa que las medias
de la calidad del recuerdo en cada momento temporal se ajustan tanto a una lnea recta (ten-
dencia lineal) como a una curva (tendencia cuadrtica).
Cuando existe ms de un componente significativo, es probable que el de mayor orden
se ajuste mejor, pero las funciones ms parsimoniosas (ms simples) son ms fciles de in-
terpretar y, generalmente, ms tiles. No obstante, decidir qu componente de los signifi-
cativos se interpreta depende, fundamentalmente, de las hiptesis del estudio.
No es infrecuente encontrar ms de un componente significativo. En concreto, no es in-
frecuente encontrar que tanto el componente lineal como el cuadrtico son significativos. Esto
indica, por lo general, que la relacin subyacente no es estrictamente lineal sino montona
(creciente o decreciente). Un grfico de perfil (ver siguiente apartado) suele ayudar bastan-
te a entender lo que est ocurriendo.

Tabla 8.9. Contrastes intrasujetos (comparaciones de tendencia)


Medida: MEASURE_1
Suma de Media
Fuente tiempo cuadrados tipo III gl cuadrtica F Sig.
tiempo Lineal 346,80 1 346,80 166,73 ,000
Cuadrtico 24,00 1 24,00 7,50 ,041
Cbico 1,20 1 1,20 1,07 ,348
Error (tiempo) Lineal 10,40 5 2,08
Cuadrtico 16,00 5 3,20
Cbico 5,60 5 1,12

El subcuadro de dilogo Medidas repetidas: Contrastes permite llevar a cabo comparaciones


planeadas distintas de las de tendencia. En ese subcuadro de dilogo, la lista Factores contiene
un listado con los factores incluidos en el anlisis. Las opciones del men desplegable Con-
traste permiten cambiar el contraste que el procedimiento asigna por defecto ( polinmico) se-
leccionando el contraste deseado (no olvidar pulsar el botn Cambiar para validar la selec-
cin hecha). Cada uno de estos contrastes define un tipo particular de comparaciones (la
ayuda contextual aclara el significado de cada contraste). Con todos ellos se obtienen J ! 1
comparaciones entre las J categoras (niveles) del factor seleccionado.
Tambin existe la posibilidad de solicitar, mediante sintaxis, contrastes personalizados,
por ejemplo, para comparar el primer nivel del factor con todos los dems, o los dos prime-
ros niveles con los dos ltimos, etc. Para ello hay que utilizar la sentencia CONTRAST segui-
da de la especificacin SPECIAL. Para comparar, por ejemplo, la primera categora o nivel del
factor recuerdo con las dems, y las dos primeras con las otras dos, debe utilizarse la
siguiente lnea de sintaxis: Contrast (recuerdo) = special (3 !1 !1 !1 1 1 !1 !1). Los cuatro
primeros cdigos se refieren a la primera comparacin (cuatro cdigos porque el factor
recuerdo tiene cuatro niveles); los cuatro siguientes se refieren a la segunda comparacin.

Comparaciones post hoc


Las comparaciones del botn Post hoc solamente estn disponibles para los factores inter-
sujetos (ver, en el Captulo 9, el apartado ANOVA de dos factores con medidas repetidas en
uno). El procedimiento MLG Medidas repetidas no permite aplicar estas comparaciones a los
314 Anlisis de datos (vol. II)

factores intrasujetos. Para comparar por pares los niveles de un factor intrasujetos debe uti-
lizarse la opcin Comparar los efectos principales del subcuadro de dilogo Medidas repetidas:
Opciones. Al seleccionar esta opcin, lo recomendable es seleccionar tambin algn mto-
do de control de la tasa de error. El procedimiento permite elegir entre el mtodo de Bon-
ferroni y el de idk12.
Con esta opcin se obtienen los resultados que muestran las Tablas 8.10 y 8.11. La pri-
mera de ellas es la tabla de Medias estimadas: ofrece, para cada nivel del factor tiempo, la
media estimada y su correspondiente error tpico e intervalo de confianza (calculado al 95%).
Debe tenerse en cuenta que estos intervalos de confianza se refieren a cada media indivi-
dualmente considerada, no a diferencias entre pares de medias; por tanto, el hecho de que
exista o no solapamiento entre los intervalos de confianza de dos medias concretas no pue-
de utilizarse para contrastar la hiptesis de igualdad entre las correspondientes medias po-
blacionales.

Tabla 8.10. Medias estimadas (factor tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95%
tiempo Media Error tp. Lmite inferior Lmite superior
1 17,00 ,89 14,70 19,30
2 12,00 1,18 8,96 15,04
3 8,00 1,06 5,26 10,74
4 7,00 1,10 4,18 9,82

La Tabla 8.11 ofrece las comparaciones dos a dos entre los cuatro niveles del factor (entre
las cuatro medidas repetidas). La tabla incluye, para cada comparacin, la diferencia obser-
vada entre cada par de medias, el error tpico de esa diferencia y el nivel crtico asociado a
esa diferencia bajo la hiptesis de igualdad de medias. Una nota a pie de tabla recuerda que
se est aplicando el mtodo de Bonferroni para controlar la tasa de error. Los resultados de
la tabla indican que todas las comparaciones entre momentos son significativamente dis-
tintas de cero (sig. < 0,05 en todos los casos).

Tabla 8.11. Comparaciones por pares (factor tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95 %
a
Diferencia entre para la diferencia
a
(I) tiempo (J) tiempo medias (I-J) Error tp. Sig. Lmite inferior Lmite superior
1 2 5,00 ,73 ,006 1,92 8,08
3 9,00 ,73 ,000 5,92 12,08
4 10,00 ,73 ,000 6,92 13,08
2 3 4,00 ,73 ,017 ,92 7,08
4 5,00 1,15 ,045 ,13 9,87
3 4 1,00 ,89 1,000 -2,77 4,77
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.

12
Ver, en el Captulo 6, el apartado Prueba de Dunn-Bonferroni. Ver tambin, en ese mismo captulo, la nota a pie de p-
gina nmero 21.
Captulo 8. ANOVA. Un factor con medidas repetidas 315

La prueba de Friedman
El estadstico F asume que los datos proceden de poblaciones normales y que la matriz de
varianzas-covarianzas es esfrica. Los estadsticos estudiados en el apartado Alternativas al
estadstico F no asumen esfericidad, pero s normalidad. Y todos ellos requieren trabajar con
una variable dependiente cuantitativa (de intervalos o de razn).
Friedman (1937) ha propuesto un procedimiento que puede aplicarse con datos ordina-
les (no exige, por tanto, nivel de medida de intervalos o razn) y, como consecuencia de esto,
no requiere asumir normalidad ni esfericidad. Como contrapartida, nicamente aprovecha
informacin ordinal. En realidad se trata de una extensin de la prueba de Wilcoxon para dos
muestras relacionadas (ver Captulo 5) al caso de ms de dos muestras relacionadas, es de-
cir, al caso de J medidas repetidas.
Para aplicar la prueba de Friedman se comienza transformando las puntuaciones origi-
nales en rangos . Esto se hace asignando, a las puntuaciones de cada sujeto o bloque,
enteros consecutivos de 1 a J (es decir, asignando un 1 a la puntuacin ms pequea, un 2 a
la ms pequea de las restantes, etc.; los empates se resuelven asignando el rango prome-
dio). Puesto que los rangos se asignan independientemente a cada sujeto o bloque, todas las
filas de la tabla (sujetos) pasan a sumar lo mismo: = J (J + 1) / 2 (ver Tabla 8.3). De don-
de cabe deducir que la media y la varianza de cada casilla vendrn dadas por

= y = [8.12]

Pero los totales que nos interesan, es decir, los totales que nos informan de las posibles dife-
rencias entre los niveles del factor, son las sumas de los n rangos de cada columna ( ). Si
las J medias poblacionales son iguales, entonces

= y = [8.13]

Una sencilla manera de formarnos una idea sobre el grado de parecido entre las J medias
poblacionales consiste en obtener una cuantificacin del grado en que cada total se des-
va de su valor esperado, es decir,

= [8.14]

Si las medias poblacionales son iguales, los sern parecidos y S tomar un valor prxi-
mo a cero. El problema de S es que su valor depende (ver Pardo y San Martn, 1998, pg.
443) tanto del nmero de medidas repetidas del diseo (J ) como del nmero de sujetos (n).
Es preferible utilizar una variante de S,

= [8.15]

que no depende del nmero de sujetos sino solamente del nmero de medidas repetidas. Unas
sencillas operaciones permiten transformar la ecuacin [8.9] en la expresin habitual del
estadstico de Friedman:

= [8.16]
316 Anlisis de datos (vol. II)

La Tabla Q del Apndice final ofrece las probabilidades exactas asociadas los puntos crti-
cos de la distribucin muestral de para algunos valores de J y n. Para valores diferentes
de J o n puede utilizarse la distribucin 2 con J ! 1 grados de libertad13.
El estadstico y su distribucin muestral pueden utilizarse para contrastar la hipte-
sis nula de que las J poblaciones tienen el mismo centro14 frente a la alternativa de que al me-
nos una poblacin contiene puntuaciones ms altas que la otra15. Para ello, basta con asumir
que el nivel de medida es al menos ordinal y que los sujetos o bloques son independientes
entre s (muestra aleatoria) e independientes de los niveles del factor (el efecto del factor y
el de los sujetos o bloques se combinan aditivamente)16.
Para contrastar la hiptesis de igualdad de medias con los datos de nuestro ejemplo so-
bre la relacin entre la calidad del recuerdo y el paso del tiempo, hemos comenzado asig-
nando rangos a los datos de la Tabla 8.4. La Tabla 8.12 muestra el resultado obtenido.

Tabla 8.12. Datos de la Tabla 8.4 transformados en rangos

Sujetos Hora Da Semana Mes


1 4 3 2 1
2 4 3 2 1
3 4 3 1 2
4 4 3 1 2
5 4 3 2 1
6 4 3 2 1
Sumas 24 18 10 8

13
Ver, por ejemplo, San Martn y Pardo, 1989, pgs. 248-249, para una justificacin de la aproximacin de a la dis-
tribucin 2 con J!1 grados de libertad.
14
La hiptesis nula que se contrasta con el estadstico de Friedman (ecuacin [8.16]) es que, dentro de cada sujeto o bloque,
cualquier combinacin de J rangos es igualmente probable. Esta hiptesis aplicada a nuestro ejemplo sobre la relacin entre
la calidad del recuerdo y el paso del tiempo significa que la calidad del recuerdo es la misma en los cuatro momentos con-
siderados en el ejemplo.
15
El estadstico F aplicado, no a las puntuaciones originales, sino a las puntuaciones transformadas en rangos, adopta la
siguiente forma

[8.17]

y se distribuye segn el modelo de probabilidad F con J ! 1 y (J ! 1) (n ! 1) grados de libertad. Iman y Davenport (1980)
y Zimmerman y Zumbo (1993) han sealado que esta solucin ofrece mejores resultados que el estadstico de Friedman.
16
Si existen muchos rangos empatados, el estadstico tiene un comportamiento algo conservador (tiende a rechazar
la hiptesis nula menos de lo que debera). En estos casos conviene dividir el valor de por un trmino corrector que tie-
ne en cuenta la presencia de empates:

[8.18]

donde tg es el nmero de puntuaciones empatadas en un rango dado (t1, t2, ..., tg, ..., tG) y G el nmero de conjuntos de em-
pates. Por supuesto, los empates que importan son los que se dan dentro del mismo sujeto o bloque pues, recordemos, los
rangos se asignan independientemente para cada sujeto o bloque. Esta correccin por empates se realiza para corregir el
sesgo conservador que afecta a cuando existen empates, por lo que no tiene sentido utilizarla cuando sin ella ya se re-
chaza la hiptesis de igualdad de medias.
Captulo 8. ANOVA. Un factor con medidas repetidas 317

Aplicando [8.16] a estos datos obtenemos

= = 16,40

Con J = 4, n = 6 y = 0,05, la Tabla Q del Apndice final ofrece el valor = 7,60.


Puesto que el valor del estadstico del contraste (16,40) es mayor que el valor del punto crtico
(7,60), podemos rechazar la hiptesis nula y concluir que la calidad del recuerdo no es la
misma en los cuatro momentos.
La prueba de Friedman est disponible en el SPSS dentro de la opcin Pruebas no param-
tricas del men Analizar. Para aplicar la prueba de Friedman a los datos de la Tabla 8.4:
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4
tiempo recuerdo que se encuentra en la pgina web del manual).
' Seleccionar la opcin Pruebas no paramtricas > K muestras relacionadas del men Analizar
para acceder al cuadro de dilogo Pruebas para varias muestras relacionadas y trasla-
dar las variables hora, da, semana y mes a la lista Contrastar variables.
Aceptando estas selecciones, el Visor genera los resultados que muestran las Tablas 8.13 y
8.14. La Tabla 8.13 ofrece, para cada variable (para cada medida repetida), la media de los
rangos asignados a cada medida repetida.
La Tabla 8.14 contiene los resultados de la prueba de Friedman. Incluye el nmero de
casos vlidos (N = 6), el valor del estadstico de Friedman17 (Chi-cuadrado = 16,40), sus
grados de libertad (gl = 3) y el nivel crtico (sig. asinttica = 0,001). Puesto que el nivel crti-
co obtenido (0,001) es menor que 0,05, se puede rechazar la hiptesis nula y concluir que la
calidad media del recuerdo no es la misma en los cuatro momentos.
Aunque existen procedimientos para efectuar comparaciones mltiples cuando el esta-
dstico de Friedman resulta significativo (ver, por ejemplo, Pardo y San Martn, 1998, pg.
447), para analizar con el SPSS qu variables difieren entre s puede utilizarse la prueba de
Wilcoxon para dos muestras (ver Captulo 5) aplicando el mtodo de Bonferroni para con-
trolar la tasa de error.

Tabla 8.13. Rangos promedio


Rango promedio
Hora 4,00
Da 3,00
Semana 1,67
Mes 1,33

Tabla 8.14. Prueba de Friedman


N 6
Chi-cuadrado 16,40
gl 3
Sig. asintt. ,001

17
El SPSS calcula el estadstico de Friedman aplicando la correccin por empates propuesta en la ecuacin [8.18]. Pues-
to que en nuestro ejemplo no existen rangos empatados, el resultado que se obtiene con las ecuaciones [8.16] y [8.18] es
exactamente el mismo.
318 Anlisis de datos (vol. II)

Apndice 8
Cmo estimar psilon ()
Al mencionar los supuestos en los que se basa el modelo de un factor con medidas repetidas hemos
tenido que hacer constantes referencias a la matriz de varianzas-covarianzas. Esta matriz es una ma-
triz cuadrada de orden J (es decir, con J filas y J columnas, tantas como medidas repetidas) con las
varianzas de cada medida en la diagonal principal y las covarianzas entre cada par de medidas fuera
de la diagonal.
Cuando se utiliza el estadstico F convencional para contrastar efectos intrasujetos, la matriz de
varianzas-covarianzas debe ajustarse a una determinada estructura. A esta estructura la hemos llamado
esfericidad. Y Box (1954a, 1954b) ha demostrado que, cualquiera que sea el grado de incumplimiento
del supuesto de esfericidad, el cociente MCefecto / MCerror referido a un efecto intrasujetos se distribuye
aproximadamente segn el modelo de probabilidad F con (glefecto ) y (glerror) grados de libertad, don-
de es un parmetro que expresa el grado en que la matriz de varianzas-covarianzas se aleja de una es-
tructura esfrica (recordemos que vale 1 en condiciones de esfericidad perfecta y que va disminu-
yendo alejandose de 1 conforme la matriz de varianzas-covarianzas se va haciendo menos esfrica).
Para estimar se han propuesto varios mtodos. El SPSS recoge dos de ellos: Greenhouse-Geisser
y Huynh-Feldt (ver Tabla 8.6). La estimacin de que el SPSS presenta con el nombre de Greenhouse-
Geisser (Geisser y Greenhouse, 1958; Greenhouse y Geiser, 1959) se obtiene mediante

= [8.19]

_
donde Sj =j se refiere a los elementos de la diagonal principal, S es la media de todos los elementos de
la matriz, S j j se refiere al elemento de la j-sima fila y de la j-sima columna, y S j se refiere a los ele-
mentos de la j-sima fila. Puesto que la solucin basada en resulta algo conservadora, Huynh y Feldt
(1976) han propuesto corregir mediante

= [8.20]

En nuestro ejemplo sobre la relacin entre la calidad del recuerdo y el paso del tiempo (ver Tabla 8.4)
tenemos J = 4 medidas repetidas (hora, da, semana, mes). Con estas 4 variables (medidas repetidas)
se obtiene la matriz de varianzas-covarianzas que muestra la Tabla 8.15 (la tabla incluye las sumas de
los elementos de las filas, de las columnas y de toda la tabla).

Tabla 8.15. Matriz de varianzas-covarianzas correspondiente a los datos de la Tabla 8.4

hora da semana mes Suma


hora 4,80 5,00 4,20 4,40 18,40
da 5,00 8,40 6,00 3,80 23,20
semana 4,20 6,00 6,80 4,60 21,60
mes 4,40 3,80 4,60 7,20 20,00

Suma 18,40 23,20 21,60 20,00 83,20


Captulo 8. ANOVA. Un factor con medidas repetidas 319

Aplicando las ecuaciones [8.19] y [8.20] a estos datos obtenemos:

= = 0,69

= > 1

que son justamente los valores que ofrece el SPSS para las estimaciones Greenhose-Geisser y Huynh-
Feldt (ver Tabla 8.6). El valor de siempre es mayor que el de , excepto cuando toma su valor m-
nimo, 1/(J ! 1), en cuyo caso ambos valores son iguales.

Prueba de Cochran
Cabe la posibilidad de que en un diseo de un factor con medidas repetidas (A-MR) la variable de-
pendiente o respuesta no sea una variable cuantitativa sino dicotmica (presencia, ausencia; a favor,
en contra; recuperados, no recuperados; etc.). En este escenario, en lugar de J variables cuantitativas,
tenemos J variables dicotmicas que siguen estando relacionadas porque se miden en los mismos su-
jetos o bloques. Y lo que procede en estos casos no es comparar medias, sino proporciones.
El procedimiento para comparar J proporciones relacionadas es una generalizacin del proce-
dimiento estudiado en el Captulo 3 para el caso de dos proporciones relacionadas (ver el aparatado
Simetra con variables dicotmicas: la prueba de McNemar).
La estructura de los datos es idntica a la presentada en la Tabla 8.3. La nica diferencia es que,
ahora, las puntuaciones Yij son unos y ceros. La suma de cada columna, T+j, representa el nmero total
de unos en cada nivel del factor. Consecuentemente, las proporciones marginales P+ j representan la
proporcin de unos en cada nivel del factor: P+ j = T+ j /n.
Si las J muestras proceden de poblaciones idnticas, cabe esperar que las proporciones margina-
les P+ j sean iguales, excepto en la parte atribuible a las fluctuaciones propias del azar muestral. Ba-
sndose en este hecho, Cochran (1950) ha diseado un procedimiento18 que permite poner a prueba la
hiptesis nula de igualdad entre las J proporciones poblacionales (H0: +1 = +2 = ... = +J ):

Q= [8.21]

El estadstico Q se distribuye segn 2 con J 1 grados de libertad. Y para contrastar la hiptesis nula
de igualdad de proporciones nicamente hay que asumir que se tiene una muestra aleatoria de n sujetos
o bloques independientes entre s en los que se miden J variables dicotmicas.
El SPSS incluye la prueba de Cochran en el procedimiento Pruebas no paramtricas. Para ilustrar
su aplicacin, vamos a utilizar los datos de una encuesta realizada a 906 espectadores de televisin
sobre los motivos por los que estaran dispuestos a seguir viendo un determinado programa en la
siguiente temporada. Los datos estn disponibles en el archivo tv-survey, el cual se encuentra en la
carpeta de ejemplos que incluye el SPSS. Las siete variables del archivo (cada variable representa un
motivo) son dicotmicas: 1 = s, 0 = no.
Puesto que todos los sujetos responden a las siete preguntas, se trata de un diseo de medidas re-
petidas (muestras relacionadas). Y puesto que las variables que interesa analizar son dicotmicas,
puede aplicarse la prueba de Cochran para comparar J proporciones relacionadas. Para ello,

18
Este procedimiento es generalizacin del de McNemar para dos proporciones relacionadas. De hecho, si J = 2, el estads-
tico de McNemar y el de Cochran son exactamente el mismo (ver, por ejemplo, Conover, 1980, pg. 204).
320 Anlisis de datos (vol. II)

' Seleccionar la opcin Pruebas no paramtricas > K muestras relacionadas del men Analizar para ac-
ceder al cuadro de dilogo Pruebas para varias muestras relacionadas.
' Trasladar todas las variables (siete en total) a la lista Contrastar variables y, en el recuadro Tipo de
prueba, marcar la opcin Cochran.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Varias muestras relacionadas:
Estadsticos y marcar la opcin Descriptivos. Pulsar el botn Continuar para volver al cuadro de
dilogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.16 a 8.18. La Ta-
bla 8.16 contiene algunos descriptivos bsicos: el nmero de casos vlidos (no hay casos con valor
perdido), la media (que al tratarse de variables dicotmicas no es otra cosa que la proporcin de unos),
la desviacin tpica insesgada, y los valores mnimo y mximo. La Tabla 8.17 muestra el nmero (fre-
cuencia) de respuestas de cada tipo observadas en cada pregunta (1 = s, 0 = no). Estas frecuen-
cias constituyen la base de clculo de la informacin que aparece en la Tabla 8.16.
Finalmente, la Tabla 8.18 ofrece el nmero de casos vlidos (N = 906), el estadstico de Cochran
(Q de Cochran = 1.491,561), los grados de libertad ( gl = 6) y el nivel crtico (sig. asintt. < 0,0005).
Puesto que el nivel crtico es menor que 0,05, se puede rechazar la hiptesis de igualdad de propor-
ciones y concluir que la proporcin de televidentes que elige cada motivo no es la misma.
Aunque existen procedimientos para efectuar comparaciones mltiples cuando el estadstico de
Cochran resulta significativo (ver, por ejemplo, Pardo y San Martn, 1998, pgs. 508-510), para con-
trastar con el SPSS qu proporciones difieren entre s puede utilizarse la prueba de McNemar para dos
muestras relacionadas (ver Captulo 3) aplicando la correccin de Bonferroni para controlar la tasa de
error.

Tabla 8.16. Estadsticos descriptivos


N Media Desv. tpica Mnimo Mximo
Cualquier motivo 906 ,49 ,500 0 1
A esa hora no hay otros programas populares 906 ,50 ,500 0 1
El programa tiene todava buenas crticas 906 ,50 ,500 0 1
Otras personas todava ven el programa 906 ,53 ,499 0 1
Los guionistas originales permanecen en el programa 906 ,81 ,389 0 1
Los directores originales permanecen en el programa 906 ,83 ,378 0 1
Los actores originales siguen en el programa 906 ,89 ,315 0 1

Tabla 8.17. Frecuencias


Valor
0 1
Cualquier motivo 465 441
A esa hora no hay otros programas populares 451 455
El programa tiene todava buenas crticas 450 456
Otras personas todava ven el programa 427 479
Los guionistas originales permanecen en el programa 168 738
Los directores originales permanecen en el programa 156 750
Los actores originales siguen en el programa 101 805

Tabla 8.18. Prueba de Cochran


N 906
Q de Cochran 1.491,56
gl 6
Sig. asintt. ,000
Captulo 8. ANOVA. Un factor con medidas repetidas 321

Coeficiente de concordancia W de Kendall


El coeficiente de concordancia W (obtenido independientemente por Kendall y Babington-Smith, 1939,
y por Wallis, 1939) sirve para valorar el grado de relacin (acuerdo, concordancia) entre ms de dos
conjuntos de rangos (para valorar la relacin entre dos conjuntos de rangos ya hemos estudiado, por
ejemplo, el coeficiente de correlacin Rs de Spearman; ver Captulo 5).
La necesidad de estudiar la relacin entre ms de dos conjuntos de rangos se presenta con cierta
frecuencia en diferentes reas de conocimiento. Por ejemplo, cuando se clasifica una muestra aleato-
ria de sujetos u objetos segn varias (ms de dos) caractersticas; o cuando varios jueces (ms de dos)
evalan, ordenan o clasifican un conjunto de elementos segn una caracterstica.
Siguiendo con la notacin propuesta en la Tabla 8.3, llamaremos a los rangos correspondien-
tes a las puntuaciones originales ,y a la suma de los n rangos correspondientes a cada elemen-
to clasificado (a la suma de cada columna en la Tabla 8.3):

= [8.22]

Los rangos se asignan por filas, es decir, de la misma manera que para aplicar la prueba de Friedman.
La Tabla 8.12 muestra los rangos asignados a las puntuaciones de la Tabla 8.4.
En el diseo de un factor MR, el objetivo del anlisis es comparar los promedios correspondientes
a los J niveles del factor. Con la prueba de Friedman se persigue el mismo objetivo que con el estads-
tico F, pero asignando rangos a las puntuaciones de cada sujeto o bloque. Con los datos de las Tablas
8.4 y 8.12, ambos estadsticos permiten valorar cmo cambia el recuerdo medio con el paso del tiempo.
Otra forma equivalente de ver el problema consiste en valorar la relacin, acuerdo o concordan-
cia existentes entre los n = 6 conjuntos de rangos de la Tabla 8.12. Existir concordancia perfecta en-
tre ellos cuando todos los sujetos se comporten del mismo modo (por ejemplo, cuando todos los suje-
tos recuerden ms al principio y menos al final, en cuyo caso todos los sujetos obtendrn el rango 4 en
el primer momento, el rango 3 en el segundo, ..., el rango 1 en el ltimo). Cuando ocurra esto, los to-
tales correspondientes a los diferentes niveles del factor (a las diferentes columnas) alcanzarn
la mxima diferencia entre ellos (en concreto valdrn 1J, 2 J, 3 J, ..., n J ).
Por el contrario, la relacin o concordancia entre los n conjuntos de rangos de la Tabla 8.12 ser
baja cuando los sujetos se comporten de forma distinta (por ejemplo, cuando unos recuerden mejor al
principio y otros mejor al final). Cuando ocurra esto, los totales tomarn valores parecidos. Y en
el hipottico caso de concordancia nula sern iguales:

= = = = = = [8.23]

(pues la suma de J conjuntos de rangos vale J (J + 1) / 2). Por tanto, el grado de parecido existente entre
los J totales est reflejando el grado de relacin o concordancia existente entre los n conjuntos de
rangos. Traducido esto a los datos de la Tabla 8.12 significa que estudiar si el recuerdo cambia entre
los J = 4 momentos (hiptesis de igualdad de promedios) equivale a estudiar si los n = 6 conjuntos de
rangos correspondientes a cada sujeto estn relacionados (hiptesis de relacin o concordancia).
As pues, cuando la concordancia entre n conjuntos de rangos es perfecta, la variabilidad entre los
es mxima; cuando la concordancia es nula, la variabilidad entre los es mnima. Teniendo esto
en cuenta, el estadstico:

S= [8.24]

representa la variabilidad observada entre cada total y el total definido en [8.23], que es el que
cabra esperar si la concordancia fuera nula. S valdr cero cuando la concordancia existente entre los
n conjuntos de rangos sea nula (pues, en ese caso, todos los totales sern iguales entre s e igua-
322 Anlisis de datos (vol. II)

les a n (J + 1) / 2) y alcanzar su valor mximo en el caso de concordancia perfecta, es decir, cuando


entre los totales exista la mxima variabilidad. Este mximo vale

Smx = [8.25]

Para obtener un coeficiente que valga 0 en el caso de concordancia nula y 1 en el caso de concordan-
cia perfecta puede utilizarse una transformacin consistente en dividir S entre su valor mximo. Esta
solucin es justamente lo que se conoce como coeficiente de concordancia de Kendall:

= [8.26]

Cuando la relacin (acuerdo, concordancia) es mxima, vale 1; cuando la relacin es mnima,


vale 0.
Al utilizar el coeficiente de concordancia es importante identificar correctamente a qu se es-
t llamando J y a qu se est llamando n. Aqu hemos tomado como referencia la notacin utilizada
en la Tabla 8.3. Aplicando la prueba de Friedman y el coeficiente de concordancia a los datos de
la Tabla 8.12 se obtiene idntico resultado. Pero la prueba de Friedman compara los promedios de las
columnas y el coeficiente valora la relacin entre las filas. Por tanto (y esto es fuente de confusin
muchas veces), el coeficiente no est valorando la relacin entre los J = 4 momentos, sino entre los
n = 6 sujetos.
Imaginemos 3 entrevistadores y 5 aspirantes a un puesto de trabajo. Imaginemos que cada entre-
vistador hace un ranking con los cinco aspirantes y que estamos interesados en cuantificar el grado de
acuerdo existente entre los entrevistadores. Puesto que el coeficiente (tal como lo hemos definido
aqu y tal como lo aplica el SPSS) permite valorar el grado de acuerdo entre varios conjuntos de rangos
y cada conjunto de rangos corresponde a un entrevistador, para que el coeficiente pueda cuantifi-
car el grado de acuerdo entre los entrevistadores debe considerarse que n corresponde a los entre-
vistadores y J a los aspirantes.
Para poder afirmar que existe concordancia estadsticamente significativa entre n conjuntos de
rangos es necesario hacer inferencias sobre el parmetro W. Esto tiene fcil solucin porque pue-
de transformarse en el estadstico de Friedman (ver, en este mismo captulo, el apartado Prueba
de Friedman) mediante

= [8.27]

Y sabemos que este estadstico se distribuye segn el modelo de probabilidad 2 con J ! 1 grados
de libertad.
En el ejemplo que venimos utilizando en este captulo sobre la relacin entre la calidad del recuer-
do y el paso del tiempo (ver Tablas 8.4 y 8.12), tenemos J = 4, n = 6 y = 1.066,5. Aplicando
[8.26] se obtiene19

= = 0,91

19
La presencia de empates dentro de un mismo conjunto de rangos hace que tome un valor ms pequeo del que le
corresponde. El SPSS utiliza el coeficiente de Kendall aplicando una correccin por empates:

= [8.28]

donde tg tiene el mismo significado que en [8.18]. Esta correccin es importante solamente cuando hay muchos empates.
Captulo 8. ANOVA. Un factor con medidas repetidas 323

Puesto que toma comprendidos entre 0 (acuerdo mnimo) y 1 (acuerdo mximo ), el valor obtenido
indica que el grado de concordancia entre las respuestas de los sujetos es muy alto. Es importante
recordar que no se est valorando el grado de parecido existente entre las medidas repetidas, sino entre
las respuestas de los sujetos (lo cual equivale a valorar el parecido entre los promedios de las medidas
repetidas). Aplicando ahora [8.27] se obtiene20
= 6 (4 ! 1) 0,91 = 16,40
es decir, el mismo valor obtenido al calcular el estadstico de Friedman con estos datos. La significa-
cin estadstica de se valora tal como ya hemos hecho al estudiar la prueba de Friedman.
El coeficiente de concordancia de Kendall est disponible en el SPSS dentro de la opcin Prue-
bas no paramtricas. Para aplicarlo a los datos de la Tabla 8.4:

' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo
recuerdo que se encuentra en la pgina web del manual).
' Seleccionar la opcin Pruebas no paramtricas > K muestras relacionadas del men Analizar para ac-
ceder al cuadro de dilogo Pruebas para varias muestras relacionadas, trasladar las variables
hora, da, semana y mes a la lista Contrastar variables y marcar la opcin W de Kendall.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.19. La
tabla incluye el nmero de casos vlidos (N = 6), el valor del coeficiente de concordancia de Ken-
dall (0,91; este valor se obtiene aplicando la correccin por empates propuesta en la ecuacin [8.28]),
su transformacin en (chi-cuadrado = 16,40; ver [8.27]), los grados de libertad (gl = 3) y el
correspondiente nivel crtico (sig. asinttica = 0,001). Puesto que el nivel crtico obtenido es menor
que 0,05, se puede rechazar la hiptesis de concordancia nula y concluir que existe acuerdo estadsti-
camente significativo entre las respuestas de los sujetos (lo cual equivale a afirmar que los promedios
de los cuatro momentos no son iguales).

Tabla 8.19. Coeficiente de concordancia W de Kendall


N 6
W de Kendall ,91
Chi-cuadrado 16,40
gl 3
Sig. asintt. ,001

Prueba de no-aditividad de Tukey


En un ANOVA de un factor con medidas repetidas se asume que los sujetos o bloques son indepen-
dientes de las medidas repetidas; es decir, que el factor se combina aditivamente (no interacciona) con
los sujetos o bloques. Esto implica asumir que el efecto del factor no depende de los sujetos o bloques
concretos incluidos en el anlisis y, consecuentemente, que en una rplica del mismo estudio con dis-
tintos sujetos debera obtenerse el mismo efecto. Para contrastar este supuesto, Tukey (1949) ha idea-
do un procedimiento conocido como prueba de no-aditividad.
La lgica de esta prueba es relativamente simple. Al asumir que el efecto del factor es indepen-
diente del de los sujetos o bloques, la variabilidad debida a la interaccin entre el factor y los sujetos
se est considerando variabilidad error (variabilidad no explicada ni por el efecto del factor ni por las
diferencias entre los sujetos o bloques). El argumento de Tukey se basa en la consideracin de que, en

20
Aplicando la correccin por empates propuesta en [8.28] se obtiene = 6 (4 ! 1) 0,94 = 16,92, que es el mismo valor
que ofrece el SPSS para el estadstico de Friedman.
324 Anlisis de datos (vol. II)

este escenario, la variabilidad error incluye dos componentes: (1) el relacionado con la interaccin en-
tre el factor y los sujetos, que sera el responsable de la eventual falta de independencia (no-aditividad)
entre el factor y los sujetos o bloques; y (2) el no relacionado con la interaccin entre el factor y los
sujetos, que estara formado por el resto de fuentes de variabilidad error (el efecto debido a los factores
no tenidos en cuenta, los errores de medida, etc.).
El primer componente (al que llamaremos no-aditividad por reflejar el efecto atribuible a la in-
teraccin entre el factor y los sujetos) puede cuantificarse mediante

MCno-aditividad = [8.29]

Y el segundo (al que llamaremos resto por reflejar la parte de la variabilidad error no atribuible a la
interaccin entre el factor y los sujetos), mediante

MCresto = (J ! 1) (n ! 1) MCE ! MCno-aditividad [8.30]

El cociente entre las medias cuadrticas [8.29] y [8.30] permite valorar cmo de grande es la variabili-
dad debida a la interaccin entre el factor y los sujetos en comparacin con el resto de la variabilidad
error:

F = MCno aditividad MCresto [8.31]

Bajo la hiptesis de independencia entre las medidas repetidas y los sujetos o bloques (es decir, bajo
la hiptesis de aditividad), el estadstico [8.31] se distribuye segn el modelo de probabilidad F con 1
y (J ! 1) (n ! 1) ! 1 grados de libertad. Debe rechazarse la hiptesis nula de independencia o aditividad
cuando el valor de [8.31] sea mayor que el cuantil 95 de la distribucin F con 1 y (J ! 1) (n ! 1) ! 1
grados de libertad. El rechazo de esta hiptesis de aditividad indica que no es razonable asumir inde-
pendencia entre las medidas repetidas y los sujetos o bloques y, consecuentemente, que el modelo adi-
tivo podra no ser el ms apropiado.
El estadstico propuesto en [8.31] es sensible a un tipo particular de no-aditividad. En concreto,
a situaciones en las que las medidas repetidas van aumentando o disminuyendo pero no lo hacen de
la misma forma en todos los sujetos o bloques. Por tanto, el no rechazo de la hiptesis de aditividad
no es garanta de que las medidas repetidas sean independientes de los sujetos o bloques. No obstan-
te, es una buena forma de comenzar, pues el no rechazo de la hiptesis de aditividad indica que no
existe evidencia de que las formas habituales de no-aditividad estn presentes en los datos.
El SPSS incluye la prueba de no-aditividad de Tukey en el procedimiento Anlisis de fiabilidad.
Para aplicarla a los datos de nuestro ejemplo sobre la relacin entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4):
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo re-
cuerdo que se encuentra en la pgina web del manual).
' Seleccionar la opcin Escalas > Anlisis de fiabilidad del men Analizar para acceder al cuadro de di-
logo Anlisis de fiabilidad y trasladar las variables hora, da, semana y mes a la lista Elementos.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Anlisis de fiabilidad: Esta-
dsticos y marcar la opcin Prueba de aditividad de Tukey. Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.20. Es-
ta tabla incluye parte de la informacin que ya hemos obtenido con el procedimiento MLG Medidas
repetidas (ver Tabla 8.8). Por ejemplo, el valor del estadstico F de la fila encabezada inter-elementos
(58,13) es el mismo que se obtiene al contrastar el efecto del factor intrasujetos (tiempo en la Tabla 8.8).
Captulo 8. ANOVA. Un factor con medidas repetidas 325

El estadstico [8.31] aparece en la fila encabezada no aditividad: vale 0,05 y tiene asociado un nivel
crtico de 0,821. Por tanto, no existe evidencia de que el efecto del paso del tiempo dependa o est
relacionado con los sujetos incluidos en el anlisis, es decir, no existe evidencia de que el modelo adi-
tivo sea inapropiado.
En una nota a pie de tabla (estimacin de Tukey = 1,096) se ofrece una estimacin del valor al que
habra que elevar cada una de las puntuaciones originales para reducir o eliminar la eventual presen-
cia de interaccin entre las medidas repetidas y los sujetos o bloques.

Tabla 8.20. Prueba de no-aditividad de Tukey


Suma de Media
cuadrados gl cuadrtica F Sig.
Inter-personas 104,00 5 20,80
Intra-personas Inter-elementos 372,00 3 124,00 58,13 ,000
Residual No aditividad ,12a 1 ,12 ,05 ,821
Equilibrio 31,88 14 2,28
Total 32,00 15 2,13
Total 404,00 18 22,44
Total 508,00 23 22,09
Media global = 11,00
a. Estimacin de Tukey de la potencia a la que es necesario elevar las observaciones para conseguir la aditividad
= 1,096.

Ejercicios Soluciones en www.sintesis.com

8.1. Para evaluar el efecto de un determinado frmaco sobre la ansiedad de pacientes diagnosticados de
neurosis, un investigador administr tres dosis diferentes del frmaco a un grupo de pacientes. Pen-
sando que el tipo de neurosis podra alterar el efecto del frmaco, seleccion tres pacientes con neu-
rosis obsesiva, tres con neurosis fbica, tres con neurosis de angustia y tres con neurosis histrica.
Aplic cada nivel del frmaco a un paciente de cada uno de los grupos de neurosis y obtuvo los re-
sultados que muestra la tabla:

Dosis
Neurosis 100 mg 250 mg 500 mg Medias
Obsesiva 72 73 80 75
Fbica 64 77 84 75
De angustia 70 83 90 81
Histrica 62 71 86 73
Medias 67 76 85 76

Asumiendo que se cumplen los supuestos en los que se basa el estadstico F del ANOVA A-MR y
utilizando = 0,05,
a. Contrastar la hiptesis nula de que el nivel de ansiedad no cambia con la dosis.
b. Estimar el tamao del efecto e interpretar el resultado.
c. Calcular la potencia del contraste.
326 Anlisis de datos (vol. II)

d. Averiguar entre qu dosis existen diferencias significativas.


e. Comparar la media correspondiente a la dosis 500 mg con las medias de las otras dos dosis toma-
das juntas.
f. Averiguar si la relacin entre la cantidad de frmaco y el nivel de ansiedad es de tipo lineal.

8.2. Reproducir en el SPSS los datos del ejercicio anterior (cada dosis en una columna) y responder a las
siguientes preguntas:
a. Es razonable asumir esfericidad?
b. Cunto vale la psilon de Greenhouse-Geisser?
c. Cambia la decisin sobre la hiptesis nula cuando se utilizan los estadsticos F con los grados de
libertad corregidos?
d. Cambia la decisin sobre la hiptesis nula cuando se utiliza los estadsticos de la aproximacin
multivariada?
e. Es apropiado utilizar la solucin multivariada con estos datos?
f. Comprobar si con la prueba de Friedman se llega a la misma conclusin que con el estadstico F.

8.3. Un educador est interesado en comprobar si las puntuaciones de una prueba de razonamiento verbal
se mantienen constantes o se modifican entre los 7, 8 y 9 aos de edad. Selecciona una muestra alea-
toria de 10 nios de 7 aos de edad y les mide su nivel de razonamiento verbal. Vuelve a efectuar el
mismo registro a los 8 y a los 9 aos. La siguiente tabla muestra los resultados obtenidos.

Sujetos
Edad 1 2 3 4 5 6 7 8 9 10 Medias
7 aos 20 28 24 15 30 39 15 21 10 38 24
8 aos 28 29 29 20 32 41 19 25 12 45 28
9 aos 24 33 31 16 34 43 23 29 14 43 29
Medias 24 30 28 17 32 41 19 25 12 42 27

Asumiendo que se cumplen los supuestos en los que se basa el estadstico F del ANOVA A-MR y
utilizando = 0,05,
a. Contrastar la hiptesis nula de que las puntuaciones en razonamiento verbal no cambian entre los
7 y los 9 aos.
b. Estimar el tamao del efecto e interpretar el resultado.
c. Calcular la potencia del contraste.
d. Averiguar si la relacin entre la edad y las puntuaciones en razonamiento verbal es de tipo lineal.
e. Contrastar la hiptesis del apartado a como si se tratara de un diseo completamente aleatorizado
y comparar ambos resultados.
f. La comparacin entre los resultados de los apartados a y e refleja una de las principales ventajas
de los diseos de medidas repetidas. De qu ventaja se trata?

8.4. En un estudio sobre memoria a corto plazo se han utilizando 3 listas diferentes: (1) nmeros, (2) pa-
labras con sentido y (3) palabras sin sentido. Al poner a prueba mediante un ANOVA A-MR la hip-
tesis de que el rendimiento en las tres tareas es el mismo, hemos obtenido F = 12,86. Sabiendo que en
el estudio han intervenido 7 sujetos,
a. Contrastar la hiptesis nula de igualdad de medias, es decir, la hiptesis nula de que el rendimien-
to es el mismo en las tres tareas ( = 0,05).
b. Estimar el tamao del efecto e interpretar el resultado.
Captulo 8. ANOVA. Un factor con medidas repetidas 327

8.5. Imaginemos una situacin en la que 6 sujetos son evaluados de 0 a 10 por 3 jueces independientes (por
ejemplo, 6 alumnos son calificados por 3 profesores, 6 candidatos a un puesto de trabajo son clasifica-
dos por 3 entrevistadores, etc.). La siguiente tabla ofrece unos datos ficticios:

Sujetos
Jueces 1 2 3 4 5 6
1 8 7 2 1 6 3
2 4 9 3 1 6 2
3 6 9 4 2 5 3

Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos = 0,05.
a. Utilizar la prueba de Friedman para contrastar la hiptesis nula de que los seis sujetos han recibi-
do la misma valoracin promedio.
b. Utilizar la prueba de Friedman para contrastar la hiptesis nula de que los tres jueces estn asig-
nando la misma valoracin promedio.
c. Cul de los dos contrastes anteriores est informando del grado de acuerdo existente entre las va-
loraciones de los jueces? Por qu?

8.6. En un experimento sobre percepcin visual se han utilizado 5 estmulos luminosos (A, B, C, D y E)
de diferente intensidad. Los estmulos se han presentado aleatoriamente a 8 sujetos seleccionados al
azar. Cada sujeto ha ordenado los estmulos segn su propia percepcin de la intensidad luminosa de
los mismos. La tabla muestra los resultados obtenidos:

Orden de Sujetos
clasificacin de
los estmulos 1 2 3 4 5 6 7 8
1 C C B C D D C C
2 D B C B B C D A
3 B D E D C E B D
4 A E D E E A A B
5 E A A A A B E E

Contrastar, con = 0,05, la hiptesis nula de que los cinco estmulos son percibidos como igualmen-
te intensos.

8.7. Hemos presentado a 6 sujetos elegidos al azar 4 discos de colores: rojo (R), verde (V), azul (A) y ne-
gro (N). A cada sujeto se le ha pedido situar los 4 estmulos en un continuo subjetivo con los polos
alegre y triste. La siguiente tabla muestra los resultados obtenidos.

Sujetos Alegre Triste


1 R V A N
2 R A V N
3 V R A N
4 R V A N
5 V A R N
6 V R A N
328 Anlisis de datos (vol. II)

Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos = 0,05 (para reproducir estos datos en el SPSS debe tenerse en cuenta que los niveles del
factor son los cuatro colores y que las puntuaciones que cada sujeto asigna a los colores vienen dadas
por la posicin que ocupan los colores en el continuo alegre-triste):
a. Contrastar la hiptesis nula de que los cuatro colores son percibidos como igualmente alegres o
tristes.
b. Utilizar el resultado del apartado anterior para decidir si existe acuerdo significativo entre las res-
puestas de los sujetos.
9
Anlisis de varianza (IV)
Dos factores
con medidas repetidas

ANOVA de dos factores con medidas repetidas en ambos


En el diseo de un factor con medidas repetidas estudiado en el captulo anterior, todos los
sujetos participan en todas las condiciones del estudio. En el diseo de dos factores, ambos
con medidas repetidas (AB-MR), ocurre exactamente lo mismo: todos los sujetos participan
en todas las condiciones del estudio, es decir, en todas las condiciones resultantes de com-
binar los niveles de ambos factores (ver Tabla 8.2.2).
Imaginemos que, para estudiar la relacin entre la calidad del recuerdo y el paso del tiem-
po, a una muestra aleatoria de sujetos se les hace memorizar dos listas distintas: una de letras
y otra de nmeros. Ms tarde, al cabo de una hora, un da, una semana y un mes, se les so-
licita repetir ambas listas y se registra el nmero de aciertos. Tenemos dos factores o varia-
bles categricas: contenido (con dos niveles: nmeros y letras) y tiempo (con cuatro niveles:
hora, da, semana, mes); y una variable dependiente (calidad del recuerdo) que hemos cuan-
tificado mediante el nmero de aciertos. Los dos factores son intrasujetos pues a todos los su-
jetos se les hace memorizar nmeros y letras, y a todos se les pide hacerlo al cabo de una
hora, un da, una semana y un mes; es decir, todos los sujetos pasan por todas las condiciones
del estudio (por todas las condiciones resultantes de combinar los niveles de ambos factores).
Las fortalezas y debilidades de un diseo de estas caractersticas son las mismas que las
del diseo de un factor con medidas repetidas. Requiere utilizar menos sujetos que un dise-
o completamente aleatorizado y permite aislar y eliminar la variabilidad debida a las dife-
rencias entre los sujetos (pues todos ellos participan en todas las condiciones del estudio).
Como contrapartida, los supuestos del anlisis se vuelven algo ms exigentes y es necesa-
rio vigilar algunos efectos derivados del hecho de utilizar los mismos sujetos (como el efecto
de arrastre o el efecto del aprendizaje por la prctica).
330 Anlisis de datos (vol. II)

La Tabla 9.1 muestra la estructura de los datos y la notacin que utilizaremos en un dise-
o de dos factores con medidas repetidas en ambos. Seguimos llamando A y B a los factores
e Y a la variable dependiente (la variable cuantitativa de la que se toman varias medidas). A
los J niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). A los
K niveles del factor B los representamos mediante b1, b2, ..., bk..., bK (k = 1, 2, ..., K ). A ca-
da sujeto lo representamos mediante si (i = 1, 2, ..., n). Los n sujetos incluidos en el estudio
participan en todas las condiciones del diseo, es decir, en las JK condiciones resultantes de
combinar los J niveles del factor A con los K niveles del factor B.

Tabla 9.1. Estructura de los datos en un diseo de dos factores con medidas repetidas en ambos (AB-MR)

a1 aj aJ
Sujetos b1 bk bK b1 bk bK b1 bk bK
s1
s2

si

sn

Sumando puntuaciones se obtienen los totales y las medias necesarios para el anlisis. As,
por ejemplo, con las puntuaciones de cada fila de la tabla se obtienen los totales y las medias
correspondientes a cada sujeto; con las puntuaciones de cada columna se obtienen los tota-
les y las medias correspondientes a cada combinacin AB; etc. Siguiendo la lgica ya apli-
cada a propsito del modelo completamente aleatorizado (ver ecuaciones [7.1] a [7.5]) se
obtienen el resto de totales y medias.
En un modelo de dos factores, los efectos que interesa analizar son tres: los dos efectos
principales (es decir, los efectos de cada factor individualmente considerado, A y B ) y el
efecto de la interaccin entre ambos factores (es decir, el efecto conjunto o combinado de
ambos factores, AB). El hecho de que el diseo sea completamente aleatorizado o de medidas
repetidas no cambia esto. Y para poder analizar estos tres efectos, es necesario identificar las
diferentes fuentes de variabilidad presentes en el diseo.
Ya hemos visto que, en un diseo completamente aleatorizado (CA), la variabilidad to-
tal (la variabilidad que se da entre cada observacin y la media total) se descompone en va-
riabilidad intergrupos y variabilidad intragrupos o error. Tambin hemos visto que en un
diseo con medidas repetidas (MR) hay una forma ms de variabilidad: la debida a las di-
ferencias entre los sujetos o variabilidad intersujetos (esta fuente de variabilidad tambin
existe en un diseo CA, pero no hay forma de aislarla).
Adems, si el diseo tiene dos factores (tanto si es CA como si es MR), la variabilidad
intergrupos puede descomponerse, a su vez, en la variabilidad asociada al factor A, la aso-
ciada al factor B y la asociada a la interaccin AB. Todas estas fuentes de variabilidad ya
las hemos estudiado en alguno de los tres captulos anteriores.
Captulo 9. ANOVA. Dos factores con medidas repetidas 331

En esta forma de descomponer la variabilidad total se est asumiendo que los sujetos son
independientes del resto de efectos. Por tanto, las interacciones AS, B S y AB S constitu-
yen variabilidad error. En el diseo de un factor MR (ver captulo anterior), la variabilidad
error es precisamente la variabilidad asociada a la interaccin entre el factor A y los sujetos.
En el diseo de dos factores MR la variabilidad error tambin incluye la variabilidad debi-
da a la interaccin entre los sujetos y cada uno de los efectos intrasujetos, es decir, la debida
a la interaccin entre el efecto de A y los sujetos (AS ), la debida a la interaccin entre el
efecto de B y los sujetos (BS ) y la debida a la interaccin entre el efecto de AB y los sujetos
(ABS ). En consecuencia, en un diseo de dos factores, ambos con medidas repetidas, la va-
riabilidad total puede descomponerse en siete fuentes distintas de variabilidad. La Tabla 9.2
muestra cmo cuantificarlas.

Tabla 9.2. Medias cuadrticas en un diseo de dos factores con medidas repetidas en ambos (AB-MR)

MCA =

MCB =

MCAB =

MCS =

MCAS =

MCBS =

MCABS =

Por tanto, no existe una nica fuente de variabilidad error, sino tres. Y para valorar la sig-
nificacin de los efectos presentes en el diseo (A, B y AB), cada uno debe compararse con
su correspondiente variabilidad error:

= [9.1]

As, para valorar el efecto del factor A se utiliza el cociente entre la media cuadrtica de A
y la media cuadrtica de la interaccin AS. Para valorar el efecto del factor B se utiliza el
cociente entre la media cuadrtica de B y la media cuadrtica de la interaccin BS. Y Para
valorar el efecto de la interaccin AB se utiliza el cociente entre la media cuadrtica de AB
y la media cuadrtica de la interaccin ABS.
La lgica de estos tres cocientes se entender fcilmente si se considera que valorar el
efecto del factor A consiste en comparar las medias marginales correspondientes a los nive-
les del factor A tras promediar el resto de efectos. Ahora bien, al promediar las K puntua-
ciones de cada sujeto se obtiene un diseo de un factor MR idntico al estudiado en el cap-
332 Anlisis de datos (vol. II)

tulo anterior. Analizando estos promedios con el estadstico F del modelo de un factor MR
se obtiene el mismo resultado que con la solucin propuesta en [9.1]. Exactamente lo mismo
vale decir del efecto del factor B.
En relacin con el efecto de la interaccin, la nica variabilidad error es la que se da en-
tre cada puntuacin individual y las medias marginales de su propia columna (ver Tabla 9.1).
Y esa variabilidad es justamente la debida a la interaccin entre AB y los sujetos.
El Cuadro 9.2 ofrece un resumen de cmo analizar los tres efectos del diseo (A, B y AB)
mediante la aplicacin de los estadsticos F propuestos en [9.1]. Estos estadsticos se dis-
tribuyen segn el modelo de probabilidad F con los grados de libertad correspondientes al
numerador y al denominador de cada cociente. Ahora bien, para que esto sea as, es necesa-
rio seguir asumiendo, como en cualquier otro modelo de ANOVA, que se dan ciertas con-
diciones. Estas condiciones son las mismas que las estudiadas a propsito del modelo de un
factor MR, pero con algunos matices que trataremos en el siguiente apartado.

Cuadro 9.2. Resumen del ANOVA de dos factores con medidas repetidas en ambos (AB-MR)

1. Hiptesis: las hiptesis sobre los efectos del factor A, el factor B y la interaccin AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: muestra de tamao n aleatoriamente seleccionada de JK poblaciones nor-
males con la misma varianza; tambin se asume que la matriz de varianzas-covarian-
zas de las JK medidas repetidas es esfrica (ver siguiente apartado).
3. Estadsticos del contraste (ver ecuacin [9.1] y Tabla 9.12):
a. Para H0 (A) : FA = MCA MCAS .
b. Para H0 (B) : FB = MCB MCBS .
c. Para H0 (AB) : FAB = MCAB MCABS .
4. Distribuciones muestrales:
a. FA se distribuye segn F con J !1 y (J !1)(n !1) grados de libertad.
b. FB se distribuye segn F con K !1 y (K !1)(n !1) grados de libertad.
c. FAB se distribuye segn F con (J !1)(K !1) y (J !1)(K !1)(n !1) grados de libertad.
5. Zonas crticas:
a. FA $
> FJ !1, (J !1)(n !1); 1! .
b. FB $
> FK !1, (K !1)(n !1); 1! .
c. FAB $
> F(J !1)(K !1), (J !1)(K !1)(n !1); 1! .
6. Reglas de decisin: las mismas que en el modelo de dos factores completamente
aleatorizados (ver Cuadro 7.1).
7. Niveles crticos (valores p): los mismos que en el modelo de dos factores comple-
tamente aleatorizados (ver Cuadro 7.1).

La Tabla 9.2 y el Cuadro 9.2 contienen la informacin necesaria para resolver las ecua-
ciones que permiten analizar los tres efectos del diseo. No obstante, en lugar de realizar
clculos a mano, explicaremos todos los detalles del anlisis utilizando el SPSS.
Captulo 9. ANOVA. Dos factores con medidas repetidas 333

Supuestos del modelo


Si consideramos un diseo de dos factores MR como un diseo de un factor con JK niveles,
los supuestos mencionados a propsito del modelo de un factor son directamente traslada-
bles al de dos factores. En lugar de las J poblaciones del modelo de un factor, en el modelo
de dos factores tenemos JK poblaciones normales con la misma varianza de las que se ex-
traen sendas muestras aleatorias de n observaciones, con la peculiaridad de que las distintas
muestras no son independientes entre s (bien porque se trata de los mismos sujetos, bien
porque se trata de sujetos igualados mediante algn vnculo relevante para el anlisis).
Adems, se asume que la matriz de varianzas-covarianzas de las JK medidas repetidas
es esfrica, es decir, que las varianzas de las diferencias entre cada dos medidas son iguales
(ver, en el captulo anterior, los supuestos del modelo de un factor). Si esta matriz global es
esfrica, los tres estadsticos propuestos en el Cuadro 9.2 son vlidos para contrastar sus
respectivas hiptesis1. Si esta matriz global no es esfrica, todava es posible que exista es-
fericidad local referida a los niveles del factor A o a los niveles del factor B.
Por tanto, para decidir aplicar los estadsticos F propuestos en el Cuadro 9.2, conviene
chequear el supuesto de esfericidad para cada efecto por separado. En condiciones de nor-
malidad y esfericidad, estos estadsticos permiten contrastar sus respectivas hiptesis con
buen control sobre la tasa de error y con tanta o ms potencia que cualquier otro procedi-
miento. En condiciones de no-esfericidad, es recomendable utilizar otros estadsticos. En el
captulo anterior, en el apartado Alternativas al estadstico F, se han presentado estos otros
estadsticos y la estrategia recomendada para contrastar un efecto intrasujetos.

Medidas del tamao del efecto


Al igual que en otros modelos de ANOVA, la versin parcial de permite obtener una
estimacin de la proporcin de varianza comn entre cada efecto y la variable dependiente:

= [9.2]

Esta medida de asociacin parcial es la que ofrece el SPSS como estimacin del tamao del
efecto. No obstante, puesto que tiende a ofrecer una estimacin inflada de la verdadera
proporcin de varianza compartida, la medida de asociacin que tiende a acaparar las prefe-
rencias de los expertos para cuantificar el tamao de un efecto intrasujetos es omega-cua-
drado ( ).
Cuando los factores son de efectos fijos, el tamao del efecto puede estimarse (ver Kirk,
1995, pg. 460) mediante

= [9.3]

1
En el caso de que pueda asumirse esfericidad global, los tres estadsticos F propuestos en el Cuadro 9.2 podran cal-
cularse utilizando en el denominador la media cuadrtica error resultante de combinar las tres medias cuadrticas error
propuestas (ver Kirk, 1995, pgs. 463-464).
334 Anlisis de datos (vol. II)

El estadstico est estrechamente relacionado con la medida del tamao del efecto de
Cohen (1988):

= [9.4]

La regla propuesta por Cohen para interpretar estas medidas sigue siendo vlida aqu. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaos pequeo, media-
no y grande. En el caso de ( f en la notacin de Cohen), los valores de referencia son 0,10,
0,25 y 0,40.

Clculo de la potencia y del tamao muestral


Para el clculo de la potencia, sirve aqu lo ya estudiado a propsito de otros modelos. Par-
timos de una estimacin del parmetro de no centralidad y de su transformacin en :

= , = [9.5]

La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apndi-
ce final a partir del valor de y de los grados de libertad de cada estadstico Fefecto. Para
estimar el tamao muestral necesario para alcanzar una determinada potencia al contrastar un
efecto concreto, puede utilizarse la ecuacin [7.26] y los pasos descritos en ese apartado.

Comparaciones mltiples
El hecho de que un diseo sea de medidas repetidas no cambia las cosas a la hora de cmo
proceder tras detectar un efecto significativo. En el caso de que resulte significativo un efec-
to principal (A, B), el anlisis debe continuar comparando los niveles correspondientes a ese
efecto para poder precisar dnde se encuentran las diferencias. En el caso de que resulte sig-
nificativo el efecto de la interaccin (AB), el anlisis debe continuar comparando entre s los
efectos simples. Todo esto, al margen de que el estudio incluya objetivos concretos que exi-
jan comparaciones planeadas.
Si puede asumirse esfericidad, los procedimientos descritos a propsito del modelo de
dos factores CA (ver, en el Captulo 7, el apartado Comparaciones mltiples) sirven tambin
para el modelo de dos factores MR. nicamente hay que tener en cuenta que, ahora, cada
efecto tiene su propia media cuadrtica y sus propios grados de libertad.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas o a priori siguen siendo vlidos si se tiene la precaucin
de utilizar las ecuaciones propuestas para el caso en que no pueda asumirse que las varianzas
poblacionales son iguales.
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) realizar com-
paraciones por pares aplicando la prueba T de Student para muestras relacionadas y corri-
giendo la tasa de error por comparacin ( C) mediante el mtodo de Dunn-Bonferroni, es
decir, dividiendo F, generalmente 0,05, entre el nmero de comparaciones por pares lle-
vadas a cabo. En el siguiente apartado se explica cmo hacer todo esto con el SPSS.
Captulo 9. ANOVA. Dos factores con medidas repetidas 335

ANOVA de dos factores con medidas repetidas en ambos (AB-MR) con SPSS
En este apartado se explica cmo utilizar el SPSS para aplicar un ANOVA de dos factores
con medidas repetidas en ambos2. Para ello, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad con cada uno de los tres efectos presentes en el diseo (A, B y AB), (2) con-
trastar las hiptesis globales referidas a esos tres efectos, (3) estimar el tamao del efecto y
la potencia asociada al contraste de cada uno de esos tres efectos, (4) realizar comparaciones
post hoc para interpretar los efectos principales, (5) realizar comparaciones mltiples para
analizar los efectos simples y (6) obtener un grfico de lneas y comparar entre s los efectos
simples para interpretar el efecto de la interaccin.
Estas 6 tareas las vamos a realizar con los datos de un estudio diseado para valorar la
relacin entre la calidad del recuerdo, el tipo de material recordado y el paso del tiempo. A
seis sujetos aleatoriamente seleccionados se les ha hecho memorizar durante 20 minutos dos
listas distintas: una de nmeros de dos cifras y otra de slabas de dos letras. Ms tarde, al
cabo de una hora, un da, una semana y un mes, se les ha solicitado reproducir ambas listas
y, como una medida de la calidad del recuerdo, se ha contabilizado el nmero de aciertos. La
Tabla 9.3 recoge los resultados obtenidos.
El propsito del estudio es averiguar si existen diferencias en la calidad del recuerdo
(variable dependiente cuantitativa) en funcin de dos variables independientes o factores: el
contenido del material memorizado (nmeros o letras) y el paso del tiempo (una hora, un da,
una semana, un mes). Puesto que todos los sujetos pasan por todas las condiciones (a todos
los sujetos se les hace memorizar y reproducir las dos listas en los cuatro momentos), se tra-
ta de un diseo con dos factores MR (tiempo, con cuatro niveles, y contenido, con dos ni-
veles) y una variable dependiente cuantitativa (la calidad del recuerdo, cuantificada como
el nmero de aciertos.

Tabla 9.3. Datos de un diseo de dos factores (contenido tiempo) con medidas repetidas en ambos

Nmeros Letras
Sujetos Hora Da Semana Mes Hora Da Semana Mes
1 6 6 3 2 8 6 4 3
2 7 5 5 5 10 8 5 2
3 4 2 1 3 7 7 2 2
4 7 5 3 4 11 9 3 6
5 6 4 4 5 10 6 4 3
6 5 2 1 1 9 4 3 5

Para reproducir los datos de la Tabla 9.3 en el Editor de datos del SPSS es necesario crear
tantas variables como condiciones resultan de combinar los niveles de ambos factores. Pues-
to que el estudio incluye un factor con 4 niveles y otro con 2, es necesario crear 4 2 = 8
variables. Para nombrar estas variables puede utilizarse cualquier nombre vlido, pero, ob-

2
En la explicacin de algunos de los resultados obtenidos se asumir que el lector est familiarizado con el modelo de un
factor con medidas repetidas estudiado en el captulo anterior.
336 Anlisis de datos (vol. II)

viamente, conviene asignarles nombres que permitan identificarlas fcilmente. En el ejem-


plo que reproduce la Figura 9.1 se han asignado los siguientes nombres:
n_hora = lista de nmeros, una hora (combinacin: 1, 1)
n_da = lista de nmeros, un da (combinacin: 1, 2)
n_semana = lista de nmeros, una semana (combinacin: 1, 3)
n_mes = lista de nmeros, un mes (combinacin: 1, 4)
l_hora = lista de letras, una hora (combinacin: 2, 1)
l_da = lista de letras, un da (combinacin: 2, 2)
l_semana = lista de letras, una semana (combinacin: 2, 3)
l_mes = lista de letras, un mes (combinacin: 2, 4)
La Figura 9.1 muestra el aspecto del Editor de datos despus de reproducir en l los datos
de la Tabla 9.3. Por supuesto, puede optarse por utilizar nombres ms sencillos para las
variables; por ejemplo, x1, x2, x3, ..., x8; nosotros hemos optado por asignar nombres que
permiten identificar fcilmente la combinacin de niveles que representa cada variable..

Figura 9.1. Datos de la Tabla 9.3 reproducidos en el Editor de datos

La Figura 9.2 muestra los diagramas de caja de la calidad del recuerdo correspondientes a
cada medida repetida. Ninguno de los diagramas de caja muestra casos anmalos ni asime-
tras evidentes. Y en la dispersin de las diferentes medidas no parece haber diferencias
sustanciales. Pero el rendimiento medio vara sensiblemente entre condiciones: la calidad del
recuerdo va disminuyendo con el paso del tiempo, si bien esta disminucin es ms acusada
en el caso de la lista de letras (los cuatro diagramas de la mitad derecha); y el punto de par-
tida de esta lista es claramente ms alto que el de la de nmeros.

Figura 9.2. Diagramas de caja correspondientes a los datos de la Tabla 9.3


Captulo 9. ANOVA. Dos factores con medidas repetidas 337

Para analizar los efectos presentes en el diseo:


' Reproducir en el Editor de datos los datos de la Tabla 9.3 tal como se muestra en la Fi-
gura 9.1 (o abrir el archivo Tabla 9.3 contenido tiempo recuerdo que se encuentra en la
pgina web del manual).
' Seleccionar la opcin Modelo lineal general > Medidas repetidas del men Analizar para ac-
ceder al cuadro de dilogo (previo al principal) Medidas repetidas: Definir factores.
' Asignar nombre (contenido) y nmero de niveles (2) al primer factor MR, y pulsar el
botn Aadir. Asignar nombre (tiempo) y nmero de niveles (4) al segundo factor MR,
y pulsar el botn Aadir (utilizar los botones Cambiar y Borrar para modificar o eliminar,
respectivamente, factores previamente aadidos).
' Pulsar el botn Definir para acceder al cuadro de dilogo principal Medidas repetidas. La
lista Variables intra-sujetos est preparada para recibir los nombres de las variables que
corresponden a los niveles de los factores previamente definidos. Es importante asegu-
rarse de que cada variable se traslada al lugar correcto. Para lo cual debe tenerse en cuen-
ta que el orden en el que aparecen listadas las medidas repetidas en el cuadro Variables
intrasujetos depende del orden en el que se han definido previamente los factores MR en
el cuadro de dilogo previo al principal.
' Seleccionar las 8 variables de la lista de variables y trasladarlas, en el orden correcto, a
la lista Variables intra-sujetos.

Todas estas selecciones son necesarias para llevar a cabo el anlisis bsico, es decir, para
contrastar las tres hiptesis globales referidas a los tres efectos del diseo: contenido, tiempo
y contenido*tiempo. Las selecciones que se ofrecen a continuacin sirven para seguir avan-
zando en el anlisis. Para obtener un grfico de lneas basado en las medias de las casillas:
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Medidas repetidas: Gr-
ficos de perfil; trasladar el factor tiempo al cuadro Eje horizontal y el factor contenido al
cuadro Lneas separadas, y pulsar el botn Aadir para trasladar las variables seleccio-
nadas a la lista inferior y, con ello, hacer efectiva la seleccin. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.

Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Op-
ciones; trasladar el factor tiempo y la interaccin contenido*tiempo a la lista Mostrar las
medias para, marcar la opcin Comparar los efectos principales y seleccionar la opcin
Bonferroni dentro del men desplegable Ajuste del intervalo de confianza (para controlar la
tasa de error). Pulsar el botn Continuar para volver al cuadro de dilogo principal.
Puesto que el factor contenido solamente tiene dos niveles, no es necesario solicitar
este tipo de comparaciones. Y la seleccin de la interaccin contenido*tiempo sirve para
obtener informacin sobre los efectos simples si, ms tarde, en lugar de ejecutar el pro-
cedimiento, se pega la sintaxis y se modifica la lnea /EMMEANS = TABLES(contenido*
tiempo) aadiendo: COMPARE(contenido) ADJ(BONFERRONI). La lnea completa debe
quedar de la siguiente manera:
/EMMEANS = TABLES(tiempo*contenido) COMPARE(contenido) ADJ(BONFERRONI).
338 Anlisis de datos (vol. II)

Para obtener estimaciones del tamao de los efectos del diseo y para calcular la potencia
asociada a cada contraste:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Opc-
iones y marcar las casillas Estadsticos descriptivos, Estimaciones del tamao del efecto y
Potencia observada (siempre es conveniente solicitar estadsticos descriptivos e informar
de ellos antes que de ninguna otra cosa).
Para comparar los efectos simples entre s, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interaccin:
' Pulsar el botn Contrastes para acceder al subcuadro de dilogo Medidas repetidas: Con-
trastes; seleccionar el factor contenido, seleccionar la opcin Simple del men desple-
gable Contrastes, seleccionar Primera como categora de referencia y pulsar el botn Cam-
biar para validar la seleccin hecha. Repetir la operacin para el factor tiempo.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinmi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relacin (lineal, cua-
drtica, cbica, etc.) existente entre el factor y la variable dependiente. Pero tambin es
posible solicitar comparaciones distintas de las de tendencia seleccionando alguna de las
opciones del men desplegable Contraste. La opcin Simple (que es la que nosotros he-
mos elegido) permite comparar cada categora o nivel con la categora de referencia. Se
puede elegir como categora de referencia la primera o la ltima (tambin se puede ele-
gir cualquier otra categora mediante sintaxis; veremos cmo hacerlo ms adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.4 a 9.14
y el grfico de lneas que muestra la Figura 9.3.
La Tabla 9.4 ofrece algunos estadsticos descriptivos para cada medida repetida: la me-
dia, la desviacin tpica y el nmero de observaciones. Estas medias son las que se utilizan
para construir el grfico de lneas que se muestra ms adelante en la Figura 9.3 y es la in-
formacin que hay que revisar en primer lugar, junto con los diagramas de caja de la Figu-
ra 9.2, y de la que hay que informar en primer lugar.

Tabla 9.4. Estadsticos descriptivos


Media Desv. tp. N
Nmeros - hora 5,83 1,17 6
Nmeros - da 4,00 1,67 6
Nmeros - semana 2,83 1,60 6
Nmeros - mes 3,33 1,63 6
Letras - hora 9,17 1,47 6
Letras - da 6,67 1,75 6
Letras - semana 3,50 1,05 6
Letras - mes 3,50 1,64 6

Esfericidad
La Tabla 9.5 ofrece la prueba de esfericidad de Mauchly. La tabla incluye un estadstico pa-
ra cada uno de los efectos presentes en el modelo (esfericidad local). Puesto que el nivel
crtico (sig.) es mayor que 0,05 en todos los casos, puede asumirse que las correspondientes
Captulo 9. ANOVA. Dos factores con medidas repetidas 339

matrices son esfricas (la significacin referida al factor contenido no aparece porque cuan-
do un factor tiene dos niveles no tiene sentido hablar de esfericidad; con dos niveles sola-
mente existe una covarianza que, obviamente, es igual a s misma).

Tabla 9.5. Prueba de esfericidad de Mauchly


Medida: MEASURE_1

psilon
Efectos W de Chi-cuadrado Greenhouse- Huynh- Lmite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
contenido 1,00 ,00 0 . 1,00 1,00 1,00
tiempo ,42 3,25 5 ,672 ,75 1,00 ,33
contenido * tiempo ,22 5,65 5 ,356 ,52 ,71 ,33

Hiptesis globales (efecto de A, de B y de AB )


Las Tablas 9.6 y 9.7 contienen los estadsticos que incluye el procedimiento para el contraste
de las hiptesis referidas a los dos efectos principales y al efecto de la interaccin.
Si puede asumirse esfericidad, los estadsticos F convencionales son la mejor eleccin.
Estos estadsticos se encuentran en la Tabla 9.7 en la fila encabezada esfericidad asumida.
En primer lugar, puesto que el nivel crtico (sig. = 0,006) asociado al efecto del factor con-
tenido es menor que 0,05, se puede rechazar la hiptesis nula de igualdad de medias referi-
da al factor contenido y concluir que la calidad del recuerdo no es la misma con las dos listas
utilizadas. En segundo lugar, puesto que el nivel crtico (sig. < 0,0005) asociado al efecto del
factor tiempo es menor que 0,05, se puede rechazar la hiptesis nula de igualdad de medias
referida a ese factor y concluir que la calidad del recuerdo no es la misma en los cuatro mo-
mentos incluidos en el anlisis. Por ltimo, puesto que el nivel crtico (sig. = 0,011) asocia-
do al efecto de la interaccin contenido*tiempo es menor que 0,05, se puede rechazar la hi-
ptesis nula referida al efecto de la interaccin y concluir que el efecto de la interaccin es
significativo.

Tabla 9.6. Contrastes multivariados


Efectos Gl de la Gl del
intra-sujetos Valor F hiptesis error Sig.
contenido Traza de Pillai ,80 20,35 1,00 5,00 ,006
Lambda de Wilks ,20 20,35 1,00 5,00 ,006
Traza de Hotelling 4,07 20,35 1,00 5,00 ,006
Raz mayor de Roy 4,07 20,35 1,00 5,00 ,006
tiempo Traza de Pillai ,99 97,68 3,00 3,00 ,002
Lambda de Wilks ,01 97,68 3,00 3,00 ,002
Traza de Hotelling 97,68 97,68 3,00 3,00 ,002
Raz mayor de Roy 97,68 97,68 3,00 3,00 ,002
contenido * tiempo Traza de Pillai ,86 6,28 3,00 3,00 ,083
Lambda de Wilks ,14 6,28 3,00 3,00 ,083
Traza de Hotelling 6,28 6,28 3,00 3,00 ,083
Raz mayor de Roy 6,28 6,28 3,00 3,00 ,083
340 Anlisis de datos (vol. II)

Tabla 9.7. Contrastes univariados (estadsticos F con y sin modificacin de los grados de libertad)
Medida: MEASURE_1

cuadrados tipo III

Media cuadrtica

Parmetro de no
Eta al cuadrado
Significacin

Potencia a
centralidad

observada
Suma de

parcial
Fuente

gl

F
contenido Esfericidad asumida 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Greenhouse-Geisser 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Huynh-Feldt 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Lmite-inferior 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Error Esfericidad asumida 8,60 5,00 1,72
(contenido) Greenhouse-Geisser 8,60 5,00 1,72
Huynh-Feldt 8,60 5,00 1,72
Lmite-inferior 8,60 5,00 1,72
tiempo Esfericidad asumida 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Greenhouse-Geisser 145,73 2,26 64,50 38,06 ,000 ,88 85,99 1,00
Huynh-Feldt 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Lmite-inferior 145,73 1,00 145,73 38,06 ,002 ,88 38,06 1,00
Error Esfericidad asumida 19,15 15,00 1,28
(tiempo) Greenhouse-Geisser 19,15 11,30 1,69
Huynh-Feldt 19,15 15,00 1,28
Lmite-inferior
19,15 5,00 3,83

contenido * Esfericidad asumida 21,06 3,00 7,02 5,32 ,011 ,52 15,95 ,85
tiempo Greenhouse-Geisser 21,06 1,56 13,48 5,32 ,040 ,52 8,30 ,61
Huynh-Feldt 21,06 2,14 9,82 5,32 ,023 ,52 11,40 ,73
Lmite-inferior 21,06 1,00 21,06 5,32 ,069 ,52 5,32 ,46
Error Esfericidad asumida 19,81 15,00 1,32
(contenido*tiempo) Greenhouse-Geisser 19,81 7,81 2,54
Huynh-Feldt 19,81 10,72 1,85
Lmite-inferior 19,81 5,00 3,96
a. Calculado con alfa = ,05.

Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estadsticos
multivariados de la Tabla 9.6 y (2) los estadsticos F de la Tabla 9.7 con los grados de liber-
tad modificados mediante el ndice corrector psilon. La Tabla 9.6 ofrece la solucin basa-
da en los estadsticos multivariados. Al contrastar los dos efectos principales (contenido y
tiempo) se llega a la misma conclusin que con los estadsticos F, pero al contrastar el efecto
de la interaccin se llega a una conclusin distinta (pues 0,083 > 0,05). Ya hemos sealado
que, con muestras muy pequeas, la aproximacin multivariada es poco potente (particu-
larmente cuando el nmero de casos es menor que el de medidas repetidas).
En el caso de que la solucin basada en los estadsticos multivariados no lleve al recha-
zo de alguna hiptesis (como ocurre aqu con la hiptesis referida la interaccin), el anlisis
debe continuar tomando como referencia los estadsticos F con los grados de libertad mo-
dificados (ver, en el captulo anterior, el apartado Alternativas al estadstico F ). Estos esta-
dsticos se encuentran en la Tabla 9.7. La peculiaridad que los distingue es que su distribu-
cin muestral est modificada multiplicando los grados de libertad originales por el ndice
Captulo 9. ANOVA. Dos factores con medidas repetidas 341

corrector psilon (). Este ndice corrector (Tabla 9.5, mitad derecha) expresa el grado de
esfericidad de la matriz de varianzas-covarianzas. La tabla ofrece dos estimaciones de psi-
lon: Greenhouse-Geisser y Huynh-Feldt; un tercer valor, lmite inferior, expresa el valor que
adoptara psilon en el caso de incumplimiento extremo del supuesto de esfericidad. Las dos
versiones corregidas del estadstico F que incluye la Tabla 9.7 (Greenhouse-Geisser y Huynh-
Feldt) llevan a la misma conclusin que el estadstico F convencional (esfericidad asumida);
no as la solucin ms conservadora de todas (lmite inferior).

Tamao del efecto y potencia observada


Las tres ltimas columnas de la Tabla 9.7 informan del tamao estimado para cada efecto del
modelo y de la potencia observada de cada contraste. El SPSS incluye el estadstico eta-
cuadrado parcial (ver ecuacin [9.2]). Por ejemplo, en el caso del factor contenido,

= (1 (20,35) / (1 (20,35) + 5) = 0,80

El procedimiento GLM Medidas repetidas no calcula (ecuacin [9.3]), pero todo lo que hace
falta para obtenerlo es el estadstico F asociado a cada efecto y sus grados de libertad. Y la
Tabla 9.7 ofrece esa informacin. La penltima columna de la tabla contiene las estima-
ciones de los parmetros de no-centralidad de las correspondientes distribuciones F no cen-
tradas (ver ecuacin [9.4]). Estos parmetros son los que se utilizan para calcular la poten-
cia observada que aparece en la ltima columna de la tabla. En el caso de esfericidad asu-
mida, los tres contrastes tienen una potencia observada mayor de 0,80.

Comparaciones post hoc: efectos principales


Ya se ha sealado que, aunque las comparaciones post hoc no estn disponibles para los
factores MR, es posible efectuar comparaciones post hoc utilizando la opcin Comparar efec-
tos principales del cuadro de dilogo Opciones. Las Tablas 9.8 y 9.9 muestran los resultados
relativos al factor tiempo (no hemos solicitado comparaciones post hoc para el factor con-
tenido porque este factor solamente tiene dos niveles). La Tabla 9.8 ofrece las medias de los
niveles del factor tiempo, adems del error tpico y del intervalo de confianza correspon-
diente a ca da media (no olvidar que estos intervalos de confianza se refieren a cada media
individualmente considerada, no a diferencias entre pares de medias; por tanto, no sirven pa-
ra realizar comparaciones). Los cdigos asignados al factor tiempo (1, 2, 3, 4) se corres-
ponden con los niveles del factor en el orden en el que han sido seleccionados en el cuadro
de dilogo principal; por tanto, 1 = hora, 2 = da, 3 = semana, 4 = mes.

Tabla 9.8. Medias estimadas (factor tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95%
tiempo Media Error tp. Lmite inferior Lmite superior
1 7,50 ,52 6,17 8,83
2 5,33 ,60 3,79 6,88
3 3,17 ,53 1,81 4,52
4 3,42 ,40 2,40 4,44
342 Anlisis de datos (vol. II)

La Tabla 9.9 muestra las comparaciones por pares entre los niveles del factor tiempo. Para
controlar la tasa de error, tanto los niveles crticos (sig.) como los intervalos de confianza
estn ajustados mediante la correccin de Bonferroni (se han eliminado las filas redundan-
tes). El resultado de las comparaciones indica que la calidad del recuerdo en el nivel 1 (hora)
es significativamente mejor (Sig. < 0,05) que en el resto de niveles; y significativamente me-
jor tambin en el nivel 2 (da) que en el nivel 3 (semana). Los intervalos de confianza per-
miten llegar a la misma conclusin. No obstante, esta conclusin es provisional. El hecho de
que el efecto de la interaccin sea significativo indica que este resultado podra ser matizado.

Tabla 9.9. Comparaciones por pares (factor tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95%
a
Diferencia entre Error para la diferencia
a
(I) tiempo (J) tiempo medias (I-J) tp. Sig. Lmite inferior Lmite superior
1 2 2,17 ,48 ,037 ,15 4,18
3 4,33 ,40 ,001 2,64 6,03
4 4,08 ,27 ,000 2,94 5,23
2 3 2,17 ,49 ,043 ,08 4,25
4 1,92 ,52 ,087 -,29 4,12
3 4 -,25 ,54 1,000 -2,54 2,04
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.

Comparaciones mltiples: efectos simples


La Tabla 9.10 muestra las medias de las casillas (las medias de cada combinacin entre los
niveles de los factores contenido y tiempo). Estas medias son las que se comparan al anali-
zar los efectos simples. Por ejemplo, la diferencia 5,83 ! 9,17 = !3,34 es la estimacin del
efecto simple de contenido en el primer nivel del factor tiempo (una hora).

Tabla 9.10. Medias estimadas (combinaciones contenido por tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95%
contenido tiempo Media Error tp. Lmite inferior Lmite superior
1 1 5,83 ,48 4,61 7,06
2 4,00 ,68 2,24 5,76
3 2,83 ,65 1,15 4,51
4 3,33 ,67 1,62 5,05
2 1 9,17 ,60 7,62 10,71
2 6,67 ,71 4,83 8,50
3 3,50 ,43 2,40 4,60
4 3,50 ,67 1,78 5,22

La Tabla 9.11 contiene las comparaciones entre los efectos simples, es decir las compara-
ciones entre los niveles del factor contenido (1 = nmeros, 2 = letras) en cada nivel del
factor tiempo (1 = hora, 2 = da, 3 = semana, 4 = mes). Tanto los niveles crticos
(sig.) como los intervalos de confianza se han ajustado mediante la correccin de Bonferroni
Captulo 9. ANOVA. Dos factores con medidas repetidas 343

(se indica en una nota a pie de tabla; aunque esto aqu es irrelevante porque el factor conte-
nido solamente tiene dos niveles). Los resultados indican que la diferencia entre el recuerdo
de nmeros y letras es significativa en los momentos 1 y 2 ( phora < 0,0005, pda = 0,014), pe-
ro no en los momentos 3 y 4 (psemana = 0,102, pmes = 0,883). Por tanto, las letras se recuerdan
mejor que los nmeros al cabo de una hora y de un da, pero no hay evidencia de que esto
sea as al cabo de una semana y de un mes.

Tabla 9.11. Comparaciones por pares (efectos simples del factor contenido)
Medida: MEASURE_1
Intervalo de confianza al 95%
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo contenido contenido medias (I-J) tp. Sig. Lmite inferior Lmite superior
1 1 2 -3,33 ,33 ,000 -4,19 -2,48
2 1 2 -2,67 ,71 ,014 -4,50 -,83
3 1 2 -,67 ,33 ,102 -1,52 ,19
4 1 2 -,17 1,08 ,883 -2,94 2,60
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.

Comparaciones mltiples: efecto de la interaccin


Para interpretar el efecto de la interaccin hemos solicitado: (1) un grfico de lneas o perfi-
les y (2) comparaciones entre los efectos simples (en el Captulo 7 se describe con detalle
todo lo relacionado con el tipo de comparaciones que es necesario llevar a cabo para poder
interpretar una interaccin significativa).
El grfico de lneas de la Figura 9.3 muestra una paulatina disminucin de la calidad del
recuerdo hasta llegar al momento 3 (semana); en el momento 4 (mes) se aprecia un estan-
camiento o, incluso, una ligera mejora. Esto ocurre tanto con la lista de nmeros como con
la de letras. Sin embargo, la diferencia entre ambas listas es ms evidente al principio (hora
y da) que al final (semana y mes). Esto es justamente lo que nos est indicando la presencia
de una interaccin significativa: que la diferencia entre ambas listas no es la misma en los
cuatro momentos (recordemos que 1 = hora, 2 = da, 3 = semana, 4 = mes).

Figura 9.3. Grfico de lneas (perfiles) correspondiente a los datos de la Tabla 9.3
344 Anlisis de datos (vol. II)

Pero, qu momentos difieren de qu otros? El anlisis de los efectos simples indica que la
diferencia entre el recuerdo de nmeros y letras solamente es significativa al cabo de una ho-
ra y de un da (ver Tabla 9.11). Quiere esto decir que lo que ocurre al cabo de una hora y
un da difiere de lo que ocurre al cabo de una semana y de un mes? No exactamente. Para
saber qu efectos simples difieren entre s hay que compararlos.
Parte de estas comparaciones aparecen en la Tabla 9.12 (se ha eliminado de la tabla ori-
ginal la informacin relativa a los efectos principales). Puesto que el factor tiempo tiene 4
niveles, hay 4 efectos simples asociados al factor contenido (es decir, 4 diferencias nmeros-
letras). Para comparar entre s estos 4 efectos simples es necesario realizar 6 comparacio-
nes; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos 2,
3 y 4; lo que ocurre en el momento 2 con lo que ocurre en los momentos 3 y 4; y lo que ocurre
en el momento 3 con lo que ocurre en el momento 4.
De estas 6 comparaciones, la Tabla 9.12 incluye las 3 primeras: lo que ocurre en el mo-
mento 1 comparado con lo que ocurre en los momentos 2, 3 y 4. En la primera de ellas se est
comparando el efecto simple de contenido (nivel 2 ! nivel 1) en el momento 1 con el efecto
simple de contenido en el momento 2 (tiempo = nivel 2 ! nivel 1). Es decir, se est compa-
rando la diferencia entre letras (contenido = nivel 2) y nmeros (contenido = nivel 1) al cabo
de un da (tiempo = nivel 2) con la diferencia entre letras (contenido = nivel 2) y nmeros
(contenido = nivel 1) al cabo de una hora (tiempo = nivel 1). Los resultados se presentan en
el formato de una tabla convencional de ANOVA: sumas de cuadrados, grados de libertad,
medias cuadrticas, estadsticos F y niveles crticos. Puesto que esta comparacin tiene aso-
ciado un nivel crtico mayor que 0,05 (sig. = 0,363), no puede afirmarse que el efecto simple
de contenido en el momento 1 difiera del efecto simple de contenido en el momento 2.
En la segunda lnea se est comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que
esta comparacin tiene asociado un nivel crtico menor que 0,05 (sig. = 0,003), puede afirmar-
se que el efecto simple de contenido en el momento 1 difiere del efecto simple de contenido
en el momento 3.
Y en la tercera lnea se est comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 1). Puesto que
esta comparacin tiene asociado un nivel crtico menor que 0,05 (sig. = 0,029), puede afir-
marse que el efecto simple de contenido en el momento 1 difiere del efecto simple de con-
tenido en el momento 4.

Tabla 9.12. Contrastes intrasujetos (comparaciones entre efectos simples)


Medida: MEASURE_1
Suma de Media
Fuente contenido tiempo cuadrados tipo III gl cuadrtica F Sig.
contenido * tiempo Nivel 2 - Nivel 1 Nivel 2 - Nivel 1 2,67 1 2,67 1,00 ,363
Nivel 3 - Nivel 1 42,67 1 42,67 29,09 ,003
Nivel 4 - Nivel 1 60,17 1 60,17 9,16 ,029
Error Nivel 2 - Nivel 1 Nivel 2 - Nivel 1 13,33 5 2,67
(contenido*tiempo) Nivel 3 - Nivel 1 7,33 5 1,47
Nivel 4 - Nivel 1 32,83 5 6,57

La Tabla 9.12 contiene informacin sobre las comparaciones entre los momentos 1-1, 1-3 y
1-4; faltan las comparaciones entre los momentos 2-3, 2-4 y 3-4. Esta tabla es la que se ob-
Captulo 9. ANOVA. Dos factores con medidas repetidas 345

tiene al seleccionar la opcin Simple en el subcuadro de dilogo Medidas repetidas: Contras-


tes. La lnea de sintaxis que genera esta tabla es
/WSFACTOR = contenido 2 Simple(1) tiempo 4 Simple(1)

El valor 1 colocado entre parntesis en tiempo 4 Simple(1) indica que la categora de referen-
cia (el nivel del factor tiempo con el que se comparan los dems niveles) es la primera. Cam-
biando ese valor a 2, la categora de referencia pasa a ser la segunda. Y cambiando ese valor
a 3, la categora de referencia pasa a ser la tercera. Ejecutando la sintaxis con estos cambios
se obtienen los resultados que muestran las Tablas 9.13 y 9.14.
En la primera lnea de la Tabla 9.13 se est comparando el efecto simple de contenido en
el momento 2 con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 2).
Puesto que esta comparacin tiene asociado un nivel crtico mayor que 0,05 (sig. = 0,067),
no puede afirmarse que el efecto simple de contenido en el momento 2 difiera del efecto sim-
ple de contenido en el momento 3. En la segunda lnea de la tabla se est comparando el
efecto simple de contenido en el momento 2 con el efecto simple de contenido en el momen-
to 4 (tiempo = nivel 4 ! nivel 2). Puesto que esta comparacin tiene asociado un nivel crti-
co mayor que 0,05 (sig. = 0,136), no puede afirmarse que el efecto simple de contenido en el
momento 2 difiera del efecto simple de contenido en el momento 4.
Por ltimo, en la Tabla 9.14 se est comparando el efecto simple de contenido en el
momento 3 con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 3).
Puesto que esta comparacin tiene asociado un nivel crtico mayor que 0,05 (sig. = 0,597),
no puede afirmarse que el efecto simple de contenido en el momento 3 difiera del efecto
simple de contenido en el momento 4.
Resumiendo, al comparar entre s los efectos simples de contenido nicamente existen
diferencias significativas entre el momento 1 y los momentos 3 y 4. Cuando nos preguntamos
por la diferencia en el recuerdo entre nmeros y letras, lo que encontramos es que esa diferen-
cia es mayor al cabo de una hora que al cabo de una semana y al cabo de un mes.
Aunque esta tarea puede parecer algo engorrosa, permite obtener las 6 comparaciones ne-
cesarias para interpretar el efecto de la interaccin. Si se est dispuesto a utilizar la sintaxis
con algo ms de profundidad, estos mismos resultados y otros relacionados pueden obte-
nerse mediante la sentencia MMATRIX (ver Apndice 9).

Tabla 9.13. Contrastes intrasujetos (comparaciones entre efectos simples)


Medida: MEASURE_1
Suma de Media
Fuente contenido tiempo cuadrados tipo III gl cuadrtica F Sig.
contenido*tiempo Nivel 2 - Nivel 1 Nivel 3 - Nivel 2 24,00 1 24,00 5,45 ,067
Nivel 4 - Nivel 2 37,50 1 37,50 3,15 ,136
Error Nivel 2 - Nivel 1 Nivel 3 - Nivel 2 22,00 5 4,40
(contenido*tiempo) Nivel 4 - Nivel 2 59,50 5 11,90

Tabla 9.14. Contrastes intrasujetos (comparaciones entre efectos simples)


Medida: MEASURE_1
Suma de Media
Fuente contenido tiempo cuadrados tipo III gl cuadrtica F Sig.
contenido*tiempo Nivel 2 - Nivel 1 Nivel 4 - Nivel 3 1,50 1 1,50 ,32 ,597
Error (cont.*tiempo) Nivel 2 - Nivel 1 Nivel 4 - Nivel 3 23,50 5 4,70
346 Anlisis de datos (vol. II)

ANOVA de dos factores con medidas repetidas en uno


Los diseos en los que todos los factores son intrasujetos (como el estudiado en el apartado
anterior) no son tan comunes como los diseos que incluyen algn factor intersujetos. Lo
habitual es que un estudio incluya algn factor intersujetos, bien porque se utilizan variables
que definen grupos naturales (sexo, edad, etc.), bien porque se utilizan variables manipula-
das por el investigador (grupos experimental y control; etc.).
El diseo que vamos a tratar en este apartado es una mezcla de diseos que ya hemos
estudiado. En concreto, es una mezcla del diseo de un factor completamente aleatorizado
y del diseo de un factor con medidas repetidas (ver Tabla 8.2.3). Se trata, por tanto, de un
diseo que incluye un factor intersujetos (un grupo distinto de sujetos en cada uno de sus
niveles) y un factor intrasujetos (los mismos sujetos en todos sus niveles). En todo momen-
to llamaremos A al factor intersujetos y B al factor intrasujetos.
Como ejemplo tpico de este tipo de diseos, consideremos un estudio diseado para
valorar la eficacia de un nuevo tratamiento antidepresivo. Imaginemos que a un grupo de pa-
cientes afectados de depresin se les aplica la escala de depresin de Hamilton para obtener
una medida inicial o basal del nivel de depresin de cada paciente. Tras esto, se seleccionan
aleatoriamente 40 pacientes entre los que alcanzan o superan la puntuacin 30. Imaginemos
que con estos 40 pacientes se forman dos grupos aleatorios del mismo tamao y que un grupo
comienza a recibir el nuevo tratamiento antidepresivo (grupo experimental) y el otro grupo
un tratamiento estndar (grupo control). Al cabo de cuatro semanas de iniciado el tratamiento
se vuelve a administrar la escala de depresin para obtener una medida de la evolucin de los
pacientes. Al cabo de ocho semanas se vuelve a administrar de nuevo la escala y se da por
finalizado el estudio.
En un diseo de estas caractersticas tenemos dos factores o variables categricas: tra-
tamiento (con dos niveles: nuevo y estndar) y tiempo (con tres niveles: basal, semana 4 y
semana 8); y una variable dependiente (nivel de depresin) medida con la escala de depre-
sin de Hamilton. El factor tratamiento es intersujetos, pues a cada nivel del factor se asig-
na un grupo distinto de sujetos (grupos aleatorios). El factor tiempo es intrasujetos, pues a
todos los sujetos se les mide el nivel de depresin en los tres momentos (bloques aleatorios).
De ah el nombre que recibe el modelo de ANOVA que sirve para analizar este tipo de dise-
os: dos factores con medidas repetidas en uno3 (AB-CA-MR).
Las ventajas de un diseo de estas caractersticas son evidentes. Representa un compro-
miso entre los modelos CA y MR. Por un lado, requiere utilizar menos sujetos que un diseo
CA y permite reducir parte de la variabilidad error por el hecho de utilizar los mismos sujetos.
Por otro, el impacto de los efectos de arrastre y fatiga es menor que en los diseos comple-
tamente MR.
Adems, y esto es lo realmente interesante, permite tratar situaciones que no pueden
abordarse con otro tipo de diseos: un diseo completamente aleatorizado permite comparar
los tratamientos, pero no hacer seguimiento a los sujetos; un diseo de medidas repetidas
permite hacer seguimiento a los sujetos, pero no comparar los tratamientos; un diseo AB-
CA-MR permite hacer ambas cosas. Y probablemente sta es la razn por la que es tan uti-

3
A este tipo de diseos tambin se les llama split-plot. Y, dado que se trata de diseos que combinan factores intersujetos
e intrasujetos, tambin reciben, a veces, el nombre de mixtos; no obstante, lo habitual es reservar este trmino para resal-
tar la presencia simultnea de efectos fijos y aleatorios en un mismo modelo (ver el Captulo 2 del Volumen III).
Captulo 9. ANOVA. Dos factores con medidas repetidas 347

lizado en el mbito de las ciencias sociales y de la salud (ver Micceri, 1989). De hecho, este
diseo constituye el paradigma de lo que se conoce como ensayo clnico.
La estructura de los datos se corresponde con la representada en la Tabla 8.2.3. Y la no-
tacin utilizada es la misma que en el modelo de dos factores MR (ver Tabla 9.1).
Puesto que se trata de un modelo de dos factores, los efectos que interesa analizar siguen
siendo tres: los dos efectos principales (los efectos de cada factor individualmente conside-
rado, A y B) y el efecto de la interaccin entre ambos factores (el efecto conjunto o combi-
nado de ambos factores, AB). Y, al igual que en el resto de diseos estudiados, para poder
analizar estos tres efectos es necesario identificar las diferentes fuentes de variabilidad pre-
sentes en el diseo.
En un diseo completamente aleatorizado (CA), la variabilidad total se descompone en
variabilidad intergrupos y variabilidad intragrupos o error. En un diseo con medidas re-
petidas (MR) hay una forma ms de variabilidad: la debida a las diferencias entre los sujetos
o variabilidad intersujetos (recordemos que esta forma de variabilidad tambin existe en un
diseo CA, pero no hay forma de aislarla).
Adems, si el diseo tiene dos factores (tanto si los factores son CA como si son MR),
la variabilidad intergrupos puede descomponerse, a su vez, en la variabilidad asociada al fac-
tor A, la asociada al factor B y la asociada a la interaccin AB. Todas estas fuentes de varia-
bilidad son las mismas que hemos estudiado en el apartado anterior a propsito del diseo de
dos factores MR.
En esta forma de descomponer la variabilidad total se est asumiendo que los sujetos no
interaccionan ni con A, ni con B ni con AB. Por tanto, se est asumiendo que estas interac-
ciones reflejan variabilidad error. En el diseo de un factor A-MR hemos visto que la va-
riabilidad error es precisamente la variabilidad debida a la interaccin entre el factor y los
sujetos. En el diseo de dos factores AB-CA-MR ocurre lo mismo: la variabilidad error se
estima a partir de la variabilidad debida a la interaccin entre el factor intrasujetos y los
sujetos, es decir, a partir de la interaccin entre el factor B y los sujetos: B S . La interac-
cin entre el factor A y los sujetos no se contempla porque cada sujeto participa en un nico
nivel del factor A. Y tampoco se contempla la triple interaccin entre A, B y los sujetos por-
que cada combinacin B S nicamente se da en un nivel del factor A.
Esto significa que, en un diseo de dos factores con medidas repetidas en uno, la varia-
bilidad total puede descomponerse en cinco fuentes distintas de variabilidad. La Tabla 9.15
muestra cmo cuantificar estas fuentes de variabilidad.

Tabla 9.15. Medias cuadrticas en un diseo de dos factores con medidas repetidas en uno (AB-CA-MR)

MCA =

MCB =

MCAB =

MCS =

MCB S =
348 Anlisis de datos (vol. II)

Por tanto, no existe una nica fuente de variabilidad error, sino dos. Y para valorar la sig-
nificacin de los efectos presentes en el diseo (A, B y AB) cada uno debe compararse con
su correspondiente variabilidad error:

=
= [9.6]
=

Para valorar el efecto del factor A se utiliza el cociente entre la media cuadrtica de A y la
media cuadrtica de los sujetos (MCS). Valorar el efecto de A consiste en comparar las me-
dias marginales correspondientes a los niveles del factor A tras promediar el resto de efectos.
Ahora bien, al promediar las K puntuaciones de cada sujeto se obtiene un diseo de un ni-
co factor CA. Analizando estos promedios con el estadstico F del modelo de un factor CA
se obtiene el mismo resultado que con el estadstico FA en [9.6].
Para valorar el efecto del factor B y el de la interaccin AB se utiliza el cociente entre la
media cuadrtica correspondiente al factor B y la media cuadrtica de la interaccin entre el
factor B y los sujetos (MCB S ). En lo relativo al factor B, valorar su efecto consiste en com-
parar las medias marginales de cada uno de sus niveles. Con un solo grupo (J = 1), la situa-
cin sera idntica a la del modelo de un factor MR, donde el trmino error es justamente la
interaccin entre el factor y los sujetos. Con J > 1 grupos tenemos J diseos de un factor.
Aplicando el modelo de un factor MR a cada grupo obtendramos J medias cuadrticas referi-
das a la interaccin entre el factor y los sujetos. Lo que se hace en el modelo de dos factores
es utilizar como variabilidad error para el factor intrasujetos el promedio de esas J medias
cuadrticas (lo cual, como veremos en el siguiente apartado, tiene algunas implicaciones
sobre los supuestos del anlisis).
Con el efecto de la interaccin AB ocurre algo parecido a lo que ocurre con el efecto del
factor B. Para valorar el efecto de la interaccin se analiza lo que ocurre con el efecto de B
en cada nivel de A. Y esto nos lleva a la misma solucin adoptada para el factor B. Por tan-
to, cuando un efecto contiene una mezcla de factores inter e intrasujetos, el efecto de la in-
teraccin se considera intrasujetos y se analiza como tal.
El Cuadro 9.3 ofrece un resumen del procedimiento para contrastar las hiptesis relativas
a los efectos de A, B y AB mediante los estadsticos propuestos en [9.6]. Bajo ciertas condi-
ciones (ver el siguiente apartado sobre los supuestos del modelo), estos estadsticos F se
aproximan a la distribucin F con los grados de libertad correspondientes al numerador y al
denominador de cada estadstico.

Cuadro 9.3. Resumen del ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR)

1. Hiptesis: las hiptesis sobre los efectos del factor A, el factor B y la interaccin AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: J muestras de tamao n aleatoriamente seleccionadas de K poblaciones
normales con la misma varianza; tambin se asume que las J matrices de varianzas-
covarianzas de las K medidas repetidas (una por cada nivel del factor A), adems de
esfricas, son iguales (ver siguiente apartado).
Captulo 9. ANOVA. Dos factores con medidas repetidas 349

3. Estadsticos del contraste (ver ecuacin [9.6] y Tabla 9.15):


a. Para H0 (A) : FA = MCA MCS .
b. Para H0 (B) : FB = MCB MCBS .
c. Para H0 (AB) : FAB = MCAB MB S .
4. Distribuciones muestrales:
a. FA se distribuye segn F con J !1 y J (n !1) grados de libertad.
b. FB se distribuye segn F con K !1 y J (K !1)(n !1) grados de libertad.
c. FAB se distribuye segn F con (J !1)(K !1) y J (K !1)(n !1) grados de libertad.
5. Zonas crticas:
$ FJ !1, J (n !1); 1! .
a. FA >
$ FK !1, J (K !1)(n !1); 1! .
b. FB >
$ F(J !1)(K !1, J (K !1)(n !1); 1! .
c. FAB >
6. Reglas de decisin: las mismas que en el modelo de dos factores completamente alea-
torizados (ver Cuadro 7.1).
7. Niveles crticos (valores p): los mismos que en el modelo de dos factores completa-
mente aleatorizados (ver Cuadro 7.1).

Con la informacin de la Tabla 9.15 y del Cuadro 9.3 tenemos todo lo necesario para resol-
ver las ecuaciones que permiten analizar los tres efectos del diseo. No obstante, en lugar de
hacer clculos a mano, explicaremos todos los detalles del anlisis utilizando el SPSS.

Supuestos del modelo


Puesto que un diseo AB-CA-MR incluye tanto efectos intersujetos como efectos intrasu-
jetos, el correspondiente modelo de ANOVA necesita establecer supuestos que afectan por
separado a ambos tipos de efectos.
Por lo que se refiere al efecto intersujetos (efecto del factor A), se asume exactamente
lo mismo que con cualquier otro efecto CA, es decir, se asume que se est trabajando con J
muestras aleatorias (por tanto, con observaciones independientes) procedentes de pobla-
ciones normales con la misma varianza (estos supuestos afectan a los promedios de las K
medidas repetidas). Para todo lo relacionado con el incumplimiento de este supuesto puede
consultarse lo ya dicho en el Captulo 6 a propsito del modelo de un factor CA.
Y en lo relativo a los efectos intrasujetos (efecto del factor B y efecto de la interaccin
AB ), adems del supuesto de esfericidad ya estudiado, que se aplica a cada una de las J ma-
trices de varianzas-covarianzas entre las K medidas repetidas (una por cada nivel del factor
A), se asume que esas J matrices son iguales. A estos dos supuestos combinados se les llama
esfericidad multi-muestra (Huynh, 1978).
Por tanto, antes de aplicar un modelo AB-CA-MR es necesario vigilar el cumplimiento
de cuatro supuestos: independencia, normalidad, igualdad de varianzas entre los niveles del
factor intersujetos y esfericidad multi-muestra (este ltimo supuesto incluye el de esfericidad
de las J matrices de varianzas-covarianzas y el de igualdad de esas J matrices).
350 Anlisis de datos (vol. II)

Aunque el muestreo aleatorio garantiza la independencia de las observaciones, puede


utilizarse la prueba de las rachas para chequearlo (ver Captulo 2). La ausencia de normali-
dad sabemos que deja de ser un problema si el tamao muestral es razonablemente grande;
no obstante, si se tiene que trabajar con muestras pequeas, la normalidad puede chequear-
se con la prueba de Kolmogorov-Smirnov (ver Captulo 2). Para contrastar el supuesto de que
las J varianzas poblacionales (una por cada nivel del factor intersujetos) son iguales puede
utilizarse, al igual que con el modelo de un factor CA, la prueba de Levene (ver Captulo 6).
El supuesto de esfericidad multi-muestra implica, por un lado, que las J matrices de varian-
zas-covarianzas (una matriz por cada nivel del factor intersujetos) son esfricas; por otro, que
esas J matrices son iguales. Para chequear el supuesto de esfericidad seguiremos utilizando
la prueba de Mauchly; y para el de igualdad de matrices, aunque existen varios procedi-
mientos para ello (ver, por ejemplo, Mendoza, 1980) utilizaremos la prueba de Box (1950),
que es la que incluye el SPSS junto con las de Levene y Mauchly.
En condiciones de esfericidad, los estadsticos F definidos en [9.6] permiten contrastar
sus respectivas hiptesis con buen control sobre la tasa de error y con tanta o ms potencia
que cualquier otro procedimiento. En condiciones de no-esfericidad, es recomendable utili-
zar los estadsticos y la estrategia que hemos propuesto en el captulo anterior, en el apartado
Alternativas al estadstico F.

Medidas del tamao del efecto


Al igual que en los dems modelos de ANOVA estudiados, la versin parcial de permite
obtener una estimacin de la proporcin de varianza comn o compartida entre cada efecto
y la variable dependiente:

= [9.7]

Pero la medida de asociacin que acapara las preferencias de los expertos, tanto para los efec-
tos intersujetos como para los intrasujetos, sigue siendo omega-cuadrado ( ). Cuando los
factores son de efectos fijos, el tamao del efecto puede estimarse (ver Kirk, 1995, pg. 519)
mediante

= [9.8]

El estadstico est estrechamente relacionado con la medida del tamao del efecto de Co-
hen (1988):

= [9.9]

La regla propuesta por Cohen para interpretar estas medidas sigue siendo vlida aqu. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaos pequeo, mediano
y grande. En el caso de ( f en la notacin utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
Captulo 9. ANOVA. Dos factores con medidas repetidas 351

Clculo de la potencia y del tamao muestral


Para el clculo de la potencia sirve aqu lo ya estudiado a propsito de otros modelos. Parti-
mos de una estimacin del parmetro de no-centralidad y de su transformacin en :

= , = [9.10]

La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apndice
final a partir del valor de y de los grados de libertad del correspondiente estadstico Fefecto.
Para estimar el tamao muestral necesario para alcanzar una determinada potencia al contrastar
un efecto concreto, puede utilizarse la ecuacin [7.26] y los pasos descritos en ese apartado.

Comparaciones mltiples
En el caso de que resulte significativo un efecto principal (A, B ), el anlisis debe continuar
comparando los niveles correspondientes a ese efecto para poder precisar dnde se encuentran
las diferencias. En el caso de que resulte significativo el efecto de la interaccin (AB ), el an-
lisis debe continuar comparando entre s los efectos simples. Todo esto, al margen de que el
estudio incluya objetivos concretos que exijan comparaciones planeadas.
Para realizar comparaciones entre los niveles del factor intersujetos (A ) sirve todo lo
dicho a propsito del modelo de un factor CA (ver, en el Captulo 6, el apartado Compara-
ciones mltiples). Y sirve tanto para las comparaciones planeadas como para las compara-
ciones post hoc.
Por lo que se refiere a los efectos intrasujetos (B y AB ), si puede asumirse esfericidad,
sirven aqu los procedimientos ya descritos a propsito del modelo de dos factores CA (ver,
en el Captulo 7, el apartado Comparaciones mltiples). nicamente hay que tener en cuen-
ta cules son las medias cuadrticas y los grados de libertad que intervienen al valorar cada
efecto.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas siguen siendo vlidos si se tiene la precaucin de utilizar
las ecuaciones propuestas para el caso en que no puede asumirse que las varianzas pobla-
cionales son iguales. Y en lo relativo a las comparaciones post hoc, es preferible estudiar las
comparaciones por pares utilizando la prueba T para muestras relacionadas ajustando la ta-
sa de error por comparacin (C) mediante el mtodo de Bonferroni (Keselman y Keselman,
1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980). En el siguiente apartado se
explica cmo hacer todo esto con el SPSS.

ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS
Veamos cmo utilizar el SPSS para llevar a cabo un ANOVA de dos factores con medidas
repetidas en uno4. Para ello, vamos a realizar 6 tareas: (1) chequear el supuesto de igualdad
de varianzas referido al efecto intersujetos (A) y los de esfericidad y esfericidad multi-mues-

4
En la explicacin de algunos de los resultados obtenidos se asumir que el lector est familiarizado con el modelo de un
factor con medidas repetidas estudiado en el captulo anterior.
352 Anlisis de datos (vol. II)

tra referidos a los efectos intrasujetos (B y AB), (2) contrastar las hiptesis globales referidas
a los tres efectos del diseo, (3) estimar el tamao de cada efecto y calcular la potencia ob-
servada asociada a cada contraste, (4) realizar comparaciones post hoc para interpretar los
efectos principales, (5) realizar comparaciones mltiples para valorar e interpretar los efec-
tos simples y (6) obtener un grfico de lneas y comparar entre s los efectos simples para
interpretar el efecto de la interaccin.
Estas tareas las vamos a realizar con los datos de un estudio diseado para comparar dos
tratamientos antidepresivos. A un grupo de pacientes con depresin se les ha aplicado la es-
cala de depresin de Hamilton para obtener una medida inicial o basal del nivel de depresin
de cada paciente. Tras esto, se han seleccionado aleatoriamente 40 pacientes entre los que
han alcanzado o superado la puntuacin 30 (puntuacin basal). Con estos 40 pacientes se han
formado al azar dos grupos del mismo tamao y uno de ellos ha comenzado a recibir un tra-
tamiento estndar (basado en fluoxetina) y el otro un tratamiento combinado (fluoxetina ms
psicoterapia). Al cabo de cuatro semanas de iniciado el tratamiento se ha vuelto a administrar
la escala de depresin para obtener una medida de la evolucin de los pacientes. Al cabo de
ocho semanas se ha vuelto a administrar la escala y se ha dado por finalizado el estudio. La
Tabla 9.16 recoge los resultados obtenidos.

Tabla 9.16. Puntuaciones de 40 pacientes depresivos en la escala Hamilton. Diseo con dos factores: trata-
miento (estndar, combinado) y tiempo (basal, semana 4, semana 8) con medidas repetidas en el factor tiempo

Estndar Combinado
Basal Semana 4 Semana 8 Basal Semana 4 Semana 8
s1 30 28 21 s21 32 25 20
s2 31 33 32 s22 37 29 25
s3 31 32 27 s23 30 24 19
s4 30 22 23 s24 32 27 16
s5 34 37 36 s25 38 36 29
s6 35 30 26 s26 37 35 28
s7 32 25 22 s27 30 22 19
s8 34 35 30 s28 36 32 24
s9 35 32 31 s29 30 26 22
s10 31 29 27 s30 33 30 26
s11 31 30 32 s31 33 30 26
s12 34 33 30 s32 31 29 26
s13 30 26 22 s33 32 26 14
s14 30 28 25 s34 31 27 25
s15 37 32 31 s35 36 31 24
s16 35 29 30 s36 31 26 22
s17 33 32 28 s37 38 33 26
s18 34 31 24 s38 37 29 19
s19 36 34 28 s39 34 22 12
s20 30 26 24 s40 39 34 28
Captulo 9. ANOVA. Dos factores con medidas repetidas 353

Tenemos un factor intersujetos (tratamiento; con dos niveles: estndar y combinado; a cada
nivel se asigna un grupo distinto de sujetos) y un factor intrasujetos (tiempo; con tres nive-
les: basal, semana 4 y semana 8; todos los sujetos pasan por los tres niveles). La variable
dependiente es el nivel de depresin (cuantificado con la escala de depresin de Hamilton).
El objetivo del estudio es valorar la eficacia del tratamiento combinado en comparacin con
el tratamiento estndar.
Para reproducir los datos de la Tabla 9.16 en el Editor de datos del SPSS es necesario
crear cuatro variables: una para definir el factor intersujetos y tres para definir los tres nive-
les del factor intrasujetos. La Figura 9.4 muestra el aspecto del Editor de datos despus de
introducir en l los datos de la Tabla 9.16. Hemos creado la variable tto (tratamiento) ha-
cindole tomar los valores 1 y 2 (con etiquetas: 1 = estndar, 2 = combinado). Y para de-
finir los tres niveles del factor intrasujetos tiempo se han creado tres variables: basal, cuatro
y ocho. Estas variables recogen las puntuaciones en la escala Hamilton al inicio del estudio
y al cabo de cuatro y ocho semanas de tratamiento. Tambin hemos creado una variable de
identificacin de caso (sujeto).

Figura 9.4. Datos de la Tabla 9.16 reproducidos en el Editor de datos

Como primera aproximacin a los resultados de este estudio, la Figura 9.5 muestra los dia-
gramas de caja correspondientes a las puntuaciones obtenidas por cada grupo en cada uno de
los tres momentos evaluados. Ninguno de los diagramas muestra casos anmalos ni asimetras
evidentes. Y en la dispersin de las diferentes medidas no parece haber diferencias sustan-
ciales. Pero el nivel de depresin vara sensiblemente entre condiciones: tanto en el grupo que
ha recibido el tratamiento estndar como en el que ha recibido el tratamiento combinado se
observa una clara disminucin del nivel de depresin conforme avanza el tratamiento; sin
embargo, en el grupo que ha recibido el tratamiento combinado, parece que esta disminucin
es ms evidente.
354 Anlisis de datos (vol. II)

Figura 9.5. Diagramas de caja correspondientes a los datos de la Tabla 9.16

Para analizar los efectos presentes en el diseo (los dos efectos principales y el efecto de la
interaccin):
' Reproducir en el Editor de datos los datos de la Tabla 9.16 tal como se muestra en la
Figura 9.4 (o abrir el archivo Tabla 9.16 depresin hamilton que se encuentra en la p-
gina web del manual).
' Seleccionar la opcin Modelo lineal general > Medidas repetidas del men Analizar para ac-
ceder al cuadro de dilogo (previo al principal) Medidas repetidas: Definir factores.
' Para definir el factor de medidas repetidas, asignarle nombre (tiempo) en el cuadro de
texto Nombre del factor intra-sujetos y nmero de niveles (3) en el cuadro de texto Nme-
ro de niveles, y pulsar el botn Aadir para validar (si fuera necesario, utilizar los botones
Cambiar y Borrar para realizar modificaciones).
' Pulsar el botn Definir para acceder al cuadro de dilogo principal Medidas repetidas. La
lista Variables intra-sujetos est preparada para recibir los nombres de las variables que
corresponden a los niveles del factor previamente definido.
' Seleccionar las tres variables que definen los niveles del factor intrasujetos (basal, cua-
tro y ocho) y trasladarlas, en el orden correcto, a la lista Variables intra-sujetos; selec-
cionar la variable que define el factor intersujetos (tto) y trasladarla a la lista Factores
inter-sujetos.

Las elecciones hechas hasta aqu permiten realizar el anlisis bsico, es decir, contrastar las
tres hiptesis globales referidas a los tres efectos del diseo: tto, tiempo y tto*contenido. Las
siguientes elecciones sirven para seguir avanzando en el anlisis. Para obtener un grfico de
lneas basado en las medias de las casillas:
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Medidas repetidas: Gr-
ficos de perfil.
' Trasladar el factor tiempo al cuadro Eje horizontal y el factor tto al cuadro Lneas separa-
das, y pulsar el botn Aadir para trasladar las variables seleccionadas a la lista inferior
y, con ello, hacer efectiva la seleccin. Pulsar el botn Continuar para volver al cuadro
de dilogo principal.
Captulo 9. ANOVA. Dos factores con medidas repetidas 355

Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Op-
ciones; trasladar el factor tiempo y la interaccin tto*tiempo a la lista Mostrar las medias
para, marcar la opcin Comparar los efectos principales y seleccionar la opcin Bonferro-
ni dentro del men desplegable Ajuste del intervalo de confianza (para controlar la tasa de
error). Pulsar el botn Continuar para volver al cuadro de dilogo principal.
Puesto que el factor tto solamente tiene dos niveles, no es necesario solicitar este tipo
de comparaciones. Con todo, con los factores intersujetos pueden utilizarse los procedi-
mientos del botn Post hoc de idntica manera a como se ha hecho en el Captulo 6 con
el modelo de un factor CA. La seleccin de la interaccin tto*tiempo sirve para obtener
informacin sobre los efectos simples si, ms tarde, en lugar de ejecutar el procedimiento,
se pega la sintaxis y se modifica la lnea /EMMEANS = TABLES(tto* tiempo) aadiendo:
COMPARE(tto) ADJ(BONFERRONI). La sentencia completa debe quedar de esta manera:
/EMMEANS = TABLES (tto*tiempo) COMPARE(tto) ADJ(BONFERRONI).
Para chequear el supuesto de igualdad de varianzas y el de esfericidad multi-muestra:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Op-
ciones y marcar las casillas Estadsticos descriptivos y Pruebas de homogeneidad. Las op-
ciones Estimaciones del tamao del efecto y Potencia observada ya se han explicado con
detalle en ejemplos anteriores y, puesto que siempre generan los mismos resultados, no
las incluiremos aqu. Pulsar el botn Continuar para volver al cuadro de dilogo principal.
Para comparar los efectos simples entre s, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interaccin:
' Pulsar el botn Contrastes para acceder al subcuadro de dilogo Medidas repetidas: Con-
trastes; seleccionar el factor tiempo, seleccionar la opcin Simple del men desplegable
Contraste, seleccionar Primera como categora de referencia y pulsar el botn Cambiar pa-
ra validar las elecciones hechas.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinmi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relacin (lineal, cua-
drtica, cbica, etc.) existente entre un factor MR y la variable dependiente. Pero tambin
es posible llevar a cabo comparaciones planeadas distintas de las de tendencia seleccio-
nando alguna de las opciones del men desplegable Contraste. La opcin Simple (que es
la que hemos elegido) permite comparar cada categora con la categora de referencia. Se
puede elegir como categora de referencia la primera o la ltima (tambin se puede elegir
cualquier otra categora mediante sintaxis; veremos cmo hacerlo ms adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.17 a 9.28
y el grfico de lneas que muestra la Figura 9.6. Muchas de estas tablas son idnticas a las
ya estudiadas en apartados anteriores, pero ahora existe informacin nueva relativa al efec-
to del factor intersujetos.
La Tabla 9.17 contiene algunos estadsticos descriptivos para cada grupo y medida repe-
tida: la media, la desviacin tpica y el nmero de observaciones. Estas medias son las que
se utilizan para construir el grfico de lneas que se ofrece ms adelante en la Figura 9.6 y
es la informacin que hay que revisar en primer lugar, junto con los diagramas de caja de la
Figura 9.5, y de la que hay que informar en primer lugar.
356 Anlisis de datos (vol. II)

Tabla 9.17. Estadsticos descriptivos


Tratamiento Media Desv. tp. N
Puntuaciones Hamilton (basal) Estndar 32,65 2,30 20
Combinado 33,85 3,08 20
Total 33,25 2,75 40
Puntuaciones Hamilton (semana 4) Estndar 30,20 3,66 20
Combinado 28,80 4,16 20
Total 29,50 3,94 40
Puntuaciones Hamilton (semana 8) Estndar 27,45 4,06 20
Combinado 22,50 4,80 20
Total 24,98 5,05 40

Esfericidad multi-muestra e igualdad de varianzas


Las Tablas 9.18, 9.19 y 9.20 ofrecen la prueba de Mauchly, la de Box y la de Levene, res-
pectivamente.
La prueba de esfericidad de Mauchly (Tabla 9.18) indica que la matriz de varianzas-co-
varianzas de las medidas repetidas (factor tiempo) no es esfrica (sig. = 0,003 < 0,05).
El estadstico M de Box y su transformacin en F (ver Tabla 9.19) permite contrastar la
hiptesis de igualdad entre las J matrices de varianzas-covarianzas (en el ejemplo tenemos
dos de estas matrices, una por cada nivel del factor tto); el nivel crtico (sig. = 0,671 > 0,05)
indica que no hay razn para pensar que estas matrices sean distintas; por tanto, puede asu-
mirse que las matrices comparadas son iguales. Es decir, aunque no es posible asumir que
las matrices de varianzas-covarianzas son esfricas (prueba de Mauchly), s puede asumirse
que son iguales (prueba de Box).
La Tabla 9.20 ofrece el estadstico F de Levene. Este estadstico contrasta la hiptesis
de igualdad entre las J varianzas del factor intersujetos (tto). Esta hiptesis se contrasta pa-
ra cada nivel del factor intrasujetos, es decir, para cada medida repetida. En el ejemplo,
puesto que todos los niveles crticos obtenidos (0,060; 0,457; 0,428) son mayores que 0,05,
puede asumirse que, en las tres medidas utilizadas, las varianzas de las dos poblacionales
definidas por el factor tto son iguales.

Tabla 9.18. Prueba de Mauchly (esfericidad)


Medida: MEASURE_1

psilon
Efecto W de Chi-cuadrado Greenhouse- Huynh- Lmite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,74 11,36 2 ,003 ,79 ,84 ,50

Tabla 9.19. Prueba Box (igualdad de las J matrices de varianzas-covarianzas)


M de Box 4,42
F ,67
gl1 6,00
gl2 10.462,19
Sig. ,671
Captulo 9. ANOVA. Dos factores con medidas repetidas 357

Tabla 9.20. Prueba de Levene (igualdad de varianzas)


F gl1 gl2 Significacin
Puntuaciones Hamilton (basal) 3,76 1 38 ,060
Puntuaciones Hamilton (semana 4) ,56 1 38 ,457
Puntuaciones Hamilton (semana 8) ,64 1 38 ,428

Hiptesis globales (efecto de A, de B y de AB )


Las Tablas 9.21, 9.22 y 9.23 contienen los estadsticos que sirven para contrastar las hiptesis
referidas a los efectos del diseo, es decir, a los dos efectos principales (tto, tiempo) y al efec-
to de la interaccin (tto*tiempo).
En primer lugar (Tablas 9.21 y 9.22) aparece la informacin relativa a los efectos in-
trasujetos (tiempo y tto*tiempo). Si puede asumirse esfericidad, los estadsticos F conven-
cionales son la mejor eleccin. Estos estadsticos se encuentran en la Tabla 9.22, en las filas
encabezadas esfericidad asumida).
Si no puede asumirse esfericidad, debe recurrirse, tal como se ha hecho en los modelos
anteriores (ver, en el captulo anterior, el apartado Alternativas al estadstico F ) a la apro-
ximacin multivariada (ver Tabla 9.21) y a los estadsticos F con los grados de libertad mo-
dificados (ver Tabla 9.22).
En nuestro ejemplo, tanto el efecto del factor tiempo como el de la interaccin tto*tiempo
resultan significativos con cualquiera de los estadsticos disponibles (en todos los casos se
obtiene sig. < 0,0005). Por tanto, se puede concluir, en primer lugar, que el nivel de depresin
no es el mismo en los tres momentos analizados (efecto significativo del factor tiempo) y, en
segundo lugar, que la diferencia entre los tratamientos no es la misma en los tres momentos
analizados5 (efecto significativo de la interaccin).
Por ltimo, la Tabla 9.23 informa del efecto del factor intersujetos (tto). El nivel crtico
asociado al estadstico F (sig. = 0,106 > 0,05) no permite rechazar la hiptesis nula de igual-
dad de medias. Este resultado indica que, tras promediar las tres medidas repetidas de cada
sujeto, no parece que las medias de los dos tratamientos sean distintas (es importante sea-
lar que este efecto no es el que est informando de la eficacia del tratamiento combinado; pa-
ra esto, ver, ms adelante, el anlisis referido al efecto de la interaccin).

Tabla 9.21. Contrastes multivariados (efectos intrasujetos)


Efectos intra-sujetos Valor F Gl de la hiptesis Gl del error Sig.
tiempo Traza de Pillai ,83 87,31 2,00 37,00 ,000
Lambda de Wilks ,17 87,31 2,00 37,00 ,000
Traza de Hotelling 4,72 87,31 2,00 37,00 ,000
Raz mayor de Roy 4,72 87,31 2,00 37,00 ,000
tiempo * tto Traza de Pillai ,40 12,31 2,00 37,00 ,000
Lambda de Wilks ,60 12,31 2,00 37,00 ,000
Traza de Hotelling ,67 12,31 2,00 37,00 ,000
Raz mayor de Roy ,67 12,31 2,00 37,00 ,000

5
Aunque esta forma de interpretar el efecto global de la interaccin puede resultar ms sencilla de entender, el efecto de
la interaccin tambin puede interpretarse tomando como referencia el otro factor: el cambio que se produce entre los tres
momentos analizados no es el mismo con los dos tratamientos.
358 Anlisis de datos (vol. II)

Tabla 9.22. Contrastes univariados (efectos intrasujetos)


Medida: MEASURE_1
Suma de Media
Fuente cuadrados tipo III gl cuadrtica F Sig.
tiempo Esfericidad asumida 1.373,52 2,00 686,76 133,42 ,000
Greenhouse-Geisser 1.373,52 1,58 868,25 133,42 ,000
Huynh-Feldt 1.373,52 1,68 816,31 133,42 ,000
Lmite-inferior 1.373,52 1,00 1.373,52 133,42 ,000
tiempo * tto Esfericidad asumida 190,62 2,00 95,31 18,52 ,000
Greenhouse-Geisser 190,62 1,58 120,50 18,52 ,000
Huynh-Feldt 190,62 1,68 113,29 18,52 ,000
Lmite-inferior 190,62 1,00 190,62 18,52 ,000
Error (tiempo) Esfericidad asumida 391,20 76,00 5,15
Greenhouse-Geisser 391,20 60,11 6,51
Huynh-Feldt 391,20 63,94 6,12
Lmite-inferior 391,20 38,00 10,29

Tabla 9.23. Contrastes univariados (efectos intersujetos)


Medida: MEASURE_1
Variable transformada: Promedio
Suma de Media
Fuente cuadrados tipo III gl cuadrtica F Sig.
Interseccin 34.203,00 1 34.203,00 3.184,92 ,000
tto 29,47 1 29,47 2,74 ,106
Error 408,08 38 10,74

Comparaciones post hoc: efectos principales


Ya sabemos que, aunque las comparaciones post hoc no estn disponibles para los factores
MR, es posible efectuar comparaciones post hoc utilizando la opcin Comparar efectos prin-
cipales del cuadro de dilogo Opciones.
Las Tablas 9.24 y 9.25 muestran los resultados relativos al efecto del factor tiempo (no
hemos solicitado comparaciones post hoc para el factor tto porque este factor solamente tie-
ne dos niveles; cuando un factor intersujetos tiene ms de dos niveles, pueden utilizarse los
procedimientos del botn Post hoc de idntica manera a como se ha hecho en el Captulo 6
con el modelo de un factor CA; los procedimientos disponibles son los mismos y la forma
de interpretarlos tambin).
La Tabla 9.24 ofrece las medias de los niveles del factor tiempo, adems del error tpi-
co y del intervalo de confianza correspondiente a cada media (no olvidar que estos intervalos
de confianza se refieren a cada media individualmente considerada, no a diferencias entre
pares de medias; por tanto, no sirven para realizar comparaciones). Debe tenerse en cuenta
que los cdigos asignados al factor tiempo (1, 2, 3) se corresponden con los niveles del fac-
tor en el orden en el que han sido seleccionados en el cuadro de dilogo principal; por tanto,
1 = basal, 2 = semana 4, 3 = semana 8.
La Tabla 9.25 muestra las comparaciones por pares entre los niveles del factor tiempo
(hemos eliminado de la tabla las filas con informacin redundante). Para controlar la tasa de
error, tanto a los niveles crticos (sig.) como a los intervalos de confianza se les ha aplicado
Captulo 9. ANOVA. Dos factores con medidas repetidas 359

la correccin de Bonferroni (se indica en una nota a pie de tabla). El resultado de estas
comparaciones indica que el nivel medio de depresin en el momento basal (nivel 1) es sig-
nificativamente ms alto (sig. < 0,0005) que en el resto de momentos; y significativamente
ms alto tambin (sig. < 0,0005) en la semana 4 que en la 8 (niveles 2 y 3). Los intervalos de
confianza indican exactamente lo mismo (ninguno de ellos incluye el valor cero). Por tanto,
puede concluirse que el nivel medio de depresin va disminuyendo conforme va avanzando
el tratamiento (debe tenerse en cuenta que esta conclusin es provisional; el hecho de que el
efecto de la interaccin sea significativo indica que este resultado podra ser matizado).

Tabla 9.24. Medias estimadas (factor tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95%
tiempo Media Error tp. Lmite inferior Lmite superior
1 33,25 ,43 32,38 34,12
2 29,50 ,62 28,24 30,76
3 24,98 ,70 23,55 26,40

Tabla 9.25. Comparaciones por pares (factor tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95%
a
Diferencia entre para la diferencia
a
(I) tiempo (J) tiempo medias (I-J) Error tp. Sig. Lmite inferior Lmite superior
1 2 3,75 ,45 ,000 2,63 4,87
3 8,28 ,62 ,000 6,71 9,84
2 3 4,53 ,43 ,000 3,45 5,60
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.

Comparaciones mltiples: efectos simples


La Tabla 9.26 muestra las medias de las casillas (las medias de cada combinacin entre los
niveles del factor tto y los del factor tiempo). Estas medias son las que se compararan al ana-
lizar los efectos simples.
La Tabla 9.27 contiene la informacin referida a los efectos simples del factor tto, es
decir, las comparaciones entre los niveles del factor tto (1 = estndar, 2 = combinado)
dentro cada nivel del factor tiempo (1 = basal, 2 = semana 4, 3 = semana 8). Estas
comparaciones (32,65 ! 33,85 = !1,20; 30,20 ! 28,80 = 1,40; 27,45 ! 22,50 = 4,95) apare-
cen con sus correspondientes pruebas de significacin e intervalos de confianza. Tanto los
niveles crticos (sig.) como los intervalos de confianza se han ajustado aplicando la correc-
cin de Bonferroni. Los resultados obtenidos indican que los tratamientos (sus medias)
difieren significativamente en la semana 8 (nivel 3; sig. = 0,001) pero no en el momento ba-
sal ni en la semana 4 (nivel 1: sig. = 0,171; nivel 2: sig. = 0,266). Es decir, en la semana 8,
el nivel de depresin es ms bajo con el tratamiento combinado que con el estndar; pero no
parece que esto sea as ni en el momento basal ni en la semana 8.
En lugar de analizar los efectos simples del factor tto se podran analizar los efectos sim-
ples del factor tiempo. Para ello basta con cambiar COMPARE(tto) por COMPARE(tiempo) en la
sentencia /EMMEANS = TABLES (tto*tiempo) COMPARE(tto) ADJ(BONFERRONI).
360 Anlisis de datos (vol. II)

Tabla 9.26. Medias estimadas (combinaciones tto por tiempo)


Medida: MEASURE_1
Intervalo de confianza al 95%
Tratamiento tiempo Media Error tp. Lmite inferior Lmite superior
Estndar 1 32,65 ,61 31,42 33,88
2 30,20 ,88 28,42 31,98
3 27,45 ,99 25,44 29,46
Combinado 1 33,85 ,61 32,62 35,08
2 28,80 ,88 27,02 30,58
3 22,50 ,99 20,49 24,51

Tabla 9.27. Comparaciones por pares (efectos simples del factor tto)
Medida: MEASURE_1
Intervalo de confianza al 95%
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo Tratamiento Tratamiento medias (I-J) tp. Sig. Lmite inferior Lmite superior
1 Estndar Combinado -1,20 ,86 ,171 -2,94 ,54
2 Estndar Combinado 1,40 1,24 ,266 -1,11 3,91
3 Estndar Combinado 4,95 1,40 ,001 2,11 7,79
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.

Comparaciones mltiples: efecto de la interaccin


El anlisis de los efectos simples del apartado anterior indica que la diferencia entre los dos
tratamientos se produce en la semana 8 pero no en el momento basal ni en la semana 4. Sig-
nifica esto que lo que ocurre en la semana 8 difiere de lo que ocurre en el momento basal y
en la semana 4? No exactamente. Para responder a esta pregunta es necesario analizar e in-
terpretar el efecto de la interaccin.
Para esto, hemos solicitado (1) un grfico de lneas o perfiles y (2) comparaciones entre
los efectos simples (en el Captulo 7 se describe con detalle todo lo relacionado con el tipo
de comparaciones que es necesario llevar a cabo para poder interpretar una interaccin sig-
nificativa).
El grfico de lneas de la Figura 9.6 muestra una paulatina disminucin del nivel medio
de depresin entre el momento basal y la semana 8 (es decir, conforme avanza el tratamiento).
Esto ocurre con ambos tratamientos. Por tanto, no es sorprendente que el efecto del factor
tiempo haya resultado significativo (ver Tabla 9.22) y que la reduccin en el nivel medio de
depresin que se produce entre cada dos momentos tambin lo sea (ver Tabla 9.25). Sin
embargo, la diferencia entre los tratamientos es mayor al final (3 = semana 8) que al prin-
cipio (1 = basal, 2 = semana 4). Esto es justamente lo que nos est indicando la pre-
sencia de una interaccin significativa: que la diferencia entre los dos tratamientos no es la
misma en los tres momentos.
Pero, qu momentos difieren de qu otros? Es decir, qu efectos simples difieren de
qu otros? Para responder a esta pregunta no basta con saber que unos efectos simples son
significativos y otros no; es necesario compararlos entre s (ver, en el Apndice 7, el apar-
tado Ms sobre los efectos simples y el efecto de la interaccin).
Captulo 9. ANOVA. Dos factores con medidas repetidas 361

Figura 9.6. Grfico de lneas (perfiles) correspondiente a los datos de la Tabla 9.16

Parte de las comparaciones entre efectos simples aparecen en la Tabla 9.28 (se ha elimina-
do de la tabla original la informacin relativa a los efectos principales y se ha dejado ni-
camente la relativa al efecto de la interaccin). Puesto que el factor tiempo tiene 3 niveles,
hay 3 efectos simples asociados al factor tiempo (es decir, 3 diferencias entre los dos trata-
mientos). Para comparar entre s estos 3 efectos simples es necesario realizar 3 compara-
ciones; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos
2 y 3, y lo que lo que ocurre en el momento 2 con lo que ocurre en el momento 3.
De estas 3 comparaciones, la Tabla 9.28 incluye las 2 primeras, es decir, lo que ocurre
en el momento 1 comparado con lo que ocurre en los momentos 2 y 3. En la primera de ellas
se est comparando el efecto simple de tto en el momento 1 con el efecto simple de tto en el
momento 2 (tiempo = nivel 2 - nivel 1). Los resultados se presentan en el formato de una ta-
bla de ANOVA. Puesto que esta comparacin tiene asociado un nivel crtico menor que 0,05
(sig. = 0,006), puede afirmarse que el efecto simple de tto en el momento 1 (basal) difiere del
efecto simple de tto en el momento 2 (semana 4). Debe repararse en el hecho de que este re-
sultado (diferencia significativa entre los dos primeros efectos simples de tto) no coincide con
el que se desprende del anlisis individual de los efectos simples del apartado anterior, pues
ambos efectos simples han resultado no significativos (ver Tabla 9.27).
En la segunda lnea se est comparando el efecto simple de tto en el momento 1 con el
efecto simple de tto en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que esta compa-
racin tiene asociado un nivel crtico menor que 0,05 (sig. < 0,0005), puede afirmarse que
el efecto simple de tto en el momento 1 difiere del efecto simple de tto en el momento 3.

Tabla 9.28. Contrastes intrasujetos (comparaciones entre efectos simples)


Medida: MEASURE_1
Suma de Media
Fuente tiempo cuadrados tipo III gl cuadrtica F Sig.
tiempo * tto Nivel 2 - Nivel 1 67,60 1 67,60 8,45 ,006
Nivel 3 - Nivel 1 378,23 1 378,23 24,29 ,000
Error (tiempo) Nivel 2 - Nivel 1 303,90 38 8,00
Nivel 3 - Nivel 1 591,75 38 15,57

La Tabla 9.28 contiene informacin sobre las comparaciones entre los momentos 1-2 y 1-3
(falta la comparacin entre los momentos 2-3). Esta tabla es la que se obtiene al seleccionar
362 Anlisis de datos (vol. II)

la opcin Simple en el subcuadro de dilogo Medidas repetidas: Contrastes. La lnea de sin-


taxis que ha generado esta tabla es /WSFACTOR = tiempo 3 Simple(1). El valor 1 colocado entre
parntesis en Simple(1) indica que la categora de referencia (el nivel del factor tiempo con el
que se comparan los dems niveles) es la primera. Cambiando ese valor por 2, la categora
de referencia pasa a ser la segunda; y ejecutando la sintaxis con este cambio se obtienen los
resultados que muestra la Tabla 9.29 (se ha eliminado de la tabla la informacin que no inte-
resa en este momento). En la primera lnea de la tabla se est comparando el efecto simple de
tto en el momento 2 con el efecto simple de tto en el momento 3 (tiempo = nivel 3 - nivel 2).
Puesto que esta comparacin tiene asociado un nivel crtico menor que 0,05 (sig. < 0,0005),
puede afirmarse que el efecto simple de tto en el momento 2 difiere del efecto simple de tto
en el momento 3.
Resumiendo, al comparar entre s los efectos simples de tto hemos encontrado diferencias
significativas entre los tres momentos. Es decir, centramos el anlisis en la diferencia entre
los dos tratamientos, encontramos: (1) que lo que ocurre en el momento basal difiere de lo
que ocurre en la semana 4 (el tratamiento combinado reduce el nivel de ansiedad ms de lo
que lo hace el estndar) y (2) que lo que ocurre en la semana 8 difiere de lo que ocurre en el
momento basal y en la semana 4 (de nuevo el tratamiento combinado reduce el nivel de
ansiedad ms de lo que lo hace el estndar).
Si se est dispuesto a utilizar la sintaxis con algo ms de profundidad, estos mismos re-
sultados y algunos otros adicionales pueden obtenerse combinando las sentencias LMATRIX
y MMATRIX (ver Apndice 9).

Tabla 9.29. Contrastes intrasujetos (comparaciones entre efectos simples)


Medida: MEASURE_1
Suma de Media
Fuente tiempo cuadrados tipo III gl cuadrtica F Sig.
tiempo * tto Nivel 3 - Nivel 2 126,03 1 126,03 17,23 ,000
Error (tiempo) Nivel 3 - Nivel 2 277,95 38 7,31

Apndice 9
La sentencia MMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de dilogo del SPSS,
la sentencia MMATRIX permite realizar cualquier tipo de comparacin entre los niveles de un efecto
intrasujetos. En lo que aqu nos interesa ms, esta sentencia permite valorar la significacin individual
de los efectos simples, realizar comparaciones entre los niveles de un mismo efecto simple y realizar
comparaciones entre diferentes efectos simples. En este apartado se explica cmo utilizar la sentencia
MMATRIX para llevar a cabo estos tres tipos de comparaciones.
La lgica en la que se basa la sentencia MMATRIX es similar a la ya utilizada a propsito de la sen-
tencia LMATRIX en el Apndice 7. Pero trabajar con la sentencia MMATRIX es ms sencillo porque los
coeficientes que hay que elegir para definir cada comparacin se asignan directamente a las medidas
repetidas del diseo.
Captulo 9. ANOVA. Dos factores con medidas repetidas 363

Anlisis de los efectos simples

Retomemos nuestro ejemplo (ver Tabla 9.3) sobre la relacin entre la calidad del recuerdo, el contenido
del material recordado (nmeros, letras) y el paso del tiempo (hora, da, semana, mes). Para valorar, por
ejemplo, los efectos simples del factor contenido, es decir, la diferencia entre nmeros y letras en cada
uno de los cuatro momentos:
' En el cuadro de dilogo Medidas repetidas, trasladar las 8 variables (medidas repetidas) del ejem-
plo (n_hora, n_da, n_semana, n_mes, l_hora, l_da, l_semana, l_mes) a la lista Factores intra-
sujetos y pulsar el botn Pegar para obtener la sintaxis correspondiente a las elecciones hechas.

El Editor de sintaxis muestra el siguiente resultado:


GLM n_hora n_da n_semana n_mes l_hora l_da l_semana l_mes
/WSFACTOR = contenido 2 Polynomial tiempo 4 Polynomial
/METHOD = SSTYPE(3)
/CRITERIA = ALPHA(.05)
/WSDESIGN = contenido tiempo contenido*tiempo.

Los valores asignados a las sentencias WSFACTOR, METHOD, CRITERIA y WSDESIGN son los que
el procedimiento GLM utiliza por defecto; no es necesario modificarlos. Para valorar los cuatro efec-
tos simples del factor contenido vamos a aadir la sentencia MMATRIX con las especificaciones que
se muestran a continuacin:
GLM n_hora n_da n_semana n_mes l_hora l_da l_semana l_mes
/WSFACTOR = contenido 2 Polynomial tiempo 4 Polynomial
/METHOD = SSTYPE(3)
/CRITERIA = ALPHA(.05)
/MMATRIX =
n_hora 1 l_hora !1;
n_da 1 l_da !1;
n_semana 1 l_semana !1;
n_mes 1 l_mes !1;
/WSDESIGN = contenido tiempo contenido*tiempo.

Los cuatro efectos simples del factor contenido (uno por cada nivel del factor tiempo) se han definido
en las cuatro lneas adosadas a la sentencia MMATRIX. La primera lnea, por ejemplo, define la com-
paracin entre las variables n_hora (cdigo 1) y l_hora (cdigo !1); es decir, define el efecto simple
del factor contenido en el momento una hora (primer nivel del factor tiempo). Las otras tres lneas
definen la misma comparacin pero referida a los otros tres momentos del factor tiempo (ntese que
cada lnea de la sentencia termina con punto y coma).
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 9.30. Estos
resultados son equivalentes a los ya obtenidos al estudiar los efectos simples con otra estrategia dife-
rente (ver Tabla 9.11), con la diferencia de que ahora no se est aplicando la correccin de Bonferro-
ni al calcular los niveles crticos ni al construir los intervalos de confianza (cosa que en este ejemplo
es del todo irrelevante porque el factor contenido tiene dos niveles). El procedimiento asigna el nom-
bre T# a cada contraste. As, T1 se refiere al primer contraste solicitado (primer efecto simple del fac-
tor contenido), T2 al segundo contraste solicitado (segundo efecto simple del factor contenido), etc.
Los resultados obtenidos (sig.) indican que la diferencia entre el recuerdo de nmeros y letras
es significativa en los momentos 1 y 2 ( p < 0,0005 y p = 0,014, respectivamente) pero no en los mo-
mentos 3 y 4 ( p = 0,102 y p = 0,883, respectivamente). Por tanto, las letras se recuerdan mejor que los
nmeros al cabo de una hora y de un da, pero no hay evidencia de que esto sea as al cabo de una se-
mana y de un mes.
364 Anlisis de datos (vol. II)
Tabla 9.30. Efectos simples del factor contenido
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 66,67 1 66,67 100,00 ,000
T2 42,67 1 42,67 13,91 ,014
T3 2,67 1 2,67 4,00 ,102
T4 ,17 1 ,17 ,02 ,883
Error T1 3,33 5 ,67
T2 15,33 5 3,07
T3 3,33 5 ,67
T4 34,83 5 6,97

Comparaciones entre los niveles de un mismo efecto simple


Puesto que la variable contenido solamente tiene dos niveles, basta con hacer una comparacin en cada
uno de los cuatro niveles del factor tiempo (cuatro comparaciones en total); estas cuatro comparacio-
nes se corresponden con los cuatro efectos simples del factor contenido (Tabla 9.30).
Cuando el factor analizado tiene ms de dos niveles, adems de valorar la significacin de cada
efecto simple (como en el apartado anterior), puede interesar comparar entre s las medias involucra-
das en cada efecto simple. Por ejemplo, los efectos simples del factor tiempo son dos: uno por cada con-
tenido. Pero cada efecto simple del factor tiempo incluye 4 medias. Por tanto, analizar los efectos sim-
ples del factor tiempo en cada contenido implica hacer 6 comparaciones por pares con cada contenido
(12 comparaciones en total). Estas comparaciones pueden hacerse utilizando dos sentencias MMATRIX:
una con las 6 comparaciones relativas al primer contenido (nmeros) y otra con las 6 relativas al se-
gundo contenido (letras). Puesto que el procedimiento GLM solo admite una sentencia MMATRIX, hay
que ejecutarlo dos veces. La siguiente sentencia MMATRIX incluida dentro del procedimiento GLM
solicita comparar por pares los niveles del factor tiempo cuando el material recordado es nmeros:
/MMATRIX =
n_hora 1 n_da 1
n_hora 1 n_semana 1;
n_hora 1 n_mes 1;
n_da 1 n_semana 1;
n_da 1 n_mes 1;
n_semana 1 n_mes 1;

Y la siguiente sentencia MMATRIX solicita comparar los niveles del factor tiempo cuando el material
recordado es letras:
/MMATRIX =
l_hora 1 l_da 1;
l_hora 1 l_semana 1;
l_hora 1 l_mes 1;
l_da 1 l_semana 1;
l_da 1 l_mes 1;
l_semana 1 l_mes 1;

Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 9.31 y 9.32. La Tabla 9.31
ofrece los 6 contrastes (comparaciones por pares) entre los 4 niveles del factor tiempo dentro del pri-
mer nivel de contenido (nmeros). El orden de los contrastes T1, T2, etc., es el que se ha definido en
la sentencia MMATRIX. Por tanto, en T1 se est comparando una hora con un da; en T2 se est com-
parando una hora con una semana; ...; en T6 se est comparando una semana con un mes. El resulta-
Captulo 9. ANOVA. Dos factores con medidas repetidas 365

do de los contrastes T1, T2 y T3 indica que, al recordar nmeros, la calidad del recuerdo al cabo de una
hora es mejor que al cabo de un da ( p = 0,006), mejor que al cabo de una semana ( p < 0,0005) y me-
jor que al cabo de un mes ( p = 0,007). Los resultados de los contrastes T4, T5 y T6 indican que no
existe evidencia de diferencias entre el resto de los momentos ( p > 0,05 en los tres casos).
La Tabla 9.32 ofrece los mismos 6 contrastes pero dentro del segundo nivel de contenido (letras).
El resultado de los contrastes T1, T2 y T3 indica que, al recordar letras, la calidad del recuerdo al cabo
de una hora es mejor que al cabo de un da ( p = 0,018), mejor que al cabo de una semana ( p < 0,0005)
y mejor que al cabo de un mes ( p < 0,0005). El resultado de los contrastes T4 y T5 indica que la cali-
dad del recuerdo al cabo de un da es mejor que al cabo de una semana ( p = 0,010) y mejor que al ca-
bo de un mes ( p = 0,023). El resultado del contraste T6 indica que no existe evidencia de que lo que
ocurre al cabo de una semana difiera de lo que ocurre al cabo de un mes ( p = 1,000). No olvidar que
en todos estos contrastes no se est aplicando ningn tipo de correccin para controlar la tasa de error.

Tabla 9.31. Comparaciones por pares entre los niveles del factor tiempo en el primer contenido (nmeros)
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 20,17 1 20,17 20,86 ,006
T2 54,00 1 54,00 67,50 ,000
T3 37,50 1 37,50 19,74 ,007
T4 8,17 1 8,17 5,98 ,058
T5 2,67 1 2,67 ,77 ,421
T6 1,50 1 1,50 1,36 ,296
Error T1 4,83 5 ,97
T2 4,00 5 ,80
T3 9,50 5 1,90
T4 6,83 5 1,37
T5 17,33 5 3,47
T6 5,50 5 1,10

Tabla 9.32. Comparaciones por pares entre los niveles del factor tiempo en el segundo contenido (letras)
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 37,50 1 37,50 12,10 ,018
T2 192,67 1 192,67 103,21 ,000
T3 192,67 1 192,67 85,00 ,000
T4 60,17 1 60,17 15,97 ,010
T5 60,17 1 60,17 10,43 ,023
T6 ,00 1 ,00 ,00 1,000
Error T1 15,50 5 3,10
T2 9,33 5 1,87
T3 11,33 5 2,27
T4 18,83 5 3,77
T5 28,83 5 5,77
T6 24,00 5 4,80

Anlisis del efecto de la interaccin


Ya hemos sealado que los efectos simples incluyen el correspondiente efecto principal y el efecto de
la interaccin. sta es la razn por la cual, para aislar e interpretar el efecto de la interaccin, no basta
con valorar la significacin individual de cada efecto simple por separado; es necesario compararlos
entre s para poder determinar dnde estn realmente las diferencias.
366 Anlisis de datos (vol. II)

Veamos cmo comparar entre s los 4 efectos simples de contenido. Cada efecto simple de conte-
nido representa la diferencia entre nmeros y letras en cada uno de los cuatro niveles del factor tiempo
(hora, da, semana, mes). Para comparar cada efecto simple (cada diferencia nmeros-letras) con cada
otro hay que realizar 6 comparaciones: hora-da, hora-semana, hora-mes, da-semana, da-mes y
semana-mes. En cada una de estas comparaciones hay involucradas 4 medias. Por ejemplo, en la
comparacin hora-da se est comparando la diferencia nmeros-letras
_ en
_ el momento
_ una _hora con
la diferencia nmeros-letras en el momento un da; es decir, (Y n_hora ! Y l_hora) ! (Y n_da ! Y l_da). La
sintaxis que permite realizar estas 6 comparaciones es la siguiente (ver, en el Apndice 7, la lgica
seguida al asignar coeficientes con la sentencia LMATRIX):
/MMATRIX =
n_hora 1 n_da 1 n_semana 0 n_mes 0 l_hora 1 l_da 1 l_semana 0 l_mes 0;
n_hora 1 n_da 0 n_semana 1 n_mes 0 l_hora 1 l_da 0 l_semana 1 l_mes 0;
n_hora 1 n_da 0 n_semana 0 n_mes 1 l_hora 1 l_da 0 l_semana 0 l_mes 1;
n_hora 0 n_da 1 n_semana 1 n_mes 0 l_hora 0 l_da 1 l_semana 1 l_mes 0;
n_hora 0 n_da 1 n_semana 0 n_mes 1 l_hora 0 l_da 1 l_semana 0 l_mes 1;
n_hora 0 n_da 0 n_semana 1 n_mes 1 l_hora 0 l_da 0 l_semana 1 l_mes 1;

Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 9.33 y 9.34. La primera de ellas
es idntica a las de los dos apartados anteriores. Y puede comprobarse que ofrece idntico resultado
al obtenido al comparar los efectos simples del factor contenido con la opcin Contrastes (ver Tablas
9.12 a la 9.14). Por tanto, se interpreta de idntica manera.
La Tabla 9.34 ofrece una valoracin global de los 6 contrastes de la Tabla 9.33. El resultado de
esta tabla no tendra inters si no fuera porque permite constatar que el efecto global de los 6 con-
trastes entre efectos simples llevados a cabo en la Tabla 9.33 para aislar e interpretar el efecto de la
interaccin es idntico al resultado obtenido al analizar el efecto global de la interaccin (Tabla 9.6).
Lo cual est indicando, por un lado, que estos 6 contrastes agotan el efecto de la interaccin y, por otro,
que no estn contaminados por la presencia de efectos distintos del de la interaccin.

Tabla 9.33. Comparaciones entre los efectos simples del factor contenido
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 2,67 1 2,67 1,00 ,363
T2 42,67 1 42,67 29,09 ,003
T3 60,17 1 60,17 9,16 ,029
T4 24,00 1 24,00 5,45 ,067
T5 37,50 1 37,50 3,15 ,136
T6 1,50 1 1,50 ,32 ,597
Error T1 13,33 5 2,67
T2 7,33 5 1,47
T3 32,83 5 6,57
T4 22,00 5 4,40
T5 59,50 5 11,90
T6 23,50 5 4,70

Tabla 9.34. Contraste del efecto de la interaccin contenido por tiempo


Valor F Gl de la hiptesis Gl del error Sig.
Traza de Pillai ,86 6,28 3,00 3,00 ,083
Lambda de Wilks ,14 6,28 3,00 3,00 ,083
Traza de Hotelling 6,28 6,28 3,00 3,00 ,083
Raz mayor de Roy 6,28 6,28 3,00 3,00 ,083
Captulo 9. ANOVA. Dos factores con medidas repetidas 367

Cuando el diseo incluye un factor intersujetos y un factor intrasujetos (modelo AB-CA-MR), las
comparaciones relativas al efecto principal del factor intersujetos pueden llevarse a cabo con la sen-
tencia LMATRIX (tal como hemos hecho en el Apndice 7) y las relativas al efecto principal del factor
intrasujetos con la sentencia MMATRIX (tal como acabamos de hacer en este mismo apartado). Para
llevar a cabo las comparaciones relacionadas con el efecto de la interaccin es necesario utilizar am-
bas sentencias simultneamente.
Volvamos a nuestro ejemplo (ver Tabla 9.16) sobre los dos tratamientos antidepresivos (factor
intersujetos tto: estndar, combinado) y las tres mediciones en el tiempo (factor intrasujetos tiempo:
basal, semana 4 y semana 8). Puesto que el efecto de la interaccin tto*tiempo incluye un factor inter-
sujetos (tto) y un factor intrasujetos (tiempo), las comparaciones relacionadas con este efecto es ne-
cesario solicitarlas combinando las sentencias LMATRIX y MMATRIX. La forma de hacerlo consiste en
intercalar en la sintaxis del procedimiento GLM lo siguiente:
/LMATRIX =
tto 1 1
/MMATRIX =
basal 1 cuatro 1 ocho 0;
basal 1 cuatro 0 ocho 1;
basal 0 cuatro 1 ocho 1;

En la sentencia LMATRIX se est solicitando que se comparen los dos tratamientos (estndar, combi-
nado) asignando a sus niveles los coeficientes6 1 y !1.
En la primera lnea de la sentencia MMATRIX se est solicitando que se compare el momento ba-
sal con la semana 4; en la segunda, el momento basal con la semana 8; en la tercera, la semana 4 con
la semana 8. Puesto que lo que se est comparando en cada lnea de la sentencia MMATRIX es la di-
ferencia definida en LMATRIX, lo que realmente se est haciendo con este conjunto de sentencias es
comparar entre s los tres efectos simples de la variable tto.
La Tabla 9.35 muestra el resultado que se obtiene con estas sentencias. En el contraste T1 se es-
t comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 4; la diferencia es significativa ( p = 0,006). En el contraste T2 se est
comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). En el contraste T3 se es-
t comparando la diferencia entre los dos tratamientos en la semana 4 con la diferencia entre los dos
tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). Por tanto, todas las diferen-
cias entre los efectos simples del factor tratamiento son significativas.

Tabla 9.35. Comparaciones entre los efectos simples del factor tratamiento
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 67,60 1 67,60 8,45 ,006
T2 378,23 1 378,23 24,29 ,000
T3 126,03 1 126,03 17,23 ,000
Error T1 303,90 38 8,00
T2 591,75 38 15,57
T3 277,95 38 7,31

6
Estos dos coeficientes se asignan automticamente a los dos niveles del factor tto. El primer coeficiente (1) se asigna al
primer nivel; el segundo (!1), al segundo nivel. El orden de los niveles del factor viene impuesto por los cdigos utiliza-
dos para identificar cada nivel: el primer nivel es el que tiene asignado el cdigo menor; el segundo nivel, el que tiene asig-
nado el siguiente cdigo menor; etc. Esta consideracin tiene su importancia porque si los dos tratamientos se han codifi-
cado como 1 = estndar y 2 = combinado, el primer nivel es estndar; pero si se han codificado como 1 = estndar
y 0 = combinado, el primer nivel es combinado.
368 Anlisis de datos (vol. II)

Ejercicios Soluciones en www.sintesis.com

9.1. Para comprobar si el nivel de ansiedad (factor A) y el nivel de dificultad de la tarea (factor B) afectan
al rendimiento en una tarea visomotora, un investigador ha seleccionado 4 sujetos bajos en ansiedad
y otros 4 altos en ansiedad (basndose en las puntuaciones obtenidas en una escala de ansiedad) y les
ha presentado, de forma aleatoria, tres tareas de diferente dificultad (baja, media y alta). Tras evaluar
el rendimiento de los sujetos ha obtenido los resultados que muestra la tabla:

Dificultad de la tarea
Ansiedad Sujetos (b1) Baja (b2) Media (b3) Alta
s1 7 9 5
s2 7 8 8
(a1) Baja
s3 5 7 6
s4 6 8 4

s5 6 4 3
s6 6 5 6
(a2) Alta
s7 7 3 5
s8 4 2 4

Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadsticos F del correspondiente modelo de ANOVA y utilizando = 0,05,
a. Qu modelo de ANOVA debe utilizarse para analizar estos datos?
b. Es razonable asumir esfericidad? A qu matriz se refiere este supuesto?
c. Es razonable asumir que las matrices de varianzas-covarianzas son homogneas? A qu matrices
se refiere este supuesto?
d. Qu decisin debe tomarse sobre la hiptesis nula de que no existe efecto del nivel de ansiedad?
e. Y sobre la hiptesis nula de que no existe efecto de la dificultad de la tarea?
f. Y sobre la hiptesis nula de que no existe efecto de la interaccin entre el nivel de ansiedad y la
dificultad de la tarea?
g. Cunto vale la psilon de Greenhouse-Geisser?
h. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector psilon?
i. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadsticos de la aproximacin multivariada?
j. Es apropiado utilizar la aproximacin multivariada con estos datos?
k. Puede afirmarse que la relacin entre la dificultad de la tarea y el rendimiento es cuadrtica?
l. Utilizar para estimar el tamao de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. Cunto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?

9.2. Seguimos con los datos del ejercicio anterior, pero ahora nos vamos a centrar en los efectos simples y
en el efecto de la interaccin:
a. En qu niveles de dificultad difiere el rendimiento medio de los sujetos con ansiedad baja del de
los sujetos con ansiedad alta?
Captulo 9. ANOVA. Dos factores con medidas repetidas 369

b. Entre qu efectos simples del factor ansiedad existen diferencias significativas?


c. Utilizar el resultado del apartado anterior y un grfico de perfil (con la dificultad de la tarea en el
eje horizontal) para interpretar el efecto de la interaccin.

9.3. Algunos estudios han puesto de manifiesto que las enfermedades de tipo alrgico se ven agravadas por
la presencia de estrs. Adems, la poca del ao parece afectar de forma decisiva a la intensidad de la
respuesta alrgica. En un estudio concreto se ha utilizado una muestra aleatoria de 10 pacientes alr-
gicos (todos con el mismo tipo de alergia), la mitad de ellos con condiciones de vida calificables de
bajo estrs y la otra mitad con condiciones de vida calificables de alto estrs. Un grupo de especia-
listas ha evaluado la gravedad de la alergia de cada paciente (en una escala de 0 a 10) en los cuatro
periodos estacionales: primavera, verano, otoo e invierno. Los resultados de esta evaluacin apare-
cen en la siguiente tabla:

poca del ao
Estrs Sujetos (b1) Primavera (b2) Verano (b3) Otoo (b4) Invierno
s1 6 5 5 1
s2 5 2 3 3
(a1) Bajo s3 7 3 4 4
s4 8 4 7 5
s5 6 1 3 2

s6 7 6 8 5
s7 9 5 5 7
(a2) Alto s8 10 4 9 5
s9 10 6 6 4
s10 9 3 7 6

Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadsticos F del correspondiente modelo de ANOVA y utilizando = 0,05,
a. Qu modelo de ANOVA debe utilizarse para analizar estos datos?
b. Es razonable asumir esfericidad? Cuntas filas tiene la matriz a la que se refiere este supuesto?
c. Es razonable asumir que las matrices de varianzas-covarianzas son homogneas? Cuntas ma-
trices se estn comparando para valorar este supuesto?
d. Qu decisin debe tomarse sobre la hiptesis nula de que no existe efecto del estrs?
e. Y sobre la hiptesis nula de que no existe efecto de la dificultad de la poca del ao?
f. Y sobre la hiptesis nula de que no existe efecto de la interaccin entre el nivel de ansiedad y la
dificultad de la tarea?
g. Cuntos grados de libertad tiene la variabilidad asociada al error correspondiente a la poca del
ao?
h. Cunto vale la psilon de Greenhouse-Geisser?
i. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector psilon?
j. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadsticos de la aproximacin multivariada?
k. Es apropiado utilizar la aproximacin multivariada con estos datos?
l. Utilizar para estimar el tamao de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. Cunto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?
370 Anlisis de datos (vol. II)

9.4. Seguimos con los datos del ejercicio anterior. Vamos a realizar algunas comparaciones (siempre con
= 0,05):
a. Ya sabemos que la gravedad de la alergia no es la misma en las cuatro estaciones. Qu estacio-
nes difieren de qu otras?
b. En qu pocas del ao difiere la gravedad de la alergia de los sujetos con estrs bajo de la de los
sujetos con estrs alto?
c. Entre qu efectos simples del factor estrs existen diferencias significativas?
d. Utilizar el resultado del apartado anterior y un grfico de perfil (con la poca del ao en el eje ho-
rizontal) para interpretar el efecto de la interaccin.

9.5. La siguiente tabla muestra el nmero de errores que han cometido 6 sujetos en una tarea de memori-
zacin realizada en dos condiciones de recuerdo (a1: reconocimiento; a2: evocacin libre) y despus
de distintos intervalos de tiempo (b1: una hora; b2: un da; b3: una semana):

a1 a2
Sujetos b1 b2 b3 b1 b2 b3
s1 1 5 2 4 5 7
s1 3 6 6 6 8 10
s1 3 5 4 1 6 5
s1 1 4 7 2 10 12
s1 5 6 5 5 10 10
s1 2 8 7 1 7 8

Reproducir los datos en el SPSS. Asumiendo que se cumplen los supuestos en los que se basan los esta-
dsticos F del correspondiente modelo de ANOVA y utilizando = 0,05,
a. Qu modelo de ANOVA debe utilizarse para analizar estos datos?
b. Es razonable asumir esfericidad?
c. Valorar el efecto del factor recuerdo, el del factor tiempo y el de la interaccin recuerdo-tiempo.
d. Utilizar para estimar el tamao de los efectos analizados en el apartado anterior. Interpretar los
resultados obtenidos.
e. En qu momentos (hora, da, semana) puede afirmarse que el nmero medio de errores que se
comete en condiciones de reconocimiento difiere del que se comete en condiciones de evocacin?
f. Entre qu efectos simples del factor recuerdo existen diferencias significativas?
g. Utilizar el resultado del apartado anterior y un grfico de perfil (con el factor tiempo en el eje ho-
rizontal) para interpretar el efecto de la interaccin.
10
Anlisis de regresin lineal

La relacin entre variables cuantitativas hemos empezado a estudiarla en el Captulo 12 del


primer volumen y en el 5 de ste. Pero hasta ahora nos hemos limitado al caso de dos varia-
bles aplicando estadsticos como el coeficiente de correlacin de Pearson. Este captulo se
centra en un procedimiento que permite extender el anlisis a ms de dos variables: el anlisis
de regresin lineal.
Tanto en el caso de dos variables, regresin simple, como en el de ms de dos variables,
regresin mltiple, el anlisis de regresin lineal sirve para explorar y cuantificar la relacin
entre una variable cuantitativa llamada dependiente o respuesta (Y ) y una o ms variables
cuantitativas o categricas llamadas independientes o predictoras (X1, X2, ..., Xp ). Sobre la
base de esta relacin, se construye un modelo lineal1 que permite: (1) valorar el impacto in-
dividual y colectivo de las variables independientes sobre la dependiente y (2) efectuar pro-
nsticos sobre la variable dependiente. Adems, el modelo de regresin lineal lleva asociadas
diferentes estrategias de diagnstico que no solo informan sobre la calidad del modelo, sino
que ofrecen pistas acerca de cmo perfeccionarlo.
Se trata de una herramienta estadstica lo bastante verstil como para ser aplicada en una
amplia variedad de contextos. Por ejemplo, en el mbito clnico puede utilizarse para iden-
tificar qu variables contribuyen a entender un determinado sntoma o enfermedad; o para
pronosticar el xito en la recuperacin de los pacientes a partir de indicadores como la gra-
vedad de la enfermedad, el tipo de intervencin y la edad. En el mbito educativo, para
averiguar qu peso tienen el cociente intelectual, las horas de estudio y el nivel educativo de
los padres en el rendimiento acadmico de los estudiantes. En el mbito social, para prede-
cir el desempeo en un puesto de trabajo a partir de la formacin, de la experiencia laboral
y de algunos rasgos de personalidad de los candidatos; o para averiguar si la tasa de natali-
dad est relacionada con la renta per cpita y el porcentaje de alfabetizacin; etc.
1
Los modelos de regresin lineal son, al igual que los de anlisis de varianza ya estudiados, versiones concretas del modelo
lineal general (ver Captulo 1 del tercer volumen). Por tanto, se trata de modelos idnticos en lo esencial. En ambos la va-
riable dependiente es una variable cuantitativa (de intervalos o razn). Pero, mientras que las variables independientes de
un modelo de anlisis de varianza son categricas (nominales u ordinales: distintos tratamientos, unos pocos niveles de fr-
maco, etc.) y el nfasis se pone en la comparacin de medias, las variables independientes de un modelo de regresin pueden
ser tanto cuantitativas como categricas y el nfasis se pone en la relacin entre variables.
372 Anlisis de datos (vol. II)

El anlisis de regresin est estrechamente relacionado con el de correlacin (ver Cap-


tulo 12 del primer volumen). Pero, en el primero, la variable independiente se considera de
efectos fijos y, en el segundo, de efectos aleatorios. En la prctica, la forma habitual de dis-
tinguir ambos tipos de anlisis consiste en determinar si el anlisis se orienta hacia la pre-
diccin o explicacin (regresin) o hacia la cuantificacin del grado de relacin (correlacin).
El objetivo de este captulo es presentar los aspectos ms importantes del anlisis de re-
gresin lineal. No haremos hincapi en los detalles excesivamente tcnicos del anlisis, sino
que intentaremos fomentar la comprensin de cundo y cmo utilizar la tcnica y cmo inter-
pretar los resultados que ofrece. Tambin prestaremos atencin al chequeo de los supuestos
del anlisis y a la forma de proceder cuando se incumplen.
Existen muchas y excelentes publicaciones sobre el anlisis de regresin lineal; por ejem-
plo: Berry (1993), Berry y Feldman (1985), Cohen, Cohen, West y Aiken (2003), Fox (1991,
1997), Hardy (1993), Lewis-Beck (1980), Schroeder, Sjoquist y Stephan (1986), etc. El lector
interesado en profundizar algo ms en los diferentes aspectos del anlisis de regresin lineal
puede consultar Draper y Schmidt (1998), Montgomery, Peck y Vining (2001) o Weisberg
(2005).

Regresin lineal simple


El anlisis de regresin2 lineal simple sirve para estudiar el comportamiento de una variable
cuantitativa Y, denominada dependiente, a partir de una segunda variable cuantitativa o ca-
tegrica X, denominada independiente. Sirve, por tanto, para analizar la dependencia entre
dos variables: permite estudiar cmo cambia una de ellas cuando cambia la otra3. El objetivo
del anlisis es formular una ecuacin lineal4 para: (1) valorar el impacto de la variable inde-
pendiente sobre la dependiente y (2) efectuar pronsticos sobre la dependiente. Todo ello, a
partir del grado de relacin lineal existente entre ambas variables.

2
El trmino regresin procede de los trabajos de Galton sobre la naturaleza hereditaria de algunas caractersticas fsicas.
Galton observ que los padres con alturas muy altas o muy bajas tendan a tener hijos cuya altura media estaba ms cerca
de la media global que la de sus padres. Galton (1885) llam a este efecto regresin hacia la mediocridad (regresin o acer-
camiento de las alturas individuales a la altura media).
3
Los trminos independiente y dependiente deben despojarse de cualquier connotacin de tipo causal. Segn veremos, el
anlisis de regresin se basa en una ecuacin que permite obtener para Y valores que dependen de los que se asignan a X.
Pero esta dependencia es de tipo funcional: indica cmo cambia la variable Y cuando cambia la variable X. Lo cual no sig-
nifica que Y cambie porque cambia X (podra ocurrir, por ejemplo, que el cambio en ambas variables se debiera al efecto
de terceras variables). Recordemos que las herramientas estadsticas nicamente permiten detectar diferencias y relaciones.
El hecho de que una diferencia o una relacin permita o no extraer conclusiones de tipo causal es algo que no depende de
la herramienta estadstica aplicada sino del diseo utilizado y de la teora subyacente, si existe (ver, en el Captulo 12 del
primer volumen, el apartado Relacin y causalidad).
4
La relacin lineal solamente es una de las posibles formas de relacin entre dos variables cuantitativas, pero es, sin du-
da, la ms estudiada en el mbito de las ciencias sociales y de la salud; y tambin es la ms fcil de analizar e interpretar.
Esto no significa que no sea interesante estudiar otros tipos de relacin (por ejemplo, una ley muy conocida en psicologa,
llamada ley de Yerkes-Dodson, afirma que la relacin entre la ansiedad y el rendimiento es cuadrtica). Pero el grado de
elaboracin que alcanzan las teoras que se construyen en el mbito de las ciencias sociales y de la salud no permite, por
lo general, realizar predicciones no lineales precisas. Lo habitual es, ms bien, que nicamente se tenga una sospecha de
relacin montona. No obstante, en el apartado Comparaciones de tendencia del Captulo 6 hemos presentado una apro-
ximacin al estudio de relaciones no lineales (cuadrtica, cbica). Y en el Apndice 10 se describen brevemente algunas
ecuaciones de regresin curvilneas que pueden resultar tiles en algunos contextos.
Captulo 10. Anlisis de regresin lineal 373

La Tabla 10.1 recoge los datos de una muestra de 20 pacientes con trastorno depresivo
que han participado en un estudio diseado para valorar la eficacia de dos tratamientos anti-
depresivos (tto: 1 = estndar, 2 = combinado). El estudio, realizado en tres centros dis-
tintos (A, B, C), comenz administrando la Escala de Depresin de Hamilton para obtener
una medida inicial (basal ) del nivel de depresin de los pacientes. Al finalizar el tratamiento
se volvi a administrar la escala ( final ) y se dio por finalizado el estudio. La variable re-
cuperacin se ha obtenido restando las puntuaciones basal y final (los datos se encuentran
en el archivo Tabla 10.1 depresin hamilton reducido, en la pgina web del manual).

Tabla 10.1. Puntuaciones en la escala Hamilton de 20 pacientes sometidos a tratamiento antidepresivo

sujetos centro centro_A centro_B tto edad basal final recupera


1 C 0 0 1 58,00 25 20 5
2 B 0 1 1 50,25 23 18 5
3 C 0 0 1 58,00 21 19 2
4 A 1 0 1 64,75 22 14 8
5 C 0 0 1 63,25 35 27 8
6 B 0 1 1 52,00 28 22 6
7 A 1 0 1 58,00 36 25 11
8 C 0 0 1 60,00 30 24 6
9 C 0 0 1 51,25 27 18 9
10 B 0 1 1 52,75 29 21 8
11 B 0 1 2 42,00 32 20 12
12 C 0 0 2 44,00 27 15 12
13 B 0 1 2 43,25 30 19 11
14 A 1 0 2 45,50 32 16 16
15 C 0 0 2 47,50 27 17 10
16 B 0 1 2 43,25 25 16 9
17 A 1 0 2 50,75 35 22 13
18 A 1 0 2 47,50 38 22 16
19 A 1 0 2 41,00 34 16 18
20 C 0 0 2 54,00 28 14 14

Diagramas de dispersin
La manera ms directa e intuitiva de formarse una primera impresin sobre el tipo de relacin
existente entre dos variables cuantitativas es un diagrama de dispersin (ver Captulo 12 del
primer volumen). La disposicin de los puntos del diagrama est informando sobre el tipo de
relacin subyacente.
De las variables incluidas en la Tabla 10.1, solamente final y recuperacin tienen la
condicin de dependientes (pues, en principio, solamente ellas dos pueden depender de algu-
na de las restantes variables consideradas en el estudio). Vamos a comenzar preguntndonos
374 Anlisis de datos (vol. II)

si las puntuaciones basales o la edad de los pacientes ayudan a entender o anticipar, en algu-
na medida, su recuperacin. En un primer intento por responder a esta pregunta, podemos
obtener los diagramas de dispersin correspondientes a basal y recuperacin (Figura 10.1,
izquierda) y a edad y recuperacin (Figura 10.1, derecha). En ambos diagramas se aprecia
cierto grado de relacin lineal (las lneas discontinuas se han trazado tomando como referen-
cia las medias de cada variable). En el caso de las puntuaciones basales, la nube de puntos
muestra una pauta lineal positiva: las puntuaciones basales altas tienden a ir acompaadas
de recuperaciones altas y las puntuaciones basales bajas de recuperaciones bajas. En el caso
de la edad, la nube de puntos muestra una pauta lineal negativa: las edades altas tienden a ir
acompaadas de recuperaciones bajas y las edades bajas de recuperaciones altas. Y en nin-
guno de los dos casos se aprecian tendencias distintas de la lineal. En principio, tanto las pun-
tuaciones basales como la edad podran ayudarnos a entender o anticipar, en alguna medida,
el comportamiento de la variable recuperacin.
Ahora bien, aunque un diagrama de dispersin ayuda a formarse una primera impresin
ms o menos acertada sobre el tipo de relacin existente entre dos variables, no permite cuan-
tificar con precisin el grado o intensidad de la relacin ni tampoco aclara en qu medida una
variable puede ayudar a entender el comportamiento de la otra. En realidad, nicamente a
partir de la inspeccin de un diagrama de dispersin, no resulta nada fcil precisar si el gra-
do de relacin lineal subyacente es bajo, medio o alto.
Qu podemos hacer para mejorar nuestra comprensin de una nube de puntos? Quiz
bastara con decir, simplemente, que las puntuaciones basales ms altas (bajas) van acompa-
adas de mayor (menor) recuperacin; o que las edades ms altas (bajas) van acompaadas
de menor (mayor) recuperacin. Pero esto, aunque correcto, es poco preciso. Tambin podra
ofrecerse un listado de todos los datos; pero esto, aunque preciso, es poco informativo.
Recordemos que, para describir una variable cuantitativa, recurrimos a tres propiedades
de su distribucin: centro, dispersin y forma. Para describir conjuntamente dos variables
cuantitativas podemos hacer algo parecido: (1) forma: determinar si la nube de puntos delata
o no una pauta lineal, (2) centro: resumir la nube de puntos en una recta y (3) dispersin: va-
lorar el grado de concentracin o alejamiento de los puntos a esa recta.
Ya sabemos cmo utilizar los diagramas de dispersin y el coeficiente de correlacin de
Pearson para determinar si existe relacin lineal y su intensidad. En los siguientes apartados
aprenderemos a resumir la nube de puntos en una recta y a valorar el grado de dispersin de
los puntos en torno a ella.

Figura 10.1. Diagramas de dispersin. Izquierda: basal por recuperacin. Derecha: edad por recuperacin
Captulo 10. Anlisis de regresin lineal 375

La recta de regresin

Cuando la relacin entre dos variables sigue una pauta lineal, la correspondiente nube de pun-
tos puede resumirse mediante una funcin matemtica tan simple como una lnea recta:
= [10.1]
El valor B0 es el punto en el que la recta corta el eje vertical; se le suele llamar ordenada en
el origen o interseccin. El valor B1 refleja el grado de inclinacin de la recta; se le suele lla-
mar pendiente. En el contexto del anlisis de regresin, a B0 y B1 se les llama coeficientes
de regresin parcial o, simplemente, coeficientes de regresin. Una vez fijados los valores
de B0 y B1 (enseguida veremos cmo hacer esto), ya es posible asignar valores a la variable
independiente X para obtener los pronsticos que la ecuacin [10.1] atribuye a la variable
dependiente Y.
A la ecuacin [10.1] se le llama ecuacin de regresin de Y sobre X (y es distinta de la
ecuacin de regresin de X sobre Y ). La recta concreta que se obtiene con ella depende de los
valores concretos elegidos para B0 y B1. La Figura 10.2 muestra algunas posibles rectas. Las
representadas en el grfico a tienen la misma interseccin B0 pero distinta pendiente B1. Las
rectas del grfico b tienen distinta interseccin pero la misma pendiente. Y las del grfico c
tienen distinta interseccin y distinta pendiente.

Figura 10.2. Rectas de regresin con diferentes orgenes y pendientes


a b c

Y Y Y

X X X

Por tanto, sobre una nube de puntos cualquiera es posible trazar tantas rectas distintas como
valores distintos se asignen a B0 y a B1. Y esto nos lleva a la cuestin clave de un anlisis de
regresin lineal: cul de todas las rectas posibles es la que mejor representa o resume la nube
de puntos?, es decir, cul de todas ellas es la que mejor se ajusta a la nube de puntos?
En una situacin ideal en la que todos los puntos del diagrama de dispersin se encontra-
ran perfectamente alineados, no habra que preocuparse por encontrar la recta que mejor resu-
me los puntos del diagrama porque, simplemente uniendo los puntos entre s, se obtendra la
recta con el mejor ajuste posible5. Pero en nubes de puntos algo ms realistas como las de la
Figura 10.1 es posible trazar muchas rectas distintas. Y, obviamente, no todas ellas se ajus-
tarn igualmente bien a la nube de puntos. En un anlisis de regresin lineal se trata de en-
contrar la recta que mejor representa o resume la nube de puntos.
5
En algunos contextos es relativamente fcil y frecuente encontrar o definir relaciones lineales perfectas. Por ejemplo, la
relacin entre la temperatura en escala Fahrenheit es una funcin lineal perfecta de las temperaturas en escala Celsius; en
concreto, F = 32 + 1,8 C. Pero, en el mbito de las ciencias sociales y de la salud, no se dan relaciones perfectamente
lineales; segn veremos, los errores de prediccin forman parte inseparable de los pronsticos.
376 Anlisis de datos (vol. II)

Mnimos cuadrados
Para elegir la mejor recta pueden utilizarse diferentes criterios (ver Rousseeuw y Leroy,
1987), pero el de mayor aceptacin es el que se basa en la suma de los cuadrados de las dis-
tancias verticales entre cada punto y la recta. La Figura 10.3 muestra estas distancias mar-
cadas con lneas discontinuas. Los valores observados representan la distancia de cada
punto al eje horizontal. Los valores pronosticados representan la distancia de la recta al
eje horizontal. A las diferencias entre los valores observados y los pronosticados se
les llama residuos y representan la parte de Y que la ecuacin lineal (la recta) no es capaz
de pronosticar, es decir, los errores de prediccin. Utilizar el criterio de mnimos cuadra-
dos supone aceptar que la recta es tanto mejor (es un representante tanto mejor de la nube de
puntos) cuanto ms pequeos son los residuos o errores de prediccin.
Sumando todos los residuos podra obtenerse una medida del error de prediccin total.
Pero en esta suma se estara olvidando que unos residuos son positivos y otros negativos, y
que tienden a compensarse entre s. Una forma de superar este inconveniente consiste en
elevar al cuadrado los residuos antes de sumarlos (tambin podran sumarse los residuos en
valor absoluto, pero esta solucin es ms compleja de tratar). El criterio de mnimos cua-
drados consiste en elegir para B0 y B1 los valores que minimizan la suma de los residuos al
cuadrado, es decir, los valores que hacen mnima la expresin
= [10.2]

Figura 10.3. Residuos o errores de prediccin en un anlisis de regresin lineal simple


Y

Y^i
(Yi Y^i )
Yi
Y^i
Yi
X

Coeficientes de regresin
Los valores que minimizan [10.2] se obtienen resolviendo, tras igualarlas a cero, sus deriva-
das parciales respecto de B0 y B1 (ver, por ejemplo, Amn, 1979, pgs. 205-209):

= [10.3]
= [10.4]

(SXY es la covarianza entre X e Y ). De todas las rectas que es posible definir, justamente la
que se basa en la interseccin [10.3] y en la pendiente [10.4] es la que minimiza las distancias
Captulo 10. Anlisis de regresin lineal 377

verticales (al cuadrado) entre cada punto del diagrama y la recta de regresin._ _De la ecua-
cin [10.3] se desprende que la recta mnimo-cuadrtica pasa por el punto (X , Y ).
Los diagramas de la Figura 10.4 ofrecen una aclaracin del significado de estos coeficien-
tes (se han utilizado enteros consecutivos en ambos ejes de los diagramas para facilitar la
explicacin). El coeficiente B0 es el pronstico que ofrece [10.1] cuando X = 0. Por tanto, B0
solamente tiene significado si tambin lo tiene X = 0. Es un valor necesario para poder efec-
tuar pronsticos (acta como una especie de trmino corrector para ajustar la mtrica de la
variable X a la de la variable Y ), pero no aporta informacin sobre la relacin entre X e Y.
Cuando la relacin es positiva (recta ascendente; diagrama de la izquierda), el valor de
B1 es positivo: a un aumento en X, la ecuacin asigna un aumento en . Cuando la relacin
es negativa (recta descendente; diagrama de la derecha), el valor de B1 es negativo: a un au-
mento en X, la ecuacin asigna una disminucin en . Ms concretamente, B1 es el cambio
(aumento o disminucin) que la ecuacin de regresin [10.1] asigna a por cada unidad que
aumenta X. Cuando no existe relacin lineal, el coeficiente B1 vale cero (recta paralela al eje
horizontal, pendiente nula). Aplicando [10.3] y [10.4] a los datos obtenidos con las variables
basal y recuperacin (ver Tabla 10.1) se obtiene B0 = !7,138 y B1 = 0,585, es decir,
Pronstico (recuperacin) = !7,138 + 0,585 (basal )

Figura 10.4. Rectas de regresin. Significado de los coeficientes B0 y B1


Y

.
Y
B0

B1 < 0

B1 > 0

. B0
X X

La Figura 10.5 (izquierda) muestra esta recta sobre el diagrama de dispersin. El valor de B0
es la recuperacin que pronostica la ecuacin [10.1] para una puntuacin basal de cero
(recordemos que B0 solamente tiene significado si X = 0 tambin lo tiene)6. El valor de B1
indica que, por cada unidad que aumenta basal, la ecuacin de regresin [10.1] pronostica
un aumento de 0,585 puntos en recuperacin. Por supuesto, asignando valores a X (basal )
pueden obtenerse los pronsticos en Y (recuperacin).
Debe tenerse en cuenta que, puesto que la relacin entre basal y recuperacin no es per-
fecta, los pronsticos basados en la ecuacin de regresin incluyen un error de prediccin.
6
El hecho de que B0 tome un valor negativo nos est advirtiendo de un hecho importante: no deben efectuarse pronsticos
fuera del rango de valores que toma la variable X. Una inspeccin del diagrama indica que no existen puntuaciones basales
menores que 20. Puesto que la ecuacin de regresin se basa en el rango de valores disponible, extrapolar los pronsticos
a otros valores de X puede llevar a resultados absurdos. Aunque ciertamente la recuperacin podra ser negativa (los pacien-
tes podran empeorar con el tratamiento), no tiene sentido hablar de un sujeto con puntuacin basal cero, pues se tratara
de un sujeto sin problemas de depresin al que no habra que aplicar ningn tratamiento antidepresivo.
378 Anlisis de datos (vol. II)

Por tanto, con la ecuacin obtenida no es posible afirmar que un aumento de un punto en la
puntuacin basal de un paciente concreto ir acompaado de un aumento de 0,585 puntos en
su recuperacin, pero s que, en el conjunto de pacientes cuya puntuacin basal es un punto
mayor, se espera una recuperacin media 0,585 puntos mayor.
Aplicando [10.3] y [10.4] a los datos obtenidos con las variables edad y recuperacin
(ver Tabla 10.1) se obtiene B0 = 27,204 y B1 = !0,336. La Figura 10.5 (derecha) muestra esta
recta sobre el diagrama de dispersin. El valor de B0 es la recuperacin que la ecuacin de
regresin [10.1] pronostica para cero aos (de nuevo tenemos una interseccin sin signifi-
cado porque X = 0 tampoco lo tiene). El signo negativo de B1 indica que el aumento en edad
tiende a ir acompaado de menos recuperacin; en concreto, por cada ao que aumenta edad,
la ecuacin de regresin pronostica una disminucin de 0,336 puntos en recuperacin.

Figura 10.5. Rectas de regresin basadas en el criterio de mnimos cuadrados

Coeficientes de regresin tipificados


El signo de B1 indica si la relacin entre X e Y es positiva o negativa; y el tamao de B1 indica
el cambio esperado en Y por cada unidad que aumenta X. Pero B1 no refleja la intensidad de
la relacin entre X e Y, pues su valor depende de la mtrica (unidades de medida) de las varia-
bles. No obstante, B1 est estrechamente relacionado con el coeficiente de correlacin de
Pearson, RXY, que s refleja la intensidad de la relacin. A partir de [10.4] se obtiene
= y = [10.5]

Y, dado que la desviacin tpica de las puntuaciones Z vale 1 (ver Captulo 5 del primer volu-
men), si la ecuacin de regresin se obtiene despus de transformar las puntuaciones origina-
les en puntuaciones Z, el nuevo coeficiente de regresin, B1 (Z) (que suele recibir el nombre
de tipificado o estandarizado), coincide con RXY. Es decir, B1 (Z) = RXY. Y esto nos da un
nuevo significado para RXY : cuando X aumenta una desviacin tpica, la ecuacin de regre-
sin pronostica un cambio de RXY desviaciones tpicas en Y.
Aplicando [10.3] y [10.4] despus de tipificar las variables basal y recuperacin se obtie-
ne B1 (Z) = 0,676, es decir, pronstico (Zrecuperacin ) = 0,676 (Zbasal ). Por tanto, por cada des-
viacin tpica que aumenta basal, la ecuacin de regresin pronostica un aumento de 0,676
desviaciones tpicas en recuperacin. Puesto que la recta de regresin pasa por las medias
de X e Y, y stas valen cero cuando X e Y estn tipificadas, la interseccin B0 (Z) vale cero.
Captulo 10. Anlisis de regresin lineal 379

Bondad de ajuste
Aun aceptando que la recta de regresin mnimo-cuadrtica es la que mejor resume una nube
de puntos dada, el grado de ajuste de esa recta (lo bien o mal que la recta resume la nube de
puntos) no tiene por qu ser bueno. De hecho, el grado de ajuste de la mejor recta posible
puede ir desde muy malo a excelente. Esto puede comprenderse fcilmente observando los
diagramas de dispersin de la Figura 10.6. Aunque en los tres casos se trata de rectas m-
nimo-cuadrticas, el ajuste es claramente mejor en el diagrama de la izquierda que en el del
centro, y mejor en ste que en el de la derecha. Para poder afirmar esto nos basamos en el
grado de dispersin (es decir, en el grado de alejamiento) de los puntos alrededor de la rec-
ta de regresin.
Ahora bien, el grado de dispersin de los puntos en torno a la recta de regresin viene
dado por las distancias verticales que ya hemos identificado como residuos o errores de pre-
diccin: Ei = . Consecuentemente, el tamao de los residuos est informando de lo
bien o mal (bondad de ajuste) que la recta de regresin consigue resumir la nube de puntos.

Figura 10.6. Rectas de regresin con distinto grado de ajuste a la nube de puntos








Y Y Y





X X X

Una manera de cuantificar el tamao de los residuos (dispersin en torno a la recta) consiste
en obtener su varianza:

= = [10.6]

Esta varianza valdr cero cuando todos los residuos valgan cero (es decir, cuando el ajuste
de la recta a la nube de puntos sea perfecto) y tomar un valor tanto mayor cuanto mayor sea
el tamao de los residuos en valor absoluto (es decir, cuanto peor sea el ajuste).
Pero sabemos que el peor ajuste posible se da cuando las variables X e Y son lineal-
mente independientes, es decir, cuando la recta de regresin es horizontal (pendiente nula;
ver Figura 10.6, grfico de la derecha). Y esto solamente ocurre cuando todos los pronsti-
cos se realizan con la media de Y (elegimos la media en lugar de cualquier otro valor porque,
a falta de otra informacin, las desviaciones de la media elevadas al cuadrado son menores
que respecto de cualquier otro valor; ver, en el Apndice 7 del primer volumen, el apartado
Estimacin por mnimos cuadrados).
Cuando _a todos los casos se pronostica la media de Y se comete un error de prediccin
igual a Yi ! Y . Y la varianza de estos residuos (es decir, el valor mximo de ) no es otra
cosa que la varianza de Y:

= = [10.7]
380 Anlisis de datos (vol. II)

Ahora bien, si [10.7] es el mximo de [10.6], entonces la diferencia entre [10.7] y [10.6] nece-
sariamente representa la cantidad en que se consigue reducir
_ los residuos (errores de predic-
cin) cuando, en lugar de hacer pronsticos basados en Y , se hacen pronsticos basados en
la ecuacin de regresin. Esta reduccin debida a la regresin puede cuantificarse mediante

= = [10.8]

Por tanto, tenemos tres medidas (varianzas) que permiten cuantificar diferentes aspectos de
la variabilidad o dispersin presente en una nube de puntos. En la Figura 10.7 estn identifi-
cadas las desviaciones en las que se basa cada una de estas medidas:
1. es la varianza de Y, es decir, la varianza total o mxima que se obtiene
_ cuando X e Y
son linealmente independientes. Se basa en las desviaciones Y , es decir, en la dis-
persin de la nube de puntos en torno a la recta horizontal que pasa por la media de Y .
2. es la varianza de los residuos o errores de prediccin. Se basa en las desviaciones
, es decir, en la dispersin de la nube de puntos en torno a la recta de regresin.
_
3. es la varianza de los pronsticos. Se basa en las desviaciones Y , es decir, en la
dispersin de los pronsticos en torno la recta horizontal que pasa por la media de Y. Por
tanto, representa la diferencia entre la dispersin en torno a la recta horizontal, ,
y la dispersin en torno a la recta de regresin, . En consecuencia,

= + [10.9]

Y, puesto que es el valor mximo tanto de como de , el cociente represen-


ta la proporcin de varianza de Y no explicada por la regresin o proporcin de varian-
za de Y que corresponde a los errores de prediccin. Y el cociente representa la
proporcin de varianza explicada por la regresin o proporcin de varianza que compar-
ten X e Y; tambin, la proporcin de_reduccin en la dispersin mxima, , cuando en lugar
de realizar pronsticos basados en Y se realizan pronsticos basados en la recta de regresin.

Figura 10.7. Desviaciones en un diagrama de dispersin


Y

Y^ i
Yi

(Yi Y^i )
_
Y Y^i _
(Yi Y )
_
(Y^i Y )
_
X Y

Unas pocas transformaciones (ver Amn, 1979, pg. 231) permiten comprobar que la pro-
porcin de varianza de los errores de prediccin (varianza no explicada) y la proporcin de
Captulo 10. Anlisis de regresin lineal 381

varianza comn (varianza explicada) estn estrechamente relacionadas con el coeficiente de


correlacin de Pearson, RXY . En concreto:

= 1! / [10.10]

= / [10.11]

Al coeficiente de correlacin de Pearson elevado al cuadrado, , se le llama coeficiente


de determinacin. La ecuacin [10.10] indica que puede interpretarse como propor-
cin de reduccin de los errores de prediccin, es decir, como la proporcin en que se re-
duce la varianza de Y (que es la varianza de los residuos cuando los pronsticos se basan en
la media de Y ) al efectuar pronsticos con la recta de regresin. Y la ecuacin [10.11] indica
que puede interpretarse como proporcin de varianza comn o explicada, es decir,
como la proporcin de varianza que comparten X e Y, o como la proporcin de la varianza
de Y que puede explicarse (entenderse, anticiparse) a partir de X.
El coeficiente de determinacin toma valores entre 0 y 1. Cuando = 1, el ajuste
es perfecto, es decir, los puntos del diagrama se encuentran perfectamente alineados y la rec-
ta de regresin permite efectuar pronsticos sin error7. En el otro extremo, cuando =0
(pendiente nula), las variables X e Y son linealmente independientes (bien porque no existe
ningn tipo de relacin entre ellas, bien porque la relacin subyacente no es de tipo lineal) y
la variable X no contribuye en absoluto a mejorar los pronsticos basados en la media de Y.
Por tanto, cuanto mayor es el valor de , mejor es el ajuste8. Consecuentemente, es
un indicador del grado de ajuste de la recta de regresin a la nube de puntos, es decir, un indi-
cador de la calidad con que la recta de regresin es capaz de representar o describir la rela-
cin lineal subyacente9 entre X e Y.
Al realizar un anlisis de regresin lineal con las variables X = basal e Y = recupera-
cin (ver Tabla 10.1 y Figura 10.5, izquierda), se obtiene = 17,42, = 7,95 y = 9,47
(ecuaciones [10.6] a [10.8]). Y aplicando [10.10] y [10.11] se obtiene

= 1 ! 9,47 / 17,42 = 7,95 / 17,42 = 0,46

Este valor indica: (1) que la recta de regresin de Y sobre X permite reducir los errores de
prediccin en un 46 % y (2) que las variables X e Y comparten el 46 % de la varianza. Y esto
significa que conocer las puntuaciones basales (X ) permite entender (anticipar, explicar, etc.)
un 46 % de la variabilidad de la recuperacin de los pacientes (Y ).

7
Cuando a un mismo valor de X le corresponde ms de un valor distinto de Y, no puede alcanzar el valor 1 (con un
mismo valor X no es posible pronosticar ms de un valor Y sin error).
8
Interpretar correctamente el tamao y el significado del coeficiente de determinacin requiere tener en cuenta diferentes
aspectos relativos al contexto en el que se obtiene, al tipo de relacin subyacente entre las variables y a la disposicin de
los puntos en el diagrama de dispersin (ver, en el Captulo 12 del primer volumen, el apartado Cmo interpretar el coefi-
ciente de correlacin RXY ).
9
Debe tenerse en cuenta que es una medida de lo bien o mal que la recta resume la nube de puntos, lo cual no debe con-
fundirse con el hecho de que la relacin subyacente sea o no de tipo lineal. Un valor alto no necesariamente est in-
dicando que la relacin subyacente es efectivamente lineal. El valor de puede ser relativamente alto incluso cuando
la relacin subyacente no es lineal. Por ejemplo, en una relacin cuadrtica puede haber un componente lineal importan-
te (ver, en el Captulo 12 del primer volumen, el segundo grfico de la Figura 12.9). De ah la importancia de acompaar
toda ecuacin de regresin de su correspondiente grfico de dispersin.
382 Anlisis de datos (vol. II)

Significacin de los coeficientes de regresin


Hasta ahora hemos tratado los coeficientes de regresin como valores muestrales. Pero, jus-
tamente por ser valores muestrales, pueden utilizarse como estimadores de sus correspondien-
tes parmetros poblacionales.
Aunque el coeficiente B0 no suele tener un significado til, para contrastar la hiptesis
nula H0 : 0 = k puede utilizarse el estadstico

= , con = [10.12]

Para contrastar la hiptesis nula H0 : 1 = k puede utilizarse el estadstico

= , con = [10.13]

Cuando se dan ciertas condiciones (ver, ms abajo, el apartado Supuestos del modelo de re-
gresin), ambos estadsticos T se aproximan a la distribucin de probabilidad t de Student
con n ! 2 grados de libertad. Siguiendo la lgica habitual, puede rechazarse la correspondien-
te H0 cuando el valor absoluto de estos estadsticos T es mayor que el cuantil 100 (1 ! / 2)
de la distribucin t de Student con n ! 2 grados de libertad.
Por lo general, el inters del anlisis ir orientado a determinar si las variables X e Y estn
linealmente relacionadas, es decir, a determinar si, a partir de la relacin encontrada en la
muestra, es posible afirmar que existe relacin en la poblacin. Esto significa que, por lo
general, la hiptesis que interesar contrastar ser la hiptesis de pendiente o relacin nula:

H0 : 1 = 0 [10.14]

El rechazo de esta hiptesis indica que entre X e Y existe relacin lineal significativa y, con-
secuentemente, que la variable X contribuye en alguna medida a reducir los errores de predic-
cin. El no rechazo no significa que X e Y no estn linealmente relacionadas, sino que no se
ha podido demostrar que lo estn (puede que no se haya utilizado un rango de valores X lo
bastante amplio, puede que los errores de medida estn ocultando la relacin, etc.).
Tanto en la varianza de B0 como en la de B1 est interviniendo el error cuadrtico me-
dio o media cuadrtica error:

MCE = [10.15]

Esta media cuadrtica es el mejor estadstico de que disponemos para estimar la varianza de
Y asociada a cada valor distinto de X ( hablaremos de esto ms adelante, en el apartado Su-
puestos del modelo de regresin). A la raz cuadrada de [10.15] se le llama error tpico de
la estimacin y representa el error medio que se comete al efectuar pronsticos utilizando
la ecuacin de regresin.
En nuestro ejemplo sobre la relacin entre las puntuaciones
_ basales y la recuperacin
(ver Tabla 10.1) tenemos ' ( ! )2 = 179,846 y ' ( X ! X ) 2 = 441,20. Aplicando [10.13]
y [10.15] para contrastar la hiptesis [10.14] obtenemos
Captulo 10. Anlisis de regresin lineal 383

MCE = 179,846 / (20 ! 2) = 9,99


= = 0,15
= (0,585 ! 0) 0,15 = 3,90

El cuantil 97,5 de la distribucin t de Student con n ! 2 = 20 ! 2 = 18 grados de libertad vale


2,101 (ver Tabla D del Apndice final). Por tanto, como 3,90 es mayor que 2,101, podemos
rechazar H0 : 1 = 0 y concluir que la pendiente poblacional es distinta de cero. Es decir, po-
demos afirmar que entre las puntuaciones basales y la recuperacin existe relacin lineal
significativa.
Contrastar la hiptesis de que la pendiente poblacional vale cero (H0: 1 = 0) es equi-
valente a contrastar la hiptesis de que el coeficiente de correlacin de Pearson vale cero en
la poblacin (H0 : XY = 0). Y ambas hiptesis pueden contrastarse mediante un estadstico F
que se obtiene, siguiendo la lgica de los estadsticos F ya estudiados, a partir de la varia-
bilidad debida a la regresin y de la no debida a la regresin. En concreto10,

F = = = [10.16]

Cuando se dan ciertas condiciones (ver, ms adelante, el apartado Supuestos del modelo de
regresin), este estadstico se aproxima a la distribucin de probabilidad F con 1 y n ! 2 gra-
dos de libertad. Y, en regresin simple, coincide con el cuadrado del estadstico definido
en [10.13])11.

Intervalos de confianza
Siguiendo la lgica ya estudiada en el Captulo 7 del primer volumen, los errores tpicos pro-
puestos en [10.12] y [10.13] pueden utilizarse para construir intervalos de confianza para los
valores poblacionales de los coeficientes de regresin. As, por ejemplo, el intervalo de con-
fianza para la pendiente de la recta de regresin poblacional, 1, puede obtenerse mediante
= [10.17]

Aplicando [10.17] a nuestro ejemplo sobre la relacin entre las puntuaciones basales y la
recuperacin (ver Tabla 10.1 ), obtenemos
= = 0,585 2,101 (0,15) = (0,27; 0,90)

Por tanto, estimamos, con una confianza del 95%, que el verdadero valor de la pendiente de
regresin se encuentra entre 0,27 y 0,90.

10
Este estadstico es exactamente el mismo que se utiliza para valorar el componente o tendencia lineal en un anlisis de
varianza (ver Captulo 6). El numerador de F es un estimador de la varianza de la poblacin basado en la dispersin que se
consigue reducir con la recta de regresin (variabilidad debida a la regresin). El denominador es un estimador de la varianza
de la poblacin basado en la variabilidad de los residuos (variabilidad no debida a la regresin).
11
El cual coincide con el estadstico T ya estudiado en el Captulo 12 del primer volumen para contrastar la hiptesis nula
de que el coeficiente de correlacin de Pearson vale cero en la poblacin (ver ecuacin [12.14] y el contraste propuesto en
el Cuadro 12.2).
384 Anlisis de datos (vol. II)

Cmo efectuar pronsticos


Si la pendiente de la recta de regresin, B1 , es significativamente distinta de cero y el coefi-
ciente de determinacin, , refleja una reduccin importante de los errores de prediccin
(recordemos que esto ltimo hay que valorarlo en cada contexto), entonces la ecuacin de
regresin puede resultar apropiada para efectuar pronsticos. En nuestro ejemplo, la ecua-
cin de regresin podra utilizarse para pronosticar la recuperacin de un nuevo paciente del
que nicamente se conoce su puntuacin basal.
El pronstico que ofrece una ecuacin de regresin puede interpretarse de dos maneras
distintas: como un pronstico individual y como un pronstico promedio. En el primer caso,
el pronstico se interpreta como la estimacin asignada a un sujeto concreto con un valor
concreto en X, es decir, . En el segundo, como la estimacin media que se hace para
todos los sujetos con la misma puntuacin en X, es decir, . En ambos casos se obtiene
el mismo pronstico (el pronstico no cambia porque se interprete de una u otra manera),
pero ya sabemos que las puntuaciones individuales varan ms que sus medias12. En concreto
(ver, por ejemplo, Weisberg, 2005, pgs. 34-36, 273-275),

= [10.18]

= [10.19]

La expresin [10.18] es mayor que la [10.19] en la cantidad MCE. Por tanto, la varianza de
los pronsticos individuales es mayor que la varianza de los pronsticos promedio. Y puesto
que ambas varianzas son distintas, al construir intervalos de confianza para un pronstico es
importante especificar de qu tipo de pronstico se trata. A partir de las ecuaciones [10.18]
y [10.19] es posible construir intervalos de confianza mediante,

= [10.20]

= [10.21]

En nuestro ejemplo sobre las_ puntuaciones basales y la recuperacin (ver Tabla 10.1) tene-
mos MCE = 9,99, ' (X i ! X )2 = 441,20 y X = 29,20. Y el pronstico que la ecuacin de
_

regresin asigna al primer sujeto (puntuacin basal 25) vale = !7,138 + 0,585 (25) = 7,49.
Aplicando a este pronstico las ecuaciones [10.18] a la [10.21] obtenemos

= = 9,99 (1,09) = 10,89

= = 9,99 (0,09) = 0,90

= 7,49 2,101 (10,89)1/2 = 7,49 6,93 = (0,56; 14,42)


= 7,49 2,101 (0,90)1/2 = 7,49 1,99 = (5,50; 9,48)

12
Recordemos, por ejemplo, que la varianza de Y es , mientras que la varianza de la media de Y es . Es decir, la
varianza de la media de Y es n veces ms pequea que la varianza de Y.
Captulo 10. Anlisis de regresin lineal 385

(el cuantil 97,5 de la distribucin t de Student con n ! 2 = 20 ! 2 = 18 grados de libertad vale


2,101; ver Tabla D del apndice final). De acuerdo con el resultado obtenido, podemos esti-
mar, con una confianza del 95 %, que la recuperacin de un paciente con una puntuacin
basal de 25 se encontrar entre 0,56 y 14,42 puntos. Y, tambin con una confianza del 95 %,
podemos estimar que la recuperacin media de los pacientes que tienen una puntuacin ba-
sal de 25 se encontrar entre 5,50 y 9,48 puntos.
Los lmites obtenidos para X = 25 indican claramente que el intervalo de confianza para
un pronstico individual es sensiblemente ms ancho que el intervalo de confianza para un
pronstico promedio. Adems, ambos intervalos _ de confianza son ms anchos cuando los
pronsticos
_ se basan en valores X alejados
_ de X que cuando se basan en valores X prximos
a X . Puesto que la cantidad (X i ! X )2 est presente tanto en [10.18] como en [10.19],_los
errores tpicos y sern tanto mayores cuanto mayor sea la cantidad (X i ! X )2.
Y cuanto mayores son los errores tpicos, ms anchos son los intervalos de confianza de-
finidos en [10.20] y [10.21]. Esto es as tanto en lo relativo a los pronsticos individuales
(lneas continuas de la Figura 10.8) como en lo relativo a los pronsticos promedio (lneas
discontinuas de la Figura 10.8), si bien en el primer caso apenas se aprecia esta circunstancia.

Figura 10.8. Intervalos de confianza para los pronsticos individuales (lneas continuas) y para los prons-
ticos promedio (lneas discontinuas)
Recuperacin (basal final)

Y^i

Hamilton (momento basal)

Regresin lineal mltiple


En este apartado vamos a estudiar cmo extender lo que hemos aprendido sobre el anlisis
de regresin lineal con una variable independiente (regresin simple) al caso de ms de una
variable independiente (regresin mltiple). El objetivo del anlisis sigue siendo formular una
ecuacin lineal para valorar en qu medida es posible explicar o entender el comportamiento
de una variable cuantitativa llamada dependiente o respuesta (Y ) a partir de p variables cuan-
titativas o categricas llamadas independientes o predictoras (X1, X2, ..., Xp ).
Incorporar al anlisis ms de una variable independiente tiene varias ventajas. En primer
lugar, puesto que los fenmenos que se estudian en el mbito de las ciencias sociales y de la
salud raramente son producto de una nica causa, al incluir mltiples variables independien-
tes en el anlisis se estn poniendo las bases para obtener una explicacin ms completa del
386 Anlisis de datos (vol. II)

fenmeno estudiado. En segundo lugar, la valoracin conjunta de mltiples variables inde-


pendientes permite eliminar del anlisis efectos comunes o compartidos entre variables para
poder captar el efecto neto de cada una de ellas. Por ltimo, y derivado de lo anterior, al in-
cluir mltiples variables en el anlisis es posible valorar la importancia relativa de cada una
de ellas y, con ello, el grado en que contribuyen a entender o explicar el comportamiento del
fenmeno estudiado.
Cuando se incluyen ms de dos variables independientes en una ecuacin de regresin,
el lgebra necesaria para estimar los coeficientes de regresin, aun no siendo complicada, es
excesivamente laboriosa. Y, ms importante, los clculos que es necesario realizar ayudan
poco a entender el significado de lo que se est haciendo. Es mucho ms intuitivo utilizar
lgebra matricial, pero esto es algo que excede las pretensiones de este manual. Por tanto,
optaremos por dejar que sea un programa informtico el que se ocupe de realizar los cl-
culos y as podremos concentrar toda nuestra atencin en conocer las diferentes estrategias
disponibles para construir una ecuacin de regresin mltiple, evaluar su ajuste, aclarar el
significado de cada elemento de la ecuacin, valorar la importancia relativa de las variables,
chequear los supuestos del anlisis, etc.

La ecuacin de regresin
Al presentar el anlisis de regresin simple hemos visto que un diagrama de dispersin es una
buena manera de formarse una primera impresin sobre el tipo de relacin existente entre dos
variables cuantitativas. Pero al aumentar el nmero de variables las cosas cambian.
Para construir un diagrama de dispersin con tres variables (dos independientes) es ne-
cesario utilizar tres ejes, es decir, tres dimensiones; esto es posible hacerlo, pero ya no tiene
la utilidad que tiene en el caso de dos variables. Para construir un diagrama de dispersin con
cuatro variables (tres independientes) sera necesario utilizar un espacio de cuatro dimen-
siones. Y un espacio de cinco dimensiones para construir un diagrama con cinco variables
(cuatro independientes). As pues, con dos variables independientes, un diagrama de disper-
sin resulta poco intuitivo y, por tanto, poco til. Y con ms de dos variables independien-
tes, la representacin grfica simplemente no resulta posible.
No obstante, a pesar de que una ecuacin de regresin mltiple no define una recta en
un plano sino un hiperplano en un hiperespacio multidimensional (algo imposible de repre-
sentar grficamente), la complejidad de su representacin grfica contrasta con la simplicidad
de su expresin algebraica:
= B0 + B1 X1 + B2 X2 + + Bp X p [10.22]
En una ecuacin de estas caractersticas, los pronsticos se obtienen combinando lineal-
mente (es decir, sumando) las p variables independientes X j , cada una de ellas ponderada (es
decir, multiplicada) con un coeficiente de regresin Bj que indica el peso de esa variable en
los pronsticos.
Al igual que en el caso de la regresin simple, existen tantas ecuaciones de regresin
mltiple como valores distintos puedan asignarse a los coeficientes de regresin B0 y B j. Y,
de nuevo, para elegir la mejor de esas ecuaciones posibles, seguimos utilizando el criterio de
mnimos cuadrados, el cual, recordemos, consiste en elegir para B0 y Bj los valores que con-
siguen minimizar la suma de los residuos al cuadrado: = .
Captulo 10. Anlisis de regresin lineal 387

Coeficientes de regresin
Aunque los clculos se complican algo cuando la ecuacin de regresin incluye ms de una
variable independiente13, el significado de los coeficientes de regresin sigue siendo el mis-
mo. As, B0 sigue siendo el origen o interseccin. Con dos variables independientes, por
ejemplo, B0 es el punto en el que el plano de regresin corta el eje correspondiente a la va-
riable dependiente Y, es decir, el valor que pronostica la ecuacin de regresin cuando todas
las variables X toman el valor cero. Al igual que en regresin simple, B0 no tiene un signi-
ficado til a no ser que el valor cero tenga un significado concreto en todas las variables in-
dependientes14.
Los coeficientes B1, B2, ..., Bp son coeficientes de regresin parciales, pues el valor
concreto que toma cada uno de ellos depende del resto de coeficientes incluidos en la ecua-
cin: se estiman intentando minimizar , es decir, intentando que la combinacin
de las variables X j consiga explicar la mayor cantidad posible de la variabilidad de Y. Re-
presentan el cambio esperado en Y cuando, permaneciendo constantes el resto de variables,
la correspondiente X j aumenta una unidad. Por ejemplo, B1 representa el cambio estimado
en Y cuando, permaneciendo constantes el resto de variables, X1 aumenta una unidad.
Aadiendo las variables edad y tto a nuestro ejemplo sobre la relacin entre la recupe-
racin y las puntuaciones basales (ver Tabla 10.1), la ecuacin de regresin que minimiza
la suma de los residuos al cuadrado es:
Pronstico (recuperacin) = !8,88 + 0,40 (basal ) ! 0,01 (edad ) + 4,93 (tto) [10.23]
Por tanto, para una edad y un tto dados, un aumento de un punto en las puntuaciones basales
representa un aumento de 0,40 puntos en la recuperacin pronosticada (B1 = 0,40). Para una
puntuacin basal y un tto dados, un aumento de un ao de edad representa una disminucin
de 0,01 puntos en la recuperacin pronosticada (B2 = !0,01). Y para unas puntuaciones ba-
sales y una edad dadas, un aumento de una unidad en tto representa un aumento de 4,93
puntos en la recuperacin pronosticada; es decir, a los pacientes que han recibido el trata-
miento 2 (combinado) se les pronostica una recuperacin 4,93 puntos mejor que a los que
han recibido el tratamiento 1 (estndar).

Coeficientes de regresin tipificados


Es importante tener en cuenta que el tamao de los coeficientes de regresin no refleja el peso
o importancia de las variables en la ecuacin (recordemos que, en regresin simple, B1 tam-
poco refleja la intensidad de la relacin entre X e Y ). La razn de esto es que el valor de un
coeficiente de regresin depende, entre otras cosas, de la mtrica (unidades de medida) de

13
En notacin matricial, el vector de coeficientes de regresin B = (B0, B1, B2, ..., Bp ) se obtiene multiplicando el vector
de puntuaciones Y por una transformacin de la matriz de datos que refleja la variabilidad del conjunto de las variables in-
dependientes En concreto, B = [X X]!1 [X Y], donde Y es el vector de puntuaciones de la variable dependiente Y y X es
una matriz n ( p + 1), con unos en la primera columna y con las puntuaciones de las p variables independientes en las
restantes columnas.
14
El coeficiente B0 no siempre est desprovisto de significado. Si la ecuacin de regresin se obtiene a partir de las pun-
tuaciones diferenciales o de desviacin de las variables independientes, entonces B0 es la media de Y, es decir, el prons-
tico que la ecuacin de regresin asigna cuando todas las variables independientes toman su valor medio (el cual vale cero
en todas ellas porque todas ellas se han transformado en puntuaciones de desviacin).
388 Anlisis de datos (vol. II)

la correspondiente variable; por ejemplo, si la variable edad se hubiera medido en meses, se


habra obtenido un coeficiente de regresin igual a !0,001 / 12 = !0,00008.
No obstante, la mtrica de las variables puede igualarse fcilmente transformando las
puntuaciones originales en puntuaciones Z (puntuaciones tpicas). Al calcular la ecuacin
de regresin con las puntuaciones tipificadas, se obtienen coeficientes de regresin tipifi-
cados o estandarizados, B j (Z ) , desprovistos de la mtrica original de las variables. Tipifi-
cando las variables de nuestro ejemplo se obtiene15
Pronstico (Zrecuperacin) = 0,47 (Zbasal ) ! 0,01 (Zedad ) + 0,61 (Ztto) [10.24]
(recordemos que en una ecuacin de regresin basada en puntuaciones tpicas, la intersec-
cin vale cero). Este resultado indica, por ejemplo, que, para una edad y tratamiento dados,
cuando las puntuaciones basales aumentan una desviacin tpica (una unidad en la escala de
las puntuaciones Z ), la ecuacin de regresin pronostica un aumento de 0,47 desviaciones
tpicas en la recuperacin.
En este ejemplo, el resultado obtenido para basal y edad con las puntuaciones tipifica-
das (ecuacin [10.24]) no es muy distinto del obtenido previamente con las puntuaciones
originales (ecuacin [10.23]): sus respectivos coeficientes de regresin toman un valor pa-
recido en ambas ecuaciones y en ambas ecuaciones la variable basal tiene ms peso en los
pronsticos que la variable edad.
Con la variable tto no ocurre lo mismo. En puntuaciones directas (ecuacin [10.23]), el
peso de tto es sensiblemente mayor que el de basal y edad (unas 12 veces mayor en el pri-
mer caso, pues 4,93 / 0,40 = 12,33; y casi 500 veces mayor en el segundo). En puntuaciones
tpicas (ecuacin [10.24]), el peso de tto sigue siendo mayor que el de basal y mayor que el
de edad, pero las diferencias se han reducido notablemente; ahora, el peso de tto es un 30 %
mayor que el de basal y 61 veces mayor que el de edad.
Aunque el coeficiente asociado a la variable tto ha experimentado un cambio importan-
te, la diferencia entre los coeficientes originales y los tipificados puede ser mucho ms acu-
sada de lo que nuestro ejemplo puede dar a entender. De hecho, coeficientes originales muy
grandes (en valor absoluto) pueden pasar a tener un valor tipificado muy prximo a cero; y
al revs, coeficientes originales prximos a cero pueden pasar a tener un valor muy grande
(en valor absoluto). Y solamente los coeficientes tipificados, por estar desprovistos de la
mtrica original de las variables, permiten formarse una idea sobre la importancia relativa de
cada variable dentro de la ecuacin (ver, ms adelante, el apartado Importancia relativa de
las variables).

Bondad de ajuste
Aun aceptando que la ecuacin de regresin mnimo-cuadrtica es la mejor, sabemos que esto
no significa que sea buena. Para valorar la calidad de una ecuacin es necesario utilizar algn
indicador de la precisin con que permite efectuar pronsticos. Y, para ello, de nuevo sirve
aqu lo ya dicho a propsito de la ecuacin de regresin simple. La nica diferencia es que,
ahora, la relacin entre la parte izquierda y la parte derecha de la ecuacin no es la relacin

15
En regresin simple, el coeficiente de regresin tipificado coincide con el coeficiente de correlacin de Pearson RXY. En
regresin mltiple, los coeficientes de regresin tipificados no son coeficientes de correlacin. De hecho, pueden tomar
valores mayores que 1 y menores que !1.
Captulo 10. Anlisis de regresin lineal 389

entre X e Y (es decir, la relacin entre dos variables), sino la relacin entre Y y X1, X2, ..., Xp
(es decir, la relacin entre p + 1 variables). Y para cuantificar esa relacin utilizamos el coe-
ficiente de correlacin mltiple, el cual suele representarse mediante o, ms
brevemente, mediante .
Este coeficiente de correlacin expresa el grado de relacin lineal existente entre la va-
riable dependiente Y y la mejor combinacin lineal entre las variables independientes Xj
(variables 1, 2, ..., p). Lo cual no es otra cosa que la relacin lineal entre Y y los pronsticos
derivados de la ecuacin de regresin:

= [10.25]

De esta definicin se deduce que tomar siempre valores entre cero y uno, pues no
cabe esperar que la relacin entre Y y los pronsticos sea negativa (adems, tampoco tiene
sentido hablar de relacin negativa entre ms de dos variables). Unas sencillas transforma-
ciones permiten definir el cuadrado del coeficiente de correlacin mltiple, decir, el coefi-
ciente de determinacin, exactamente de la misma manera que en regresin simple:

= 1! / [10.26]

= / [10.27]

Por tanto, puede interpretarse, al igual que en regresin simple, como propor-
cin de reduccin de los errores de prediccin (ecuacin [10.26]) y como proporcin de
varianza comn o explicada (ecuacin [10.27]).
En nuestro ejemplo sobre la recuperacin de pacientes sometidos a tratamiento antide-
presivo, el coeficiente de correlacin mltiple vale 0,89; y, elevado al cuadrado, 0,79. Este
valor indica, en primer lugar, que las variables incluidas en la ecuacin (basal, edad y tto)
permiten reducir los errores de prediccin un 79 % y, en segundo lugar, que esas tres va-
riables, tomadas juntas, comparten el 79 % de la varianza de la recuperacin; por tanto,
conocer las puntuaciones basales de los pacientes, su edad y el tratamiento que han recibido
permite entender (anticipar, explicar) el 79 % de la variabilidad de su recuperacin.
El coeficiente es un estimador positivamente sesgado de su correspondiente
parmetro poblacional (tiende a ofrecer estimaciones infladas). Este sesgo depende del n-
mero de variables independientes (p) y del nmero de casos (n). Cuanto menor es la relacin
n: p, mayor es el sesgo16. Para atenuar este sesgo es habitual aplicar la siguiente correccin:

= [10.28]

En nuestro ejemplo sobre la recuperacin de pacientes sometidos a tratamiento antidepresi-


vo hemos obtenido = 0,79. Y aplicando [10.28] obtenemos = 0,75, que es
un valor ligeramente menor que el obtenido sin aplicar la correccin.
16
Por ejemplo, cuando n = p + 1 (muy pocos casos en comparacin con el nmero de variables), la ecuacin de regresin
ofrece pronsticos perfectos (es decir, = 1) sea cual sea la verdadera relacin subyacente. Con una sola variable inde-
pendiente tenemos p = 1 y n = 2, y una recta se ajusta perfectamente a 2 puntos; con dos variables independientes tenemos
p = 2 y n = 3, y un plano se ajusta perfectamente a tres puntos; etc.
390 Anlisis de datos (vol. II)

Significacin de los coeficientes de regresin


Un coeficiente de correlacin debe interpretarse en el contexto en el que se obtiene (ver, en
el Captulo 12 del primer volumen, el apartado Cmo interpretar el coeficiente de correla-
cin RXY ). Esto significa que la calidad de una ecuacin de regresin debe valorarse en fun-
cin del tipo de problema al que se intenta dar respuesta. Pero, antes de interpretar un coe-
ficiente de correlacin, es necesario preguntarse si, independientemente del contexto, la
relacin encontrada es o no estadsticamente significativa, es decir, si es o no ma-
yor de lo que cabra esperar simplemente por las fluctuaciones propias del azar muestral.
Esta pregunta puede responderse contrastando la hiptesis nula de que la relacin entre
X1, X2, ..., Xp e Y vale cero en la poblacin, es decir, H0 : = 0. Y esto equivale a con-
trastar la hiptesis nula de que los p coeficientes de regresin poblacionales (excluido 0)
valen cero:
H0 : 1 = 2 = = p = 0 [10.29]

El rechazo de esta hiptesis implica que al menos un coeficiente de regresin contribuye


significativamente a mejorar el ajuste.
La hiptesis [10.29] puede contrastarse utilizando el mismo estadstico F ya definido en
regresin simple. La variabilidad total de Y puede descomponerse en variabilidad debida a
la regresin y en variabilidad no debida a la regresin o variabilidad error. Y el cociente en-
tre las estimaciones de ambas variabilidades es un estadstico F :

F = = [10.30]

Cuando se dan ciertas condiciones (ver, ms adelante, el apartado Supuestos del modelo de
regresin), este estadstico se aproxima a la distribucin de probabilidad F con p y n ! p ! 1
grados de libertad. Puede rechazarse la hiptesis [10.29] si el estadstico F toma un valor
mayor que el cuantil 100 (1 ! ) de la distribucin F con p y n ! p ! 1 grados de libertad. En
nuestro ejemplo hemos obtenido = 0,79; por tanto,

F = = 20,06

Con p = 3 y n ! p ! 1 = 20 ! 3 ! 1 = 16 grados de libertad, el cuantil 95 de la distribucin F


vale 3,24 (ver Tabla F del apndice final). Por tanto, como el valor del estadstico F = 20,06
es mayor que el punto crtico (3,24), podemos rechazar la hiptesis [10.29] de no relacin
lineal y concluir que la variable dependiente (recuperacin) est linealmente relacionada con
el conjunto de variables independientes incluidas en la ecuacin (basal, edad y tto).
El denominador del estadstico F sigue siendo el error cuadrtico medio o media cua-
drtica error:

MCE = [10.31]

Su significado es el mismo que en el caso de la regresin simple: es el mejor estadstico de


que disponemos para estimar la varianza Y asociada a cada posible combinacin entre los
Captulo 10. Anlisis de regresin lineal 391

distintos valores de las Xj (ver el apartado Supuestos del modelo de regresin). La raz cua-
drada de [10.31] es el error tpico de la estimacin (desviacin tpica de los residuos).
Representa el error medio que se comete al efectuar pronsticos utilizando la ecuacin de
regresin. Y, al igual que , sirve como un indicador de la bondad del ajuste del plano
de regresin: cuanto menor es la desviacin tpica de los residuos, mejor es el ajuste.
nunca disminuye al incorporar una nueva variable a la ecuacin. Pero eso no
significa que la ecuacin que incluye la nueva variable sea mejor que la que no la incluye. En-
tre dos ecuaciones rivales, la que mejor se ajusta es aquella a la que le corresponde una MCE
menor . Y puesto que al incorporar una nueva variable la MCE pierde un grado de libertad,
para poder afirmar que la nueva ecuacin ofrece un mejor ajuste que la original, debe ocurrir
que la nueva variable consiga reducir la suma de los residuos al cuadrado en una cantidad
mayor que la MCE original.
La hiptesis propuesta en [10.29] es una hiptesis global referida a los p coeficientes de
regresin incluidos en la ecuacin (excluido 0). El rechazo de esta hiptesis indica que al
menos un coeficiente j es distinto de cero, pero sin precisar cul. Para identificar qu coe-
ficiente es distinto de cero es necesario valorar cada uno por separado. Esto puede hacerse
de la misma manera que en regresin simple, es decir, contrastando, para cada coeficiente,
H0 : j = 0 [10.32]
mediante estadsticos T del tipo

= [10.33]

Cuando se dan ciertas condiciones (ver, ms adelante, el apartado Supuestos del modelo de
regresin), el estadstico se aproxima a la distribucin de probabilidad t de Student con
n ! p ! 1 grados de libertad. Puede rechazarse la hiptesis [10.32] si el valor absoluto de
es mayor que el cuantil 100 (1 ! / 2) de la distribucin t con n ! p ! 1 grados de libertad.
El rechazo de [10.32] indica que la correspondiente X j contribuye significativamente al
ajuste del plano de regresin. El no rechazo de indica que la correspondiente X j puede eli-
minarse de la ecuacin sin prdida de ajuste.
El denominador de [10.33], , es el error tpico de y, aunque es algo ms comple-
jo de calcular que en el caso de la regresin simple17, los programas informticos de anlisis
estadstico lo incluyen de forma rutinaria. En nuestro ejemplo, en el caso de las variables
basal y tto se obtienen valores que llevan al rechazo de la hiptesis [10.32]. No as en
el caso de la variable edad. Por tanto, la variable edad puede eliminarse de la ecuacin de
regresin sin prdida de ajuste18.
Este resultado nos recuerda que los coeficientes de regresin son coeficientes parciales.
A pesar de que la edad est significativamente relacionada con la recuperacin (RXY = !0,58,
p = 0,007), esta relacin se desvanece cuando entran en juego las variables basal y tto. Y es-
to ocurre porque la variable edad correlaciona !0,78 con la variable tto: la edad media de los
sujetos que han recibido el tratamiento 1 (estndar = 56,8) es mayor que la de los sujetos que

17
= , donde es la varianza de X j y es el coeficiente de determinacin que se ob-
tiene con la ecuacin de regresin de X j sobre el resto de variables independientes.
18
El valor de no cambia si se elimina la variable edad de la ecuacin. Y tampoco cambia el valor de los coe-
ficientes de regresin tipificados correspondientes a basal y a tto.
392 Anlisis de datos (vol. II)

han recibido el tratamiento 2 (combinado = 45,9). Como adems ocurre que los sujetos que
reciben el tratamiento 2 se recuperan mejor que los que reciben el tratamiento 1, la relacin
entre edad y recuperacin podra ser simplemente resultado de la relacin entre tto y re-
cuperacin: la edad podra estar correlacionando negativamente con la recuperacin porque
los sujetos ms jvenes han recibido el tratamiento ms eficaz19. En el siguiente apartado se
trata ms a fondo esta idea.
Los errores tpicos pueden utilizarse para construir intervalos de confianza siguien-
do la misma estrategia que en regresin simple (ver ecuacin [10.17]).

Importancia relativa de las variables

No existe una nica forma de valorar la importancia o peso relativo de una variable dentro
de una ecuacin de regresin. Entre otras cosas, porque para poder hacer esto es necesario
aclarar qu se entiende por importancia de una variable.
Si se considera que la variable ms importante es la que ms contribuye al cambio es-
perado en Y, entonces la importancia relativa de las variables puede establecerse a partir de
los coeficientes de regresin tipificados: cuanto mayor es un coeficiente tipificado, mayor
es el cambio esperado en Y asociado a un cambio de una unidad en X j . Y esto, indepen-
dientemente de cul sea la mtrica original de las variables.
Si se considera que la variable ms importante es la que ms contribuye al ajuste global,
es decir, la que ms contribuye a reducir los errores de prediccin, entonces la importancia
relativa de las variables puede establecerse mediante el cuadrado del coeficiente de corre-
lacin semiparcial: .
En el Apndice 5 hemos estudiado el coeficiente de correlacin parcial como una medida
del grado de relacin neta entre dos variables, es decir, del grado de relacin entre dos varia-
bles cuando se elimina de ambas (se controla o parcializa) el efecto de terceras variables. Por
ejemplo, R12|3 es la relacin entre las variables 1 y 2 cuando se elimina de ambas el efecto de

19
Por supuesto, tambin podra estar ocurriendo lo contrario, es decir, que el tratamiento 2 fuera ms eficaz que el 1 porque
se ha aplicado a pacientes que se recuperan mejor (pacientes ms jvenes). Pero el hecho de que el peso de la variable tto
sea distinto de cero y sensiblemente mayor que el de la variable edad, y que el peso de sta no sea distinto de cero est indi-
cando: (1) que la variable tto explica una parte de la recuperacin que no puede explicar la variable edad y (2) que la varia-
ble edad no puede explicar algo distinto de lo que estn explicando las variables tto y basal.
Es posible precisar qu es lo que realmente est ocurriendo formando cuatro grupos de pacientes en funcin del trata-
miento recibido y de la edad (separando a los 5 sujetos ms jvenes de los 5 menos jvenes en cada tratamiento). La siguien-
te tabla muestra la recuperacin media de estos cuatro grupos:

Edad < Mdn Edad > Mdn


1. Estndar 6,60 7,00
2. Combinado 12,40 13,80

Un anlisis de estas medias indica, en primer lugar, que la recuperacin media es mayor con el tratamiento 2 tanto entre los
pacientes ms jvenes (t8 = !3,39, p = 0,009) como entre los menos jvenes (t8 = !3,67, p = 0,006); y, en segundo lugar,
que la recuperacin media de los pacientes ms jvenes no difiere significativamente de la de los menos jvenes ni cuando
reciben el tratamiento 1 (t8 = !0,24, p = 0,819) ni cuando reciben el tratamiento 2 (t8 = !0,75, p = 0,476). Y esto permite
afirmar que la relacin entre edad y recuperacin es una relacin espuria resultado de haber aplicado el tratamiento ms
eficaz a pacientes ms jvenes.
Captulo 10. Anlisis de regresin lineal 393

la variable 3. Esto se hace estimando las ecuaciones de regresin de la variable 1 sobre la


variable 3 y de la variable 2 sobre la variable 3, calculando los residuos de ambas ecuacio-
nes y correlacionando ambos conjuntos de residuos.
En el coeficiente de correlacin semiparcial, el efecto de las terceras variables solamen-
te se elimina de una de las dos variables correlacionadas. As, por ejemplo, la correlacin
semiparcial R1(2|3) se obtiene correlacionando la variable 1 con los residuos obtenidos con la
ecuacin de regresin de la variable 2 sobre la variable 3.
Consideremos la relacin entre el rendimiento acadmico (variable 1), el cociente inte-
lectual (variable 2) y las horas de estudio (variable 3): R12 es la correlacin simple entre el
rendimiento acadmico y el cociente intelectual; R 12 | 3 es la correlacin entre el rendimiento
acadmico y el cociente intelectual despus de eliminar de ambas variables el efecto atribuible
a las horas de estudio (correlacin parcial entre 1 y 2); y R1(2 | 3) es la correlacin entre el ren-
dimiento acadmico y el cociente intelectual despus de eliminar del cociente intelectual el
efecto atribuible a las horas de estudio (correlacin semiparcial entre 1 y 2).
Ambos coeficientes de correlacin, el parcial y el semiparcial, desempean un impor-
tante rol en el anlisis de regresin mltiple. El parcial se utiliza para elegir variables en los
mtodos de seleccin por pasos; veremos esto ms adelante, en el apartado Regresin jerr-
quica o por pasos. El semiparcial se utiliza para cuantificar la contribucin neta de cada
variable al ajuste global20.
Siendo el coeficiente de correlacin mltiple entre la variable dependiente Y y las
variables independientes X1 y X2, se verifica

= ! [10.34]

Es decir, el cuadrado de la correlacin entre las variables Y y X2 tras eliminar de la variable


X2 el efecto de la variable X1 (osea, el cuadrado de la correlacin semiparcial entre Y y X2 ) es
igual al cuadrado de la correlacin mltiple entre la variable Y y las variables X1 y X2 (pro-
porcin de varianza explicada conjuntamente por X1 y X2) menos el cuadrado de la corre-
lacin simple entre las variables Y y X1 (proporcin de varianza explicada por X1). Por tanto,
representa la cantidad que aumenta la proporcin de varianza explicada al incorporar la va-
riable X2 a una ecuacin de regresin que ya contiene la variable X1.
El cuadrado del coeficiente de correlacin semiparcial, , tambin puede cal-
cularse mediante

= [10.35]

donde es el valor obtenido con [10.33] al contrastar [10.32] y es el coeficien-


te de determinacin. Reordenando la ecuacin [10.34] se obtiene

= + [10.36]

20
Aunque el signo de un coeficiente de regresin suele indicar el sentido positivo o negativo de la relacin entre Y y la
correspondiente X j , esto no tiene por qu ser necesariamente as. Puede ocurrir que el signo de un coeficiente sea distinto
del sentido de la relacin. La razn de esto es que los coeficientes de una ecuacin de regresin mltiple son parciales y,
por tanto, su valor depende del resto de elementos presentes en la ecuacin. Una variable independiente tiene un peso sig-
nificativo en una ecuacin de regresin cuando, independientemente de su relacin con Y, consigue explicar una parte de
Y que otras variables no explican; y su relacin con esa parte de Y podra no tener el mismo signo que su relacin con Y.
394 Anlisis de datos (vol. II)

Por tanto, en una ecuacin de regresin con dos variables independientes (variables 1 y 2),
el cuadrado del coeficiente de correlacin mltiple (es decir, el coeficiente de determinacin
) es la suma del cuadrado de la correlacin simple entre la variable dependiente y una
cualquiera de las dos variables independientes ( ) ms el cuadrado de la correlacin entre
la variable dependiente y la parte de la segunda variable independiente que no depende o no
est explicada por la primera ( ).
Y esto implica que el coeficiente de determinacin se compone de la informa-
cin que aporta la primera variable ( ), ms la informacin adicional no redundante que
aporta una segunda variable ( ), ms la informacin adicional no redundante que aporta
una tercera variable ( ), y as sucesivamente. Es decir,

= + + + + [10.37]

En nuestro ejemplo sobre la relacin entre las variables basal, tto y recuperacin (hemos de-
sechado la variable edad por no tener un peso significativo en la ecuacin), los coeficientes
de correlacin semiparcial entre la variable dependiente y cada una de las dos independientes
valen, respectivamente, 0,438 y 0,579. Esto significa que, en una ecuacin de regresin que
ya contiene la variable tto, la incorporacin de la variable basal hace aumentar la proporcin
de varianza explicada en 0,4382 = 0,19 puntos; y en una ecuacin que ya contiene la variable
basal, la incorporacin de la variable tto hace aumentar la proporcin de varianza explicada
en 0,5792 = 0,34 puntos. Y sabemos que ambos aumentos son estadsticamente significativos
(es decir, representan un incremento significativo en el ajuste de la ecuacin de regresin)
porque ya hemos comprobado que sus correspondientes coeficientes de regresin son signi-
ficativamente distintos de cero.
En resumen, la importancia relativa de una variable dentro de una ecuacin de regresin
puede valorarse atendiendo a dos criterios diferentes: su peso en los pronsticos (coeficientes
de regresin tipificados) y su contribucin neta al ajuste global (coeficiente de correlacin
semiparcial elevado al cuadrado). En nuestro ejemplo, tanto el coeficiente de regresin tipi-
ficado mayor (en valor absoluto) como el coeficiente de correlacin semiparcial ms alto
(tambin en valor absoluto) corresponden a la variable tto.

Variables independientes categricas


Las variables dicotmicas (variables con dos categoras) pueden incluirse en una ecuacin
de regresin lineal sin ningn tipo de consideracin adicional. De hecho, en el ejemplo uti-
lizado en los apartados anteriores ya hemos trabajado con una variable dicotmica (la varia-
ble tto, con cdigos 1 = estndar, 2 = combinado). Con este tipo de variables no existen
problemas de estimacin ni de interpretacin. El coeficiente de regresin obtenido con la va-
riable tto ya lo hemos interpretado como el cambio pronosticado en la recuperacin cuando
la variable tto pasa de 1 a 2 (de estndar a combinado).
Esto nos da una pista acerca de cmo incluir en una ecuacin de regresin lineal varia-
bles categricas con ms de dos categoras. Una variable con J categoras puede expresarse,
sin prdida de informacin, como J ! 1 variables dicotmicas21. As, por ejemplo, la variable

21
A estas variables se les suele llamar variables dummy (ficticias) o variables indicador. Nosotros seguiremos llamndo-
las dicotmicas.
Captulo 10. Anlisis de regresin lineal 395

centro (ver Tabla 10.1), que tiene J = 3 categoras, puede convertirse en J ! 1 = 2 variables
dicotmicas creando las variables centro_A (con cdigo 1 para el centro A y cdigo 0 para
los centros B y C) y centro_B (con cdigo1 para el centro B y cdigo 0 para los centros A y
C). Las variables centro_A y centro_B, tomadas juntas, contienen exactamente la misma in-
formacin que la variable centro. El centro A queda identificado con el cdigo 1 en centro_A
y el cdigo 0 en centro_B; el centro B, con el cdigo 0 en centro_A y el cdigo 1 en cen-
tro_B; y el centro C, con el cdigo 0 tanto en centro_A como en centro_B. No es necesario
crear una tercera variable para identificar el centro C (sera redundante), como tampoco es
necesario crear dos variables, sino una, para identificar las dos categoras de una variable
dicotmica.
Al calcular la ecuacin de regresin utilizando la variable recuperacin como variable
dependiente y las variables centro_A y centro_B como variables independientes se obtiene
el siguiente resultado:
Pronstico (recuperacin) = 8,25 + 5,42 (centro_A) + 0,25 (centro_B )
El valor de la interseccin (8,25) representa la recuperacin estimada para los pacientes del
centro C (el valor pronosticado cuando tanto centro_A como centro_B toman el valor 0). Este
valor, 8,25, sirve de referente para interpretar el resto de los coeficientes de la ecuacin. El
coeficiente asociado a centro_A (5,42) representa la recuperacin estimada para los pacientes
del centro A en comparacin con la de los pacientes del centro C (esta diferencia de 5,42 pun-
tos es significativamente distinta de cero; t17 = 2,84; p = 0,011). Y el coeficiente asociado a
centro_B representa la recuperacin estimada para los pacientes del centro B en comparacin
con la de los pacientes del centro C (esta diferencia de 0,25 puntos no es significativamente
distinta de cero; t17 = 0,13; p = 0,897). Por tanto, a los pacientes del centro A (centro_A = 1,
centro_B = 0) se les est estimando una recuperacin de 8,25 + 5,42 = 13,67 puntos; a los del
centro B (centro_A = 0, centro_B = 1), de 8,25 + 0,25 = 8,50 puntos; y a los del centro C (cen-
tro_A = 0, centro_B = 0), de 8,25. Todo lo cual no es otra cosa que la recuperacin media
de cada centro.
Por supuesto, si se aaden nuevas variables a la ecuacin, el valor de los coeficientes de
regresin cambia. Aadiendo, por ejemplo, la variable tto se obtiene el siguiente resultado:
Pronstico (recuperacin) = 0,63 + 3,80 (centro_A) + !0,44 (centro_B ) + 5,54 (tto)
Ahora, a los pacientes del centro C que han recibido el tratamiento estndar (centro_A = 0,
centro_B = 0, tto = 1) se les pronostica una recuperacin de 0,63 + 5,54 = 6,17 puntos; y a
los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 0, tto = 2), se les
pronostica una recuperacin de 0,63 + 2 (5,54) = 11,71 puntos.
A los pacientes del centro A que han recibido el tratamiento estndar (centro_A = 1, cen-
tro_B = 0, tto = 1) se les pronostica una recuperacin de 0,63 + 3,80 + 5,54 = 9,97 puntos; y
a los que han recibido el tratamiento combinado (centro_A = 1, centro_B = 0, tto = 2), se les
pronostica una recuperacin de 0,63 + 3,80 + 2 (5,54) = 15,51 puntos. El coeficiente asociado
a centro_A (3,80) sigue indicando el aumento en la recuperacin que se pronostica a los pa-
cientes del centro_A en comparacin con los del centro_B.
Por ltimo, a los pacientes del centro B que han recibido el tratamiento estndar (cen-
tro_A = 0, centro_B = 1, tto = 1) se les pronostica una recuperacin de 0,63 ! 0,44 + 5,54 =
5,73 puntos; y a los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 1,
tto = 2), una recuperacin de 0,63 ! 0,44 + 2 (5,54) = 11,27 puntos.
396 Anlisis de datos (vol. II)

Regresin jerrquica o por pasos


En los apartados previos hemos asumido en todo momento que la decisin de qu variables
debe incluir una ecuacin de regresin es responsabilidad del investigador. Es decir, hemos
asumido que es el propio investigador, generalmente guiado por una hiptesis de trabajo ba-
sada en evidencias previas o en sospechas basadas en la observacin, quien finalmente decide
qu variables debe incluir su ecuacin de regresin.
Sin embargo, no es infrecuente encontrar situaciones en las que, a pesar de contar con un
elevado nmero de posibles variables candidatas a formar parte de una ecuacin de regresin
(es decir, un elevado nmero de variables susceptibles de contribuir a entender o explicar el
fenmeno estudiado), falta una hiptesis de trabajo que oriente al investigador en la eleccin
de las variables realmente relevantes.
En estos casos se podra comenzar incluyendo en la ecuacin todas las variables que se
sospecha o intuye que pueden aportar algo y continuar eliminando de ella, una vez estimada,
todas las variables con coeficientes de regresin no significativos. Pero esta estrategia, que,
en principio, podra parecer apropiada, es bastante problemtica. Puesto que los coeficientes
de regresin son coeficientes parciales (su valor depende del resto de coeficientes presentes
en la ecuacin), eliminar ms de una variable al mismo tiempo impide valorar el comporta-
miento individual de las variables eliminadas.
Es preferible proceder jerrquicamente. Por ejemplo, eliminando variables una a una:
se comienza estimando la ecuacin de regresin con todas las variables candidatas y se eli-
mina, en primer lugar, la variable cuyo coeficiente de regresin tipificado, adems de no ser
significativo, es el menor de todos en valor absoluto; a continuacin se vuelve a estimar la
ecuacin de regresin y se elimina la variable cuyo coeficiente de regresin tipificado, ade-
ms de no ser significativo, es el ms pequeo en valor absoluto; etc.; as, hasta que todos
los coeficientes de regresin que permanecen en la ecuacin sean significativos. Algo pa-
recido a esto, aunque de forma automtica, es lo que hacen los mtodos por pasos que se
describen en este apartado (enseguida veremos que tambin es posible proceder al revs, es
decir, incorporando variables una a una).
Con la regresin jerrquica o por pasos se pretende encontrar la ecuacin de regresin
capaz de ofrecer el mejor ajuste posible con el menor nmero de variables. Se intenta, con
esto, hacer compatibles los dos principios que deben guiar la formulacin de todo modelo
estadstico: (1) incluir el menor nmero posible de variables para facilitar la interpretacin
del resultado y reducir los posibles costes de trabajar con muchas variables (principio de
parsimonia) y (2) conseguir explicar lo mejor posible el comportamiento de la variable de-
pendiente (principio de mximo ajuste).
De acuerdo con esto, construir una ecuacin de regresin por pasos puede parecer, en
principio, una buena idea. Pero lo cierto es que esta estrategia no est libre de problemas. Si
el objetivo del anlisis es efectuar pronsticos y no existe una hiptesis de trabajo que jus-
tifique la eleccin de unas u otras variables, proceder por pasos puede resultar una estrategia
vlida (mximo ajuste con el menor nmero de variables). Si el objetivo del anlisis es obte-
ner evidencia emprica sobre alguna hiptesis de trabajo, entonces proceder por pasos podra
resultar ms perjudicial que beneficioso, pues la ecuacin con el mejor ajuste podra incluir
variables tericamente irrelevantes y ese ajuste podra ser solo ligeramente mejor que el de
una ecuacin con variables tericamente relevantes (ver Henderson y Denison, 1989, o Hu-
berty, 1989, para una discusin de toda esta problemtica).
Captulo 10. Anlisis de regresin lineal 397

Criterios para seleccionar variables


La variables que finalmente formarn parte de una ecuacin de regresin pueden elegirse
aplicando diferentes criterios. Por ejemplo, el aumento en el coeficiente de correlacin ml-
tiple, el valor del coeficiente de correlacin parcial, la reduccin del error tpico de los resi-
duos, etc. Todos estos criterios coinciden en intentar maximizar el ajuste utilizando el mni-
mo nmero posible de variables. Sin embargo, el criterio que acapara las preferencias de los
expertos consiste en incorporar al modelo de regresin solamente las variables que contri-
buyen de forma significativa a mejorar el ajuste.
Una forma de valorar esta contribucin consiste en cuantificar el cambio que se produ-
ce en el coeficiente de determinacin al incorporar (o eliminar) una variable a la ecuacin:

= ! [10.38]

Es decir, es la diferencia entre el coeficiente determinacin obtenido con p varia-


bles ( ) y el obtenido con p ! 1 variables ( ). El subndice j se refiere a la
variable cuya contribucin al ajuste global se est valorando.
En realidad, es el cuadrado del coeficiente de correlacin semiparcial entre la
variable dependiente y la variable cuya incorporacin o eliminacin se est valorando (este
coeficiente ya lo hemos estudiado en el apartado Importancia relativa de las variables).
Cuanto mayor es el valor de , mayor es la contribucin de la variable X j al ajuste
global.
La significacin estadstica de puede establecerse contrastando la hiptesis
nula de que su valor poblacional es cero, mediante el estadstico

= [10.39]

el cual se aproxima a la distribucin de probabilidad F con 1 y n ! p ! 1 grados de libertad.


Puede rechazarse la hiptesis nula si el valor de [10.39] es mayor que el cuantil 100 (1 ! )
de esa distribucin22.

Mtodos para seleccionar variables


Hay diferentes formas de proceder a la hora de ir seleccionando las variables que finalmen-
te formarn parte de una ecuacin de regresin:
1. Hacia delante (forward). Se comienza con la ecuacin que nicamente incluye la in-
terseccin. En el primer paso se elige, entre las variables que superan el criterio de se-
leccin, la que ms alto correlaciona (en valor absoluto) con la variable dependiente23.
En los siguientes pasos se van incorporando a la ecuacin las variables que, adems de

22
El estadstico F propuesto en [10.39] coincide con el cuadrado del estadstico propuesto en [10.33] y utilizado para
contrastar la significacin individual de cada coeficiente de regresin.
23
Recordemos que el criterio de seleccin es que la variable incorporada a la ecuacin genere un incremento significativo
en el coeficiente de determinacin. En el primer paso, este incremento es el que va desde cero hasta el valor del coeficiente
de determinacin correspondiente a la primera variable seleccionada.
398 Anlisis de datos (vol. II)

superar el criterio de seleccin, poseen el coeficiente de correlacin parcial ms alto en


valor absoluto (en cada paso, la correlacin entre la variable dependiente y cada una de
las independientes todava no incorporadas a la ecuacin se parcializa eliminando el
efecto de las variables independientes ya incluidas en la ecuacin). La incorporacin de
variables se detiene cuando no quedan variables que superen el criterio de seleccin.
2. Hacia atrs (backward). Se comienza incluyendo en la ecuacin de regresin todas las
variables candidatas a formar parte del modelo final y, a continuacin, se procede a elimi-
narlas una a una. La primera variable que se elimina es, entre las que tienen asociados
coeficientes de regresin no significativos, aquella a la que le corresponde el menor valor
. En cada paso se van eliminando de la ecuacin, una a una, las variables con
coeficientes de regresin no significativos y siempre en orden inverso al tamao de
. La eliminacin de variables se detiene cuando todas las variables que quedan
en la ecuacin cumplen el criterio de seleccin.
3. Pasos sucesivos (stepwise). Este mtodo es una mezcla de los mtodos hacia delante y
hacia atrs. Se comienza, al igual que en el mtodo hacia delante, con la ecuacin que
nicamente incluye la interseccin. En el primer paso se elige la variable que, adems
de superar el criterio de seleccin, ms alto correlaciona (en valor absoluto) con la va-
riable dependiente. A continuacin se selecciona la variable que, adems de superar el
criterio de seleccin, posee el coeficiente de correlacin parcial ms alto (en valor abso-
luto). Cada vez que se incorpora una nueva variable, las variables seleccionadas hasta
ese momento son, al igual que en el mtodo hacia atrs, evaluadas nuevamente para de-
terminar si siguen cumpliendo o no el criterio de seleccin. Si alguna variable de las ya
seleccionadas deja de cumplir el criterio de seleccin, es expulsada de la ecuacin. El
proceso se detiene cuando no quedan variables fuera de la ecuacin que superen el cri-
terio de seleccin y todas las variables incluidas lo cumplen.
La regresin por pasos puede hacerse incorporando o eliminando ms de una variable (blo-
ques de variables) en cada paso. Esta estrategia, que es a la que se le suele llamar regresin
jerrquica24, funciona exactamente igual que cuando se incorporan o eliminan variables una
a una. La nica diferencia es que, al trabajar con bloques de variables, tanto el criterio de
seleccin de variables como los estadsticos utilizados para valorar la contribucin al ajuste
global se aplican al bloque completo de variables que se desea incorporar o eliminar25.
Conviene advertir que el orden en el que se incorporan las variables a una ecuacin de
regresin aplicando una estrategia de seleccin por pasos no es un criterio vlido para de-
terminar la importancia relativa de las variables en la ecuacin. En cada paso, la valoracin

24
Esta estrategia de construccin de una ecuacin de regresin por pasos no debe confundirse con la regresin multinivel
(la estudiaremos en el siguiente volumen), la cual, a veces, tambin recibe el nombre de jerrquica.
25
Al incorporar o eliminar bloques de variables, las ecuaciones [10.38] y [10.39] para cuantificar el cambio en el coefi-
ciente de determinacin y para valorar la significacin estadstica de ese cambio, quedan de la siguiente manera:

= ! [10.40]

= [10.41]

con k igual al nmero de variables de que consta el bloque j.


Captulo 10. Anlisis de regresin lineal 399

que se hace de la contribucin al ajuste global de la variable que se incorpora a la ecuacin


se basa en las variables previamente seleccionadas, no en las variables que formarn parte de
la ecuacin final. Esto significa que cada variable se parcializa aplicando un criterio dife-
rente. Si la importancia relativa de las variables ha de hacerse atendiendo a su contribucin
al ajuste global, sta debe valorarse parcializando cada relacin mediante el resto de variables
independientes incluidas en la ecuacin final.

Supuestos del modelo de regresin lineal


Los datos, por lo general, no son la poblacin que interesa estudiar, sino una muestra de esa
poblacin. Por tanto, la ecuacin de regresin que se obtiene con unos datos concretos no es
ms que una estimacin de la verdadera ecuacin de regresin (la ecuacin poblacional). Pa-
ra calcular una ecuacin de regresin no es necesario establecer ningn supuesto. Pero para
utilizarla como una estimacin de la verdadera ecuacin de regresin, las cosas cambian.
Hasta ahora no hemos mencionado nada acerca de las condiciones que deben darse para que
un modelo de regresin lineal sea una buena eleccin. Sin embargo, habiendo estudiado ya
los modelos de anlisis de varianza y los supuestos en los que se basan, no debe sorprender
que los modelos de regresin lineal tambin lleven asociados algunos supuestos. Para refe-
rirnos a ellos, los llamaremos, abreviadamente: (1) linealidad, (2) no colinealidad, (3) inde-
pendencia, (4) normalidad y (5) homocedasticidad.
Los supuestos de linealidad, no colinealidad, independencia y homocedasticidad son
necesarios para que los coeficientes de regresin sean estimadores insesgados y eficientes
(varianza mnima) de sus correspondientes parmetros. Y para contrastar hiptesis sobre los
coeficientes de regresin y construir intervalos de confianza es necesario, adems, asumir
normalidad. En este apartado se presenta una breve descripcin de los supuestos del modelo
de regresin. Para conocer ms a fondo el significado de estos supuestos o las consecuencias
que se derivan de su incumplimiento pueden consultarse los trabajos de Belsley, Kuh y Welch
(1980), Berry y Feldman (1985) y Fox (1991).

Linealidad
En un anlisis de regresin lineal se est asumiendo que las variables independientes estn
linealmente relacionadas con la dependiente. Y para representar esta relacin se utiliza una
ecuacin lineal, es decir, una ecuacin que estima para Y un cambio constante (lineal) de
tamao B j por cada unidad que aumenta X j (permaneciendo el resto de variables constan-
tes). El supuesto de linealidad es crucial: no tiene sentido utilizar una ecuacin lineal si la
relacin subyacente entre las dos partes de la ecuacin no es lineal.
Al error consistente en utilizar un modelo lineal para dar cuenta de una relacin que no
es lineal se le llama error de especificacin. Este tipo de error ocurre cuando no se eligen bien
las variables independientes (porque hay otra u otras variables que podran explicar mejor el
comportamiento de la variable dependiente, o porque se han incluido en el modelo variables
irrelevantes) o cuando, habiendo elegido bien las variables independientes, su relacin con
la dependiente no es de tipo lineal. La consecuencia de un error de especificacin es que los
coeficientes de regresin Bj se convierten en estimadores sesgados y poco eficientes de sus
400 Anlisis de datos (vol. II)

respectivos parmetros. Por tanto, si se tiene intencin de utilizar un modelo de regresin


lineal, lo razonable es que la relacin entre la variable dependiente y las independientes sea
de tipo lineal.
En regresin simple, un diagrama de dispersin (preferiblemente acompaado del coe-
ficiente de correlacin de Pearson) permite obtener informacin bastante precisa acerca de
si la relacin subyacente es o no de tipo lineal o contiene un componente lineal importante.
El diagrama de la Figura 10.9 (izquierda) muestra que la relacin entre basal y recuperacin
es, bsicamente, lineal.
El diagrama de dispersin tambin puede construirse utilizando los residuos en el eje
vertical (en lugar de la variable dependiente). Si la relacin subyacente entre X e Y es lineal,
la nube de puntos de este diagrama no debe mostrar ninguna pauta discernible, es decir, los
puntos deben estar aleatoriamente repartidos en torno al valor cero del eje vertical26 (ver Fi-
gura 10.9, derecha). El diagrama no cambia si en el eje horizontal se utilizan, en lugar de las
puntuaciones de la variable independiente, los pronsticos de la ecuacin de regresin.

Figura 10.9. Diagramas de dispersin. Izquierda: basal por recuperacin. Derecha: basal por residuos

En regresin mltiple, los diagramas de dispersin de Y con cada X j pueden resultar en-
gaosos porque no cuentan toda la historia. En regresin mltiple interesa valorar las rela-
ciones parcializadas. Y esto puede hacerse obteniendo un diagrama de dispersin parcial
para cada variable independiente. Los diagramas de dispersin parcial representan la relacin
entre dos conjuntos de residuos: los que se obtienen al pronosticar Y con todas las variables
independientes excepto X j y los que se obtienen al pronosticar X j con el resto de variables
independientes. La correlacin entre estos dos conjuntos de residuos es el coeficiente de
correlacin parcial entre Y y X j ; y la pendiente de la recta de regresin es Bj (es decir, el
coeficiente de regresin asociado a X j en la ecuacin de regresin mltiple).
La Figura 10.10 muestra dos de los diagramas de dispersin parciales correspondientes
a la ecuacin de regresin que incluye las variables independientes basal, edad y tto. El dia-
grama de la izquierda recoge la relacin entre las variables basal y recuperacin tras elimi-
nar de ambas el efecto atribuible a las variables edad y tto. El de la derecha recoge la rela-
cin entre las variables edad y recuperacin tras eliminar de ambas el efecto atribuible a las
26
Suele ser buena idea construir este diagrama de dispersin con variables no incluidas en la ecuacin. Si los residuos
muestran una pauta no aleatoria con alguna de esas variables, podra interesar incluir esa variable en la ecuacin.
Captulo 10. Anlisis de regresin lineal 401

variables basal y tto (ambos diagramas incluyen la recta de regresin mnimo-cuadrtica).


En el primer caso se aprecia una tendencia claramente lineal. En el segundo, no.
A pesar de su utilidad, conviene sealar que los diagramas de dispersin parcial pueden
resultar engaosos cuando la ecuacin de regresin incluye variables independientes irrele-
vantes o cuando existe una elevada colinealidad (ver siguiente apartado).

Figura 10.10. Diagramas de dispersin parcial (incluyen la recta de regresin mnimo-cuadrtica)

Adems de asumir que la relacin subyacente es lineal, la ecuacin de regresin estima los
valores de Y combinando aditivamente las variables independientes, es decir, sumndolas. Y
esto implica que el cambio estimado para Y por cada unidad que aumenta Xj (permaneciendo
el resto de variables constantes) es siempre el mismo independientemente del valor concreto
que tomen el resto de las variables incluidas en la ecuacin, es decir, independientemente del
valor concreto en el que permanezcan constantes el resto de las variables. Y esto significa
que se est asumiendo que no existe interaccin entre las variables independientes. Si la rela-
cin entre Y y una determinada X j depende de los valores que tome alguna otra X j , entonces
el modelo aditivo no es un modelo apropiado. En presencia de interaccin entre variables
independientes es recomendable incluir en la ecuacin el producto de las variables que in-
teraccionan (ver Jaccard y Turrisi, 2003).

No colinealidad
El concepto de colinealidad se refiere a la relacin entre variables independientes (si hay
involucradas ms de dos variables tambin se habla de multicolinealidad). Existe colinealidad
perfecta cuando una variable independiente es funcin lineal perfecta de otra u otras variables
independientes. Para que el mtodo de mnimos cuadrados pueda estimar los coeficientes de
regresin es imprescindible que no exista colinealidad perfecta. En condiciones de colinea-
lidad perfecta no existe una solucin nica para las estimaciones mnimo-cuadrticas.
La colinealidad perfecta es infrecuente27, pero no lo es cierto grado de colinealidad. Y el
problema de una colinealidad elevada es que la varianza de los coeficientes de regresin

27
Se da, por ejemplo, cuando se incluye una variable que es suma de otras que tambin se incluyen (los tems de una escala
y la puntuacin total en la escala obtenida como la suma de los tems), o cuando se incluyen variables cuyos valores suman
una constante (el porcentaje de tiempo libre dedicado a cada una de un conjunto de actividades).
402 Anlisis de datos (vol. II)

aumenta sensiblemente28. Y eto hace que las estimaciones se vuelven inestables: pequeos
cambios en los datos pueden llevar a cambios importantes en las estimaciones.
Lo habitual en una ecuacin de regresin mltiple es que exista algn grado de colineali-
dad, pues es improbable que un conjunto de variables sean completamente independientes.
La cuestin no es si existe o no colinealidad, sino si el grado de colinealidad existente es lo
bastante grande como para representar un problema.
Existen algunos indicios que alertan sobre un posible problema con el grado de colinea-
lidad. Por ejemplo, que el estadstico F que contrasta la hiptesis global de no relacin sea
significativo y, sin embargo, no lo sea ninguno de los coeficientes de regresin (lo cual puede
ocurrir cuando las varianzas de los coeficientes son muy grandes); o que algn coeficiente de
regresin tenga un signo distinto del esperado; o que algn coeficiente de regresin tipificado
sea excesivamente grande (mayor que uno en valor absoluto).
Tambin existen algunos estadsticos que pueden ayudar a detectar un posible problema
con el grado de colinealidad. El nivel de tolerancia de una variable independiente X j se ob-
tiene restando a 1 el coeficiente de determinacin correspondiente a la ecuacin de regresin
de X j sobre el resto de variables independientes (1 ! ). Un nivel de tolerancia prximo a
1 indica que la variable X j no est relacionada con el resto de variables independientes; un
nivel de tolerancia prximo a 0 indica que la variable X j est muy relacionada con el resto
de variables independientes. Suele asumirse que los problemas asociados a la presencia de
colinealidad empiezan con tolerancias menores que 0,10.
A los valores inversos de los niveles de tolerancia, 1/ (1 ! ), se les llama factores de
inflacin de la varianza (FIVj ). Reciben este nombre porque reflejan el aumento que expe-
rimenta la varianza de cada coeficiente de regresin como consecuencia de la relacin
existente entre las variables independientes (las races cuadradas de los FIVj indican cun-
to aumentan los errores tpicos de los coeficientes de regresin Bj , los cuales intervienen en
los estadsticos T y en los intervalos de confianza). Los FIVj informan exactamente de lo
mismo que los niveles de tolerancia. Valores mayores que 10 suelen ir acompaados de los
problemas de estimacin asociados a un exceso de colinealidad.
Para solucionar los problemas derivados de un exceso de colinealidad se han propues-
to diferentes soluciones. La ms sencilla consiste en eliminar alguna de las variables inde-
pendientes que est causando el problema, pero esta solucin puede llevar a un error de espe-
cificacin al dejar fuera variables importantes desde el punto de vista terico. Otra solucin
consiste en combinar las variables muy relacionadas entre s en nuevas variables que, aun no
correlacionando entre s, todava reflejen la pauta de relacin subyacente (esta combinacin
puede hacerse a partir de criterios tericos o mediante alguna herramienta estadstica de
reduccin de datos como componentes principales). Por ltimo, siempre existe la posibili-
dad de utilizar modelos de regresin que no se vean tan afectados como el lineal por la pre-
sencia de colinealidad, como, por ejemplo, la regresin ridge (Rozeboom, 1979); en algunos
contextos puede ser preferible obtener estimaciones sesgadas con varianza mnima en lugar
de estimaciones insesgadas con varianzas grandes.

28
Esto puede apreciarse fcilmente si nos fijamos en la ecuacin que define el error tpico de un coeficiente de regresin
(ver nota a pie de pgina nmero 17). El denominador de esta ecuacin incluye el trmino 1 ! . Puesto que refleja
el grado de relacin existente entre la variable Xj y las dems variables independientes, cuanto mayor sea esta relacin (es
decir, cuanto mayor sea el grado de colinealidad), menor ser el trmino 1 ! y , consecuentemente, mayor el error tpico
del correspondiente coeficiente B j .
Captulo 10. Anlisis de regresin lineal 403

Independencia
Ya hemos definido los residuos como la diferencia entre los valores observados y los pro-
nosticados: Ei = . Estos residuos (valores muestrales) son estimaciones de los errores
poblacionales, es decir de las desviaciones de los verdaderos valores de Y respecto del plano
de regresin poblacional (Berry, 1993). En un modelo de regresin lineal se asume que los
errores tienen media cero y que son independientes entre s.
En primer lugar, las estimaciones mnimo-cuadrticas de los coeficientes de regresin no
se ven afectadas por el valor de la media poblacional de los errores. No as las estimaciones
de la interseccin, que se vuelven sesgadas cuando la media de los errores es distinta de cero
(el valor esperado de B0 se aleja de su parmetro en la misma cantidad que la media de los
errores se aleja de cero). Aunque la interseccin de una ecuacin de regresin suele tener po-
co inters, cuando se trabaja con variables independientes centradas (puntuaciones diferencia-
les o de desviacin) la interseccin es una estimacin de la media de Y; en estos casos, si la
media de los errores es distinta de cero, B0 ofrecer estimaciones sesgadas de la media de Y.
En segundo lugar, la independencia entre errores significa que no estn autocorrelacio-
nados, es decir, que no aumentan o disminuyen siguiendo una pauta discernible. Este supuesto
suele incumplirse en datos que proceden de estudios longitudinales (como en el caso de las
series temporales), en datos recogidos secuencialmente (donde los terapeutas pueden mejorar
su forma de administrar un tratamiento, los sujetos mostrar fatiga, los aparatos sufrir algn
tipo de desgaste, etc.), en datos recogidos en grupos homogneos de sujetos pero diferentes
entre s (grupos de diferente ideologa poltica o religiosa, grupos de diferente estatus socio-
econmico, etc.). En este tipo de estudios, el error asociado a un caso tiende a parecerse a los
errores de los casos adyacentes. Cuando ocurre esto es preferible utilizar otros mtodos de
estimacin, como el de mnimos cuadrados generalizados, o analizar los datos con otro tipo
de estrategias (ver Montgomery, Johnson y Gardiner, 1990; Ostrom, 1990).
Cuando los errores estn autocorrelacionados, aunque las estimaciones de los coeficientes
de regresin todava son insesgadas, sus varianzas tienden a tomar valores ms pequeos de
lo que deberan. Y la consecuencia de esto es que las pruebas de significacin y los intervalos
de confianza tienden a detectar coeficientes de regresin significativamente distintos de cero
con demasiada frecuencia.
Los residuos (valores muestrales) son las mejores estimaciones que tenemos de los erro-
res (valores poblacionales). Pero, debido a la forma de calcularlos, aunque su media siempre
vale cero, no son completamente independientes entre s (ver Montgomery, Peck y Vining,
2001, pgs. 132-133). La cuestin es si el grado de autocorrelacin existente entre los resi-
duos es o no lo bastante grande como para sospechar que los errores poblacionales no son in-
dependientes. Para decidir sobre esta cuestin puede utilizarse un diagrama de dispersin con
los casos en el eje horizontal y los residuos en el vertical (siempre, claro est, que el orden
de los casos obedezca a algn tipo de secuencia). Si los residuos son aproximadamente in-
dependientes, los puntos de este diagrama deben estar aleatoriamente repartidos en torno al
valor cero del eje vertical.
Los diagramas de la Figura 10.11 muestran diferentes pautas de autocorrelacin. En con-
diciones de autocorrelacin nula, la nube de puntos est aleatoriamente repartida en torno al
valor cero del eje vertical (diagrama de la izquierda); las subidas y bajadas de las lneas dis-
continuas que unen los puntos siguen una pauta aleatoria. En condiciones de autocorrelacin
positiva, los puntos se encuentran alineados de forma creciente o decreciente, o a intervalos
404 Anlisis de datos (vol. II)

crecientes y decrecientes amplios (diagrama del centro). Y en condiciones de autocorrela-


cin negativa, los residuos positivos y negativos se van alternando conforme se progresa en
la secuencia.

Figura 10.11. Diagramas de dispersin de los residuos dispuestos secuencialmente






Residuos

Residuos

Residuos







Casos Casos Casos

El grado de autocorrelacin entre los residuos tambin puede valorarse mediante el estads-
tico de Durbin-Watson (1950, 1951, 1971):

DW = [10.42]

(con = ). Este estadstico toma valores entre 0 y 4. Los valores en torno a 2 indican
que los residuos son independientes; los valores menores que 2 indican autocorrelacin po-
sitiva; los mayores que 2, autocorrelacin negativa. Suele asumirse que los errores son in-
dependientes cuando el estadstico DW toma valores comprendidos entre 1,5 y 2,5 (existen
tablas para tomar decisiones sobre la hiptesis de autocorrelacin nula; ver Draper y Smith,
1998, Cap. 9).
El supuesto de independencia tambin afecta a las variables independientes. Puesto que
los errores representan la parte de Y que el modelo de regresin no explica, es razonable espe-
rar que los errores no estn relacionados con las variables incluidas en la ecuacin; si lo estn,
entonces las variables independientes no estn aportando al modelo todo lo que pueden. Es-
to puede valorarse elaborando diagramas de dispersin con cada variable independiente en
el eje horizontal y los residuos en el eje vertical. Los puntos de este diagrama deben estar
aleatoriamente repartidos en torno al valor cero del eje vertical (Figura 10.9, derecha).

Normalidad
Este supuesto y el siguiente son idnticos a los ya estudiados con el mismo nombre a prop-
sito de los modelos de anlisis de varianza. En el modelo de regresin simple se asume que
a cada valor de X le corresponde una poblacin de valores Y. La Figura 10.12 ilustra esta cir-
cunstancia. Cada una de estas poblaciones de valores Y se asume que son normales y que
estn centradas en el valor esperado de Y, que es justamente por donde pasa la recta po-
blacional. En regresin mltiple se asume que existe una poblacin normal de valores Y por
cada combinacin distinta de valores Xj . El supuesto de normalidad es necesario para ga-
rantizar que los estadsticos utilizados al contrastar hiptesis del tipo j = 0 se aproximan a
sus respectivas distribuciones muestrales.
Captulo 10. Anlisis de regresin lineal 405

Figura 10.12. Poblaciones de Y correspondientes a cada valor de X


Y

E (Y | Xi )

X
X1 X2 Xn

Puesto que los valores de X se consideran fijos, la variabilidad de Y en su respectiva poblacin


viene determinada nicamente por los errores, que son justamente las distancias entre cada
valor de Y y la recta poblacional. Por tanto, la variabilidad de Y es la variabilidad de los erro-
res, los cuales se asume que se distribuyen normalmente.
La normalidad de los errores puede valorarse a partir del grado en que la distribucin de
los residuos se aproxima a una distribucin normal. Y esto puede hacerse utilizando la misma
estrategia que con cualquier otra variable: un histograma y un diagrama de probabilidad nor-
mal (ver, en el Captulo 2, el apartado Contrastes sobre la forma de la distribucin).

Homocedasticidad
Las poblaciones de la Figura 10.12, adems de normales, se asume que son homocedsticas,
es decir, que tienen la misma varianza. La media cuadrtica error (MCE, ver ecuacin [10.15])
que se utiliza en los estadsticos T y F y en los intervalos de confianza es una estimacin de
la varianza de esas poblaciones normales. Cuando se calcula en una muestra concreta, la MCE
se obtiene promediando las varianzas de Y correspondientes a cada valor de X (o combinacin
de valores Xj ). Si el promedio de esas varianzas muestrales, es decir, MCE , ha de utilizarse
con algn sentido, es necesario asumir que es el promedio de varianzas muestrales que es-
timan la misma varianza poblacional.
En condiciones de heterocedasticidad (varianzas distintas) los coeficientes Bj siguen
siendo estimadores insesgados de sus respectivos parmetros, pero se vuelven poco eficientes
(es decir, aumenta su varianza). Y esto implica, una vez ms, que las pruebas de significacin
y los intervalos de confianza podran llevar a conclusiones errneas.
Para valorar este supuesto puede utilizarse un diagrama de dispersin con los pronsti-
cos en el eje horizontal y los residuos en el vertical. Puesto que cada pronstico es una com-
binacin lineal de valores X, cada pronstico distinto refleja una combinacin distinta de
valores X. Al representar los pronsticos con los residuos se est obteniendo informacin
acerca de la dispersin de las distribuciones empricas correspondientes a las distribuciones
poblacionales representadas en la Figura 10.12. Si la varianza de los residuos es constante,
la nube de puntos estar distribuida homogneamente en torno al valor cero del eje vertical
406 Anlisis de datos (vol. II)

(es decir, la nube de puntos tendr aproximadamente la misma altura a lo largo de todo el eje
horizontal; ver Figura 10.13, izquierda). Los diagramas del centro y de la derecha de la Figu-
ra 10.13 muestran incumplimientos ms o menos frecuentes de este supuesto.

Figura 10.13. Diagramas de dispersin: pronsticos por residuos










Residuos

Residuos

Residuos











Pronsticos Pronsticos Pronsticos

Los problemas asociados a la heterogeneidad de varianzas pueden resolverse utilizando el


mtodo de estimacin de mnimos cuadrados ponderados. Con esta estrategia, lo que se in-
tenta minimizar no es exactamente la suma de los residuos al cuadrado (como en el mtodo
de mnimos cuadrados ordinarios; ver ecuacin [10.2]), sino esa misma suma despus de
ponderar cada residuo con un determinado peso wi , es decir, . El tamao de
los pesos wi se fija hacindoles tomar un valor inversamente proporcional a la varianza de
Y en cada valor de X (por ejemplo, wi = 1/X, o wi = 1/X 2 ).

Casos atpicos e influyentes


La calidad de una ecuacin de regresin no viene determinada nicamente por lo bien que
consigue resumir una nube de puntos (bondad de ajuste). Valorar la calidad de una ecuacin
y, si fuera posible, mejorarla, requiere, por un lado, vigilar el cumplimiento de los supuestos
en los que se basa y, por otro, controlar algunos detalles que podran estar distorsionando los
resultados del anlisis (casos mal pronosticados, casos excesivamente influyentes, etc.).
Estas dos tareas deberan abordarse antes que cualquier otra. Sin embargo, puesto que
ambas se basan, principalmente, en el anlisis de los residuos, es inevitable tener que comen-
zar calculando la ecuacin de regresin. Ahora bien, esto no significa que, una vez calcula-
da la ecuacin, sta ya pueda interpretarse y utilizarse para efectuar pronsticos. Antes de
hacer esto es necesario chequear los supuestos del anlisis (ver apartado anterior) y realizar
algunos diagnsticos que se describen en este apartado.

Casos atpicos
Un caso atpico es un caso inusual, un caso que no se parece a los dems. Una exploracin
descriptiva inicial de los datos, adems de ofrecer una primera impresin sobre las caracte-
rsticas de cada variable, tambin sirve para detectar posibles casos atpicos. Sin embargo,
esto, que es algo muy til en el caso de la regresin simple, no lo es tanto en el caso de la
regresin mltiple. El hecho de que no existan casos atpicos en ninguna variable indivi-
Captulo 10. Anlisis de regresin lineal 407

dualmente considerada no significa que todo est bien. Es necesario valorar la posibilidad
de que existan casos atpicos multivariados: un caso puede tener una puntuacin razonable
en dos variables individualmente consideradas y ser un caso atpico al combinar ambas va-
riables. Por ejemplo, no es inusual que una persona tenga una altura de 180 cm; tampoco lo
es que una persona tenga un peso de 55 kg; pero s es inusual que una persona con una altura
de 180 cm tenga un peso de 55 kg.

Casos atpicos en Y
Puesto que los pronsticos de una ecuacin de regresin representan el centro estimado de
cada distribucin poblacional de Y (ver Figura 10.12), los residuos = son una es-
timacin del grado en que cada valor de Y se aleja del valor esperado de su distribucin. En
consecuencia, los casos atpicos en Y tendrn asociados residuos grandes (en valor absoluto).
Suele considerarse que los residuos que se alejan ms de tres desviaciones tpicas de su
media corresponden a casos mal pronosticados. Y los casos mal pronosticados son, proba-
blemente, casos atpicos en Y . El tamao de los residuos puede valorarse tipificndolos:

= [10.43]

A estos residuos se les llama tipificados o estandarizados y tienen una media de cero y una
desviacin tpica de uno (aproximadamente). Por tanto, un residuo tipificado mayor que 3 (en
valor absoluto) est delatando un posible caso atpico en Y (es seguro que se trata de un caso
mal pronosticado y, por tanto, es probable que se trate de un caso atpico en Y ).
Tipificar los residuos a partir de MCE es solo una aproximacin. Del mismo modo que
cada pronstico tiene su propio error tpico (ver ecuacin [10.18]), cada residuo tambin tiene
el suyo29. Si cada residuo se tipifica dividindolo por su error tpico, se obtienen unos residuos
muy utilizados en regresin lineal: los residuos studentizados:

= [10.46]

29
La varianza de un residuo Ei es tanto mayor cuanto ms se aleja un caso de la media de X. En regresin simple, esta
varianza se obtiene mediante

= [10.44]

Puesto que la MCE est multiplicada por 1 menos una cantidad que depende de , el valor de [10.44] ser tanto ms
pequeo cuanto ms alejado se encuentre de su media. En regresin mltiple, la varianza de E i se obtiene mediante
= [10.45]
donde hi se refiere a los elementos diagonales de la matriz H = X(X X)!1 X. Esta matriz, de dimensiones n n, recibe el
nombre de matriz hat y desempea un importantsimo rol en el anlisis de regresin lineal (contiene la informacin necesaria
para transformar el vector de valores observados en el de valores pronosticados: = HY ). Los elementos diagonales de H
representan el grado de alejamiento de cada caso respecto del centroide del espacio definido por el conjunto de variables
independientes X j . Reflejan la influencia (leverage) de cada caso en la forma final de la ecuacin de regresin. El valor de
hi asociado a un caso es tanto mayor cuanto ms alejado se encuentra ese caso de su centroide (es decir, del centro comn
de las Xj ). Esto significa que la varianza de un residuo es tanto mayor cuanto ms centrado se encuentra el caso (recurdese
que con las varianzas de los pronsticos ocurre justamente lo contrario). No obstante, en [10.44] se puede_ apreciar que la
correccin que se aplica sobre MCE no depende nicamente de la distancia de un caso a su centro (Xi ! X ), sino del tamao
muestral: cuanto mayor es el tamao muestral, menor es la correccin que sufre MCE. Por tanto, con tamaos muestrales
grandes, los residuos studentizados definidos en [10.46] sern muy parecidos a los tipificados definidos en [10.43].
408 Anlisis de datos (vol. II)

A estos residuos se les lama studentizados porque se distribuyen segn el modelo de proba-
bilidad t de Student con n ! p ! 1 grados de libertad. Si puede asumirse que la variable Y se
distribuye normalmente en torno a la recta de regresin poblacional (ver Figura 10.12), en-
tonces los residuos studentizados pueden utilizarse para decidir si un determinado caso se
aleja significativamente de su valor pronosticado. Para ello, basta con comprobar si el valor
absoluto de es mayor que el cuantil 100 (1 ! /2) de la distribucin t con n ! p ! 1 grados
de libertad. Con muestras grandes, sigue siendo vlido (y generalmente ms til) el criterio
de revisar aquellos casos con residuos studentizados mayores que 3 (en valor absoluto). Un
residuo que se aleja ms de tres desviaciones tpicas de su valor esperado est delatando un
caso mal pronosticado y, como tal, un caso que conviene revisar.
Un diagrama de dispersin con los pronsticos en el eje horizontal y los residuos en el
vertical suele ser bastante til para identificar posibles casos atpicos en Y.

Casos atpicos en X j
El grado en que un caso es inusual o atpico en el conjunto de variables independientes X j
suele cuantificarse mediante una medida llamada influencia (leverage). Esta medida se repre-
senta mediante h i (ver nota a pie de pgina nmero 29, en la pgina anterior) y refleja el gra-
do de alejamiento de cada caso respecto del centro de su distribucin, es decir, el grado de
alejamiento del conjunto de puntuaciones de un caso respecto de las puntuaciones medias de
todos los casos.
Los valores h i oscilan30 entre 1/n y 1, y su media vale ( p + 1) / n. Cuanto mayor es el valor
h i asociado a un caso, ms inusual o atpico es en X j .
Para interpretar la magnitud de hi se han propuesto diferentes reglas (ver Chatterjee y
Hadi, 1988; Stevens, 1984). Hoaglin y Welsch (1978) sugieren revisar los casos con valores
h i mayores que 2 ( p + 1) / n. Pero Belsley, Kuh y Welsch (1980) consideran que este criterio
arroja demasiados casos atpicos, particularmente si se trabaja con pocas variables indepen-
dientes y muestras grandes. Stevens (1992) sugiere revisar los casos con valores h i mayores
que 3( p + 1)/n. Y una regla que funciona razonablemente bien para identificar casos atpicos
en Xj es la siguiente: los valores hi menores que 0,2 son poco problemticos, los valores com-
prendidos entre 0,2 y 0,5 son arriesgados; los valores mayores que 0,5 deben revisarse.

Casos influyentes
Al calcular, por ejemplo, una media, todos los casos de la muestra tienen el mismo peso en
el resultado. En una ecuacin de regresin no ocurre lo mismo. Aunque todos los casos contri-
buyen a estimar los coeficientes de la ecuacin, no todos lo hacen en la misma medida. Los
casos influyentes son casos que afectan de forma importante a los resultados del anlisis.
Un caso influyente no debe confundirse con un caso atpico. Los casos atpicos son casos
que conviene revisar, pero no necesariamente son casos influyentes. Para que un caso pueda
ser etiquetado de influyente, adems de ser atpico, debe alterar de forma importante los resul-
tados del anlisis.
30
Algunos programas informticos, entre los que se encuentra el SPSS, no calculan los valores de influencia (valores de
la diagonal de la matriz H), sino los valores de influencia centrados (hi ! 1/ n), que oscilan entre 0 y (n ! 1) / n. Esta peque-
a variante no afecta a la interpretacin de los resultados, pero s a la media de hi , que vale p / n en lugar de ( p + 1) / n.
Captulo 10. Anlisis de regresin lineal 409

Los ejemplos de la Figura 10.14 muestran casos atpicos que no pueden ser considerados
influyentes. La lnea continua es a la recta de regresin basada en todos los casos; la lnea dis-
continua es a la recta de regresin basada en todos los casos menos el atpico (el caso alejado
de los dems). El diagrama de la izquierda incluye un caso atpico en Y (su residuo es muy
grande), pero no en X (toma un valor intermedio en X ); el diagrama de la derecha incluye un
caso atpico en X (toma un valor muy grande X ) pero no en Y (su residuo es muy pequeo).
A pesar de que ambos son casos atpicos, las pendientes de las rectas de regresin apenas se
alteran al eliminar estos casos del anlisis.

Figura 10.14. Diagramas de dispersin y rectas de regresin con casos atpicos no influyentes
Y Y

X X

Los ejemplos de la Figura 10.15 muestran casos que, adems de atpicos, son influyentes. El
diagrama de la izquierda incluye un caso atpico tanto en Y como en X (su residuo es grande
y su valor en X es claramente mayor que el del resto de los casos); el de la derecha incluye
un caso atpico en X pero no en Y (toma un valor grande en X pero su residuo es pequeo).
Ahora, a diferencia de lo que ocurra en los diagramas de la Figura 10.14, las pendientes de
las rectas de regresin cambian sensiblemente al eliminar estos casos del anlisis.

Figura 10.15. Diagramas de dispersin y rectas de regresin con casos atpicos e influyentes
Y Y

X X

Los diagramas de dispersin sirven para identificar con relativa facilidad la presencia de po-
sibles casos influyentes en regresin simple, pero son poco tiles en regresin mltiple. Al
aumentar el nmero de variables, la forma de valorar el grado de influencia de un caso consis-
410 Anlisis de datos (vol. II)

te en comparar lo que ocurre cuando se utilizan todos los casos con lo que ocurre al eliminar
ese caso del anlisis. Esta comparacin se centra, por lo general, en tres resultados del an-
lisis: (1) los coeficientes de regresin, (2) los pronsticos y (3) los residuos.
Para realizar estas comparaciones se estiman n + 1 ecuaciones de regresin: una basada
en todos los casos y las n restantes eliminando un caso cada vez. A los resultados basados en
todos los casos los hemos llamado , , , etc. A los resultados basados en todos los casos
menos uno los llamaremos , , , etc. Por ejemplo, mientras que es el pronstico
obtenido para el caso i con la ecuacin de regresin que incluye todos los casos, es el pro-
nstico obtenido para el caso i con la ecuacin de regresin que incluye todos los casos menos
el caso i.

Cambio en los coeficientes de regresin


El cambio en los coeficientes de regresin puede valorarse de forma individual o de forma co-
lectiva. La influencia de un caso sobre cada uno de los coeficientes de regresin puede valo-
rarse a partir de la diferencia entre los coeficientes de regresin tipificados (Belsley, Kuh
y Welsch, 1980):

DFBETAS j (i) = [10.47]

El subndice j indica que estas diferencias pueden calcularse con cualquier coeficiente de
regresin (incluida la interseccin); el subndice i indica que hay una de estas diferencias
para cada caso. Por tanto, a cada caso le corresponde un valor DFBETAS j (i) por cada coefi-
ciente de regresin presente en la ecuacin.
Para interpretar estas diferencias, lo habitual es tipificarlas dividindolas entre su error
tpico (ver Montgomery, Peck y Vining, 2001, pgs. 213-214). Los promotores de este esta-
dstico sugieren revisar los casos a los que les corresponde alguna DFBETAS j (i) tipificada
mayor que .
Cook (1977, 1979) ha propuesto el estadstico probablemente ms conocido y utilizado
para valorar la influencia de cada caso sobre los resultados de la regresin. Este estadstico
se conoce como distancia de Cook ( ) y se basa en la suma de los cambios que se produ-
cen en los coeficientes de regresin al ir eliminando cada caso del anlisis31. Por tanto, a
diferencia de lo que ocurre con el estadstico DFBETAS j (i) , que se centra en el cambio de
cada coeficiente, el estadstico refleja el cambio que experimentan todos los coeficien-
tes de forma simultnea o conjunta. Cook y Weisberg (1982) sealan que este estadstico se
aproxima a una distribucin F con p + 1 y n ! p ! 1 grados de libertad, y sugieren que un caso
debe ser considerado influyente (y por tanto, que debe ser revisado) cuando es mayor que
el cuantil Fp + 1, n ! p ! 1; 0,50 (cuantil 50). Esto equivale, en la mayora de los casos, a considerar
que un caso es influyente cuando > 1.

31
La distancia de Cook puede calcularse mediante:
= [10.48]
En esta forma concreta de definir se observa claramente que la distancia asociada a un caso concreto depende del ta-
mao de hi y del tamao de . Ambos valores tienen que ser altos para que tambin lo sea. Ahora bien, puesto que
hi es una medida del grado en que un caso es atpico en X j y es una medida del grado en que un caso es atpico en Y,
el estadstico est identificando un caso como influyente cuando es atpico simultneamente en X j y en Y.
Captulo 10. Anlisis de regresin lineal 411

Cambio en los pronsticos


Otra forma de valorar la influencia de un caso sobre los resultados de la regresin consiste
en calcular la diferencia entre los valores pronosticados (Belsley, Kuh y Welsch, 1980):

DFFITS (i) = [10.49]

A cada caso le corresponde un valor DFFITS(i). Para interpretar estas diferencias, se tipifican
dividindolas entre su error tpico (ver Montgomery, Peck y Vining, 2001, pg. 214). Debe
prestarse especial atencin a los casos a los que les corresponde una DFFITS(i) tipificada ma-
yor que .

Cambio en los residuos


Finalmente, la influencia de un caso sobre los resultados de la regresin puede valorarse a
partir de la diferencia entre su residuo y el residuo obtenido al eliminar el caso de la ecuacin.
Al residuo correspondiente a un caso que no forma parte de la ecuacin se le llama residuo
eliminado:
= [10.50]

Hemos visto que la mejor manera de valorar el tamao de un residuo consiste en studentizar-
lo, es decir, en dividirlo por su error tpico individual32 en lugar de hacerlo por el error tpico
promedio de todos los residuos. Con los residuos eliminados se hace lo mismo. A la versin
tipificada de un residuo eliminado se le llama residuo eliminado studentizado. Si un caso
es influyente, estos residuos tomarn valores alejados de cero. Puesto que la distribucin de
estos residuos se aproxima a una t con n ! p ! 2 grados de libertad, lo razonable es revisar
los casos cuyo residuo eliminado studentizado (en valor absoluto) sea mayor que 3.

Qu hacer con los casos atpicos e influyentes


Los casos atpicos son casos anmalos en algn sentido; son casos que no se parecen al resto.
Y es importante revisarlos porque pueden estar alterando los resultados del anlisis.
En ocasiones, los casos atpicos sern el resultado de errores de registro o codificacin
y el problema quedar resuelto simplemente introduciendo el cdigo correcto o eliminando
el caso del anlisis si no existe posibilidad de corregirlo. Pero otras veces se tratar de casos
reales, plausibles, que no se parecen al resto por diferentes circunstancias susceptibles de ser
identificadas.
Como regla general, un caso atpico no puede ser excluido del anlisis simplemente por-
que no gusta. Antes de eliminarlo es necesario valorar cmo afecta a los resultados del an-
lisis (si los altera o no) y comprobar si obedece a algn tipo de debilidad de la ecuacin (no
incluye alguna variable relevante, no pronostica bien cierto rango de valores de la variable
dependiente, etc.).

32
La varianza de un residuo se obtiene a partir de la ecuacin [10.45]. La varianza de un residuo eliminado se obtiene de
forma algo distinta: = .
412 Anlisis de datos (vol. II)

Puede ocurrir que un caso atpico se corresponda con una respuesta deseable o incluso
ideal (una recuperacin espectacular, un rendimiento excelente, etc.). En estos casos, conocer
los valores que toma un caso atpico en las variables independientes puede aportar informa-
cin muy valiosa para futuros estudios.
No existe un acuerdo generalizado sobre la conveniencia o no de eliminar los casos atpi-
cos. No existe, por tanto, una nica regla en la que basar esta decisin. Pero es innegable que,
para tomarla, puede ayudar el hecho de saber que, cuando se decide eliminar un caso del an-
lisis, hay que informar de las razones que han llevado a hacer tal cosa.
Los casos atpicos podran ser eliminados del anlisis con la excusa de que estn entor-
peciendo o inflando el ajuste. Pero, sin otro tipo de justificacin, estaramos pasando por alto
el hecho de que el aspecto ms relevante de los relacionados con los casos atpicos consiste
precisamente en identificar las causas por las que son atpicos.
Tambin podran eliminarse los casos muy atpicos con el argumento de que el objetivo
del anlisis es construir una ecuacin para entender lo que ocurre con los casos tpicos, no con
los atpicos. Este argumento es ms convincente si los casos atpicos representan a una sub-
poblacin especial que se sale del rango de variacin tpico o esperable en la poblacin es-
tudiada. Sin embargo, si existe un conjunto de casos atpicos que parece formar un subgrupo
separado del resto, lo razonable es incorporarlos a la ecuacin de regresin creando una varia-
ble dicotmica (con unos y ceros para diferenciar ambos subgrupos) o desarrollar diferentes
ecuaciones de regresin para los diferentes subgrupos (como se hace con los modelos multi-
nivel que estudiaremos en el volumen 3).
Una solucin intermedia entre retener y eliminar los casos atpicos consiste en utilizar
mtodos de estimacin robustos, es decir, mtodos cuyas estimaciones se ven menos alteradas
que las mnimo-cuadrticas por la presencia de casos atpicos o influyentes (ver por ejemplo,
Huynh, 1982; Neter, Kutner, Nachtscheim y Wasserman, 1996; Rousseeuw & Leroy, 1987).
Y cualquiera que sea la decisin que finalmente se decida adoptar con un caso atpico o
influyente, no debe olvidarse que el hecho de que un caso sea considerado atpico o influyente
siempre se hace tomando como referencia una ecuacin de regresin concreta. Si la ecuacin
cambia porque se incorporan nuevas variables o porque se elimina alguna de las incluidas,
los casos etiquetados como atpicos o influyentes pueden dejar de serlo y otros que antes no
lo eran pueden pasar a serlo.

Regresin lineal con SPSS


Regresin mltiple

Este apartado muestra cmo utilizar el SPSS para llevar a cabo un anlisis de regresin lineal
con los datos de la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresin
hamilton reducido, en la pgina web del manual).
Para cubrir los diferentes objetivos del anlisis vamos a realizar siete tareas: (1) obtener
la recta de regresin en puntuaciones directas y en puntuaciones tpicas; (2) valorar el ajuste
de la recta mediante el coeficiente de determinacin; (3) contrastar si los coeficientes de
regresin son distintos de cero y calcular sus intervalos de confianza; (4) obtener los pro-
nsticos que se derivan de la ecuacin de regresin; (5) valorar la importancia relativa de
Captulo 10. Anlisis de regresin lineal 413

cada variable independiente; (6) chequear los supuestos del anlisis; y (7) averiguar si exis-
ten casos atpicos e influyentes. Para llevar acabo estas siete tareas,
' Seleccionar la opcin Regresin > Lineal del men Analizar para acceder al cuadro de di-
logo Regresin lineal.
' Trasladar la variable recuperacin al cuadro Dependiente y las variables basal, edad y tto
a la lista Independientes.
Con estas selecciones ya se obtiene la ecuacin de regresin, el coeficiente de determinacin
y la significacin de los coeficientes, es decir, la informacin necesaria para cubrir los tres
primeros objetivos del anlisis. Para terminar de completar estos tres objetivos nicamente
faltan los intervalos de confianza de los coeficientes de regresin. Para obtenerlos,
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Regresin lineal: Esta-
dsticos y marcar la opcin Intervalos de confianza del recuadro Coeficientes de regresin.

Bondad de ajuste
Los resultados del anlisis comienzan con la Tabla 10.2, la cual incluye informacin relativa
al ajuste global de la ecuacin de regresin: el coeficiente de correlacin mltiple (R = 0,89;
ver ecuacin [10.25]), el coeficiente de determinacin (R cuadrado = 0,79; ver ecuaciones
[10.26] y [10.27]), el coeficiente de determinacin corregido (R cuadrado corregida = 0,75;
ver ecuacin [10.28]) y la raz cuadrada de la media cuadrtica error (error tpico de la esti-
macin = 2,08; raz cuadrada de la ecuacin [10.31]).
Recordemos que cuanto mayor es el coeficiente de determinacin, mejor es el ajuste. Un
valor corregido de 0,75 indica, en primer lugar, que la ecuacin de regresin permite reducir
los errores de prediccin en un 75 % y, en segundo lugar, que las variables basal, edad y tto
comparten el 75 % de la varianza de la variable recuperacin. Por tanto, conocer las puntua-
ciones basales de los pacientes, su edad y el tratamiento que han recibido permite entender
(anticipar, explicar, etc.) el 79% de la variabilidad de su recuperacin.

Tabla 10.2. Resumen del modelo (bondad de ajuste)


Modelo: 1
R R cuadrado R cuadrado corregida Error tp. de la estimacin
,89 ,79 ,75 2,08

A continuacin de la informacin sobre el ajuste global aparece el estadstico F (Tabla 10.3).


Este estadstico (ver ecuacin [10.30]) permite contrastar la hiptesis nula de que el coeficien-
te de correlacin mltiple vale cero en la poblacin (ver ecuacin [10.29]). El rechazo de esta
hiptesis indica que las variables independientes incluidas en la ecuacin correlacionan sig-
nificativamente con la variable dependiente. El no rechazo indica que no existe evidencia de
relacin lineal y, consecuentemente, que las variables independientes incluidas en la ecuacin
no ayudan a entender o explicar el comportamiento de la variable dependiente. En nuestro
ejemplo, puesto que el estadstico F = 20,26 tiene asociado un nivel crtico menor que 0,05
(sig. < 0,0005), podemos rechazar la hiptesis nula y concluir que existe relacin lineal sig-
nificativa.
414 Anlisis de datos (vol. II)

La media cuadrtica de la regresin y la media cuadrtica residual corresponden al nu-


merador y al denominador del estadstico F ( ver ecuacin [10.30]).

Tabla 10.3. ANOVA (estadstico F )


Modelo: 1
Suma de cuadrados gl Media cuadrtica F Sig.
Regresin 261,99 3 87,33 20,26 ,000
Residual 68,96 16 4,31
Total 330,95 19

Ecuacin de regresin
La mitad izquierda de la Tabla 10.4 recoge la informacin relativa a la ecuacin de regresin
(ver ecuacin [10.23]). La columna etiquetada coeficientes no tipificados contiene las esti-
maciones de los coeficientes de regresin parcial Bj que definen la ecuacin de regresin en
puntuaciones directas (ver ecuacin [10.23]):

Pronstico (recuperacin) = !8,88 + 0,40 (basal ) ! 0,01 (edad ) + 4,93 (tto)

Los coeficientes beta (coeficientes tipificados) son los coeficientes que definen la ecuacin
de regresin en puntuaciones tpicas, es decir, los coeficientes de regresin que se obtienen
cuando la ecuacin de regresin se estima despus de transformar las puntuaciones originales
en puntuaciones Z (ver ecuacin [10.24]). Estos coeficientes tipificados tambin pueden ob-
tenerse multiplicando el correspondiente coeficiente de regresin no tipificado por .
El valor de estos coeficientes indica que la variable tratamiento es la que ms peso tiene en
los pronsticos (0,61), seguida de basal (0,47).

Tabla 10.4. Coeficientes de regresin


Modelo: 1
Coeficientes no Coeficientes Intervalo de confianza para
tipificados tipificados B al 95%
B Error tp. Beta t Sig. Lm. inferior Lm. superior
(Constante) -8,88 7,54 -1,18 ,257 -24,87 7,12
Basal ,40 ,11 ,47 3,82 ,001 ,18 ,63
Edad -,01 ,11 -,01 -,07 ,947 -,23 ,22
Tratamiento 4,93 1,56 ,61 3,16 ,006 1,62 8,23

Significacin de los coeficientes de regresin


La mitad derecha de la Tabla 10.4 contiene las pruebas de significacin individuales para ca-
da coeficiente de regresin. Cada estadstico t (ver ecuacin [10.33]) permite contrastar la hi-
ptesis nula de que el j-simo coeficiente de regresin vale cero en la poblacin (ver ecuacin
[10.32]). Estos estadsticos se obtienen dividiendo cada coeficiente no tipificado entre su error
tpico (ver ecuacin [10.33]). En nuestro ejemplo, las variables basal y tratamiento tienen
asociados coeficientes de regresin distintos de cero (sig. = 0,001 y sig. = 0,006, respecti-
Captulo 10. Anlisis de regresin lineal 415

vamente); ambas variables contribuyen significativamente al ajuste. La variable edad tiene


asociado un coeficiente de regresin no significativo (sig. = 0,947); por tanto, puede ser ex-
cluida de la ecuacin sin prdida de ajuste.

Pronsticos
Hasta aqu, la informacin que ofrece el procedimiento por defecto. Para cubrir el resto de los
objetivos del anlisis es necesario solicitar informacin de forma explcita. Para obtener los
pronsticos que ofrece la ecuacin de regresin,
' Pulsar el botn Guardar para acceder al subcuadro de dilogo Regresin lineal: Guardar
nuevas variables y marcar la opcin No tipificados del recuadro Valores pronosticados y las
opciones Media e Individuos del recuadro Intervalos de pronstico.
Estas selecciones crean en el archivo de datos cinco variables. La opcin No tipificados crea
una variable con los pronsticos: PRE_#. La opcin Media crea dos variables con los lmites
inferior y superior del intervalo de confianza correspondiente a los pronsticos promedio:
LMCI_# y UMCI_#. La opcin Individuos crea dos variables con los lmites inferior y supe-
rior del intervalo de confianza correspondiente a los pronsticos individuales: LICI_# y
UICI_# (para una aclaracin del significado de estos intervalos de confianza, ver el apartado
Cmo efectuar pronsticos; pg. 384). El smbolo # va cambiando (1, 2, 3...) si el procedi-
miento se ejecuta varias veces durante la misma sesin.

Importancia relativa de las variables


Recordemos que la importancia relativa de las variables dentro de una ecuacin de regresin
puede valorarse atendiendo a dos criterios diferentes: su peso en los pronsticos y su contri-
bucin neta al ajuste global. Del peso de cada variable en los pronsticos informan los coefi-
cientes de regresin tipificados (ver Tabla 10.4). La contribucin de cada variable al ajuste
global viene dada por los coeficientes de correlacin semiparcial elevados al cuadrado. Para
obtener estos coeficientes de correlacin,
' En el cuadro de dilogo principal, pulsar el botn Estadsticos para acceder al subcuadro
de dilogo Regresin lineal: Estadsticos y marcar la opcin Correlaciones parciales y semi-
parciales.

Al marcar esta opcin, la tabla de coeficientes (ver Tabla 10.4) incluye informacin adicional
(ver Tabla 10.5) referida a tres coeficientes de correlacin entre cada variable independiente
y la dependiente: el simple o de orden cero, el parcial y el semiparcial. Las correlaciones se-
miparciales informan del grado de relacin existente entre cada variable independiente y la
dependiente tras eliminar de la variable independiente el efecto atribuible al resto de variables
independientes incluidas en la ecuacin. En nuestro ejemplo, la correlacin simple entre la
edad y la recuperacin vale !0,58; sin embargo, la correlacin semiparcial vale !0,01. Esto
significa que, al eliminar de la edad el efecto atribuible a las variables basal y tratamiento,
la relacin entre la edad y la recuperacin se desvanece.
Elevando al cuadrado los coeficientes de correlacin semiparcial se obtiene la contri-
bucin neta de cada variable al ajuste global: la variable basal contribuye con un 19 % (pues
416 Anlisis de datos (vol. II)

0,442 = 0,19); la variable edad no contribuye al ajuste global (pues !0,012 = 0,0001); y la va-
riable tratamiento contribuye con un 13 % (pues 0,362 = 0,13).
Estos resultados indican que, aunque la variable tratamiento es la que ms peso tiene en
los pronsticos, la variable basal es la que ms contribuye al ajuste global. Sin embargo, es-
ta incongruencia entre ambos criterios de importancia es solo aparente. La presencia en la
ecuacin de una variable irrelevante (la edad ) est distorsionando ligeramente los resulta-
dos del anlisis. Al excluir la variable edad (ver Tabla 10.6), ocurre que tanto el coeficiente
de regresin tipificado ms alto (0,62) como el coeficiente de correlacin semiparcial ms
alto (0,58) corresponden a la variable tratamiento.

Tabla 10.5. Coeficientes de regresin y coeficientes de correlacin parcial y semiparcial (basal, edad, tto)
Modelo: 1
Coeficientes no Coeficientes
tipificados tipificados Correlaciones
B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -8,88 7,54 -1,18 ,257
Basal ,40 ,11 ,47 3,82 ,001 ,68 ,69 ,44
Edad -,01 ,11 -,01 -,07 ,947 -,58 -,02 -,01
Tratamiento 4,93 1,56 ,61 3,16 ,006 ,77 ,62 ,36

Tabla 10.6. Coeficientes de regresin y coeficientes de correlacin parcial y semiparcial (basal, tto)
Modelo: 1
Coeficientes no Coeficientes
tipificados tipificados Correlaciones
B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -9,35 2,87 -3,26 ,005
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58

Chequeo de los supuestos


Antes de interpretar una ecuacin de regresin es necesario comprobar que se dan las condi-
ciones para poder hacerlo. Esto exige realizar una serie de diagnsticos relativos al cumpli-
miento de los supuestos y a la posible presencia de casos atpicos e influyentes.
Por supuesto, lo primero que conviene hacer (en esto, el anlisis de regresin no es dis-
tinto de otros tipos de anlisis) es calcular unos descriptivos bsicos sobre las variables que
se tiene intencin de incluir en el anlisis (media, desviacin tpica, valores mnimo y m-
ximo, etc.). Esto puede hacerse marcando la opcin Descriptivos del subcuadro de dilogo
Regresin lineal: Estadsticos. Esta opcin permite obtener la media y la desviacin tpica
de cada variable y la matriz de correlaciones entre cada par de variables, incluida la depen-
diente. Si se desea realizar una exploracin descriptiva ms completa puede utilizarse cual-
quiera de los procedimientos para anlisis descriptivo disponibles en el SPSS (ver Captulos
3 y 4 del primer volumen).
Despus de esta primera revisin descriptiva, lo razonable es chequear los cinco supues-
tos del anlisis: linealidad, no colinealidad, independencia, normalidad y homocedasticidad.
En primer lugar hay que asegurarse de que las variables incluidas en la ecuacin de regre-
Captulo 10. Anlisis de regresin lineal 417

sin estn linealmente relacionadas con la dependiente. Para esto utilizamos diagramas de
dispersin parcial. Para obtener estos diagramas,
' En el cuadro de dilogo principal, pulsar el botn Grficos para acceder al subcuadro de
dilogo Regresin lineal: Grficos y marcar la opcin Generar todos los grficos parciales.
Esta opcin permite obtener un grfico de dispersin parcial por cada variable independiente.
Los diagramas correspondientes a las variables basal y edad ya los hemos presentado en la
Figura 10.10. All tuvimos ocasin de comprobar que la relacin parcializada entre basal y
recuperacin contiene un componente lineal que no se observa en la relacin parcializada en-
tre edad y recuperacin. La informacin que ofrecen estos grficos parciales es exactamen-
te la misma que la que ofrecen los coeficientes de correlacin parcial (ver Tabla 10.5). Y la
significacin estadstica de estos coeficientes de correlacin parcial es idntica a la de los
correspondientes coeficientes de regresin B j . En nuestro ejemplo, la relacin parcializada
entre la edad y la recuperacin no es significativa ( sig. = 0,947). Y esto indica que, una vez
eliminado el efecto atribuible a basal y tratamiento, no existe evidencia de relacin lineal
entre edad y recuperacin (ver nota a pie de pgina nmero 19).
Para chequear el supuesto de no colinealidad hay que valorar el grado de relacin lineal
existente entre las variables independientes. En nuestro ejemplo no se observa ninguno de los
indicios que podran delatar la presencia de elevada colinealidad: no hay incongruencia en-
tre la significa cin del estadstico F y la de los coeficientes de regresin (el estadstico F es
significativo y tambin lo son algunos de los coeficientes de regresin); no existen coefi-
cientes de regresin con signo distinto del esperado (todos los coeficientes de regresin tienen
el mismo signo que las correlaciones de orden cero); y no existen coeficientes de regresin
tipificados mayores que uno en valor absoluto. Adems de estos sencillos indicios, conviene
revisar algunos estadsticos relacionados con este supuesto de no colinealidad; en concreto,
los niveles de tolerancia y los factores de inflacin de la varianza. Para ello,
' En el cuadro de dilogo principal, pulsar el botn Estadsticos para acceder al subcuadro
de dilogo Regresin lineal: Estadsticos y marcar la opcin Diagnsticos de colinealidad.
Con esta opcin, la tabla de coeficientes (ver Tabla 10.4) incluye informacin adicional (ver
Tabla 10.7); en concreto, los niveles de tolerancia y los factores de inflacin de la varianza
(FIV ). Recordemos que los posibles problemas asociados a un exceso de colinealidad solo
empiezan a aparecer con tolerancias pequeas (menores que 0,10) y valores FIV grandes
(mayores que 10). No parece que en nuestro ejemplo haya problemas de colinealidad33.

33
Al solicitar los diagnsticos de colinealidad tambin se obtiene una tabla con autovalores, ndices de condicin y propor-
ciones de varianza. Una explicacin detallada de estos estadsticos excede el alcance de este manual, pero es posible enten-
derlos e interpretarlos con una breve explicacin. En primer lugar se lleva a cabo un anlisis de componentes principales
para identificar las variables independientes que correlacionan entre s (se trata de una tcnica de reduccin de datos en la
que el primer componente es la combinacin entre variables que explica la mayor cantidad de la variabilidad total; el segun-
do componente es la combinacin entre variables que, adems de ser independiente de la anterior, explica la mayor cantidad
de la variabilidad restante; etc.). Los autovalores indican la cantidad de varianza que explica cada componente; si uno o
ms autovalores valen cero, entonces una o ms variables estn perfectamente relacionadas entre s (colinealidad perfecta).
Los ndices de condicin son las races cuadradas de los cocientes entre el autovalor ms grande y el autovalor de cada com-
ponente; por lo general, un ndice mayor que 15 suele estar delatando un problema de colinealidad; y un ndice mayor que
30 suele ir asociado a graves problemas de colinealidad. Las proporciones de varianza indican qu proporcin de la va-
rianza de cada coeficiente de regresin est asociada a cada componente; existen problemas de colinealidad cuando un mis-
mo componente explica ms del 50 % de la varianza de al menos dos coeficientes de regresin (excluida la interseccin).
418 Anlisis de datos (vol. II)

Tabla 10.7. Coeficientes de regresin (con estadsticos de colinealidad)


Modelo: 1
Coeficientes no Coeficientes Estadsticos de
estandarizados estandarizados colinealidad
B Error tp. Beta t Sig. Tolerancia FIV
(Constante) -8,88 7,54 -1,18 ,257
Basal ,40 ,11 ,47 3,82 ,001 ,87 1,15
Edad -,01 ,11 -,01 -,07 ,947 ,39 2,59
Tratamiento 4,93 1,56 ,61 3,16 ,006 ,36 2,82

El supuesto de independencia solamente hay que chequearlo cuando la recogida se hace de


forma secuencial. Para valorar el cumplimiento de este supuesto tenemos dos herramientas:
el estadstico de Durbin-Watson y un grfico de dispersin con los casos en el eje vertical (en
el orden en el que se han recogido) y los residuos en el vertical. Marcando la opcin Durbin-
Watson (est disponible en el subcuadro de dilogo Regresin lineal: Estadsticos) se obtiene
el valor del estadstico de Durbin-Watson como parte de la tabla resumen del modelo (ver Ta-
bla 10.2). En nuestro ejemplo, este estadstico toma un valor de 2,34; puesto que este valor se
encuentra dentro del rango 2 0,5, no hay razn para cuestionar el supuesto de independencia.
Para obtener un diagrama de dispersin con los casos en el eje horizontal y los residuos
en el vertical hay que generar primero los residuos. Para ello,
' En el cuadro de dilogo principal, pulsar el botn Guardar para acceder al subcuadro de
dilogo Regresin lineal: Guardar y marcar la opcin No tipificados del recuadro Residuos.
Esta opcin crea una nueva variable en el archivo de datos con los residuos que se derivan
de la ecuacin de regresin. Una vez que se dispone de los residuos ya es posible utilizar el
men Grficos de la barra de mens principal para obtener el correspondiente diagrama de
dispersin. Con cualquiera de las opciones disponibles en SPSS para obtener diagramas de
dispersin se obtiene un diagrama como el que muestra la Figura 10.16. Hemos unido con
lneas los puntos para resaltar la idea de que no se observa una pauta discernible en el tama-
o de los residuos (ver Figura 10.11)

Figura 10.16. Diagrama de dispersin de los residuos dispuestos secuencialmente

Para valorar el supuesto de normalidad vamos a obtener un histograma y un diagrama de dis-


persin normal, ambos basados en los residuos. Para ello,
Captulo 10. Anlisis de regresin lineal 419

' En el cuadro de dilogo principal, pulsar el botn Grficos para acceder al subcuadro de
dilogo Regresin lineal: Grficos y marcar las opciones Histograma y Grfico de probabi-
lidad normal del recuadro Grficos de los residuos tipificados.

En el histograma de los residuos hay que vigilar, sobre todo, si existen residuos que se alejan
excesivamente por una de las dos colas de la distribucin. Se tratara de casos mal pronos-
ticados (probablemente atpicos en Y ), que estaran causando un alejamiento serio de la nor-
malidad. El histograma de nuestro ejemplo (ver Figura 10.17, grfico de la izquierda) indica
que faltan casos por la cola izquierda de la distribucin; pero no se observan residuos muy
alejados del centro por ninguna de las dos colas.
En un grfico de probabilidad normal (Figura 10.17, grfico de la derecha) se comparan
las probabilidades observadas con las probabilidades tericas de una distribucin normal. En
el eje horizontal estn representadas las probabilidades acumuladas hasta cada residuo, orde-
nados stos desde el ms pequeo al ms grande; en el eje vertical estn representadas las pro-
babilidades normales acumuladas hasta la puntuacin tpica correspondiente a cada residuo.
Cuando una distribucin emprica se aproxima a una distribucin terica normal, los puntos
del diagrama se encuentran alineados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad. En el diagrama de nuestro
ejemplo se observa cierto alejamiento de la normalidad en la parte inferior de la distribucin.
Tambin es posible contrastar la hiptesis de normalidad con alguno de los estadsticos
propuestos en el apartado Contrastes sobre bondad de ajuste del Captulo 2 (sin olvidar que
estos estadsticos son demasiado sensibles a pequeas desviaciones de la normalidad, parti-
cularmente con muestras grandes).

Figura 10.17. Histograma de los residuos y diagrama de dispersin normal

Por ltimo, el supuesto de homocedasticidad puede valorarse representando en un diagra-


ma de dispersin los pronsticos y los residuos. Para obtener este diagrama, primero habra
que generar los pronsticos y los residuos. No obstante, el diagrama no se altera si en lugar
de los pronsticos y los residuos en bruto se utilizan los pronsticos y los residuos tipifica-
dos. Y para esto no es necesario crear variables nuevas. El procedimiento Regresin lineal
permite solicitar diagramas de dispersin con algunas de las variables que el sistema genera
automticamente al realizar un anlisis de regresin. Entre estas variables se encuentran los
pronsticos tipificados y los residuos tipificados:
420 Anlisis de datos (vol. II)

' En el cuadro de dilogo principal, pulsar el botn Grficos para acceder al subcuadro de
dilogo Regresin lineal: Grficos y trasladar la variable *ZPRED al eje X y la variable
*ZRESID al eje Y (el asterisco colocado delante del nombre de la variable indica que se
trata de variables del sistema; no son variables del archivo de datos).
La Figura 10.18 muestra una nube de puntos homogneamente dispersa (aproximadamente)
a lo largo del eje horizontal. Quiz es menor la dispersin asociada a los pronsticos tipifi-
cados prximos a cero, pero no se observa un incumplimiento serio del supuesto de homoce-
dasticidad.

Figura 10.18. Diagrama de dispersin: pronsticos por residuos

Casos atpicos e influyentes


Para diagnosticar la posible presencia de casos atpicos e influyentes vamos a solicitar los seis
estadsticos propuestos en el apartado Casos atpicos e influyentes (pg. 406): los residuos
studentizados para valorar si existen casos atpicos en Y ; los valores de influencia (en SPSS,
hi ! 1/ n , es decir, valores de influencia centrados) para identificar posibles casos atpicos en
X j ; y los residuos eliminados studentizados, las distancias de Cook, las DFBETAS j (i) y las
DFFITS (i) para valorar si existen casos influyentes. Para obtener estos seis estadsticos,
' En el cuadro de dilogo principal, pulsar el botn Guardar para acceder al subcuadro de
dilogo Regresin lineal: Guardar; marcar las opciones Studentizados y Eliminados stu-
dentizados del recuadro Residuos; marcar las opciones Influencia y Cook del recuadro
Distancias34; marcar las opciones DfBetas tipificadas y DfAjuste tipificada del recuadro Es-
tadsticos de influencia35.
Las opciones Influencia, Cook, DfAjuste tipificada, Studentizados y Eliminados studentizados ge-
neran, cada una de ellas, una nueva variable en el archivo de datos. La opcin DfBetas tipifi-

34
La distancia de Mahalanobis (1936) disponible en este recuadro se obtiene multiplicando por n ! 1 la medida de influen-
cia h i. La informacin que ofrece, por tanto, es idntica a la que ofrece h i (ver Stevens, 1984).
35
La razn entre covarianzas (RV) que incluye este recuadro es tambin un estadstico de influencia. Se obtiene dividien-
do los determinantes de las matrices de varianzas-covarianzas (base del anlisis de regresin) cuando el caso est presente
en la ecuacin y cuando se elimina. Este cociente vale aproximadamente 1 cuando un caso no es influyente. Con muestras
grandes, se considera que un caso es influyente si le corresponde un valor RV mayor que 1 + 3 p / n o menor que 1 ! 3 p / n.
Captulo 10. Anlisis de regresin lineal 421

cadas genera una variable por cada coeficiente de regresin (incluida la interseccin). No es
necesario revisar estas variables caso a caso; esto puede hacerse utilizando cualquiera de los
procedimientos SPSS disponibles para explorar variables.
Adems, el SPSS ofrece, como parte de los resultados del anlisis de regresin, una tabla
resumen con informacin sobre algunas de estas variables. La Tabla 10.8 muestra estos resul-
tados. Los residuos studentizados toman valores comprendidos entre !1,16 y 2,14; puesto
que no hay residuos mayores que 3 en valor absoluto, no parece que haya casos atpicos en
Y. El valor de influencia ms alto (aparece en la tabla como valor de influencia centrado)
vale 0,32; por tanto, tampoco parece que haya casos atpicos en X j (recordemos que los
valores menores que 0,50 no suelen ser problemticos). La distancia de Cook ms alta vale
0,68; por tanto, no parece que haya que preocuparse por la presencia de puntos influyentes
(recordemos que los valores menores que 1 no son problemticos). Y los residuos eliminados
studentizados oscilan entre !1,17 y 2,46; tampoco estos residuos detectan casos influyentes
(adems, eliminando la variable edad de la ecuacin, puede comprobarse que el residuo stu-
dentizado ms grande vale 1,92, el valor de influencia ms alto 0,23, la distancia de Cook
ms alta 0,26 y el residuo eliminado studentizado ms grande 2,10).
La tabla no incluye las diferencias entre los coeficientes de regresin (DFBETAS j (i) ) ni
las diferencias entre los pronsticos (DFFITS (i) ). Para revisar estos estadsticos hay que
recurrir a las variables creadas en el archivo de datos (lo cual solamente ser necesario si el
valor absoluto de algn residuo eliminado studentizado es mayor que tres o alguna distancia
de Cook mayor que uno).

Tabla 10.8. Resumen descriptivo de algunas variables creadas por el procedimiento Regresin lineal
Mnimo Mximo Media Desviacin tp. N
Valor pronosticado 4,12 16,00 9,95 3,71 20
Valor pronosticado tipificado -1,57 1,63 ,00 1,00 20
Error tpico del valor pronosticado ,67 1,27 ,91 ,17 20
Valor pronosticado corregido 2,38 16,00 9,87 3,85 20
Residuo bruto -2,12 3,57 ,00 1,91 20
Residuo tipificado -1,02 1,72 ,00 ,92 20
Residuo studentizado -1,16 2,14 ,02 1,05 20
Residuo eliminado -2,73 5,62 ,08 2,51 20
Residuo eliminado studentizado -1,17 2,46 ,05 1,11 20
Distancia de Mahalanobis 1,03 6,13 2,85 1,42 20
Distancia de Cook ,00 ,68 ,09 ,15 20
Valor de influencia centrado ,05 ,32 ,15 ,07 20

Regresin jerrquica o por pasos

Este apartado muestra cmo construir una ecuacin de regresin por pasos con los datos de
la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresin hamilton reducido).
nicamente prestaremos atencin a los aspectos caractersticos de esta forma de proce-
der: cmo se van seleccionando las variables y cmo va aumentando el coeficiente de deter-
minacin en cada paso. Para todo lo dems (ecuacin de regresin, bondad de ajuste, signi-
ficacin de los coeficientes, obtencin de pronsticos, importancia relativa de las variables,
422 Anlisis de datos (vol. II)

chequeo de los supuestos y deteccin de casos atpicos e influyentes) vale lo ya dicho en el


apartado anterior. Para construir una ecuacin de regresin por pasos,
' Seleccionar la opcin Regresin > Lineal del men Analizar para acceder al cuadro de di-
logo Regresin lineal.
' Trasladar la variable recuperacin al cuadro Dependiente y las variables basal, edad y
tto a la lista Independientes y seleccionar la opcin Hacia delante del men desplegable
Mtodo.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Regresin lineal: Esta-
dsticos y marcar las opciones Cambio en R cuadrado y Correlaciones parcial y semiparcial.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 10.9 a 10.12.
Los resultados de la primera tabla (Tabla 10.9) indican que el procedimiento ha realizado el
ajuste en dos pasos (modelo 1 y modelo 2). En el primer paso se ha elegido la variable tra-
tamiento (se indica en una nota a pie de tabla); en este paso siempre se elige la variable inde-
pendiente que ms correlaciona con la dependiente); en el segundo paso se ha incorporado
a la ecuacin la variable basal (tambin se indica en una nota a pie de tabla). La tabla infor-
ma del coeficiente de determinacin en cada paso (R cuadrado y R cuadrado corregida). Y,
como novedad respecto de la tabla resumen ya estudiada (ver Tabla 10.2), incluye varios
estadsticos agrupados bajo la denominacin de estadsticos de cambio. El cambio en R
cuadrado indica cmo va aumentando el coeficiente de determinacin entre un paso y el
siguiente (ver ecuacin [10.38]). El valor de R cuadrado en el primer paso indica el cambio
que se ha producido respecto de cero, que es el valor de R cuadrado cuando no hay variables
en la ecuacin). Este cambio en R cuadrado no es otra cosa que el cuadrado del coeficiente
de correlacin semiparcial (ver ecuacin [10.34] y Tabla 10.11).
El estadstico F del cambio (ver ecuacin [10.39]) y su significacin estadstica asocia-
da (sig. de la F del cambio) permite contrastar la hiptesis de que el correspondiente cambio
en el coeficiente de determinacin es nulo. Puesto que al ajustar un modelo por pasos ni-
camente se incorporan al modelo variables que contribuyen significativamente al ajuste, estos
estadsticos siempre sern significativos (sig. < 0,05).

Tabla 10.9. Resumen de los modelos

Estadsticos de cambio
R R cuadrado Error tp. de la Cambio en F del Sig. de la F
Modelo R cuadrado corregida estimacin R cuadrado cambio gl1 gl2 del cambio
a
1 ,77 ,60 ,58 2,71 ,60 26,96 1 18 ,000
2 ,89b ,79 ,77 2,01 ,19 15,66 1 17 ,001
a. Variables predictoras: (Constante), Tratamiento.
b. Variables predictoras: (Constante), Tratamiento, Basal.

Los estadsticos F de la Tabla 10.10 permiten contrastar, en cada paso, la hiptesis nula de
que el coeficiente de determinacin vale cero en la poblacin. Estas hiptesis se refieren a
la ecuacin completa en cada paso; lo cual no debe confundirse con las hiptesis contrasta-
das con los estadsticos F de la Tabla 10.9, los cuales se refieren al cambio o aumento que
experimenta R cuadrado al ir incorporando nuevas variables a la ecuacin (Algina y Ke-
selman, 1999, proponen otra forma de comparar coeficientes de determinacin).
Captulo 10. Anlisis de regresin lineal 423

La Tabla 10.11 informa, en cada paso, de la ecuacin de regresin y de la significacin


individual de cada coeficiente de regresin (ver Tablas 10.5 y 10.6).
Por ltimo, la Tabla 10.12 muestra las variables excluidas de la ecuacin en cada paso,
junto con la informacin en la que se basa la eleccin de variables. En el primer paso, tras
elegir la variable tratamiento, quedan fuera de la ecuacin las variables basal y edad.
La tabla ofrece el coeficiente de regresin tipificado que correspondera a cada una de
estas variables en el caso de ser elegidas en el siguiente paso (beta dentro) y un contraste de
la hiptesis nula de que ese coeficiente vale cero en la poblacin. La variable que se elige en
el segundo paso es la que tiene asociado el coeficiente de correlacin parcial ms alto, siem-
pre que ste sea significativamente distinto de cero. En el ejemplo, esta variable es basal,
cuyo coeficiente de correlacin parcial (0,69) es mayor que el de edad (0,06) y tiene asociado
un nivel crtico menor que 0,05 (sig. = 0,001). Elegida la variable basal, la nica variable que
queda fuera de la ecuacin en el segundo paso es edad, la cual no es incorporada a la ecua-
cin porque tiene asociado un coeficiente de correlacin parcial (!0,02) que no es signifi-
cativamente distinto de cero ( p = 0,947). El anlisis se detiene en el paso 2 porque no quedan
variables que contribuyan a mejorar el ajuste.

Tabla 10.10. ANOVA (estadstico F )


Modelo Suma de cuadrados gl Media cuadrtica F Sig.
a
1 Regresin 198,45 1 198,45 26,96 ,000
Residual 132,50 18 7,36
Total 330,95 19
b
2 Regresin 261,98 2 130,99 32,28 ,000
Residual 68,97 17 4,06
Total 330,95 19
a. Variables predictoras: (Constante), Tratamiento.
b. Variables predictoras: (Constante), Tratamiento, Hamilton (momento basal).

Tabla 10.11. Coeficientes de regresin (con los coeficientes de correlacin parcial y semiparcial)
Coeficientes no Coef.
estandarizados estand. Correlaciones
Modelo B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
1 (Constante) ,50 1,92 ,26 ,797
Tratamiento 6,30 1,21 ,77 5,19 ,000 ,77 ,77 ,77
2 (Constante) -9,35 2,87 -3,26 ,005
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44

Tabla 10.12. Variables excluidas de la ecuacin en cada paso


Estad. de colinealidad
Modelo Beta dentro t Sig. Corr. parcial Tolerancia
a
1 Basal ,47 3,96 ,001 ,69 ,88
Edad ,07a ,27 ,793 ,06 ,39
2 Edad -,01b -,07 ,947 -,02 ,39
a. Variables predictoras en el modelo: (Constante), Tratamiento.
b. Variables predictoras en el modelo: (Constante), Tratamiento, Basal.
424 Anlisis de datos (vol. II)

Regresin jerrquica o por pasos con variables categricas


Ya sabemos (ver la Tabla 10.1 y el apartado Variables independientes categricas) que las
variables categricas pueden incluirse en una ecuacin de regresin si previamente son co-
dificadas como J ! 1 variables dicotmicas (siendo J el nmero de categoras). No obstante,
al aplicar un mtodo de seleccin de variables por pasos a este tipo de variables hay que to-
mar la precaucin de que las J ! 1 variables dicotmicas que definen la variable categrica
en cuestin sean elegidas o excluidas simultneamente, como si fueran, que lo son, una nica
variable. Para hacer esto,
' En el cuadro de dilogo principal, trasladar la variable recuperacin al cuadro Depen-
diente y las variables tratamiento y basal a la lista Independientes.
' Pulsar el botn Siguiente del recuadro Bloque 1 de 1 y trasladar las variables centro_A y
centro_B a la lista Independientes.
Aceptando estas selecciones se obtienen los resultados que muestra la Tabla 10.13. En el
primer paso se han incluido las variables tratamiento y basal. En el segundo paso se han in-
cluido las variables centro_A y centro_B (es decir, las dos variables dicotmicas que definen
la variable centro). Los coeficientes asociados a estas dos variables dicotmicas se interpretan
tal como se ha explicado en el apartado Variables independientes categricas).
Por supuesto, esta estrategia de inclusin de bloques de variables (en lugar de variables
individuales) puede utilizarse con cualquier tipo de variables.

Tabla 10.13. Coeficientes de regresin


Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Error tp. Beta t Sig.
1 (Constante) -9,35 2,87 -3,26 ,005
Tratamiento 5,01 ,96 ,62 5,23 ,000
Basal ,40 ,10 ,47 3,96 ,001
2 (Constante) -6,04 2,73 -2,21 ,043
Tratamiento 4,92 ,83 ,60 5,93 ,000
Basal ,27 ,10 ,32 2,75 ,015
Centro A 2,52 1,07 ,28 2,35 ,033
Centro B -,46 ,94 -,05 -,48 ,635

Comentarios finales
Validacin de una ecuacin de regresin
Recordemos que los coeficientes de una ecuacin de regresin lineal se estiman aplicando el
criterio de mnimos cuadrados, el cual consiste en minimizar los residuos (errores de predic-
cin). Puesto que los residuos no son ms que las diferencias entre los pronsticos y los va-
lores observados, esta forma de estimar los coeficientes de la ecuacin de regresin hace que
el ajuste que se obtiene con la muestra concreta utilizada sea mejor que el que se obtiene con
Captulo 10. Anlisis de regresin lineal 425

cualquier otra muestra. De ah la importancia de que los errores tpicos de las estimaciones
sean pequeos. Cuanto ms pequeos son, mayor parecido cabe esperar encontrar entre las
estimaciones que se obtienen y las que podran obtenerse en una muestra distinta.
Este argumento sugiere que una ecuacin de regresin puede validarse utilizando casos
nuevos. Para ello, basta con obtener los pronsticos para esos casos nuevos y, a continuacin,
calcular el coeficiente de correlacin entre los valores observados en la variable dependiente
y los valores pronosticados para esos casos nuevos. En teora, el coeficiente de correlacin
as obtenido debera ser igual al coeficiente de correlacin mltiple del anlisis de regresin.
En la prctica, si la ecuacin es lo bastante buena, se observarn pequeas diferencias entre
ambos coeficientes atribuibles nicamente al azar muestral. Por supuesto, los nuevos casos
deben representar a las mismas poblaciones que los casos originalmente utilizados para es-
timar la ecuacin de regresin.
Si no se tiene acceso a nuevos casos o resulta difcil obtenerlos, todava es posible validar
una ecuacin de regresin si la muestra es lo bastante grande. Basta con utilizar la mitad de
los casos de la muestra (aleatoriamente seleccionados) para obtener la ecuacin de regresin
y la otra mitad de la muestra para efectuar los pronsticos. Una buena ecuacin debera lle-
var a obtener una correlacin similar entre los valores observados y los pronosticados de
ambas mitades.

Consideraciones sobre el tamao muestral


Al llevar a cabo un anlisis de regresin es inevitable preguntarse por el tamao que debe
tener la muestra. Pero la respuesta a esa pregunta no es nada simple.
Harrell (2001) cita varios trabajos en los que se sugiere utilizar entre 10 y 20 casos por
cada variable independiente. Sin embargo, este tipo de reglas no tienen mucho sentido cuan-
do se trabaja con unas pocas variables independientes (probablemente ningn investigador
confiara seriamente en inferencias basadas en una variable independiente y 10 casos).
Harris (2001; ver tambin Green, 1991) ha propuesto una regla basada, no en el nmero
de casos por variable, sino en la cantidad que el nmero de casos debe superar al de variables;
propone utilizar 50 casos ms que el nmero de variables independientes (n = 50 + p).
Cohen, Cohen, West y Aiken (2003, pgs. 90-95) plantean el problema del tamao muestral
desde el punto de vista de la potencia estadstica. Por ejemplo, para detectar, con 3 variables
independientes, que una correlacin mltiple de 0,45 (coeficiente de determinacin de 0,20)
es significativamente distinta de cero, con una potencia de 0,80 y un nivel de significacin
de 0,05, hacen falta 48 casos; y 115 casos para declarar distinta de cero una correlacin ml-
tiple de 0,30 (coeficiente de determinacin de 0,09). Con 6 variables independientes, para
detectar que una correlacin mltiple de 0,45 es distinta de cero, con una potencia de 0,80
y un nivel de significacin de 0,05, hacen falta 61 casos; y 145 casos apara declarar distinta
de cero una correlacin mltiple de 0,30. Por tanto, para poder declarar significativas corre-
laciones del tamao habitual en el mbito de las ciencias sociales y de la salud, hace falta
trabajar con muestras relativamente grandes.
Adems, con muestras pequeas se corre el riesgo de obtener ecuaciones que no fun-
cionen bien al aplicarlas a otras muestras. Podra decirse que, en este contexto, funciona la
regla de ms es mejor. Pero sin olvidar que, con muestras muy grandes, se corre el riesgo de
declarar estadsticamente significativos efectos tericamente irrelevantes.
426 Anlisis de datos (vol. II)

Apndice 10
Regresin curvilnea
El anlisis de regresin lineal nicamente es una forma particular de regresin. Y, aunque es, quiz,
la forma de regresin ms utilizada, existen funciones no lineales que pueden resultar tiles para
abordar determinados problemas. Se sabe, por ejemplo, que al intentar resolver una tarea compleja, los
sujetos excesivamente ansiosos y los muy relajados rinden peor que los sujetos que mantienen niveles
de ansiedad intermedios; es decir, se sabe que la relacin existente entre la ansiedad y el rendimiento
no es lineal, sino cuadrtica. Por tanto, si se desea pronosticar el rendimiento a partir del nivel de an-
siedad, una ecuacin cuadrtica ofrecer mejores pronsticos que una ecuacin lineal.
La nube de puntos de la Figura 10.19 representa la relacin entre las variables ansiedad (medi-
da en una escala de 0 a 7) y rendimiento (medida en una escala de 0 a 100). Los datos corresponden
a una muestra de 25 sujetos (estos datos se encuentran en el archivo Tabla 10.14 ansiedad rendimien-
to, en la pgina web del manual). La forma de la nube de puntos revela que el tipo de relacin subya-
cente no es de tipo lineal. De hecho, la variable ansiedad no correlaciona linealmente con la variable
rendimiento (RXY = 0,21; sig. = 0,306).

Figura 10.19. Diagrama de dispersin: ansiedad por rendimiento

El SPSS ofrece la posibilidad de construir ecuaciones no lineales. El procedimiento Estimacin curvilnea


incluye varias de estas ecuaciones para dos variables: lineal, cuadrtica, cbica, logartmica, logstica,
exponencial, etc. Para obtener cualquiera de estas ecuaciones,
' Seleccionar la opcin Regresin > Estimacin curvilnea del men Analizar para acceder al cuadro de
dilogo Estimacin curvilnea.
Las opciones del recuadro Independiente permiten elegir, como variable independiente, una variable
del archivo de datos (opcin Variable) o una variable secuencial con valores uniformemente espacia-
dos (opcin Tiempo). La opcin Representar los modelos permite obtener un diagrama de dispersin
representando la relacin entre la variable independiente (eje horizontal) y la dependiente (eje vertical).
El procedimiento genera un diagrama de dispersin distinto para cada variable dependiente seleccio-
nada, pero las curvas correspondientes a cada ecuacin solicitada aparecen en el mismo diagrama.
La opcin Mostrar tabla de ANOVA permite obtener un estadstico F para contrastar la hiptesis nula
de que la correlacin entre los valores observados y los pronosticados por la correspondiente ecuacin
vale cero en la poblacin. Y el botn Guardar conduce a un subcuadro de dilogo con opciones para
solicitar la creacin de nuevas variables con los pronsticos y los residuos correspondientes a cada
ecuacin seleccionada.
Captulo 10. Anlisis de regresin lineal 427

Para ajustar cualquiera de las ecuaciones de regresin del procedimiento Estimacin curvilnea con
las variables ansiedad y rendimiento (archivo Tabla 10.14 ansiedad rendimiento),
' En el cuadro de dilogo Estimacin curvilnea, trasladar la variable rendimiento a la lista Depen-
dientes y la variable ansiedad al cuadro Independiente (Variable).
' Marcar las opciones Lineal, Logartmico y Cuadrtico del recuadro Modelos.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 10.14 y la
Figura 10.20. La Tabla 10.14 contiene los resultados del anlisis: la ecuacin estimada, el cuadrado del
coeficiente de correlacin (coeficiente de determinacin) entre los valores de la variable dependiente
y los valores pronosticados por cada ecuacin (R cuadrado), el estadstico F con sus grados de libertad,
la significacin del estadstico F y las estimaciones correspondientes a los parmetros de cada ecuacin
(b0, b1, etc.).
Las tres ecuaciones solicitadas ofrecen diferente grado de ajuste a los datos. Con la ecuacin lineal
se obtiene un coeficiente de determinacin de 0,05. Al contrastar con el estadstico F la hiptesis de
que este coeficiente vale cero en la poblacin, se obtiene un nivel crtico mayor que 0,05 (sig = 0,306),
por lo que no puede rechazarse la hiptesis de relacin lineal nula. Puede concluirse, por tanto, que no
existe evidencia de relacin lineal (la ecuacin lineal no permite obtener un buen ajuste a los datos).
Con la ecuacin logartmica se obtiene mejor ajuste que con la lineal. De hecho, el estadstico F
tiene asociado un nivel crtico (sig. = 0,030) que permite rechazar la hiptesis de relacin nula. No
obstante, el coeficiente de determinacin toma un valor ms bien discreto (0,19).
Por ltimo, con la ecuacin cuadrtica no se obtiene un estadstico F cuyo nivel crtico lleva al
rechazo de la hiptesis nula de independencia (sig. < 0,0005) y el coeficiente de determinacin toma
un valor de 0,57. Por tanto, puede concluirse que, en la relacin entre ansiedad y rendimiento, existe
un componente cuadrtico significativo: la ansiedad explica (comparte) el 57,3 % de la variabilidad del
rendimiento.

Tabla 10.14. Resumen del modelo y estimaciones de los parmetros


Variable dependiente: Rendimiento
Resumen del modelo Estimaciones de los parmetros
Ecuacin R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal ,05 1,10 1 23 ,306 4,97 ,01
Logartmica ,19 5,35 1 23 ,030 4,14 ,32
Cuadrtica ,57 14,74 2 22 ,000 3,80 ,09 ,00

Cuanto mayor es el nmero de trminos que incluye una ecuacin, mayor es tambin el valor del coefi-
ciente de determinacin R 2. Por tanto, en una situacin dada, el valor de R 2 ser menor en una ecuacin
lineal que en una ecuacin cuadrtica, y menor en sta que en una ecuacin cbica. Sin embargo, esto
no significa que una ecuacin con ms trminos sea mejor. La ecuacin ideal es aquella que es capaz
de explicar la mayor cantidad de varianza con el menor nmero de trminos; y para encontrar esa ecua-
cin suele resultar muy til valorar la significacin de cada trmino por separado.
En el ejemplo, de las tres ecuaciones seleccionadas, dos de ellas ofrecen un ajuste significativo
a los datos: la logartmica y la cuadrtica. Aunque la logartmica tiene menos trminos y ofrece un ajus-
te significativo (podra ser preferida por su simplicidad), ocurre que el ajuste de la ecuacin cuadrti-
ca (el coeficiente de determinacin) es mucho mejor que el de la logartmica (0,57 frente a 0,19).
La nube de puntos tambin suele ayudar a elegir la mejor ecuacin. La Figura 10.20 muestra el dia-
grama de dispersin de las variables ansiedad y rendimiento con las curvas (pronsticos) correspon-
dientes a las tres ecuaciones solicitadas (ver Figura 10.20). En el diagrama se aprecia con claridad que
los pronsticos de la ecuacin cuadrtica hacen un seguimiento de la nube de puntos sensiblemente
mejor que el que hacen los pronsticos de las ecuaciones lineal y logartmica.
428 Anlisis de datos (vol. II)
Figura 10.20. Diagrama de dispersin: ansiedad por rendimiento (con curvas lineal, logartmica y cuadrtica)

Marcando la opcin Mostrar tabla de ANOVA y seleccionando nicamente la ecuacin Cuadrtica se obtie-
ne informacin adicional que incluye, entre otras cosas, pruebas de significacin para cada uno de los
coeficientes estimados.
La Tabla 10.15 contiene un resumen del anlisis idntico al que se obtiene con el anlisis de regre-
sin lineal (ver Tabla 10.2). La Tabla 10.16 ofrece el estadstico F para el contraste de la hiptesis nula
de que la relacin estudiada (en este caso, la cuadrtica) vale cero en la poblacin; puesto que el nivel
crtico es muy pequeo (sig. < 0,0005), se puede rechazar la hiptesis nula y concluir que en la relacin
entre ansiedad y rendimiento existe un componente cuadrtico significativo. Por ltimo, la Tabla 10.17
contiene las estimaciones de los coeficientes de la ecuacin cuadrtica junto con su error tpico, su va-
lor tipificado y un estadstico T que permite contrastar la hiptesis nula de que el correspondiente
coeficiente vale cero en la poblacin. Los resultados indican que tanto el trmino constante como los
dos trminos asociados a la variable ansiedad (ansiedad y ansiedad**2), son significativamente dis-
tintos de cero (en todos ellos, sig. < 0,0005).
Para una explicacin ms detallada de todos estos estadsticos pueden revisarse los comentarios
ya hechos a propsito de las Tablas 10.2, 10.3 y 10.4.

Tabla 10.15. Resumen del modelo cuadrtico


R R cuadrado R cuadrado corregida Error tpico de la estimacin
,76 ,57 ,53 ,59

Tabla 10.16. Resumen del ANOVA


Suma de cuadrados gl Media cuadrtica F Sig.
Regresin 10,26 2 5,13 14,74 ,000
Residual 7,66 22 ,35
Total 17,92 24

Tabla 10.17. Coeficientes del modelo cuadrtico


Coeficientes no Coeficientes
estandarizados estandarizados
B Error tpico Beta t Sig.
Ansiedad ,09 ,02 3,22 5,42 ,000
Ansiedad ** 2 ,00 ,00 -3,09 -5,21 ,000
(Constante) 3,80 ,32 11,94 ,000
Captulo 10. Anlisis de regresin lineal 429

Ejercicios Soluciones en www.sintesis.com

10.1 La siguiente tabla muestra el resultado obtenido con una muestra de 10 estudiantes de enseanza se-
cundaria al medir dos variables: X = promedio de horas de estudio semanales e Y = rendimiento
acadmico (cuantificado como la suma de las calificaciones obtenidas en 7 asignaturas):

Sujetos 1 2 3 4 5 6 7 8 9 10
Xi 5 5 6 6 6 7 7 11 11 16
Yi 25 30 30 35 45 40 45 55 60 65

Reproducir los datos en el SPSS.


a. Calcular la ecuacin de regresin de Y sobre X en puntuaciones directas y en puntuaciones tpicas.
b. Interpretar los coeficientes de regresin B1 y B1(Z) .
c. Puede afirmarse que X e Y estn linealmente relacionadas? ( = 0,05).
d. Qu valor de la tabla de coeficientes de regresin coincide con el coeficiente de correlacin RXY
de Pearson?
e. Qu puede decirse sobre la calidad del ajuste de la ecuacin de regresin?
f. Qu pronstico ofrece la ecuacin de regresin para el sujeto n 6?
g. Cules son los lmites de los intervalos de confianza para los pronsticos individual y promedio
del sujeto n 6? Interpretar ambos intervalos de confianza.
h. Por qu los intervalos de confianza del apartado anterior tienen distinta amplitud?
i. Existe algn caso que pueda ser calificado de influyente? En caso afirmativo, cul y por qu?
j. Qu ocurre con el ajuste de la ecuacin de regresin al excluir del anlisis el caso influyente?

10.2. Abrir el archivo SPSS GSS93 reducido (se encuentra en la carpeta de ejemplos que se instala con el
programa). Estamos interesados en pronosticar el ndice socioeconmico del encuestado (indsocec) a
partir de la edad del encuestado (edad ) y de los aos de escolarizacin (educ).
a. Calcular la ecuacin de regresin de Y sobre X en puntuaciones directas.
b. Interpretar los coeficientes de regresin B1 y B2 .
c. Puede afirmarse que la edad y los aos de escolarizacin estn relacionados con el ndice socio-
econmico? ( = 0,05).
d. Cul de las dos variables independientes tiene mayor peso (importancia relativa) en la ecuacin
de regresin? Por qu?
e. Qu puede decirse acerca de la calidad del ajuste de la ecuacin de regresin?
f. Es razonable asumir que los residuos se distribuyen normalmente? Por qu?
g. Es razonable asumir que las varianzas de los residuos son homogneas? Por qu?
h. Existen problemas de colinealidad? Por qu?
i. Hay algn caso que pueda calificarse de influyente? Por qu?

10.3. Abrir el archivo SPSS Coches (se encuentra en la carpeta de ejemplos que se instala con el programa).
Queremos construir un modelo de regresin por pasos (pasos sucesivos) que permita pronosticar el
consumo de los vehculos a partir de su cilindrada (motor), su potencia (cv), su peso (peso) y su acele-
racin (acel).
a. Cuntos pasos ha dado el procedimiento?
b. Qu variables incluye el modelo final?
430 Anlisis de datos (vol. II)

c. En ese modelo final, qu variable tiene ms peso (importancia relativa) desde el punto de vista de
su contribucin a los pronsticos?
d. Qu variable tiene ms peso (importancia relativa) desde el punto de vista de su contribucin al
ajuste de la ecuacin de regresin?
e. Qu porcentaje de varianza explica la ecuacin final?
f. Qu caso(s) tiene(n) residuo(s) atpicamente alto(s)?
g. Existe algn indicio que haga sospechar de la posible presencia de colinealidad?
h. Hay algn caso que pueda calificarse de influyente? Por qu?

10.4. Se ha llevado a cabo un anlisis de regresin lineal utilizando la edad como variable independiente y
el grado de conservadurismo como dependiente. En una muestra aleatoria de 11 personas se han en-
contrado los siguientes resultados:

FV SC gl MC F p
Regresin ( ) ( ) ( ) ( ) 0,003
Error ( ) ( ) 4
Total 100 ( )

a. Completar la tabla rellenando las casillas donde aparecen parntesis.


b. Qu hiptesis nula se est contrastando con el estadstico F ?
c. Qu decisin debe tomarse sobre ella con = 0,05? Qu puede concluirse?
d. Calcular la proporcin de varianza comn o explicada.
e. Cunto vale el coeficiente de correlacin de Pearson?
f. Cunto vale el error tpico de la estimacin?

10.5. Tratando de contrastar la hiptesis de que la intensidad luminosa (X ) est relacionada de forma directa
(positiva) con el rendimiento en una prueba de discriminacin (Y ), se ha utilizado el correspondiente
coeficiente de regresin parcial. Al valorar la significacin de ese coeficiente en una muestra aleatoria
de 15 individuos se ha obtenido un valor T = 1,562. Sabiendo que P (T $ < 1,562) = 0,93 y utilizando un
nivel de confianza de 0,99,
a. Qu hiptesis nula se est contrastando?
b. Puede rechazarse esa hiptesis? Por cul de los siguientes motivos?:
( ) P (T $
> 1,562) < 0,01; ( ) P (T $
> 1,562) > 0,01; ( ) P (T $ $ 1,562) > 0,01.
< 1,562) < 0,01; ( ) P (T <
c. Puede afirmarse que las variables estn linealmente relacionadas?

10.6. Al utilizar el estadstico F para analizar la relacin lineal entre dos variables se han obtenido los resul-
tados que muestra la siguiente tabla:

FV SC gl MC F
Regresin 90 ( ) ( ) ( )
Error ( ) ( ) ( )
Total 330 9

Sabiendo que t8; 0,975 = 2,3060,


a. Completar la tabla rellenando las casillas donde aparecen parntesis.
b. Qu decisin debe tomarse sobre la hiptesis H0 : 1 = 0? Por qu? ( = 0,05).
c. Qu proporcin de la varianza de Y est explicada por X ?
d. Cuntos sujetos han intervenido en el anlisis?
Captulo 10. Anlisis de regresin lineal 431

10.7. A continuacin se ofrecen dos tablas. La primera contiene las puntuaciones diferenciales o de desvia-
cin de 5 sujetos en las variables X e Y. La segunda es la tabla resumen del ANOVA correspondiente
al anlisis de regresin lineal simple. Sabiendo que la ecuacin de regresin es: = 0,9 , completar
ambas tablas.

Sujetos 1 2 3 4 5 FV SC gl MC F
x 2 !2 0 1 ( ) Regresin ( ) ( ) ( ) ( )
y 2 !1 0 1 ( ) No regresin ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) Total ( ) ( )

10.8. Antes de llevar a cabo un anlisis de regresin lineal de Y sobre X1, X2 y X3 se ha calculado la matriz
de correlaciones entre las variables, con el siguiente resultado:

X1 X2 X3
Correlacin de Pearson 0,850 !0,879 !0,041
Y Sig. (bilateral) 0,000 0,000 0,899
n 12 12 12
Correlacin de Pearson !0,961 0,184
X1 Sig. (bilateral) 0,000 0,548
n 12 12
X2 Correlacin de Pearson !0,70
Sig. (bilateral) 0,830
n 12

a. Puede afirmarse que las variables X1 y X2 estn linealmente relacionadas?


( ) S, porque su coeficiente de correlacin tiene asociado un nivel crtico menor que 0,05.
( ) No, porque su coeficiente de correlacin es menor que cero.
( ) No, porque sig.(bilateral) es menor que 0,05.
b. Para realizar pronsticos en Y a partir de una de las otras tres variables, cul debera elegirse?
c. En un anlisis de regresin simple de Y sobre X3, a qu valor cabe esperar que se aproxime la
pendiente de la recta de regresin?
d. En un anlisis de regresin mltiple con las tres variables independientes, puede anticiparse que
la variable X2 tendr un peso significativo? Y la variable X1?
e. Cuntos grados de libertad tiene la variabilidad no debida a la regresin lineal?
f. Con qu variables correlaciona significativamente X3 ? Por qu?

10.9. A continuacin se ofrecen dos tablas con los resultados parciales de un anlisis de regresin lineal de
Y sobre X. Se ha utilizado una muestra aleatoria de 20 sujetos. La primera tabla contiene las puntua-
ciones de 2 sujetos en X y las puntuaciones pronosticadas en Y a esos mismos 2 sujetos. La segunda
tabla contiene la tabla resumen del ANOVA (incompleta).

Sujetos 1 2 FV SC gl MC F
X !1 0 Regresin ( ) ( ) 20 2
2 3 Error ( ) ( ) ( )
Total 200 ( )
432 Anlisis de datos (vol. II)
a. Completar la tabla rellenando las casillas donde aparecen parntesis.
b. Obtener la ecuacin de regresin de Y sobre X.

10.10. En un anlisis de regresin lineal de Y sobre X se ha obtenido = 2,56. Cul de las siguientes
afirmaciones es correcta sabiendo que P ( > 2,56) < 0,02?
a. Se mantiene H0 con = 0,05.
b. Se rechaza H0 porque 2,56 > 0,02.
c. Con = 0,05, puede afirmarse que X e Y no estn linealmente relacionadas.
d. Con = 0,05, puede afirmarse que X e Y estn linealmente relacionadas.
e. La pendiente de la recta de regresin vale cero en la poblacin.

10.11. Se puede llegar a la conclusin de que dos variables estn linealmente relacionadas mediante... (elegir
la/s alternativa/s correcta/s)
a. Un ANOVA, con F = 5,6 ( p < 0,05).
b. Un anlisis de regresin lineal, al mantener H0 : 1 = 0.
c. Un anlisis de regresin lineal, con = 4,2 tal que P (T $
< 4,2) > 0,999.
d. Unas comparaciones de tendencia con Flineal = 2,1 ( p > 0,05).
e. Ninguna de las alternativas anteriores es correcta.

10.12. En un anlisis de regresin lineal de Y sobre X... (elegir la/s alternativa/s correcta/s)
a. El coeficiente 0 representa el efecto de X.
b. El coeficiente 1 representa el efecto de Y.
c. El coeficiente 1 representa el efecto del factor B.
d. Si el coeficiente 1 vale cero, entonces la relacin entre X e Y es cuadrtica.
e. Ninguna de las alternativas anteriores es correcta.
Apndice final
Tablas estadsticas

A Distribuciones binomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434


B Distribucin normal tipificada: N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
C Distribuciones 2 ( ji-cuadrado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
D Distribuciones t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
E Potencias (1 ! ) para diferentes valores de y . . . . . . . . . . . . . . . . . . . . . . . . 444
F Distribuciones F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
G Distribuciones F no centradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
H Coeficientes de polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
I Transformacin Z de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
J Puntos crticos para el estadstico de Dunn-Bonferroni . . . . . . . . 451
K Puntos crticos para el estadstico de Dunnett . . . . . . . . . . . . . . . . 453
L Puntos crticos de las distribuciones del rango studentizado . . . . 455
M Puntos crticos para el estadstico S+ de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . 456
N Puntos crticos para el estadstico DKS de Kolmogorov-Smirnov . . . . . . . . . . . 457
O Puntos crticos para el estadstico U de Mann-Whitney . . . . . . . . . . . . . . . . . . 458
P Puntos crticos para el estadstico H de Kruskal-Wallis . . . . . . . . . . . . . . . . . . 460
Q Puntos crticos para el estadstico de Friedman . . . . . . . . . . . . . . . . . . . . . 461
R Puntos crticos para el coeficiente de correlacin RS de Spearman . . . . . . . . . . 462
434 Anlisis de datos (vol. II)

Tabla A
Distribuciones binomiales
Probabilidades acumuladas hasta n1 = nmero de xitos en cada distribucin B (n, 1),
con n = nmero de ensayos y 1 = probabilidad de xito

1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95

1 0 0,950 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,050
1 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

2 0 0,902 0,810 0,640 0,490 0,360 0,250 0,160 0,090 0,040 0,010 0,002
1 0,997 0,990 0,960 0,910 0,840 0,750 0,640 0,510 0,360 0,190 0,097
2 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

3 0 0,857 0,729 0,512 0,343 0,216 0,125 0,064 0,027 0,008 0,001 0,000
1 0,993 0,972 0,896 0,784 0,648 0,500 0,352 0,216 0,104 0,028 0,007
2 1,000 0,999 0,992 0,973 0,936 0,875 0,784 0,657 0,488 0,271 0,143
3 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

4 0 0,815 0,656 0,410 0,240 0,130 0,063 0,026 0,008 0,002 0,000 0,000
1 0,986 0,948 0,819 0,652 0,475 0,313 0,179 0,084 0,027 0,004 0,000
2 1,000 0,996 0,973 0,916 0,821 0,688 0,525 0,348 0,181 0,052 0,014
3 1,000 1,000 0,998 0,992 0,974 0,938 0,870 0,760 0,590 0,344 0,185
4 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

5 0 0,774 0,590 0,328 0,168 0,078 0,031 0,010 0,002 0,000 0,000 0,000
1 0,977 0,919 0,737 0,528 0,337 0,188 0,087 0,031 0,007 0,000 0,000
2 0,999 0,991 0,942 0,837 0,683 0,500 0,317 0,163 0,058 0,009 0,001
3 1,000 1,000 0,993 0,969 0,913 0,813 0,663 0,472 0,263 0,081 0,023
4 1,000 1,000 1,000 0,998 0,990 0,969 0,922 0,832 0,672 0,410 0,226
5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

6 0 0,735 0,531 0,262 0,118 0,047 0,016 0,004 0,001 0,000 0,000 0,000
1 0,967 0,886 0,655 0,420 0,233 0,109 0,041 0,011 0,002 0,000 0,000
2 0,998 0,984 0,901 0,744 0,544 0,344 0,179 0,070 0,017 0,001 0,000
3 1,000 0,999 0,983 0,930 0,821 0,656 0,456 0,256 0,099 0,016 0,002
4 1,000 1,000 0,998 0,989 0,959 0,891 0,767 0,580 0,345 0,114 0,033
5 1,000 1,000 1,000 0,999 0,996 0,984 0,953 0,882 0,738 0,469 0,265
6 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

7 0 0,698 0,478 0,210 0,082 0,028 0,008 0,002 0,000 0,000 0,000 0,000
1 0,956 0,850 0,577 0,329 0,159 0,063 0,019 0,004 0,000 0,000 0,000
2 0,996 0,974 0,852 0,647 0,420 0,227 0,096 0,029 0,005 0,000 0,000
3 1,000 0,997 0,967 0,874 0,710 0,500 0,290 0,126 0,033 0,003 0,000
4 1,000 1,000 0,995 0,971 0,904 0,773 0,580 0,353 0,148 0,026 0,004
5 1,000 1,000 1,000 0,996 0,981 0,938 0,841 0,671 0,423 0,150 0,044
6 1,000 1,000 1,000 1,000 0,998 0,992 0,972 0,918 0,790 0,522 0,302
7 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Apndice final. Tablas estadsticas 435

Tabla A (continuacin)

1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
8 0 0,663 0,430 0168 0,058 0,017 0,004 0,001 0,000 0,000 0,000 0,000
1 0,943 0,813 0,503 0,255 0,106 0,035 0,009 0,001 0,000 0,000 0,000
2 0,994 0,962 0,797 0,552 0,315 0,145 0,050 0,011 0,001 0,000 0,000
3 1,000 0,995 0,944 0,806 0,594 0,363 0,174 0,058 0,010 0,000 0,000
4 1,000 1,000 0,990 0,942 0,826 0,637 0,406 0,194 0,056 0,005 0,000
5 1,000 1,000 0,999 0,989 0,950 0,855 0,685 0,448 0,203 0,038 0,006
6 1,000 1,000 1,000 0,999 0,991 0,965 0,894 0,745 0,497 0,187 0,057
7 1,000 1,000 1,000 1,000 0,999 0,996 0,983 0,942 0,832 0,570 0,337
8 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

9 0 0,630 0,387 0134 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000
1 0,929 0,775 0,436 0,196 0,071 0,020 0,004 0,000 0,000 0,000 0,000
2 0,992 0,947 0,738 0,463 0,232 0,090 0,025 0,004 0,000 0,000 0,000
3 0,999 0,992 0,914 0,730 0,483 0,254 0,099 0,025 0,003 0,000 0,000
4 1,000 0,999 0,980 0,901 0,733 0,500 0,267 0,099 0,020 0,001 0,000
5 1,000 1,000 0,997 0,975 0,901 0,746 0,517 0,270 0,086 0,008 0,001
6 1,000 1,000 1,000 0,996 0,975 0,910 0,768 0,537 0,262 0,053 0,008
7 1,000 1,000 1,000 1,000 0,996 0,980 0,929 0,804 0,564 0,225 0,071
8 1,000 1,000 1,000 1,000 1,000 0,998 0,990 0,960 0,866 0,613 0,370
9 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

10 0 0,599 0,349 0,107 0,028 0,006 0,001 0,000 0,000 0,000 0,000 0,000
1 0,914 0,736 0,376 0,149 0,046 0,011 0,002 0,000 0,000 0,000 0,000
2 0,988 0,930 0,678 0,383 0,167 0,055 0,012 0,002 0,000 0,000 0,000
3 0,999 0,987 0,879 0,650 0,382 0,172 0,055 0,011 0,001 0,000 0,000
4 1,000 0,998 0,967 0,850 0,633 0,377 0,166 0,047 0,006 0,000 0,000
5 1,000 1,000 0,994 0,953 0,834 0,623 0,367 0,150 0,033 0,002 0,000
6 1,000 1,000 0,999 0,989 0,945 0,828 0,618 0,350 0,121 0,013 0,0001
7 1,000 1,000 1,000 0,998 0,988 0,945 0,833 0,617 0,322 0,070 0,012
8 1,000 1,000 1,000 1,000 0,998 0,989 0,954 0,851 0,624 0,264 0,086
9 1,000 1,000 1,000 1,000 1,000 0,999 0,994 0,972 0,893 0,651 0,401
10 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

11 0 0,569 0,314 0,086 0,020 0,004 0,000 0,000 0,000 0,000 0,000 0,000
1 0,898 0,697 0,322 0,113 0,030 0,006 0,001 0,000 0,000 0,000 0,000
2 0,985 0,910 0,617 0,313 0,119 0,033 0,006 0,001 0,000 0,000 0,000
3 0,998 0,981 0,839 0,570 0,296 0,113 0,029 0,004 0,000 0,000 0,000
4 1,000 0,997 0,950 0,790 0,533 0,274 0,099 0,022 0,002 0,000 0,000
5 1,000 1,000 0,988 0,922 0,753 0,500 0,247 0,078 0,012 0,000 0,000
6 1,000 1,000 0,998 0,978 0,901 0,726 0,467 0,210 0,050 0,003 0,000
7 1,000 1,000 1,000 0,996 0,971 0,887 0,704 0,430 0,161 0,019 0,002
8 1,000 1,000 1,000 0,999 0,994 0,967 0,881 0,687 0,383 0,090 0,015
9 1,000 1,000 1,000 1,000 0,999 0,994 0,970 0,887 0,678 0,303 0,102
10 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,980 0,914 0,686 0,431
11 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
436 Anlisis de datos (vol. II)

Tabla A (continuacin)

1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95

12 0 0,540 0,282 0,069 0,014 0,002 0,000 0,000 0,000 0,000 0,000 0,000
1 0,882 0,659 0,275 0,085 0,020 0,003 0,000 0,000 0,000 0,000 0,000
2 0,980 0,889 0,558 0,253 0,083 0,019 0,003 0,000 0,000 0,000 0,000
3 0,998 0,974 0,795 0,493 0,225 0,073 0,015 0,002 0,000 0,000 0,000
4 1,000 0,996 0,927 0,724 0,438 0,194 0,057 0,009 0,001 0,000 0,000
5 1,000 0,999 0,981 0,882 0,665 0,387 0,158 0,039 0,004 0,000 0,000
6 1,000 1,000 0,996 0,961 0,842 0,613 0,335 0,118 0,019 0,001 0,000
7 1,000 1,000 0,999 0,991 0,943 0,806 0,562 0,276 0,073 0,004 0,000
8 1,000 1,000 1,000 0,998 0,985 0,927 0,775 0,507 0,205 0,026 0,002
9 1,000 1,000 1,000 1,000 0,997 0,981 0,917 0,747 0,442 0,111 0,020
10 1,000 1,000 1,000 1,000 1,000 0,997 0,980 0,915 0,725 0,341 0,118
11 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,986 0,931 0,718 0,460
12 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

13 0 0,513 0,254 0,055 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,865 0,621 0,234 0,064 0,013 0,002 0,000 0,000 0,000 0,000 0,000
2 0,975 0,866 0,502 0,202 0,058 0,011 0,001 0,000 0,000 0,000 0,000
3 0,997 0,966 0,747 0,421 0,169 0,046 0,008 0,001 0,000 0,000 0,000
4 1,000 0,994 0,901 0,654 0,353 0,133 0,032 0,004 0,000 0,000 0,000
5 1,000 0,999 0,970 0,835 0,574 0,291 0,098 0,018 0,001 0,000 0,000
6 1,000 1,000 0,993 0,938 0,771 0,500 0,229 0,062 0,007 0,000 0,000
7 1,000 1,000 0,999 0,982 0,902 0,709 0,426 0,165 0,030 0,001 0,000
8 1,000 1,000 1,000 0,996 0,968 0,867 0,647 0,346 0,099 0,006 0,000
9 1,000 1,000 1,000 0,999 0,992 0,954 0,831 0,579 0,253 0,034 0,003
10 1,000 1,000 1,000 1,000 0,999 0,989 0,942 0,798 0,498 0,134 0,025
11 1,000 1,000 1,000 1,000 1,000 0,998 0,987 0,936 0,766 0,379 0,135
12 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,945 0,746 0,487
13 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

14 0 0,488 0,229 0,044 0,007 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,847 0,585 0,198 0,047 0,008 0,001 0,000 0,000 0,000 0,000 0,000
2 0,970 0,842 0,448 0,161 0,040 0,006 0,001 0,000 0,000 0,000 0,000
3 0,996 0,956 0,698 0,355 0,124 0,029 0,004 0,000 0,000 0,000 0,000
4 1,000 0,991 0,870 0,584 0,279 0,090 0,018 0,002 0,000 0,000 0,000
5 1,000 0,999 0,956 0,781 0,486 0,212 0,058 0,008 0,000 0,000 0,000
6 1,000 1,000 0,988 0,907 0,692 0,395 0,150 0,031 0,002 0,000 0,000
7 1,000 1,000 0,998 0,969 0,850 0,605 0,308 0,093 0,012 0,000 0,000
8 1,000 1,000 1,000 0,992 0,942 0,788 0,514 0,219 0,044 0,001 0,000
9 1,000 1,000 1,000 0,998 0,982 0,910 0,721 0,416 0,130 0,009 0,000
10 1,000 1,000 1,000 1,000 0,996 0,971 0,876 0,645 0,302 0,044 0,004
11 1,000 1,000 1,000 1,000 0,999 0,994 0,960 0,839 0,552 0,158 0,030
12 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,953 0,802 0,415 0,153
13 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,993 0,956 0,771 0,512
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Apndice final. Tablas estadsticas 437

Tabla A (continuacin)

1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95

15 0 0,463 0,206 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,829 0,549 0,167 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000
2 0,964 0,816 0,398 0,127 0,027 0,004 0,000 0,000 0,000 0,000 0,000
3 0,995 0,944 0,648 0,297 0,091 0,018 0,002 0,000 0,000 0,000 0,000
4 0,999 0,987 0,836 0,515 0,217 0,059 0,009 0,001 0,000 0,000 0,000
5 1,000 0,998 0,939 0,722 0,403 0,151 0,034 0,004 0,000 0,000 0,000
6 1,000 1,000 0,982 0,869 0,610 0,304 0,095 0,015 0,001 0,000 0,000
7 1,000 1,000 0,996 0,950 0,787 0,500 0,213 0,050 0,004 0,000 0,000
8 1,000 1,000 0,999 0,985 0,905 0,696 0,390 0,131 0,018 0,000 0,000
9 1,000 1,000 1,000 0,996 0,966 0,849 0,579 0,278 0,061 0,002 0,000
10 1,000 1,000 1,000 0,999 0,991 0,941 0,783 0,485 0,164 0,013 0,001
11 1,000 1,000 1,000 1,000 0,998 0,982 0,909 0,703 0,352 0,056 0,005
12 1,000 1,000 1,000 1,000 1,000 0,996 0,973 0,873 0,602 0,184 0,036
13 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,833 0,451 0,171
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,794 0,537
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

16 0 0,440 0,185 0,028 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,811 0,515 0,141 0,026 0,003 0,000 0,000 0,000 0,000 0,000 0,000
2 0,957 0,789 0,352 0,099 0,018 0,002 0,000 0,000 0,000 0,000 0,000
3 0,993 0,932 0,598 0,246 0,065 0,011 0,001 0,000 0,000 0,000 0,000
4 0,999 0,983 0,798 0,450 0,167 0,038 0,005 0,000 0,000 0,000 0,000
5 1,000 0,997 0,918 0,660 0,329 0,105 0,019 0,002 0,000 0,000 0,000
6 1,000 0,999 0,973 0,825 0,527 0,227 0,058 0,007 0,000 0,000 0,000
7 1,000 1,000 0,993 0,926 0,716 0,402 0,142 0,026 0,001 0,000 0,000
8 1,000 1,000 0,999 0,974 0,858 0,598 0,284 0,074 0,007 0,000 0,000
9 1,000 1,000 1,000 0,993 0,942 0,773 0,473 0,175 0,027 0,001 0,000
10 1,000 1,000 1,000 0,998 0,981 0,895 0,671 0,340 0,082 0,003 0,000
11 1,000 1,000 1,000 1,000 0,995 0,962 0,833 0,550 0,202 0,017 0,001
12 1,000 1,000 1,000 1,000 0,999 0,989 0,935 0,754 0,402 0,068 0,007
13 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,901 0,648 0,211 0,043
14 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,974 0,859 0,485 0,189
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,972 0,815 0,560
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

17 0 0,418 0,167 0,023 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,792 0,482 0,118 0,019 0,002 0,000 0,000 0,000 0,000 0,000 0,000
2 0,950 0,762 0,310 0,077 0,012 0,001 0,000 0,000 0,000 0,000 0,000
3 0,991 0,917 0,549 0,202 0,046 0,006 0,000 0,000 0,000 0,000 0,000
4 0,999 0,978 0,758 0,389 0,126 0,025 0,003 0,000 0,000 0,000 0,000
5 1,000 0,995 0,894 0,597 0,264 0,072 0,011 0,001 0,000 0,000 0,000
6 1,000 0,999 0,962 0,775 0,448 0,166 0,035 0,003 0,000 0,000 0,000
7 1,000 1,000 0,989 0,895 0,641 0,315 0,092 0,013 0,000 0,000 0,000
8 1,000 1,000 0,997 0,960 0,801 0,500 0,199 0,040 0,003 0,000 0,000
438 Anlisis de datos (vol. II)

Tabla A (continuacin)

1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95

9 1,000 1,000 1,000 0,987 0,908 0685 0359 0,105 0,011 0,000 0,000
10 1,000 1,000 1,000 0,997 0,965 0,834 0,552 0,225 0,038 0,001 0,000
11 1,000 1,000 1,000 0,999 0,989 0,928 0,736 0,403 0,106 0,005 0,000
12 1,000 1,000 1,000 1,000 0,997 0,975 0,874 0,611 0,242 0,022 0,001
13 1,000 1,000 1,000 1,000 1,000 0,994 0,954 0,798 0,451 0,083 0,009
14 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,923 0,690 0,238 0,050
15 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,981 0,882 0,518 0,208
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,833 0,582
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

18 0 0,397 0,150 0,018 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,774 0,450 0,099 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,942 0,734 0,271 0,060 0,008 0,001 0,000 0,000 0,000 0,000 0,000
3 0,989 0,902 0,501 0,165 0,033 0,004 0,000 0,000 0,000 0,000 0,000
4 0,998 0,972 0,716 0,333 0,094 0,015 0,001 0,000 0,000 0,000 0,000
5 1,000 0,994 0,867 0,534 0,209 0,048 0,006 0,000 0,000 0,000 0,000
6 1,000 0,999 0,949 0,722 0,374 0,119 0,020 0,001 0,000 0,000 0,000
7 1,000 1,000 0,984 0,859 0,563 0,240 0,058 0,006 0,000 0,000 0,000
8 1,000 1,000 0,996 0,940 0,737 0,407 0,135 0,021 0,001 0,000 0,000
9 1,000 1,000 0,999 0,979 0,865 0,593 0,263 0,060 0,004 0,000 0,000
10 1,000 1,000 1,000 0,994 0,942 0,760 0,437 0,141 0,016 0,000 0,000
11 1,000 1,000 1,000 0,999 0,980 0,881 0,626 0,278 0,051 0,001 0,000
12 1,000 1,000 1,000 1,000 0,994 0,952 0,791 0,466 0,133 0,006 0,000
13 1,000 1,000 1,000 1,000 0,999 0,985 0,906 0,667 0,284 0,028 0,002
14 1,000 1,000 1,000 1,000 1,000 0,996 0,967 0,835 0,499 0,098 0,011
15 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,940 0,729 0,266 0,058
16 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,901 0,550 0,226
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,850 0,603
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

19 0 0,377 0,135 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,755 0,420 0,083 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,933 0,705 0,237 0,046 0,005 0,000 0,000 0,000 0,000 0,000 0,000
3 0,987 0,885 0,455 0,133 0,023 0,002 0,000 0,000 0,000 0,000 0,000
4 0,998 0,965 0,673 0,282 0,070 0,010 0,001 0,000 0,000 0,000 0,000
5 1,000 0,991 0,837 0,474 0,163 0,032 0,003 0,000 0,000 0,000 0,000
6 1,000 0,998 0,932 0,666 0,308 0,084 0,012 0,001 0,000 0,000 0,000
7 1,000 1,000 0,977 0,818 0,488 0,180 0,035 0,003 0,000 0,000 0,000
8 1,000 1,000 0,993 0,916 0,667 0,324 0,088 0,011 0,000 0,000 0,000
9 1,000 1,000 0,998 0,967 0,814 0,500 0,186 0,033 0,002 0,000 0,000
10 1,000 1,000 1,000 0,989 0,912 0,676 0,333 0,084 0,007 0,000 0,000
11 1,000 1,000 1,000 0,997 0,965 0,820 0,512 0,182 0,023 0,000 0,000
12 1,000 1,000 1,000 0,999 0,988 0,916 0,692 0,334 0,068 0,002 0,000
13 1,000 1,000 1,000 1,000 0,997 0,968 0,837 0,526 0,163 0,009 0,000
Apndice final. Tablas estadsticas 439

Tabla A (continuacin)

1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95

14 1,000 1,000 1,000 1,000 0,999 0,990 0,930 0,718 0,327 0,035 0,002
15 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,867 0,545 0,115 0,013
16 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,954 0,763 0,295 0,067
17 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,917 0,580 0,245
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,865 0,623
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

20 0 0,358 0,122 0,012 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,736 0,392 0,069 0,008 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,925 0,677 0,206 0,035 0,004 0,000 0,000 0,000 0,000 0,000 0,000
3 0,984 0,867 0,411 0,107 0,016 0,001 0,000 0,000 0,000 0,000 0,000
4 0,997 0,957 0,630 0,238 0,051 0,006 0,000 0,000 0,000 0,000 0,000
5 1,000 0,989 0,804 0,416 0,126 0,021 0,002 0,000 0,000 0,000 0,000
6 1,000 0,998 0,913 0,608 0,250 0,058 0,006 0,000 0,000 0,000 0,000
7 1,000 1,000 0,968 0,772 0,416 0,132 0,021 0,001 0,000 0,000 0,000
8 1,000 1,000 0,990 0,887 0,596 0,252 0,057 0,005 0,000 0,000 0,000
9 1,000 1,000 0,997 0,952 0,755 0,412 0,128 0,017 0,001 0,000 0,000
10 1,000 1,000 0,999 0,983 0,872 0,588 0,245 0,048 0,003 0,000 0,000
11 1,000 1,000 1,000 0,995 0,943 0,748 0,404 0,113 0,010 0,000 0,000
12 1,000 1,000 1,000 0,999 0,979 0,868 0,584 0,228 0,032 0,000 0,000
13 1,000 1,000 1,000 1,000 0,994 0,942 0,750 0,392 0,087 0,002 0,000
14 1,000 1,000 1,000 1,000 0,998 0,979 0,874 0,584 0,196 0,011 0,000
15 1,000 1,000 1,000 1,000 1,000 0,994 0,949 0,762 0,370 0,043 0,003
16 1,000 1,000 1,000 1,000 1,000 0,999 0,984 0,893 0,589 0,133 0,016
17 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,965 0,794 0,323 0,075
18 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,931 0,608 0,264
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,878 0,642
20 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
440 Anlisis de datos (vol. II)

Tabla B
Distribucin normal tipificada: N (0, 1)
Probabilidades acumuladas ( p) hasta cada valor Z

Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
!3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
!3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
!3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010
!2,9 0,0019 0,0018 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
!2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0020 0,0020 0,0019
!2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
!2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
!2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
!2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
!2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
!2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
!2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
!2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
!1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
!1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
!1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
!1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
!1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
!1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
!1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
!1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
!1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
!1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
!0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
!0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
!0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
!0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
!0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
!0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
!0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
!0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
!0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
!0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
Apndice final. Tablas estadsticas 441

Tabla B (continuacin)

Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995

Valores Zp seleccionados: Z 0,90 = 1,282 Z 0,95 = 1,645 Z 0,975 = 1,960

Z 0,99 = 2,326 Z 0,995 = 2,576 Z 0,999 = 3,090

Z 0,9994 = 3,25 Z 0,9998 = 3,50 Z 0,9999 = 3,75


442 Anlisis de datos (vol. II)

Tabla C
Distribuciones 2 ( ji-cuadrado)
Valores 2gl; p que acumulan una probabilidad p con diferentes grados de libertad ( gl )

p = probabilidad acumulada hasta el valor gl;


2
p

gl 0,001 0,005 0,01 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995 0,999
1 0,00 0,00 0,00 0,00 0,00 0,02 2,71 3,84 5,02 6,63 7,88 10,83
2 0,00 0,01 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 10,60 13,82
3 0,02 0,07 0,12 0,22 0,35 0,58 6,25 7,81 9,35 11,34 12,84 16,27
4 0,09 0,21 0,28 0,48 0,71 1,06 7,78 9,49 11,14 13,28 14,86 18,47
5 0,21 0,41 0,55 0,83 1,14 1,61 9,24 11,07 12,83 15,09 16,75 20,52
6 0,38 0,68 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 18,55 22,46
7 0,60 0,99 1,24 1,69 2,27 2,83 12,02 14,07 16,01 18,48 20,28 24,32
8 0,86 1,34 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 21,96 26,13
9 1,15 1,73 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 23,59 27,88
10 1,48 2,16 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 25,19 29,59
11 1,83 2,60 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,72 26,76 31,26
12 2,21 3,07 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 28,30 32,91
13 2,62 3,57 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 29,82 34,53
14 3,04 4,07 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 31,32 36,12
15 3,48 4,60 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 32,80 37,70
16 3,94 5,14 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 34,27 39,25
17 4,42 5,70 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 35,72 40,79
18 4,90 6,26 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 37,16 42,31
19 5,41 6,84 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 38,58 43,82
20 5,92 7,43 8,26 8,59 10,85 12,44 28,41 31,41 34,17 37,57 40,00 45,31
21 6,45 8,03 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 41,40 46,80
22 6,98 8,64 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 42,80 48,27
23 7,53 9,26 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 44,18 49,73
24 8,08 9,89 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 45,56 51,18
25 8,65 10,52 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 46,93 52,62
26 9,22 11,16 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 48,29 54,05
27 9,80 11,81 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 49,64 55,48
28 10,39 12,46 13,56 15,31 16,39 18,94 37,92 41,34 44,46 48,28 50,99 56,89
29 10,99 13,21 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 52,34 58,30
30 11,59 13,79 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 53,67 59,70
40 17,92 20,71 22,16 24,43 26,51 29,05 51,81 55,76 59,34 63,69 66,77 73,40
50 24,67 27,99 29,71 32,36 34,76 37,69 63,17 67,50 71,42 76,15 79,49 86,66
60 31,74 35,53 37,48 40,48 43,19 46,46 74,40 79,08 83,30 88,38 91,95 99,61
70 39,04 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,43 104,21 112,3
80 46,52 51,17 53,54 57,15 60,39 64,28 96,58 101,88 106,63 112,33 116,32 124,8
90 54,16 59,20 61,75 65,65 69,13 73,29 107,57 113,15 118,14 124,12 128,30 137,2
100 61,92 67,33 70,06 74,22 77,93 82,36 118,50 124,34 129,56 135,81 140,17 149,4

Con gl > 30, puede utilizarse la aproximacin: .


Apndice final. Tablas estadsticas 443

Tabla D
Distribuciones t de Student
Valores tgl; p que acumulan una probabilidad p con diferentes grados de libertad gl (tgl; p = !tgl; 1!p )

p = probabilidad acumulada hasta cada valor tgl; p


gl 0,001 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995 0,999
2 !22,32 !9,925 !6,965 !4,303 !2,920 !1,886 1,886 2,920 4,303 6,965 9,925 22,32
3 !10,21 !5,841 !4,541 !3,182 !2,353 !1,638 1,638 2,353 3,182 4,541 5,841 10,21
4 !7,173 !4,604 !3,747 !2,776 !2,132 !1,533 1,533 2,132 2,776 3,747 4,604 7,173
5 !5,893 !4,032 !3,365 !2,571 !2,015 !1,476 1,476 2,015 2,571 3,365 4,032 5,893
6 !5,208 !3,707 !3,143 !2,447 !1,943 !1,440 1,440 1,943 2,447 3,143 3,707 5,208
7 !4,785 !3,499 !2,998 !2,365 !1,895 !1,415 1,415 1,895 2,365 2,998 3,499 4,785
8 !4,501 !3,355 !2,896 !2,306 !1,860 !1,397 1,397 1,860 2,306 2,896 3,355 4,501
9 !4,297 !3,250 !2,821 !2,262 !1,833 !1,383 1,383 1,833 2,262 2,821 3,250 4,297
10 !4,144 !3,169 !2,764 !2,228 !1,812 !1,372 1,372 1,812 2,228 2,764 3,169 4,144
11 !4,025 !3,106 !2,718 !2,201 !1,796 !1,363 1,363 1,796 2,201 2,718 3,106 4,025
12 !3,930 !3,055 !2,681 !2,179 !1,782 !1,356 1,356 1,782 2,179 2,681 3,055 3,930
13 !3,852 !3,012 !2,650 !2,160 !1,771 !1,350 1,350 1,771 2,160 2,650 3,012 3,852
14 !3,787 !2,977 !2,624 !2,145 !1,761 !1,345 1,345 1,761 2,145 2,624 2,977 3,787
15 !3,733 !2,947 !2,602 !2,131 !1,753 !1,341 1,341 1,753 2,131 2,602 2,947 3,733
16 !3,686 !2,921 !2,583 !2,120 !1,746 !1,337 1,337 1,746 2,120 2,583 2,921 3,686
17 !3,646 !2,898 !2,567 !2,110 !1,740 !1,333 1,333 1,740 2,110 2,567 2,898 3,646
18 !3,610 !2,878 !2,552 !2,101 !1,734 !1,330 1,330 1,734 2,101 2,552 2,878 3,610
19 !3,579 !2,861 !2,539 !2,093 !1,729 !1,328 1,328 1,729 2,093 2,539 2,861 3,579
20 !3,552 !2,845 !2,528 !2,086 !1,725 !1,325 1,325 1,725 2,086 2,528 2,845 3,552
21 !3,505 !2,831 !2,518 !2,080 !1,721 !1,323 1,323 1,721 2,080 2,518 2,831 3,505
22 !3,505 !2,819 !2,508 !2,074 !1,717 !1,321 1,321 1,717 2,074 2,508 2,819 3,505
23 !3,485 !2,807 !2,500 !2,069 !1,714 !1,319 1,319 1,714 2,069 2,500 2,807 3,485
24 !3,467 !2,797 !2,192 !2,064 !1,711 !1,318 1,318 1,711 2,064 2,192 2,797 3,467
25 !3,450 !2,787 !2,485 !2,060 !1,708 !1,316 1,316 1,708 2,060 2,485 2,787 3,450
26 !3,435 !2,779 !2,479 !2,056 !1,706 !1,315 1,315 1,706 2,056 2,479 2,779 3,435
27 !3,421 !2,771 !2,473 !2,052 !1,703 !1,314 1,314 1,703 2,052 2,473 2,771 3,421
28 !3,408 !2,763 !2,467 !2,048 !1,701 !1,313 1,313 1,701 2,048 2,467 2,763 3,408
29 !3,396 !2,756 !2,462 !2,045 !1,699 !1,311 1,311 1,699 2,045 2,462 2,756 3,396
30 !3,385 !2,750 !2,457 !2,042 !1,697 !1,310 1,310 1,697 2,042 2,457 2,750 3,385
40 !3,307 !2,704 !2,423 !2,021 !1,684 !1,303 1,303 1,684 2,021 2,423 2,704 3,307
50 !3,261 !2,678 !2,403 !2,009 !1,676 !1,298 1,298 1,676 2,009 2,403 2,678 3,261
60 !3,232 !2,660 !2,390 !2,000 !1,671 !1,296 1,296 1,671 2,000 2,390 2,660 3,232
70 !3,211 !2,648 !2,381 !1,994 !1,667 !1,294 1,294 1,667 1,994 2,381 2,648 3,211
80 !3,195 !2,639 !2,374 !1,990 !1,664 !1,292 1,292 1,664 1,990 2,374 2,639 3,195
90 !3,183 !2,632 !2,369 !1,986 !1,662 !1,290 1,290 1,662 1,986 2,369 2,632 3,183
100 !3,174 !2,626 !2,365 !1,984 !1,660 !1,290 1,290 1,660 1,984 2,365 2,626 3,174
200 !3,131 !2,601 !2,345 !1,972 !1,653 !1,286 1,286 1,653 1,972 2,345 2,601 3,131
500 !3,092 !2,586 !2,334 !1,965 !1,648 !1,283 1,283 1,648 1,965 2,334 2,586 3,092
4 !3,090 !2,576 !2,326 !1,960 !1,645 !1,282 1,282 1,645 1,960 2,326 2,576 3,090
444 Anlisis de datos (vol. II)

Tabla E
Potencias (1 ! ) para diferentes valores de y

Nivel de significacin (contrastes unilaterales)


0,05 0,025 0,01 0,005

1,00 0,26 0,17 0,09 0,06


1,10 0,29 0,20 0,11 0,07
1,20 0,33 0,22 0,13 0,08
1,30 0,37 0,26 0,15 0,10
1,40 0,40 0,29 0,18 0,12
1,50 0,44 0,32 0,20 0,14
1,60 0,48 0,36 0,23 0,17
1,70 0,52 0,40 0,27 0,19
1,80 0,56 0,44 0,30 0,22
1,90 0,60 0,48 0,34 0,25
2,00 0,64 0,52 0,37 0,28
2,10 0,68 0,56 0,41 0,32
2,20 0,71 0,60 0,45 0,35
2,30 0,74 0,63 0,49 0,39
2,40 0,78 0,67 0,53 0,43
2,50 0,80 0,71 0,57 0,47
2,60 0,83 0,74 0,61 0,51
2,70 0,85 0,77 0,65 0,55
2,80 0,88 0,80 0,68 0,59
2,90 0,90 0,83 0,72 0,63
3,00 0,91 0,85 0,75 0,66
3,10 0,93 0,87 0,78 0,70
3,20 0,94 0,89 0,81 0,73
3,30 0,95 0,91 0,84 0,77
3,40 0,96 0,93 0,86 0,80
3,50 0,97 0,94 0,88 0,82
3,60 0,98 0,95 0,90 0,85
3,70 0,98 0,96 0,92 0,87
3,80 0,98 0,97 0,93 0,89
3,90 0,99 0,97 0,94 0,91
4,00 0,99 0,98 0,95 0,92
4,10 0,99 0,98 0,96 0,94
4,20 ! 0,99 0,97 0,95
4,30 ! 0,99 0,98 0,96
4,40 ! 0,99 0,98 0,97
4,50 ! 0,99 0,99 0,97
4,60 ! ! 0,99 0,98
4,70 ! ! 0,99 0,98
4,80 ! ! 0,99 0,99
4,90 ! ! ! 0,99
5,00 ! ! ! 0,99
Apndice final. Tablas estadsticas 445

Tabla F
Distribuciones F
Puntos crticos que acumulan una probabilidad 1 !
con gl1 = grados de libertad del numerador y gl2 = grados de libertad del denominador

1 ! = 0,95
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20

3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,79 8,74 8,70 8,66
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,96 5,91 5,86 5,80
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,74 4,68 4,62 4,56
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,06 4,00 3,94 3,87
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,64 3,57 3,51 3,44
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,35 3,28 3,22 3,15
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,14 3,07 3,01 2,94
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,98 2,91 2,85 2,77
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,85 2,79 2,72 2,65
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,75 2,69 2,62 2,54
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,67 2,60 2,53 2,46
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,60 2,53 2,46 2,39
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,54 2,48 2,40 2,33
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,49 2,42 2,35 2,28
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,45 2,38 2,31 2,23
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,41 2,34 2,27 2,19
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,38 2,31 2,23 2,16
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,35 2,28 2,20 2,12
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,32 2,25 2,18 2,10
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,30 2,23 2,15 2,07
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,27 2,20 2,13 2,05
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,25 2,18 2,11 2,03
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,24 2,16 2,09 2,01
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,22 2,15 2,07 1,99
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,20 2,13 2,06 1,97
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,19 2,12 2,04 1,96
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,18 2,10 2,03 1,94
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,16 2,09 2,01 1,93
35 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,11 2,04 1,96 1,88
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,08 2,00 1,92 1,84
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,03 1,95 1,87 1,78
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 1,97 1,89 1,81 1,72
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,94 1,86 1,78 1,69
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,91 1,83 1,75 1,66
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,88 1,80 1,72 1,62
500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,85 1,77 1,69 1,59
4 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,83 1,75 1,67 1,57
446 Anlisis de datos (vol. II)

Tabla F (continuacin)
1 ! = 0,99
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20

3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,23 27,05 26,87 26,69
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,55 14,37 14,20 14,02
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,05 9,89 9,72 9,55
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,87 7,72 7,56 7,40
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,62 6,47 6,31 6,16
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,81 5,67 5,52 5,36
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,26 5,11 4,96 4,81
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,85 4,71 4,56 4,41
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,54 4,40 4,25 4,10
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,30 4,16 4,01 3,86
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,10 3,96 3,82 3,66
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 3,94 3,80 3,66 3,51
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,80 3,67 3,52 3,37
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,69 3,55 3,41 3,26
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,59 3,46 3,31 3,16
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,51 3,37 3,23 3,08
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,43 3,30 3,15 3,00
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,37 3,23 3,09 2,94
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,31 3,17 3,03 2,88
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,26 3,12 2,98 2,83
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,21 3,07 2,93 2,78
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,17 3,03 2,89 2,74
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,13 2,99 2,85 2,70
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,09 2,96 2,81 2,66
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,06 2,93 2,78 2,63
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,03 2,90 2,75 2,60
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,00 2,87 2,73 2,57
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 2,98 2,84 2,70 2,55
35 7,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,88 2,74 2,60 2,44
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,80 2,66 2,52 2,37
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,70 2,56 2,42 2,27
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,59 2,45 2,31 2,15
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,52 2,39 2,24 2,09
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,47 2,34 2,19 2,03
200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,41 2,27 2,13 1,97
500 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,36 2,22 2,07 1,92
4 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,32 2,18 2,04 1,88
Apndice final. Tablas estadsticas 447

Tabla G
Distribuciones F no centradas
Probabilidades de cometer errores Tipo II () asociadas a diferentes valores de y

1 ! = 0,95

gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0

1 4 0,91 0,80 0,74 0,67 0,59 0,51 0,43 0,65 0,22 0,12
6 0,91 0,78 0,70 0,62 0,52 0,43 0,34 0,26 0,14 0,06
8 0,90 0,76 0,68 0,59 0,49 0,39 0,30 0, 22 0,11 0,04
10 0,90 0,75 0,66 0,57 0,47 0,37 0,28 0, 20 0,09 0,03
12 0,90 0,74 0,65 0,56 0,45 0,35 0,26 0,19 0,08 0,03
16 0,90 0,74 0,64 0,54 0,43 0,33 0,24 0, 17 0,07 0,02
20 0,90 0,73 0,63 0,53 0,42 0,32 0,26 0,16 0,06 0,02
30 0,89 0,72 0,62 0,52 0,40 0,31 0,22 0,15 0,06 0,02
4 0,89 0,71 0,60 0,49 0,38 0,28 0,19 0,12 0,04 0,01

2 4 0,92 0,82 0,77 0,70 0,62 0,54 0,46 0,38 0,24 0,14
6 0,91 0,79 0,71 0,63 0,53 0,43 0,34 0,26 0,13 0,05
8 0,91 0,77 0,68 0,58 0,48 0,37 0,28 0,20 0,08 0,03
10 0,91 0,75 0,66 0,55 0,44 0,34 0,24 0,16 0,06 0,02
12 0,90 0,74 0,64 0,53 0,42 0,31 0,22 0,14 0,05 0,01
16 0,90 0,73 0,62 0,51 0,39 0,28 0,19 0,12 0,04 0,01
20 0,90 0,72 0,61 0,49 0,36 0,26 0,17 0,11 0,03 0,01
30 0,90 0,71 0,59 0,47 0,35 0,24 0,15 0,09 0,02 0,00
4 0,89 0,68 0,56 0,43 0,30 0,20 0,12 0,06 0,01 0,00

3 4 0,92 0,83 0,77 0,71 0,63 0,55 0,47 0,39 0,25 0,14
6 0,91 0,79 0,71 0,62 0,52 0,42 0,33 0,24 0,11 0,04
8 0,91 0,76 0,67 0,57 0,46 0,35 0,25 0,18 0,06 0,02
10 0,91 0,75 0,65 0,53 0,41 0,30 0,21 0,13 0,04 0,01
12 0,90 0,73 0,62 0,50 0,38 0,27 0,18 0,11 0,03 0,01
16 0,90 0,71 0,60 0,47 0,34 0,23 0,14 0,08 0,02 0,00
20 0,90 0,70 0,58 0,45 0,32 0,21 0,13 0,07 0,01 0,00
30 0,89 0,68 0,55 0,42 0,29 0,18 0,10 0,05 0,01 0,00
4 0,88 0,64 0,50 0,36 0,23 0,13 0,07 0,03 0,00 0,00

4 4 0,92 0,83 0,78 0,71 0,64 0,55 0,47 0,39 0,25 0,14
6 0,92 0,79 0,71 0,62 0,52 0,41 0,31 0,23 0,10 0,04
8 0,91 0,76 0,66 0,55 0,44 0,33 0,23 0,15 0,05 0,01
10 0,91 0,74 0,63 0,51 0,39 0,27 0,18 0,11 0,03 0,00
12 0,90 0,72 0,61 0,48 0,35 0,24 0,15 0,08 0,02 0,00
16 0,90 0,70 0,57 0,44 0,31 0,19 0,11 0,06 0,01 0,00
20 0,89 0,68 0,55 0,41 0,28 0,17 0,09 0,04 0,01 0,00
30 0,89 0,66 0,52 0,37 0,24 0,14 0,07 0,03 0,00 0,00
4 0,88 0,60 0,45 0,29 0,17 0,08 0,04 0,01 0,00 0,00
448 Anlisis de datos (vol. II)

Tabla G (continuacin)
1 ! = 0,99

gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0

1 4 0,98 0,95 0,93 0,90 0,87 0,83 0,78 0,73 0,62 0,50
6 0,98 0,93 0,90 0,86 0,81 0,75 0,69 0,61 0,46 0,31
8 0,98 0,92 0,89 0,84 0,78 0,70 0,62 0,54 0,37 0,22
10 0,98 0,92 0,87 0,82 0,75 0,67 0,58 0,49 0,31 0,17
12 0,97 0,91 0,87 0,81 0,73 0,65 0,55 0,46 0,28 0,14
16 0,97 0,90 0,85 0,79 0,71 0,61 0,52 0,42 0,24 0,11
20 0,97 0,90 0,85 0,78 0,69 0,59 0,49 0,39 0,21 0,10
30 0,97 0,89 0,83 0,76 0,67 0,57 0,46 0,36 0,19 0,08
4 0,97 0,88 0,81 0,72 0,62 0,51 0,40 0,30 0,14 0,05

2 4 0,98 0,96 0,94 0,92 0,89 0,85 0,81 0,76 0,66 0,54
6 0,98 0,94 0,91 0,87 0,82 0,76 0,70 0,62 0,46 0,31
8 0,98 0,93 0,89 0,84 0,78 0,70 0,61 0,52 0,34 0,19
10 0,98 0,92 0,88 0,82 0,74 0,65 0,55 0,45 0,26 0,13
12 0,98 0,91 0,86 0,80 0,71 0,61 0,51 0,40 0,22 0,09
16 0,97 0,90 0,84 0,77 0,67 0,57 0,45 0,34 0,16 0,06
20 0,97 0,90 0,83 0,75 0,65 0,53 0,42 0,31 0,14 0,04
30 0,97 0,88 0,82 0,72 0,61 0,49 0,37 0,26 0,10 0,03
4 0,97 0,88 0,77 0,66 0,53 0,40 0,28 0,18 0,05 0,01

3 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,77 0,67 0,55
6 0,98 0,94 0,91 0,87 0,82 0,75 0,69 0,61 0,44 0,29
8 0,98 0,93 0,89 0,84 0,77 0,58 0,59 0,49 0,30 0,19
10 0,98 0,92 0,87 0,80 0,72 0,62 0,52 0,41 0,22 0,09
12 0,98 0,91 0,85 0,78 0,69 0,58 0,46 0,35 0,17 0,06
16 0,97 0,90 0,83 0,74 0,64 0,51 0,39 0,28 0,11 0,03
20 0,97 0,89 0,82 0,72 0,60 0,47 0,35 0,24 0,08 0,02
30 0,97 0,87 0,79 0,68 0,55 0,42 0,29 0,18 0,05 0,01
4 0,97 0,84 0,73 0,59 0,44 0,30 0,18 0,10 0,02 0,00

4 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,78 0,67 0,56
6 0,98 0,94 0,91 0,87 0,82 0,76 0,68 0,60 0,43 0,28
8 0,98 0,93 0,89 0,83 0,76 0,67 0,57 0,47 0,28 0,14
10 0,98 0,92 0,86 0,79 0,70 0,60 0,49 0,37 0,19 0,07
12 0,98 0,91 0,85 0,76 0,66 0,55 0,42 0,31 0,13 0,04
16 0,97 0,89 0,82 0,72 0,60 0,47 0,34 0,23 0,08 0,02
20 0,97 0,88 0,80 0,69 0,56 0,42 0,29 0,18 0,05 0,01
30 0,97 0,86 0,77 0,64 0,50 0,35 0,22 0,13 0,03 0,00
4 0,96 0,81 0,68 0,53 0,36 0,22 0,11 0,05 0,01 0,00
Apndice final. Tablas estadsticas 449

Tabla H
Coeficientes de polinomios ortogonales
Coeficientes cj para comparaciones de tendencia, con J = n de medias

Coeficientes

J c1 c2 c3 c4 c5 c6 c7 c8 c9 c10

3 Lineal !1 0 1 2
Cuadrtico 1 !2 1 6

4 Lineal !3 !1 1 3 20
Cuadrtico 1 !1 !1 1 4
Cbico !1 3 !3 1 20

5 Lineal !2 !1 0 1 2 10
Cuadrtico 2 !1 !2 !1 2 14
Cbico !1 2 0 !2 1 10
De 4 grado 1 !4 6 !4 1 70

6 Lineal !5 !3 !1 1 3 5 70
Cuadrtico 5 !1 !4 !4 1 5 84
Cbico !5 7 4 !4 !7 5 180
De 4 grado 1 !3 2 2 !3 1 28

7 Lineal !3 !2 !1 0 1 2 3 28
Cuadrtico 5 0 !3 !4 !3 0 5 84
Cbico !1 1 1 0 !1 !1 1 6
De 4 grado 3 !7 1 6 1 !7 3 154

8 Lineal !7 !5 !3 !1 1 3 5 7 168
Cuadrtico 7 1 !3 !5 !5 !3 1 7 168
Cbico !7 5 7 3 !3 !7 !5 7 264
De 4 grado 7 !13 !3 9 9 !3 !13 7 616
De 5 grado !7 23 !17 !15 15 17 !23 7 2184

9 Lineal !4 !3 !2 !1 0 1 2 3 4 60
Cuadrtico 28 7 !8 !17 !20 !17 !8 7 28 2772
Cbico !14 7 13 9 0 !9 !13 !7 14 990
De 4 grado 14 !21 !11 9 18 9 !11 !21 14 2002
De 5 grado !4 11 !4 !9 0 9 4 !11 4 468

10 Lineal !9 !7 !5 !3 !1 1 3 5 7 9 330
Cuadrtico 6 2 !1 !3 !4 !4 !3 !1 2 6 132
Cbico !42 14 35 31 12 !12 !31 !35 !14 42 8580
De 4 grado 18 !22 !17 3 18 18 3 !17 !22 18 2860
De 5 grado !6 14 !1 !11 !6 6 11 1 !14 6 780
450 Anlisis de datos (vol. II)

Tabla I
Transformacin Z de Fisher
Valores Z correspondientes a RXY y XY

RXY | XY Z RXY | XY Z RXY | XY Z RXY | XY Z

0,00 0,0000 0,25 0,2554 0,50 0,5493 0,75 0,9730


0,01 0,0100 0,26 0,2661 0,51 0,5627 0,76 0,9962
0,02 0,0200 0,27 0,2769 0,52 0,5763 0,77 1,0203
0,03 0,0300 0,28 0,2877 0,53 0,5901 0,78 1,0454
0,04 0,0400 0,29 0,2986 0,54 0,6042 0,79 1,0714
0,05 0,0500 0,30 0,3095 0,55 0,6184 0,80 1,0986
0,06 0,0601 0,31 0,3205 0,56 0,6328 0,81 1,1270
0,07 0,0701 0,32 0,3316 0,57 0,6475 0,82 1,1568
0,08 0,0802 0,33 0,3428 0,58 0,6625 0,83 1,1881
0,09 0,0902 0,34 0,3541 0,59 0,6777 0,84 1,2212
0,10 0,1003 0,35 0,3654 0,60 0,6931 0,85 1,2562
0,11 0,1104 0,36 0,3769 0,61 0,7089 0,86 1,2933
0,12 0,1206 0,37 0,3884 0,62 0,7250 0,87 1,3331
0,13 0,1307 0,38 0,4001 0,63 0,7414 0,88 1,3758
0,14 0,1409 0,39 0,4118 0,64 0,7582 0,89 1,4219
0,15 0,1511 0,40 0,4236 0,65 0,7753 0,90 1,4722
0,16 0,1614 0,41 0,4356 0,66 0,7928 0,91 1,5275
0,17 0,1717 0,42 0,4477 0,67 0,8107 0,92 1,5890
0,18 0,1820 0,43 0,4599 0,68 0,8291 0,93 1,6584
0,19 0,1923 0,44 0,4722 0,69 0,8480 0,94 1,7380
0,20 0,2027 0,45 0,4847 0,70 0,8673 0,95 1,8318
0,21 0,2132 0,46 0,4973 0,71 0,8872 0,96 1,9459
0,22 0,2237 0,47 0,5101 0,72 0,9076 0,97 2,0923
0,23 0,2342 0,48 0,5230 0,73 0,9287 0,98 2,2976
0,24 0,2448 0,49 0,5361 0,74 0,9505 0,99 2,6467
Apndice final. Tablas estadsticas 451

Tabla J
Puntos crticos para el estadstico de Dunn-Bonferroni
Contrastes bilaterales
1 ! F = 0,95
k = nmero de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20

5 3,16 3,53 3,81 4,03 4,22 4,38 4,53 4,66 4,77 4,98 5,25 5,60
6 2,97 3,29 3,52 3,71 3,86 4,00 4,12 4,22 4,32 4,49 4,70 4,98
7 2,84 3,13 3,34 3,50 3,64 3,75 3,86 3,95 4,03 4,17 4,36 4,59
8 2,75 3,02 3,21 3,36 3,48 3,58 3,68 3,76 3,83 3,96 4,12 4,33
9 2,69 2,93 3,11 3,25 3,36 3,46 3,55 3,62 3,69 3,81 3,95 4,15
10 2,63 2,87 3,04 3,17 3,28 3,37 3,45 3,52 3,58 3,69 3,83 4,00
11 2,59 2,82 2,98 3,11 3,21 3,30 3,37 3,44 3,50 3,60 3,73 3,89
12 2,56 2,78 2,93 3,05 3,15 3,24 3,31 3,37 3,43 3,53 3,65 3,81
13 2,53 2,75 2,90 3,01 3,11 3,19 3,26 3,32 3,37 3,47 3,58 3,73
14 2,51 2,72 2,86 2,98 3,07 3,15 3,21 3,27 3,33 3,42 3,53 3,67
15 2,49 2,69 2,84 2,95 3,04 3,11 3,18 3,23 3,29 3,37 3,48 3,62
16 2,47 2,67 2,81 2,92 3,01 3,08 3,15 3,20 3,25 3,34 3,44 3,58
17 2,46 2,66 2,79 2,90 2,98 3,06 3,12 3,17 3,22 3,31 3,41 3,54
18 2,45 2,64 2,77 2,88 2,96 3,03 3,09 3,15 3,20 3,28 3,38 3,51
19 2,43 2,63 2,76 2,86 2,94 3,01 3,07 3,13 3,17 3,25 3,35 3,48
20 2,42 2,61 2,74 2,85 2,93 3,00 3,06 3,11 3,15 3,23 3,33 3,46
21 2,41 2,60 2,73 2,83 2,91 2,98 3,04 3,09 3,14 3,21 3,31 3,43
22 2,41 2,59 2,72 2,82 2,90 2,97 3,02 3,07 3,12 3,20 3,29 3,41
23 2,40 2,58 2,71 2,81 2,89 2,95 3,01 3,06 3,10 3,18 3,27 3,39
24 2,39 2,57 2,70 2,80 2,88 2,94 3,00 3,05 3,09 3,17 3,26 3,38
25 2,38 2,57 2,69 2,79 2,86 2,93 2,99 3,03 3,08 3,15 3,24 3,36
26 2,38 2,56 2,68 2,78 2,86 2,92 2,98 3,02 3,07 3,14 3,23 3,35
27 2,37 2,55 2,68 2,77 2,85 2,91 2,97 3,01 3,06 3,13 3,22 3,33
28 2,37 2,55 2,67 2,76 2,84 2,90 2,96 3,00 3,05 3,12 3,21 3,32
29 2,36 2,54 2,66 2,76 2,83 2,89 2,95 3,00 3,04 3,11 3,20 3,31
30 2,36 2,54 2,66 2,75 2,82 2,89 2,94 2,99 3,03 3,10 3,19 3,30
35 2,34 2,51 2,63 2,72 2,80 2,86 2,91 2,96 3,00 3,07 3,15 3,26
40 2,33 2,50 2,62 2,70 2,78 2,84 2,89 2,93 2,97 3,04 3,12 3,23
50 2,31 2,48 2,59 2,68 2,75 2,81 2,85 2,90 2,94 3,00 3,08 3,18
60 2,30 2,46 2,58 2,66 2,73 2,79 2,83 2,88 2,91 2,98 3,06 3,16
80 2,28 2,45 2,56 2,64 2,71 2,76 2,81 2,85 2,89 2,95 3,03 3,12
100 2,28 2,43 2,54 2,63 2,69 2,75 2,79 2,83 2,87 2,93 3,01 3,10
200 2,26 2,41 2,52 2,60 2,66 2,72 2,76 2,80 2,84 2,90 2,97 3,06
500 2,25 2,40 2,51 2,59 2,65 2,70 2,75 2,79 2,82 2,88 2,95 3,04
4 2,24 2,39 2,50 2,58 2,64 2,69 2,74 2,77 2,81 2,87 2,94 3,02
452 Anlisis de datos (vol. II)

Tabla J (continuacin)
1 ! F = 0,99
k = nmero de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20

5 4,77 5,25 5,60 5,89 6,14 6,35 6,54 6,71 6,87 7,15 7,50 7,98
6 4,32 4,70 4,98 5,21 5,40 5,56 5,71 5,84 5,96 6,17 6,43 6,79
7 4,03 4,36 4,59 4,79 4,94 5,08 5,20 5,31 5,41 5,58 5,80 6,08
8 3,83 4,12 4,33 4,50 4,64 4,76 4,86 4,96 5,04 5,19 5,37 5,62
9 3,69 3,95 4,15 4,30 4,42 4,53 4,62 4,71 4,78 4,91 5,08 5,29
10 3,58 3,83 4,00 4,14 4,26 4,36 4,44 4,52 4,59 4,71 4,85 5,05
11 3,50 3,73 3,89 4,02 4,13 4,22 4,30 4,37 4,44 4,55 4,68 4,86
12 3,43 3,65 3,81 3,93 4,03 4,12 4,19 4,26 4,32 4,42 4,55 4,72
13 3,37 3,58 3,73 3,85 3,95 4,03 4,10 4,16 4,22 4,32 4,44 4,60
14 3,33 3,53 3,67 3,79 3,88 3,96 4,03 4,09 4,14 4,23 4,35 4,50
15 3,29 3,48 3,62 3,73 3,82 3,90 3,96 4,02 4,07 4,16 4,27 4,42
16 3,25 3,44 3,58 3,69 3,77 3,85 3,91 3,96 4,01 4,10 4,21 4,35
17 3,22 3,41 3,54 3,65 3,73 3,80 3,86 3,92 3,97 4,05 4,15 4,29
18 3,20 3,38 3,51 3,61 3,69 3,76 3,82 3,87 3,92 4,00 4,10 4,23
19 3,17 3,35 3,48 3,58 3,66 3,73 3,79 3,84 3,88 3,96 4,06 4,19
20 3,15 3,33 3,46 3,55 3,63 3,70 3,75 3,80 3,85 3,93 4,02 4,15
21 3,14 3,31 3,43 3,53 3,60 3,67 3,73 3,78 3,82 3,90 3,99 4,11
22 3,12 3,29 3,41 3,50 3,58 3,64 3,70 3,75 3,79 3,87 3,96 4,08
23 3,10 3,27 3,39 3,48 3,56 3,62 3,68 3,72 3,77 3,84 3,93 4,05
24 3,09 3,26 3,38 3,47 3,54 3,60 3,66 3,70 3,75 3,82 3,91 4,02
25 3,08 3,24 3,36 3,45 3,52 3,58 3,64 3,68 3,73 3,80 3,88 4,00
26 3,07 3,23 3,35 3,43 3,51 3,57 3,62 3,67 3,71 3,78 3,86 3,97
27 3,06 3,22 3,33 3,42 3,49 3,55 3,60 3,65 3,69 3,76 3,84 3,95
28 3,05 3,21 3,32 3,41 3,48 3,54 3,59 3,63 3,67 3,74 3,83 3,94
29 3,04 3,20 3,31 3,40 3,47 3,52 3,58 3,62 3,66 3,73 3,81 3,92
30 3,03 3,19 3,30 3,39 3,45 3,51 3,56 3,61 3,65 3,71 3,80 3,90
35 3,00 3,15 3,26 3,34 3,41 3,46 3,51 3,55 3,59 3,66 3,74 3,84
40 2,97 3,12 3,23 3,31 3,37 3,43 3,47 3,51 3,55 3,61 3,69 3,79
50 2,94 3,08 3,18 3,26 3,32 3,38 3,42 3,46 3,50 3,56 3,63 3,72
60 2,91 3,06 3,16 3,23 3,29 3,34 3,39 3,43 3,46 3,52 3,59 3,68
80 2,89 3,03 3,12 3,20 3,25 3,30 3,35 3,38 3,42 3,47 3,54 3,63
100 2,87 3,01 3,10 3,17 3,23 3,28 3,32 3,36 3,39 3,45 3,51 3,60
200 2,84 2,97 3,06 3,13 3,19 3,23 3,27 3,31 3,34 3,39 3,46 3,54
500 2,82 2,95 3,04 3,11 3,16 3,21 3,25 3,28 3,31 3,36 3,42 3,50
4 2,81 2,94 3,02 3,09 3,15 3,19 3,23 3,26 3,29 3,34 3,41 3,48
Apndice final. Tablas estadsticas 453

Tabla K
Puntos crticos para el estadstico de Dunnett

Contrastes unilaterales

J = n de medias (incluida la del grupo control)


glerror 1 ! F 3 4 5 6 7 8 9 10

6 0,95 2,34 2,56 2,71 2,83 2,92 3,00 3,07 3,12


0,99 3,61 3,88 4,07 4,21 4,33 4,43 4,51 4,59
7 0,95 2,27 2,48 2,62 2,73 2,82 2,89 2,95 3,01
0,99 3,42 3,66 3,83 3,96 4,07 4,15 4,23 4,30
8 0,95 2,22 2,42 2,55 2,66 2,74 2,81 2,87 2,92
0,99 3,29 3,51 3,67 3,79 3,88 3,96 4,03 4,09
9 0,95 2,18 2,37 2,50 2,60 2,68 2,75 2,81 2,86
0,99 3,19 3,40 3,55 3,66 3,75 3,82 3,89 3,94
10 0,95 2,15 2,34 2,47 2,56 2,64 2,70 2,76 2,81
0,99 3,11 3,31 3,45 3,56 3,64 3,71 3,78 3,83
11 0,95 2,13 2,31 2,44 2,53 2,60 2,67 2,72 2,77
0,99 3,06 3,25 3,38 3,48 3,56 3,63 3,69 3,74
12 0,95 2,11 2,29 2,41 2,50 2,58 2,64 2,69 2,74
0,99 3,01 3,19 3,32 3,42 3,50 3,56 3,62 3,67
13 0,95 2,09 2,27 2,39 2,48 2,55 2,61 2,66 2,71
0,99 2,97 3,15 3,27 3,37 3,44 3,51 3,56 3,61
14 0,95 2,08 2,25 2,37 2,46 2,53 2,59 2,64 2,69
0,99 2,94 3,11 3,23 3,32 3,40 3,46 3,51 3,56
15 0,95 2,07 2,24 2,36 2,44 2,51 2,57 2,62 2,67
0,99 2,91 3,08 3,20 3,29 3,36 3,42 3,47 3,52
16 0,95 2,06 2,23 2,34 2,43 2,50 2,56 2,61 2,65
0,99 2,88 3,05 3,17 3,26 3,33 3,39 3,44 3,48
18 0,95 2,05 2,21 2,32 2,41 2,48 2,53 2,58 2,62
0,99 2,84 3,01 3,12 3,21 3,27 3,33 3,38 3,42
20 0,95 2,03 2,19 2,30 2,39 2,46 2,51 2,56 2,60
0,99 2,81 2,97 3,08 3,17 3,23 3,29 3,34 3,38
24 0,95 2,01 2,17 2,28 2,36 2,43 2,48 2,53 2,57
0,99 2,77 2,92 3,03 3,11 3,17 3,22 3,27 3,31
30 0,95 1,99 2,15 2,25 2,33 2,40 2,45 2,50 2,54
0,99 2,72 2,87 2,97 3,05 3,11 3,16 3,21 3,24
40 0,95 1,97 2,13 2,23 2,31 2,37 2,42 2,47 2,51
0,99 2,68 2,82 2,92 2,99 3,05 3,10 3,14 3,18
60 0,95 1,95 2,10 2,21 2,28 2,35 2,39 2,44 2,48
0,99 2,64 2,78 2,87 2,94 3,00 3,04 3,08 3,12
120 0,95 1,93 2,08 2,18 2,26 2,32 2,37 2,41 2,45
0,99 2,60 2,73 2,82 2,89 2,94 2,99 3,03 3,06
4 0,95 1,92 2,06 2,16 2,23 2,29 2,34 2,38 2,42
0,99 2,56 2,68 2,77 2,84 2,89 2,93 2,97 3,00
454 Anlisis de datos (vol. II)

Tabla K (continuacin)

Contrastes bilaterales

J = n de medias (incluida la del grupo control)


glerror 1 ! F 3 4 5 6 7 8 9 10

6 0,95 2,86 3,10 3,26 3,39 3,49 3,57 3,64 3,71


0,99 4,21 4,51 4,71 4,87 5,00 5,10 5,20 5,28
7 0,95 2,75 2,97 3,12 3,24 3,33 3,41 3,47 3,53
0,99 3,95 4,21 4,39 4,53 4,64 4,74 4,82 4,89
8 0,95 2,67 2,88 3,02 3,13 3,22 3,29 3,35 3,41
0,99 3,77 4,00 4,17 4,29 4,40 4,48 4,56 4,62
9 0,95 2,61 2,81 2,95 3,05 3,14 3,20 3,26 3,32
0,99 3,63 3,85 4,01 4,12 4,22 4,30 4,37 4,43
10 0,95 2,57 2,76 2,89 2,99 3,07 3,14 3,19 3,24
0,99 3,53 3,74 3,88 3,99 4,08 4,16 4,22 4,28
11 0,95 2,53 2,72 2,84 2,94 3,02 3,08 3,14 3,19
0,99 3,45 3,65 3,79 3,89 3,98 4,05 4,11 4,16
12 0,95 2,50 2,68 2,81 2,90 2,98 3,04 3,09 3,14
0,99 3,39 3,58 3,71 3,81 3,89 3,96 4,02 4,07
13 0,95 2,48 2,65 2,78 2,87 2,94 3,00 3,06 3,10
0,99 3,33 3,52 3,65 3,74 3,82 3,89 3,94 3,99
14 0,95 2,46 2,63 2,75 2,84 2,91 2,97 3,02 3,07
0,99 3,29 3,47 3,59 3,69 3,76 3,83 3,88 3,93
15 0,95 2,44 2,61 2,73 2,82 2,89 2,95 3,00 3,04
0,99 3,25 3,43 3,55 3,64 3,71 3,78 3,83 3,88
16 0,95 2,42 2,59 2,71 2,80 2,87 2,92 2,97 3,02
0,99 3,22 3,39 3,51 3,60 3,67 3,73 3,78 3,83
18 0,95 2,40 2,56 2,68 2,76 2,83 2,89 2,94 2,98
0,99 3,17 3,33 3,44 3,53 3,60 3,66 3,71 3,75
20 0,95 2,38 2,54 2,65 2,76 2,80 2,86 2,90 2,95
0,99 3,13 3,29 3,40 3,48 3,55 3,60 3,65 3,69
24 0,95 2,35 2,51 2,61 2,70 2,76 2,81 2,86 2,90
0,99 3,07 3,22 3,32 3,40 3,47 3,52 3,57 3,61
30 0,95 2,32 2,47 2,58 2,66 2,72 2,77 2,82 2,86
0,99 3,01 3,15 3,25 3,33 3,39 3,44 3,49 3,52
40 0,95 2,29 2,44 2,54 2,62 2,68 2,73 2,77 2,81
0,99 2,95 3,09 3,19 3,26 3,32 3,37 3,41 3,44
60 0,95 2,27 2,41 2,51 2,58 2,64 2,69 2,73 2,77
0,99 2,90 3,03 3,12 3,19 3,25 3,29 3,33 3,37
120 0,95 2,24 2,38 2,47 2,55 2,60 2,65 2,39 2,73
0,99 2,85 2,97 3,06 3,12 3,18 3,22 3,26 3,29
4 0,95 2,21 2,35 2,44 2,51 2,57 2,61 2,65 2,69
0,99 2,79 2,92 3,00 3,06 3,11 3,15 3,19 3,22
Apndice final. Tablas estadsticas 455

Tabla L
Puntos crticos de las distribuciones del rango studentizado
1 ! F = 0,95
J = n de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20

6 4,34 4,90 5,31 5,63 5,90 6,12 6,32 6,49 6,65 6,79 7,14 7,59
7 4,16 4,68 5,06 5,36 5,61 5,82 6,00 6,16 6,30 6,43 6,76 7,17
8 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 6,18 6,48 6,87
9 3,95 3,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87 5,98 6,28 6,64
10 3,88 3,33 4,65 4,91 5,12 5,30 5,46 5,60 5,72 5,83 6,11 6,47
11 3,82 3,26 4,57 4,82 5,03 5,20 5,35 5,49 5,60 5,71 5,98 6,33
12 3,77 3,20 4,51 4,75 4,95 5,12 5,26 5,40 5,51 5,62 5,88 6,21
13 3,74 3,15 4,45 4,69 4,88 5,05 5,19 5,32 5,43 5,53 5,79 6,11
14 3,70 3,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36 5,46 5,71 6,03
15 3,67 3,08 4,37 4,60 4,78 4,94 5,08 5,20 5,31 5,40 5,65 5,96
16 3,65 3,05 4,33 4,56 4,74 4,90 5,03 5,15 5,26 5,35 5,59 5,90
18 3,61 3,00 4,28 4,50 4,67 4,82 4,96 5,07 5,17 5,27 5,50 5,79
20 3,58 3,96 4,23 4,44 4,62 4,77 4,90 5,01 5,11 5,20 5,43 5,71
24 3,53 3,90 4,17 4,17 4,54 4,68 4,81 4,92 5,01 5,10 5,32 5,59
30 3,49 3,84 4,10 4,30 4,46 4,60 4,72 4,82 4,92 5,00 5,21 5,47
40 3,44 3,79 4,04 4,23 4,39 4,52 4,64 4,74 4,82 4,90 5,11 5,36
60 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 4,73 4,81 5,00 5,24
4 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47 4,55 4,62 4,80 5,01

1 ! F = 0,99
J = n de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20

6 6,33 7,03 7,56 7,97 8,32 8,62 8,87 9,10 9,30 9,48 9,95 10,54
7 5,92 6,54 7,00 7,37 7,68 7,94 8,17 8,37 8,55 8,71 9,12 9,65
8 5,64 6,20 6,62 6,96 7,24 7,47 7,68 7,86 8,03 8,18 8,55 9,03
9 5,43 5,96 6,35 6,66 6,92 7,13 7,32 7,50 7,65 7,78 8,13 8,57
10 5,27 5,77 6,14 6,43 6,67 6,88 7,06 7,21 7,36 7,48 7,81 8,23
11 5,15 5,62 5,97 6,25 6,48 6,67 6,84 6,99 7,13 7,25 7,56 7,95
12 5,05 5,50 5,84 6,10 6,32 6,51 6,67 6,81 6,94 7,06 7,36 7,73
13 4,96 5,40 5,73 5,98 6,19 6,37 6,53 6,67 6,79 6,90 7,19 7,55
14 4,90 5,32 5,63 5,88 6,08 6,26 6,41 6,54 6,66 6,77 7,05 7,39
15 4,84 5,25 5,56 5,80 5,99 6,16 6,31 6,44 6,56 6,66 6,93 7,26
16 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35 6,46 6,56 6,82 7,15
18 4,70 5,09 5,38 5,60 5,79 5,94 6,08 6,20 6,31 6,41 6,66 6,97
20 4,64 5,02 5,29 5,51 5,69 5,84 5,97 6,09 6,19 6,28 6,52 6,82
24 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92 6,02 6,11 6,33 6,61
30 4,46 4,80 5,05 5,24 5,40 5,54 5,65 5,76 5,85 5,93 6,14 6,41
40 4,37 4,70 4,93 5,11 5,26 5,39 5,50 5,60 5,69 5,76 5,96 6,21
60 4,28 4,60 4,82 4,99 5,13 5,25 5,36 5,45 5,53 5,60 5,78 6,02
4 4,12 4,40 4,60 4,76 4,88 4,99 5,08 5,16 5,23 5,29 5,45 5,65
456 Anlisis de datos (vol. II)

Tabla M
Puntos crticos para el estadstico S+ de Wilcoxon
Valores sp que acumulan una probabilidad p con diferentes tamaos muestrales n

n s0,005 s0,01 s0,025 s0,05 s0,10 s0,20 s0,80 s0,90 s0,95 s0,975 s0,99 s0,995
4 0 0 0 0 1 3 7 9 10 10 10 10
5 0 0 0 1 3 4 11 12 14 15 15 15
6 0 0 1 3 4 6 15 17 18 20 21 21
7 0 1 3 4 6 9 19 22 24 25 27 28
8 1 2 4 6 9 12 24 27 30 32 34 35
9 2 4 6 9 11 15 30 34 36 39 41 43
10 4 6 9 11 15 19 36 40 44 46 49 51
11 6 8 11 14 18 23 43 48 52 55 58 60
12 8 10 14 18 22 28 50 56 60 64 68 70
13 10 13 18 22 27 33 58 64 69 73 78 81
14 13 16 22 26 32 39 66 73 79 83 89 92
15 16 20 26 31 37 45 75 83 89 94 100 104
16 20 24 30 36 43 51 85 93 100 106 112 116
17 24 28 35 42 49 58 95 104 111 118 125 129
18 28 33 41 48 56 66 105 115 123 130 138 143
19 33 38 47 54 63 74 116 127 136 143 152 157
20 38 44 53 61 70 83 127 140 149 157 166 172
21 44 50 59 68 78 91 140 153 163 172 181 187
22 49 56 67 76 87 100 153 166 177 186 197 204
23 55 63 74 84 95 110 166 181 192 202 213 221
24 62 70 82 92 105 120 180 195 208 218 230 238
25 69 77 90 101 114 131 194 211 224 235 248 256
26 76 85 99 111 125 142 209 226 240 252 266 275
27 84 94 108 120 135 154 224 243 258 270 284 294
28 92 102 117 131 146 166 240 260 275 289 304 314
29 101 111 127 141 158 178 257 277 294 308 324 334
30 110 121 138 152 170 191 274 295 313 327 344 355
31 119 131 148 164 182 205 291 314 332 348 365 377
32 129 141 160 176 195 219 309 333 352 368 387 399
33 139 152 171 188 208 233 328 353 373 390 409 422
34 149 163 183 201 222 248 347 373 394 412 432 446
35 160 175 196 214 236 263 367 394 416 434 455 470
36 172 187 209 228 251 279 387 415 438 457 479 494
37 184 199 222 242 266 295 408 437 461 481 504 519
38 196 212 236 257 298 312 429 459 484 505 529 545
39 208 225 250 272 314 329 451 482 508 530 555 572
40 221 239 265 287 331 347 473 506 533 555 581 599

Para n > 40, los puntos crticos sp de la distribucin del estadstico S+ de Wilcoxon pueden obte-
nerse utilizando la aproximacin normal: .
Apndice final. Tablas estadsticas 457

Tabla N
Puntos crticos para el estadstico DKS de Kolmogorov-Smirnov
Valores d correspondientes a diferentes niveles de significacin y tamaos muestrales n

Nivel de significacin

n 0,20 0,10 0,05 0,01 0,005 0,001

4 0,493 0,565 0,624 0,734 0,776 0,850


5 0,447 0,509 0,563 0,669 0,705 0,781
6 0,410 0,468 0,519 0,617 0,653 0,725
7 0,381 0,436 0,483 0,576 0,610 0,679
8 0,358 0,410 0,454 0,542 0,574 0,641
9 0,339 0,387 0,430 0,513 0,544 0,608
10 0,323 0,369 0,409 0,489 0,519 0,580
11 0,308 0,352 0,391 0,468 0,495 0,556
12 0,296 0,338 0,375 0,449 0,477 0,534
13 0,285 0,325 0,361 0,432 0,459 0,515
14 0,275 0,314 0,349 0,418 0,443 0,498
15 0,266 0,304 0,337 0,404 0,429 0,482
16 0,258 0,295 0,327 0,392 0,416 0,467
17 0,250 0,286 0,318 0,381 0,404 0,545
18 0,244 0,279 0,309 0,371 0,394 0,442
19 0,237 0,271 0,301 0,361 0,384 0,431
20 0,232 0,265 0,94 0,352 0,375 0,421
21 0,225 0,259 0,287 0,344 0,366 0,411
22 0,221 0,253 0,281 0,337 0,358 0,402
23 0,216 0,247 0,275 0,330 0,350 0,394
24 0,212 0,242 0,269 0,323 0,343 0,386
25 0,208 0,238 0,264 0,317 0,337 0,377
26 0,204 0,233 0,259 0,311 0,330 0,371
27 0,200 0,229 0,254 0,305 0,324 0,365
28 0,197 0,225 0,250 0,300 0,319 0,358
29 0,193 0,221 0,246 0,295 0,313 0,352
30 0,190 0,218 0,242 0,290 0,308 0,347
31 0,187 0,214 0,238 0,285 0,303 0,341
32 0,184 0,211 0,234 0,281 0,299 0,336
33 0,182 0,208 0,231 0,276 0,294 0,331
34 0,179 0,205 0,227 0,273 0,290 0,326
35 0,177 0,202 0,224 0,269 0,286 0,322
36 0,174 0,199 0,221 0,265 0,282 0,318
37 0,172 0,196 0,218 0,262 0,278 0,313
38 0,190 0,194 0,215 0,258 0,275 0,309
39 0,168 0,191 0,213 0,255 0,271 0,305
40 0,165 0,189 0,210 0,252 0,268 0,302

n > 40
458 Anlisis de datos (vol. II)

Tabla O
Puntos crticos para el estadstico U de Mann-Whitney
Valores u que acumulan una probabilidad con diferentes tamaos muestrales n1 y n2

n1 n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

4 0,001 10 10 10 10 10 10 11 11 11 12 12 12 13 13 14 14 14
0,005 10 10 11 11 12 12 13 13 14 14 15 16 16 17 17 18 19
0,010 10 11 12 12 13 14 14 15 16 16 17 18 18 19 20 20 21
0,025 11 12 13 14 15 15 16 17 18 19 20 21 22 22 23 24 25
0,050 12 13 14 15 16 17 18 19 20 21 22 23 25 26 27 28 29
5 0,001 15 15 15 15 16 17 17 18 18 19 19 20 21 21 22 23 23
0,005 15 16 17 17 18 19 20 21 22 23 23 24 25 26 27 28 29
0,010 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
0,025 17 18 19 21 22 23 24 25 27 28 29 30 31 33 34 35 36
0,050 18 20 21 22 24 25 27 28 29 31 32 34 35 36 38 39 41
6 0,001 21 21 21 21 23 24 25 26 26 27 28 29 30 31 32 33 34
0,005 22 23 24 25 26 27 28 29 31 32 33 34 35 37 38 39 40
0,010 23 24 25 26 28 29 30 31 33 34 35 37 38 40 41 42 44
0,025 24 25 27 28 30 32 33 35 36 38 39 41 43 44 46 47 49
0,050 25 27 29 30 32 34 36 38 39 41 43 45 47 48 50 52 54
7 0,001 28 28 29 30 31 32 34 35 36 37 38 39 40 42 43 44 45
0,005 29 30 32 33 35 36 38 39 41 42 44 45 47 48 50 51 53
0,010 30 32 33 35 36 38 40 41 43 45 46 48 50 52 53 55 57
0,025 32 34 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63
0,050 33 35 37 40 42 44 46 48 50 53 55 57 59 62 64 66 68
8 0,001 36 37 38 39 41 42 43 45 46 48 49 51 52 54 55 57 58
0,005 38 39 41 43 44 46 48 50 52 54 55 57 59 61 63 65 67
0,010 39 41 43 44 46 48 50 52 54 56 59 61 63 65 67 69 71
0,025 41 43 45 47 50 52 54 56 59 61 63 66 68 71 73 75 78
0,050 42 45 47 50 52 55 57 60 63 65 68 70 73 76 78 81 84
9 0,001 45 47 48 49 51 53 54 56 58 60 61 63 65 67 69 71 72
0,005 47 49 51 53 55 57 59 62 64 66 68 70 73 75 77 79 82
0,010 49 51 53 55 57 60 62 64 67 69 72 74 77 79 82 84 86
0,025 50 53 56 58 61 63 66 69 72 74 77 80 83 85 88 91 94
0,050 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100
10 0,001 56 57 59 61 62 64 66 68 70 73 75 77 79 81 83 85 88
0,005 58 60 62 65 67 69 72 74 77 80 82 85 87 90 93 95 98
0,010 59 62 64 67 69 72 75 78 80 83 86 89 92 94 97 100 103
0,025 61 64 67 70 73 76 79 82 85 89 92 95 98 101 104 108 111
0,050 63 67 70 73 76 80 83 87 90 93 97 100 104 107 111 114 118
11 0,001 67 69 71 73 75 77 79 82 84 87 89 91 94 96 99 101 104
0,005 69 72 74 77 80 83 85 88 91 94 97 100 103 106 109 112 115
0,010 71 74 76 79 82 85 89 92 95 98 101 104 108 111 114 117 120
0,025 73 76 80 83 86 90 93 97 100 104 107 111 114 118 122 125 129
0,050 75 79 83 86 90 94 98 101 105 109 113 117 121 124 128 132 136
Apndice final. Tablas estadsticas 459

Tabla O (continuacin)

n1 n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
12 0,001 79 81 83 86 88 91 93 96 98 102 104 106 110 113 116 118 121
0,005 82 82 88 91 94 97 100 103 106 110 113 116 120 123 126 130 133
0,010 84 87 90 93 96 100 103 107 110 114 117 121 125 128 132 135 139
0,025 86 90 93 97 101 105 108 112 116 120 124 158 132 136 140 144 148
0,050 88 92 96 100 105 109 111 117 121 126 130 134 139 414 147 151 156
13 0,001 93 95 97 100 103 106 109 112 115 118 121 124 127 130 134 137 140
0,005 95 99 102 105 109 112 116 119 123 126 130 134 137 141 145 149 152
0,010 97 101 104 108 112 115 119 123 127 131 135 139 143 147 151 155 159
0,025 100 104 108 112 116 120 125 129 133 137 142 146 151 155 159 164 168
0,050 102 107 111 116 120 125 129 134 139 143 148 153 157 162 167 172 176
14 0,001 107 109 112 115 118 121 125 128 131 135 138 142 145 149 152 156 160
0,005 110 113 117 121 124 128 132 136 140 144 148 152 156 160 164 169 173
0,010 112 116 119 123 128 132 136 140 144 149 153 157 162 166 171 175 179
0,025 115 119 123 128 132 137 142 146 151 156 161 165 170 175 180 184 189
0,050 117 122 127 132 137 142 147 152 157 162 167 172 177 183 188 193 198
15 0,001 122 125 128 133 135 138 142 145 149 153 157 161 164 168 172 176 180
0,005 126 129 133 137 141 145 150 154 158 163 167 172 176 181 185 190 194
0,010 128 132 136 140 145 149 154 158 163 168 172 177 182 187 191 196 201
0,025 131 135 140 145 150 155 160 165 170 175 180 185 191 196 201 206 211
0,050 133 139 144 149 154 160 165 191 176 182 187 193 198 204 209 215 221
16 0,001 139 142 145 148 152 156 160 164 168 172 176 180 185 189 193 197 202
0,005 142 146 150 155 159 164 168 173 178 182 187 192 197 202 207 211 216
0,010 144 149 153 158 163 168 173 178 183 188 193 198 203 208 213 219 224
0,025 148 152 158 163 168 174 179 184 190 196 201 207 212 218 223 229 235
0,050 151 156 162 167 173 179 185 191 197 202 208 214 220 226 232 238 244
17 0,001 156 159 163 167 171 175 179 183 188 192 197 201 206 211 215 220 224
0,005 160 164 169 173 178 183 188 193 198 203 208 214 219 224 229 235 240
0,010 162 167 172 177 182 187 192 198 203 209 214 220 225 231 236 242 247
0,025 165 171 176 182 188 193 199 205 211 217 223 229 235 241 247 253 259
0,050 169 174 180 187 193 199 205 211 218 224 231 237 243 250 256 263 269
18 0,001 175 178 182 186 190 195 199 204 209 214 218 223 228 233 238 243 248
0,005 178 183 188 193 198 203 209 214 219 225 230 236 242 247 253 259 264
0,010 181 186 191 196 202 208 213 219 225 231 237 242 248 254 260 266 272
0,025 184 190 196 202 208 214 220 227 233 239 246 252 258 265 271 278 284
0,050 188 194 200 207 213 220 227 233 240 247 254 260 267 274 281 288 295
19 0,001 194 198 202 206 211 216 220 225 231 236 241 246 251 257 262 268 273
0,005 198 203 208 213 219 224 230 236 242 248 254 260 265 272 278 284 290
0,010 200 206 211 217 223 229 235 241 247 254 260 266 273 279 285 292 298
0,025 204 210 216 223 229 236 243 249 256 263 269 276 283 290 297 304 310
0,050 208 214 221 228 235 242 239 256 263 271 278 285 292 300 307 314 321
20 0,001 214 218 223 227 232 237 243 248 253 259 265 270 276 281 287 293 299
0,005 219 224 229 235 241 247 253 259 265 271 278 284 290 297 303 310 316
0,010 221 227 233 239 245 251 258 264 271 278 284 291 298 304 311 318 325
0,025 225 231 238 245 251 259 266 273 280 287 294 301 309 316 323 330 338
0,050 229 236 243 250 258 265 273 280 288 295 303 311 318 326 334 341 349

Los puntos crticos de la cola derecha pueden obtenerse mediante: u1 ! = n1 ( N + 1) ! u .


460 Anlisis de datos (vol. II)

Tabla P
Puntos crticos para el estadstico H de Kruskal-Wallis
Valores h1! que acumulan una probabilidad 1 !

J n1 n2 n3 n4 n5 1 ! . 0,95 1 ! . 0,99

3 3 3 3 5,60 !
4 3 3 5,73 6,75
4 4 3 5,58 7,14
4 4 4 5,69 7,54
5 3 3 5,52 7,08
5 4 3 5,63 7,44
5 4 4 5,62 7,76
5 5 3 5,63 7,54
5 5 4 5,64 7,82
5 5 5 5,66 7,98
6 3 3 5,61 7,19
6 4 3 5,61 7,47
6 4 4 5,67 7,72
6 5 3 5,60 7,56
6 5 4 5,66 7,94
6 5 5 5,73 8,01
6 6 3 5,63 7,73
6 6 4 5,72 8,00
6 6 5 5,76 8,12
6 6 6 5,72 8,19
7 7 7 5,77 8,33
8 8 8 5,80 8,43
Valor asinttico 5,99 9,21

4 3 3 3 3 6,88 8,44
4 3 3 3 6,97 8,66
4 4 3 3 7,04 8,87
4 4 4 3 7,13 9,07
4 4 4 4 7,21 9,29
Valor asinttico 7,82 11,34

5 3 3 3 3 3 8,33 10,20
Valor asinttico 9,49 13,28
Apndice final. Tablas estadsticas 461

Tabla Q
Puntos crticos para el estadstico de Friedman
Valores que acumulan una probabilidad 1 !

J n 1 ! > 0,95 1 ! > 0,99


3 3 6,00 !
4 6,50 8,00
5 6,40 8,40
6 7,00 9,00
7 7,14 8,67
8 6,25 9,00
9 6,22 8,67
10 6,20 9,60
11 6,54 9,46
12 6,50 9,50
13 6,00 9,39
14 6,40 9,00
15 6,40 8,93
Valor asinttico 5,99 9,21

4 3 7,40 9,00
4 7,80 9,60
5 7,80 9,96
6 7,60 10,20
7 7,80 10,54
8 7,65 10,50
Valor asinttico 7,82 11,34

5 3 8,53 13,13
4 8,80 11,20
5 8,96 11,52
6 9,07 11,87
7 9,14 12,11
8 9,20 12,30
Valor asinttico 9,49 13,28

6 3 9,56 11,76
4 10,29 12,57
5 10,49 13,23
6 10,57 13,62
Valor asinttico 11,07 15,07
462 Anlisis de datos (vol. II)

Tabla R
Puntos crticos para el coeficiente de correlacin RS de Spearman
Valores r1 ! que acumulan una probabilidad 1 ! con diferentes tamaos muestrales n

n 1 ! = 0,95 1 ! = 0,975 1 ! = 0,99 1 ! = 0,995


5 0,900 ! ! !
6 0,829 0,886 0,943 !
7 0,714 0,876 0,893 !
8 0,643 0,738 0,833 0,881
9 0,600 0,683 0,783 0,833
10 0,564 0,648 0,745 0,794
11 0,523 0,623 0,736 0,818
12 0,497 0,591 0,703 0,780
13 0,475 0,566 0,673 0,745
14 0,457 0,545 0,646 0,716
15 0,441 0,525 0,623 0,689
16 0,425 0,507 0,601 0,666
17 0,412 0,490 0,582 0,645
18 0,399 0,476 0,564 0,625
19 0,388 0,462 0,549 0,608
20 0,377 0,450 0,534 0,591
21 0,368 0,438 0,521 0,576
22 0,359 0,428 0,508 0,562
23 0,351 0,418 0,496 0,549
24 0,343 0,409 0,485 0,537
25 0,336 0,400 0,475 0,526
26 0,329 0,392 0,465 0,515
27 0,323 0,385 0,456 0,505
28 0,317 0,377 0,448 0,496
29 0,311 0,370 0,440 0,487
30 0,305 0,364 0,432 0,478

Se verifica: r = !r1 ! .
Glosario de smbolos

aj niveles del factor A en un anlisis de varianza.


A medida del tamao del efecto (leguaje comn) equivalente al rea bajo la curva COR.
primer factor en los modelos factoriales de anlisis de varianza.
abj k combinacin entre el nivel j del factor A y el nivel k del factor B en un anlisis de va-
rianza.
AIQ amplitud intercuartil.
AT amplitud total.
B segundo factor en los modelos factoriales de anlisis de varianza.
bk niveles del factor B en un anlisis de varianza.
Bj j-simo coeficiente de regresin parcial en regresin lineal.
B j (Z ) j-simo coeficiente de regresin parcial tipificado o estandarizado en regresin lineal.
B (n, 1) distribucin de probabilidad binomial, con parmetros n y 1.
cj , ck , cjk coeficientes utilizados en las comparaciones lineales.
C coeficiente de contingencia.
CCI coeficiente de correlacin intraclase.
Ck centiles.
CVmedia coeficiente de variacin centrado en la media.
CVmediana coeficiente de variacin centrado en la mediana.
d, dX , dY medidas de asociacin ordinal de Somers.
DFBETAS i j diferencias entre coeficientes de regresin tipificados.
DFFITS i diferencias entre pronsticos.
Di diferencia entre dos puntuaciones directas.
distancia de Cook.
Dk deciles.
D KS estadstico de Kolmogorov-Smirnov.
DMS diferencia mnima significativa en las comparaciones mltiples.
Ei residuos.
E (i) residuos eliminados (regresin lineal).
Emx error mximo en los intervalos de confianza.
residuos studentizados (regresin lineal).
residuos eliminados studentizados (regresin lineal).
residuos tipificados o estandarizados (regresin lineal).
E (Y ) valor esperado de la variable Y.
f (Y ) funcin de probabilidad (o de densidad) de la variable Y.
F estadstico del contraste en el anlisis de varianza de un factor.
FA, FB, FAB estadsticos del contraste en los modelos factoriales de anlisis de varianza.
464 Anlisis de datos (vol. II)

distribucin de probabilidad F con gl1 y gl2 grados de libertad.


FIVj factores de inflacin de la varianza.
F (Y ) funcin de probabilidad (o de densidad) emprica acumulada de la variable Y.
F0 (Y ) funcin de probabilidad (o de densidad) terica acumulada de la variable Y.
gl grados de libertad.
hi valores de influencia (leverage) en la regresin lineal (diagonal de la matriz H).
H matriz hat.
H estadstico de Kruskal-Wallis.
H0 , H1 hiptesis nula y alternativa en los contrastes de hiptesis.
i i-simo valor de una variable; en variables categricas: i = 1, 2, ..., I ; en variables cuan-
titativas: i = 1, 2, ..., n.
I nmero de niveles o categoras de una variable categrica.
I, IX, IY coeficientes de incertidumbre (medidas de asociacin nominales basadas en la reduccin
proporcional del error).
IC intervalo de confianza para el parmetro .
j j-simo valor de una variable categrica: j = 1, 2, ..., J ( j-simo grupo).
J nmero de niveles de una variable categrica.
k k-simo valor de una variable categrica: k = 1, 2, ..., K (k-simo grupo)
K nmero de niveles de una variable categrica.
Li lmite inferior de un intervalo de confianza.
Ls lmite superior de un intervalo de confianza.
mi frecuencias tericas o esperadas en una tabla de contingencias unidimensional.
m ij frecuencias tericas o esperadas en una tabla de contingencias bidimensional.
MCA , MCB medias cuadrticas asociadas a los efectos principales de los factores A y B.
MCAB media cuadrtica asociada al efecto de la interaccin entre los factores A y B.
MCA S media cuadrtica error en un diseo de medidas repetidas.
MCE media cuadrtica intragrupos o error.
MCI media cuadrtica intergrupos.
MCS media cuadrtica intersujetos.
MdnY mediana de la variable Y.
M (n, i ) distribucin terica multinomial, con parmetros n y i .
Mr momento de orden r.
n nmero de casos (tamao muestral).
ni frecuencias absolutas (variable categrica).
nj nmero de casos en el grupo j ( j = 1, 2, ..., J ).
nij frecuencias conjuntas en una tabla de contingencias bidimensional.
ni+ frecuencias marginales de las filas en una tabla de contingencias bidimensional.
n+j frecuencias marginales de las columnas en una tabla de contingencias bidimensional.
n1 nmero de unos (xitos) en una variable dicotmica.
N nmero total de casos (tamao muestral) cuando hay varias muestras.
N (, ) distribucin de probabilidad normal, con parmetros y .
N (0, 1) distribucin de probabilidad normal tipificada.
OR odds ratio (razn de productos cruzados).
p nivel crtico o nivel de significacin observado en los contrastes de hiptesis.
nmero de variables independientes en un anlisis de regresin.
Glosario de smbolos 465

P1 proporcin de unos (xitos) en una variable dicotmica.


Pi frecuencia relativa en una variable categrica.
Pk percentiles.
PRA porcentaje de riesgo atribuible (fraccin etiolgica).
P (S ) probabilidad de un suceso.
P (S1 | S2) probabilidad condicional (probabilidad del suceso 1 dado el suceso 2).
q valor de la distribucin del rango studentizado.
Q estadstico de Cochran.
Qk cuartiles.
R nmero de rachas.
RA riesgo atribuible.
R i , Rij puntuaciones directas transformadas en rangos.
Ri+ , R+j suma de un conjunto de rangos.
RR riesgo relativo.
RS coeficiente de correlacin de Spearman.
R XY , R Y (1) coeficiente de correlacin simple.
2
R XY , R Y2 (1) coeficiente de determinacin simple.
R Y (12 ... p) coefciente de correlacin mltiple.
R Y2 (12 ... p) coeficiente de determinacin mltiple.
R Y2 (12 ... p)* coeficiente de determinacin mltiple corregido.
R 12 | 3 ... p coeficiente de correlacin parcial.
R 1(2 | 3 ... p) coeficiente de correlacin semiparcial.
S 1, S 2 suma de rangos (muestra 1, muestra 2).
S+, S! suma de rangos (positivos, negativos).
SY desviacin tpica insesgada de la variable Y.
SXY covarianza insesgada entre las variables X e Y.
2
SY varianza insesgada de la variable Y.
tgl distribucin terica t de Student con gl grados de libertad.
T variable distribuida segn el modelo de probabilidad t de Student.
suma total de un conjunto de puntuaciones.
Ti, Tj, Tjk suma parcial de un conjunto de puntuaciones.
U estadstico de Mann-Whitney.
V (Y ) varianza de la variable Y.
wj valores utilizados para realizar ponderaciones.
W coeficiente de concordancia de Kendall.
X2 variable distribuida segn el modelo de probabilidad ji-cuadrado.
X r2 estadstico de Friedman.
y, yi puntuaciones diferenciales de la variable Y.
Y, Yi puntuaciones directas de la variable Y.
Yij puntuaciones directas de la variable Y en el j-simo grupo.
Y_ijk puntuaciones directas de la variable Y en el jk-simo grupo.
Y_ media de la variable Y.
Y_j media de la variable Y en el j-simo grupo.
Y jk media de la variable Y en el jk-simo grupo.
Z, Z i puntuaciones tpicas.
466 Anlisis de datos (vol. II)

Letras griegas

nivel de significacin o riesgo en los contrastes de hiptesis y en los intervalos


de confianza; probabilidad asociada al error Tipo I.
C nivel de significacin por comparacin.
F nivel de significacin por familia de comparaciones.
probabilidad asociada al error Tipo II en los contrastes de hiptesis.
j j-simo coeficiente de regresin parcial en regresin lineal.
medida de asociacin gamma de Goodman y Kruskal.
diferencia entre medias estandarizada de Cohen (medida del tamao del efecto).
margen de equivalencia en los contrastes de equivalencia y no inferioridad..
grado de esfericidad de una matriz de varianzas-covarianzas.
2 medida de asociacin (proporcin de varianza comn o explicada).
2 medida de asociacin (proporcin de varianza comn o explicada).
forma genrica de identificar un parmetro.
forma genrica de identificar un estadstico utilizado como estimador.
ndice de acuerdo kappa de Cohen.
parmetro de no centralidad.
, X , Y medidas de asociacin nominales basadas en la reduccin proporcional del error.
Y valor esperado (media poblacional) de la variable Y.
j valor esperado (media poblacional) de la variable Y en el j-simo nivel del factor A.
jk valor esperado (media poblacional) de la variable Y en la jk-sima combinacin AB.
j+ valor esperado (media poblacional) de la variable Y en el j-simo nivel del factor A en
los K niveles del factor B.
notacin genrica para los grados de libertad.
1 proporcin terica en una variable dicotmica.
i proporcin terica en una variable categrica.
ij proporcin terica en una tabla de contingencias bidimensional.
i+ proporcin terica marginal en una tabla de contingencias bidimensional.
+ j proporcin terica marginal en una tabla de contingencias bidimensional.
smbolo del producto.
XY coeficiente de correlacin de Pearson en la poblacin.
desviacin tpica terica o poblacional de la variable Y.
varianza terica o poblacional de la variable Y.
smbolo del sumatorio.
X , Y medidas de asociacin nominales basadas en la reduccin proporcional del error.
a, b, c medidas de asociacin ordinales basadas en el nmero de concordancias y discordancias.
coeficiente de correlacin phi.
versin transformada del parmetro de no centralidad.
2gl distribucin terica de probabilidad ji-cuadrado con gl grados de libertad.
comparacin lineal.
2 medida de asociacin (proporcin de varianza comn o explicada)
1! nivel de confianza en los contrastes de hiptesis y en los intervalos de confianza.
1! potencia en los contrastes de hiptesis.
Referencias

Abad FJ, Olea J, Ponsoda J y Garca C (2010). Medicin en ciencias sociales y de la salud. Madrid: Sntesis.
Abelson RP (1995). Statistics as principled argument. Hillsdale, NJ: LEA.
Abelson RP (1997a). On the surprising longevity of flogged horses: Why there is a case for the significance test.
Psychological Science, 8, 12-15.
Abelson RP (1997b). A retrospective on the significance test ban of 1999 (if there were no significance tests,
they would be invented). In LL Harlow, SA Mulaik y JH Steiger (Eds), What if there were no significance
tests? (pgs 117-141). Hillsdale, NJ: LEA.
Abelson RP y Prentice DA (1997). Contrast tests of interaction hypotheses. Psychological Bulletin, 2, 315-328.
Agresti A (1984). Analysis of ordinal categorical data. New York: Wiley.
Agresti A (2002). Categorical data analysis (2 ed). New York: Wiley.
Agresti A (2007). An introduction to categorical data analysis (2 ed). New York: Wiley.
Algina J y Keselman HJ (1999). Comparing squared multiple correlation coefficients: Examination of an
interval and a test of significance. Psychological Methods, 4, 76-83.
Algina J y Keselman HJ (2003). Approximate confidence intervals for effect sizes. Educational and Psycholo-
gical Measurement, 63, 537-553.
Algina J, Keselman HJ y Penfield RD (2005). An alternative to Cohens standardized mean difference effect
size: A robust parameter and confidence interval in the two independent groups case. Psychological
Methods, 10, 317-328.
Algina J, Keselman HJ y Penfield RD (2006). Confidence intervals for an effect size when variances are not
equal. Journal of Modern Applied Statistical Methods, 5, 2-13.
Amn J (1979). Estadstica para psiclogos. Estadstica descriptiva (2 ed). Madrid: Pirmide.
Amn J (1984). Estadstica para psiclogos. Probabilidad y estadstica inferencial (3 ed). Madrid: Pirmide.
Ato M y Vallejo G (2007). Diseos experimentales en psicologa. Madrid: Pirmide.
Bakan D (1966). The test of significance in psychological research. Psychological Bulletin, 66, 423-437.
Balluerka N, Gmez J y Hidalgo D (2005). The controversy over null hypothesis significance testing revisited.
Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 1, 55-70.
Bangert R, Kulik JA y Kulik CLC (1983). Effect of coaching programs on achievement test performance.
Review of Educational Research, 53, 571-585.
Belsley DA, Kuh E y Welsch RE (1980). Regression diagnostics: Identifying influential data and sources of
collinearity. New York: Wiley.
Berry WD (1993). Understanding regression assumptions. Newbury Park, CA: Sage.
Berry WD y Feldman S (1985). Multiple regression in practice. Beverly Hills, CA: Sage.
Bird KD (2002). Confidence intervals for effect sizes in analysis of variance. Educational and Psychological
Measurement, 62, 197-226.
Blair RC y Higgins JJ (1985). Comparisons of the power of the paired samples t test to that of Wilcoxons
signed-ranks test under various population shapes. Psychollogical Bulletin, 97, 119-128.
Blair RC, Higgins JJ y Smitley DS (1980). On the relative power of the U and t test. British Journal of
Mathematical and Statistical Psychology, 33, 114-120.
468 Anlisis de datos (vol. II)
Bock RD (1975). Multivariate statistical methods in behavioral research. New York: McGraw-Hill.
Bonett DG y Wright TA (2000). Sample size requirements for estimating Pearson, Kendall, and Spearman
correlations. Psychometrika, 65, 23-28.
Bonett DG y Wright TA (2007). Comments and recommendations regarding the hypothesis testing controversy.
Journal of Organizational Behavior, 28, 647659.
Boss DD y Hughes-Oliver JM (2000). How large does n have to be for the Z and t intervals. American Sta-
tistician, 54, 121-128.
Bowker AH (1948). A test for symmetry in contingency tables. Journal of the American Statistical Association,
43, 572-574.
Box GEP (1950). Problems in the analysis of the growth and wear curves. Biometrics, 6, 362-389.
Box GEP (1953). Non-normality and tests on variance. Biometrika, 40, 318-335.
Box GEP (1954a). Some theorems on quadratic forms applied in the study of analysis of variance problems.
I: Effects of inequality of variance in the one-way classification. Annals of Mathematical Statistics, 25,
290-302.
Box GEP (1954b). Some theorems on quadratic forms applied in the study of analysis of variance problems.
II: Effects of inequality of variance and of correlation between errors in the two-way classification. Annals
of Mathematical Statistics, 25, 484-498.
Breslow NE (1996). Statistics in epidemiology: The case-control study. Journal of the American Statistical
Association, 91, 14-28.
Breslow NE y Day NE (1980). Statistical methods in cancer research. I: The analysis of case-control studies.
Lyon: IARC.
Breslow NE y Day NE (1987). Statistical methods in cancer research. II: The design and analysis of cohort
studies. Lyon: IARC.
Brown M y Forsythe A (1974a). Robust tests for the equality of variances. Journal of the American Statistical
Association, 69, 364-367.
Brown MB y Forsythe AB (1974b). The ANOVA and multiple comparisons for data with heterogeneous
variances. Biometrics, 30, 719-724.
Budescu DV y Appelbaum MI (1981). Variance stabilizing transformations and the power of the F test. Journal
of Educational Statistics, 6, 55-74.
Caruso JC y Cliff N (1997). Empirical size, coverage, and power of confidence intervals for Spearmans rho.
Educational and Psychological Measurement, 57, 637-654.
Carroll RM y Nordholm LA (1975). Sampling characteristics of Kelleyss 2 and Hayss 2. Educational and
Psychological Measurement, 35, 541-554.
Chambers JM, Cleveland WS, Kleiner B y Tukey PA (1983). Graphical methods for data analysis. Belmont,
CA: Wadsworth.
Chase LJ y Tucker RK (1977). Statistical power: Derivation, development and data-analytic implications.
Psychological Record, 26, 473-486.
Chatterjee S y Hadi AS (1988). Sensitivity analysis in regression. New York: Wiley.
Chow SL (1988). Significance test or effect size? Psychological Bulletin, 103, 105-110.
Chow SL (1989). Significance tests and deduction: Reply to Folger (1989). Psychological Bulletin, 106, 161-165.
Chow SL (1991). Some reservations about power analysis. American Psychologist, 46, 1088-1089.
Chow SL (1996). Statistical significance: Rationale, validity, and utility. Thousand Oaks, CA: Sage.
Chow SL (1998). What statistical significance means. Theory and Psychology, 8, 323-330.
Cochran WG (1941). The distribution of the largest of a set of estimated variances as a fraction of their total.
Annals of Eugenics, 11, 47-52.
Cochran WG (1950). The comparison of percentages in matched samples. Biometrika, 37, 256-266.
Cochran WG (1954). Some methods for strengthening the common 2 tests. Biometrics, 10, 417-451.
Cohen J (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement,
20, 37-46.
Cohen J (1966). Some statistical issues in psychological research. En BB Wolman (Ed), Handbook of clinical
psychology (pgs 95-121). New York: McGraw-Hill.
Referencias 469
Cohen J (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement of partial
credit. Psychological Bulletin, 70, 213-220.
Cohen J (1988). Statistical power analysis for the behavioral sciences (2 ed). New York: Academic Press.
Cohen J (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.
Cohen J (1992a). A power primer. Psychological Bulletin, 112, 155-159.
Cohen J (1992b). Statistical power analysis. Current Directions in Psychological Science, 1, 98-101.
Cohen J (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003.
Cohen J (1995). The earth is round (p < .05): Rejoinder. American Psychologist, 50, 1103.
Cohen J, Cohen P, West SG y Aiken LS (2003). Applied multiple regression/correlation analysis for the
behabioral sciences (3 ed). Mahwah, NJ: LEA.
Conover WJ (1980). Practical nonparametric statistics (2 ed). New York: Wiley.
Conover WJ, Johnson ME y Johnson MM (1981). A comparative study of test for homogeneity of variances
with applications to the outer continental self bidding data. Technometrics, 23, 351-361.
Conover WJ y Kemp KE (1976). Comparisons of the asymptotic efficiencies of two sample tests for discrete
distributions. Communications in Statistics - Theory and Methods, 5, 1-15.
Cook RD (1977). Detection of influential observations in linear regression. Technometrics, 19, 15-18.
Cook RD (1979). Influential observations in linear regression. Journal of the American Statistical Association,
74, 169-174.
Cook RD (1993). Exploring partial residual plots. Technometrics, 35, 351-362.
Cook RD y Weisberg, S. (1982). Residuals and influence in regression. New York: Chapman and Hall.
Cornell JE, Young DM, Seaman SL y Kirk RE (1992). Power comparisons of eight tests for sphericity in re-
peated measures designs. Journal of Educational Statistics, 27, 909-949.
Cornfield J (1951). A method for estimating comparative rates from clinical data. Applications to cancer of
lung, breast and cervix. Journal of the National Cancer Institute, 11, 1269-1275.
Cortina JM y Dunlap WP (1997). On the logic and purpose of significance testing. Psychological Methods, 2,
171-172.
Cumming G y Finch S (2005). Inference by eye: Confidence intervals and how to read pictures of data. Ame-
rican Psychologist, 60, 170180.
Dallal GE y Wilkinson L (1986). An analytic approximation to the distribution of Lilliefors test statistics for
normality. The American Statistician, 40, 294-296 (correccin: 41, 248).
Dar R (1998). Null hypothesis tests and theory corroboration: Defending NHSTP out of context. Behavioral
and Brain Sciences, 21, 196-197.
Darlington RB (1990). Regression and linear models. New York: McGraw-Hill.
Davidson ML (1972). Univariate versus multivariate testsin repeated measures experiments. Psychological
Bulletin, 77, 446-452.
DeCoster J, Iselin AMR y Gallucci M (2009). A conceptual and empirical examination of justifications for
dichotomization. Psychological Methods, 14, 349-366.
Delaney HD y Vargha A (2002). Comparing several robust tests of stochastic equality with ordinally scaled
variables and small to moderate sized samples. Psychological Methods, 7, 485-503.
Dineen LC y Blakesley BC (1973). Algorithm AS 62: Generator for the sampling distribution of the Mann-
Whitney U statistic. Applied Statistics, 22, 269-273.
Draper NR y Smith H (1998). Applied regression analysis (3 ed). New York: Wiley.
Duncan DB (1955). Multiple range and multiple F tests. Biometrics, 11, 1-42.
Dunn CW (1961). Multiple comparisons among means. Journal of the American Statistical Association, 56,
52-64.
Dunnett CW (1955). A multiple comparison procedure for comparing several treatments with a control. Journal
of the American Statistical Association, 50, 1096-1121.
Dunnett CW (1980a). Pairwise multiple comparisons in the homogeneous variance, unequal sample size case.
Journal of the American Statistical Association, 75, 789-795.
Dunnett CW (1980b). Pairwise multiple comparisons in the unequal variance case. Journal of the American
Statistical Association, 75, 795-800.
470 Anlisis de datos (vol. II)
Dunnett CW y Gent M (1996). An alternative to the use of two-sided tests in clinical trials. Statistics in Me-
dicine, 15, 1729-1738.
Durbin J y Watson GS (1950). Testing for serial correlation in least-squares regression I. Biometrika, 37, 409-438.
Durbin J y Watson GS (1951). Testing for serial correlation in least-squares regression II. Biometrika, 38, 159-178.
Durbin J y Watson GS (1971). Testing for serial correlation in least-squares regression III. Biometrika, 58, 1-19.
Einot I y Gabriel KR (1975). A study of the powers of several methods of multiple comparisons. Journal of the
American Statistical Association, 70, 574-583.
Erdfelder E, Faul F y Buchner A (1996). GPOWER: A general power analysis program. Behavior Research
Methods, Instruments and Computers, 28, 1-11.
Everitt BS y Howell DC (2005). Encyclopedia of statistics in behavioral science (vol 2, pgs 929-933).
Chichester, Sussex: Wiley.
Falk R (1998). In criticism of the null hypothesis statistical test. American Psychologist, 53, 798-799.
Falk R y Greenbaum CW (1995). Significance tests die hard: The amazing persistence of a probabilistic
misconception. Theory and Psychology, 5, 75-98.
Feinstein AR y Cicchetti DV (1990). High agreement but low kappa. I: The problems of two paradoxes. Journal
of Clinical Epidemiology, 43, 543-549.
Festinger L (1946). The significance of difference between means without reference to the frequency
distribution function. Psychometrika, 11, 97-105.
Fisher RA (1924). The conditions under which X 2 measures the discrepancy between observation and
hypothesis. Journal of the Royal Statistical Society, 87, 442-450.
Fisher RA (1925). Statistical methods for research workers. Edinburg: Oliver and Boyd.
Fisher RA (1935). Design of experiments (5 ed). Edinburgh: Oliver and Boyd.
Fleiss JL (1981). Statistical methods for rates and proportions. Nueva York: Wiley.
Fleiss JL (1986). The design and analysis of clinical experiments. New York: Wiley.
Fleiss JL y Cohen J (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as
measures of reliability. Educational and Psychological Measurement, 33, 633-639.
Fleiss JL, Cohen J y Everitt BS (1969). Large sample standard errors of kappa and weighted kappa. Psycho-
logical Bulletin, 72, 323-327.
Fleming ThR (2008). Current issues in non-inferiority trials. Statistics in Medicine, 27, 317332.
Fowler RL (1985). Point estimates and confidence intervals in measures of association. Psychological Bulletin,
98, 160-165.
Fox J (1991). Regression diagnostics. Newbury Park, CA: Sage.
Fox J (1997). Applied regression analysis, linear models and related methods. Thousand Oaks, Park, CA: Sage.
Franco M y Vivo JM (2007). Anlisis de curvas ROC. Principios bsicos y aplicaciones. Madrid: La Muralla.
.Freeman LC (1986). Order-based statistics and monotonicity: A family of order-based measures of association.
Journal of Mathematical Sociology, 12, 49-69.
Friedman M (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance.
Journal of the American Statistical Association, 61, 1081-1096.
Friedman H (1968). Magnitude of experimental effect and a table for its rapid estimation. Psychological
Bulletin, 70, 245-251.
Frick RW (1996). The appropriate use of null hypothesis testing. Psychological Methods, 1, 379-390
Games PA (1973). Type IV errors revised. Psychological Bulletin, 80, 304-307.
Games PA (1983). Curvilinear transformation of the dependent variable. Psychological Bulletin, 93, 382-387.
Games PA y Howell JF (1976). Pairwise multiple comparison procedures with unequal ns and/or variances:
A Monte Carlo study. Journal of Educational Statistics, 1, 113-125.
Games PA, Keselman HJ y Rogan JC (1981). Simultaneous pairwise multiple comparison procedures for means
when sample sizes are unequal. Psychological Bulletin, 90, 594-598.
Games PA y Lucas PA (1966). Power of the analysis of variance of independent groups on non-normal and
normally transformed data. Educational and Psychological Measurement, 26, 311-327.
Geisser S y Greenhouse SW (1958). An extension of Box results on the use of F distribution in multivariate
analysis. Annals of Mathematical Statistics, 29, 885-891.
Referencias 471
Gigerenzer G (1993). The superego, the ego, and the id in statistical reasoning. En G Keren y C Lewis (Eds),
A handbook for data analysis in the behavioral sciences. Methodological issues (pgs 311-339). Hillsdale,
NJ: LEA.
Glass GV (1976). Primary, secondary, and meta-analysis of research. Educational Researcher, 5, 3-8.
Glass GV, McGraw B y Smith ML (1981). Meta-analysis in social research. Beberly-Hills, CA: Sage.
Glass GV, Peckham PD y Sanders JR (1972). Consequences of failure to meet assumptions underlying the fixed
effects analysis of variance and covariance. Review of Educational Research, 42, 237- 288.
Good PI y Lunneborg C (2006). Limitations of the analysis of variance. Journal of Modern Applied Statistical
Methods, 5, 41-43.
Goodman LA y Kruskal WH (1979). Measures of association for cross classifications. New York: Springer.
Gorsuch RL (1991). Things learned from another perspective (so far). American Psychologist, 46, 1089-1090.
Gosset WS (Student) (1927). Errors of routine analysis. Biometrika, 19, 151-164.
Grayson D (2004). Some myths and legends in quantitative psychology. Understanding Statistics, 3, 101-134.
Green SB (1991). How many subjects dos it take tod a regression analysis. Multivariate Behavioral Research,
26, 499-510.
Greenhouse SW y Geisser S (1959). On methods in the analysis of profile data. Psychometrika, 24, 95-112.
Hagen RL (1997). In praise of the hypothesis statistical test. American Psychologist, 52, 15-24.
Hagen RL (1998). A further look at wrong reasons to abandon statistical testing. American Psychologist, 53,
801-803.
Hanley JA y McNeil BJ (1982). The meaning and use of the area under a receiver operating characteristic
(ROC) curve. Radiology, 143, 29-36.
Hardy M (1993). Regression with dummy variables. Newbury Park, CA: Sage.
Hardy M y Briman A (Eds) (2004). Handbook of data analysis. London: Sage.
Harlow LL, Mulaik SA y Steiger JH (1997). What if there were no significance test. Mahwah, NJ: LEA.
Harrell FE (2001). Regression modeling strategies: With applications to linear models, logistic regression, and
survival analysis. New York: Springer-Veralg.
Harris RJ (2001). A primer of multivariate statistics (3 ed). Mahwah, NJ: LEA.
Hartley HO (1940). Testing the homogeneity of a set of variances. Biometrika, 31, 249-255.
Hartley HO (1950). The maximum F-ratio as a short-cut test for heterogeneity of variance. Biometrika, 37,
308-312.
Harwell MR, Rubinstein EN, Hayes WS y Olds CC (1992). Summarizing Monte Carlo results in methodo-
logical research: The one- and two- ANOVA cases. Journal of Educational Statistics, 17, 315-339.
Hays WL (1963). Statistics. New York: Holt, Rinehart and Winston.
Hays WL (1994). Statistics (5 ed). New York: Holt, Rinehart and Winston.
Hedges LV (1981). Distribution theory for Glasss estimator of effect size and related estimators. Journal of
Educational Statistics, 6, 107-128.
Hedges LV (1982). Estimation of effect size from a series of independent experiments. Psychological Bulletin,
91, 490-499.
Hedges LV y Olkin I (1984). Nonparametric estimators of effect size in meta-analysis. Psychological Bulletin,
96, 573-580.
Hedges LV y Olkin I (1985). Statistical methods for meta-analysis. New York: Academic Press.
Henderson DA y Denison DR (1989). Stepwise regression in social and psychological research. Psychological
Reports, 64, 251-257.
Hoaglin DC y Welsch R (1978). The hat matrix in regression and ANOVA. American Statistician, 32, 17-22.
Hochberg Y (1974). Some generalizations of the T-method in simultaneous inference. Journal of Multivariate
Analysis, 4, 224-234.
Hochberg Y y Tamhane AC (2009). Multiple comparison procedures (2 ed). New York: Wiley.
Holland BS y Copenhaver MD (1988). Improved Bonferroni-type multiple testing procedures. Psychological
Bulletin, 104, 145-149.
Horsnell G (1953). The effect of unequal groups variances on the F-test for homogeneity of group means.
Biometrika, 40, 128-136.
472 Anlisis de datos (vol. II)
Howell DC (2002). Statistical methods for psychology (5 ed). Belmont, CA: Thomson Wadsworth.
Hsu JC (1996). Multiple comparisons: Theory and methods. New York: Chapman and Hall.
Hsu LM (2004). Biases of success rate differences shown in binomial effect size displays. Psychological Me-
thods, 9, 183-197.
Huberty CJ (1989). Problems with stepwise methods. Better alternatives. En B Thomson (Ed), Advances in
social science methodology (vol 1, pgs 43-70). Greenwich, CT: JAI Press.
Hunter JE (1997). Needed: A ban on the significance test. Psychological Science, 8, 3-7.
Hunter JE y Schmidt FL (2004). Methods of meta-analysis (2 ed). Thousand Oaks, CA: Sage.
Huynh H (1978). Some approximate tests for repeated measurement designs. Psychometrika, 43, 161-175.
Huynh H (1982). A comparison of four approaches to robust regression. Psychological Bulletin, 92, 505-512.
Huynh H y Feldt LS (1970). Conditons under which mean square ratios in repeated measurements designs have
exacta F-distributions. Journal of the American Statistical Association, 65, 1582-1589.
Huynh H y Feldt LS (1976). Estimation of the Box correction for degrees of freedom from sample data in
randomized block and split-plot design. Journal of Educational Statistics, 1, 69-82.
Iman RL y Conover WJ (1983). A modern approach to statistics. New York: Wiley.
Iman RL y Davenport JM (1980). Approximations of the critical region of the Friedman statistics. Commu-
nications in Statistics - Theory and Methods, 9, 571-595.
Jaccard J (1998). Interaction effects in factorial analysis of variance. Thousand Oaks, CA: Sage.
Jaccard J, Becker MA y Wood G (1984). Pairwise multiple comparison procedures: A review. Psychological
Bulletin, 96, 589-596.
Jaccard J y Turrisi R (2003). Interaction effects in multiple regression. Thousand Oaks, CA: Sage.
Jagers P (1980). Invariance in the linear model: An argument for chi-square and F in non-normal situations.
Mathematische Operationsforschung und Statistik, 11, 455-464.
Jensen DR (1982). Efficiency and robustness in the use of repeated measurements. Biometrics, 38, 813-825.
Jensen DR (1987). Topics in the analysis of repeated measurements. En H Bozdogan y AK Gupta (Eds), Mul-
tivariate statistical modeling and data analysis (pgs 147-161). Nwe York: Reidel.
John S (1971). Some optimal multivariate tests. Biometrika, 58, 123-127.
John S (1972). The distribution of a statistic used for testing sphericity of normal distributions. Biometrika, 59,
169-173.
Judd CM y Kenny D (1981). Estimating the effects of social interventions. Cambridge, MA: Cambridge Uni-
versity Press.
Kaul S, Diamond GA (2006). Good enough: A primer on the analysis and interpretation of noninferiority trials.
Annals of Internal Medicine, 145, 62-69.
Kelley K (2005). The effects of non-normal distributions on confidence intervals around the standardized mean
difference: Bootstrap and parametric confidence intervals. Educational and Psychological Measurement,
65, 51-69.
Kelley TL (1935). An unbiased correlation ratio measure. Proceedings of the National Academy of Sciences,
21, 554-559.
Kendall MG (1938). A new measure of rank correlation. Biometrika, 30, 81-93.
Kendall MG (1945). The treatment of ties in rank problems. Biometrika, 33, 239-251.
Kendall MG (1970). Rank correlation methods (3 ed). London: Griffi.
Kendall MG y Babington-Smith B (1939). The problem of m rankings. The Annals of Mathematical Statistics,
10, 275-287.
Kenny DA y Judd CM (1986). Consequences of violating the independence assumption in analysis of variance.
Psychological Bulletin, 99, 422-431.
Keppel G y Wickens ThD (2004). Design and analysis. A researchers handbook (4 ed). Englewood Cliffs,
NJ: Prentice-Hall.
Keselman HJ, Games PA y Rogan JC (1979). An addendum to A comparison of the modified Tukey and
Scheff methods of multiple comparisons for pairwise contrasts. Journal of the American Statistical
Association, 74, 626-627.
Keselman HJ y Keselman JC (1988). Repeated measures multiple comparison procedures: Effects of violating
multisample sphericity in unbalanced designs. Journal of Educational Statistics, 13, 215-226.
Referencias 473
Keselman HJ, Keselman JC y Games PA (1991). Maximum familywise type I error rate: The least signifi-
cant differende, Newman-Keuls, and other multiple comparison procedures. Psychological Bulletin, 110,
155-161.
Keselman HJ, Keselman JC y Shaffer JP (1991). Multiple pairwise comparisons of repeated measures means
under violation of multisample sphericity. Psychological Bulletin, 110, 162-170.
Keselman HJ, Lix LM y Kowalchuk RK (1998). Multiple comparison procedures for trimmed means.
Psychological Methods, 3, 123-141.
Keselman HJ y Rogan JC (1978). A comparison of the modified Tukey and Scheff methods of multiple
comparisons. Journal of the American Statistical Association, 73, 47-52.
Keselman HJ, Rogan JC, Mendoza JL y Breen LJ (1980). Testing the validity conditions of repeated measures
F tests. Psychological Bulletin, 87, 479-481.
Keuls M (1952). The use of studentized range in connection with an analysis of variance. Euphytica, 1, 112-122.
Kirk RE (1995). Experimental design. Procedures for the behavioral sciences (3 ed). Belmont, CA: Brooks/
Cole Publishing Company.
Kirk RE (1996). Practical significance: A concept whose time has come. Educational and Psychological Mea-
surement, 56, 746-759.
Kleinbaum DJ, Kupper LL y Morgenstern H (1982). Epidemiologic research. Principles and quantitative me-
thods. Mew York: Van Nostrand Reinhold.
Kline RB (2004). Beyond significance testing. Reforming data analysis methods in behavioral research. Was-
hington, DC: American Psychological Association.
Kohr RL y Games PA (1974). Robustness of analysis of variance, the Welch procedure, and a Box procedure
to heterogeneous variances. Journal of Experimental Education, 43, 61-69.
Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. Giornale dell Istituto
Italiano degli Attuari, 4, 83-91.
Kraemer HC y Andrews G (1982). A nonparametric technique for meta-analysis effect size calculation. Psy-
chological Bulletin, 91, 404-412.
Kramer CY (1956). Extension of multiple range test to group means with unequal numbers of replications.
Biometrics, 12, 307-310.
Kruskal JB (1978). Transformations of data. En WH Kruskal y JM Tanur (Eds), International Encyclopedia
of Statistics (pgs 1044-1056). New York: Free Press.
Kruskal WH y Wallis WA (1952). Use of ranks on one-criterion variance analysis. Journal of the American
Statistical Association, 47, 583-621 (aparecen correcciones en vol 48, pgs 907-911).
Kulinska E y Staudte RG (2006). Interval estimates of weighted effect sizes in the one-way heteroscedastic
ANOVA. British Journal of Mathematical and Statistical Psychology, 59, 97-111.
Kvlseth TO (1991). A coefficient of agreement for nominal sacales: An asymetric version of kappa. Educa-
tional and Psychological Measurement, 51, 95-101.
Labovitz S (1968). Criteria for selecting a significance level: A note on the sacredness of .05. American So-
ciologist, 3, 200-222.
Landis JR y Koch GG (1977). The measurement of observer agreement for categorical data. Biometrics, 33,
159-174.
Lashley BR (1998). A defense of statistical power analysis. Behavioral and Brain Sciences, 21, 209-210.
Len OG y Montero I (2003). Mtodos de investigacin en psicologa y educacin (3 ed). Madrid: McGraw-Hill.
Levene H (1960). Robust tests for the equality of variances. En J. Olkin (Ed), Contributions to probability and
statistics (pgs 278-292). Palo Alto, CA: Stanford University Press.
Levin JR y Serlin RC (2000). Changing students perspectives of McNemar test of change. Journal of Statistics
Education, 8 (2) [online].
Levine DW y Dunlap WP (1982). Power of the F test with skewed data: Should one transform or not? Psycho-
logical Bulletin, 92, 272-280.
Levine DW y Dunlap WP (1983). Data transformation, power, and skew: A rejoinder to Games. Psychological
Bulletin, 93, 596-599.
Levy P (1967). Substantive significance of significant differences between groups. Psychological Bulletin, 67,
37-40.
474 Anlisis de datos (vol. II)
Lewandowsky S y Maybery M (1998). The critics rebutted: A pyrrhic victory. Behavioral and Brain Sciences,
21, 210-211.
Lewis-Beck MS (1980). Applied regression. An introduction. Beverly-Hills, CA: Sage.
Lillieffors HW (1967). On the Kolmogorov-Smirnov test for normality with mean and variance unknown.
Journal of the American Statistical Association, 62, 399-402.
Lix LM, Keselman JC y Keselman HJ (1996). Consequences of assumption violations revisited: A quantitative
review of alternatives to the one-way analysis of variance F test. Review of Educ. Research, 66, 579-619.
Luh WM (1992). Heterogeneous variances in one-way fixed model ANOVA: Variance-stabilizing transfor-
mations and other alternatives. Dissertation Abstracts International, 53, DA9301212.
Macdonald RR (2002). The incompleteness of probability models and the resultant implications for theories of
statistical inference. Understanding Statistics, 1, 167-189.
Mahalanobis PC (1936). On the generalized distance in statistics. Procedures National Science India, 2, 49-55.
Mann HB y Whitney DR (1947). On a test of whether one of two random variables is stochastically larger than
the other. Annals of Mathematical Statistics, 18, 50-60.
Mantel N y Haenszel W (1959). Statistical aspects of the analysis of data from retrospective studies of disease.
Journal of the National Cancer Institute, 22, 719-748.
Marascuilo LA y McSweeney M (1977). Nonparametric and distribution-free methods. Monterrey, CA:
Brooks/Cole Publishing Company.
Markus KA (2001). The converse inequality argument against tests of statistical significance. Psychological
Methods, 6, 147-160.
Mauchly JW (1940). Significance test for sphericity of a normal n-variate distribution. Annals of Mathematical
Statistics, 11, 204-209.
Maxwell SE (1980). Pairwise multiple comparisons in repeated measures designs. Journal of Educational Sta-
tistics, 5, 269-287.
Maxwell SE, Camp CJ y Arvey RD (1981). Measures of strength of association: A comparative examination.
Journal of Applied Psychology, 66, 525-534.
Maxwell SE y Delaney HD (2004). Designing experiments and analyzing data (2 ed). Mahwah, NJ: LEA.
McDonald RP (1997). Goodness of approximation in the linear model. En LL Harlow, SA Mulaik y JH Steiger
(Eds), What if there were no significance tests? (pgs 199-219). Hillsdale, NJ: LEA.
McFaden D (1974). The measurement of urban travel demand. Journal of Public Economics, 3, 303-328.
McGrath RE (1998). Significance testing: Is there something better? American Psychologist, 53, 796-797.
McGrath RE y Meyer GJ (2006). When effect sizes disagree: The case of r and d. Psychological Methods, 11,
386-401.
McGraw KO y Wong SP (1992). A common language effect size statistic. Psychological Bulletin, 111, 361-365.
McGraw KO y Wong SP (1996). Forming inferences about some intraclass correlation coefficients. Psycholo-
gical Methods, 1, 30-46.
McNemar Q (1947). Note on the sampling error of te difference between correlated proportions or percentages.
Psychometrika, 12, 153-157.
Meehl PE (1967). Theory testing in psychology and in physics: A methodological paradox. Philosophy of
Science, 34, 103-115.
Meehl PE (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft
psychology. Journal of Consulting and Clinical Psychology, 46, 806-834.
Meehl PE (1990). Why summaries of research on psychological theories are often uninterpretable. Psycho-
logical Reports, 66, 195-244.
Meehl PE (1997). The problem is epistemology, not statistics: Replace significance tests by confidence intervals
and quantify accuracy of risky numerical predictions. In LL Harlow, SA Mulaik y JH Steiger (Eds), What
if there were no significance tests? (pgs 391-423). Hillsdale, NJ: LEA.
Mendoza JL (1980). A significance test for multisample sphericity. Psychometrika 45, 495-498.
Meyer DL (1991). Misinterpretation of interactions effects: A reply to Rosnow and Rosenthal. Psychological
Bulletin, 110, 571-573.
Micceri T (1989). The unicorn, the normal curve, and other improbable creatures. Psychological Bulletin, 105,
156-166.
Referencias 475
Miettinen OS (1976). Estimability and estimation in case-referent studies. American Journal of Epidemiology,
103, 226-235.
Miles JNV y Banyard P (2007). Understanding and using statistics in psychology. A practical introduction.
Thousand Oaks, CA: Sage.
Miller RG (1981). Simultaneous statistical inference (2 ed). New York: McGraw-Hill.
Milligan GW (1987). The use of the arc-sine transformation in the analysis of variance. Educational and Psy-
chological Measurement, 47, 563-573.
Mitzel HC y Games PA (1981). Circularity and multiple comparisons in repeated measures designs. British
Journal of Mathematical and Statistical Psychology, 34, 253-259.
Montgomery DC, Johnson LA y Gardiner JS (1990). Forecasting and time series analysis (2 ed). New York:
McGraw-Hill.
Montgomery DC, Peck EA y Vining GG (2001). Introduction to linear regression analysis (3 ed). New
York: Wiley.
Morrison DE y Henkel RE (Eds) (1970). The significant test controversy: A reader. Chicago, IL: Aldine.
Moses LE (1952). A two sample test. Psychometrika, 17, 239-247.
Murphy KR (1997). Editorial. Journal of Applied Psychology, 82, 3-5.
Mulaik SA, Raju NS y Harshman RA (1997). There is a time and place for significance testing. En LL Harlow,
SA Mulaik y JH Steiger (Eds), What if there were no significance tests? (pgs 65-116). Hillsdale, NJ: LEA.
Myers JL y Well AD (2003). Research design and statistical analysis (2 ed). Mahwah, NJ: LEA.
Nagao H (1973). On some test criteria for covariance matrix. The Annals of Statistics, 1, 700-709.
Neter J, Kutner MH, Nachtscheim CJ y Wasserman W (1996). Applied linear statistical models (4 ed). Boston:
McGraw-Hill.
Newman D (1939). The distribution of the range in samples of a normal population, expressed in terms of an
independent estimate of standard deviation. Biometrika, 31, 20-30.
Neyman J y Pearson ES (1928). On the use and interpretation of certain test criteria for purposes of statistical
inference. Biometrika, 20A, 175-240 (1 parte), 263-294 (2 parte).
Nijsse M (1988). Testing the significance of Kendalls and Spearmans rs. Psychological Bulletin, 103, 235-237.
Nikerson RS (2000). Null hypothesis significance testing: A review of an old and continuing controversy.
Psychological Methods, 5, 241-301.
Noether GA (1967). Elements of nonparametric statistics. New York: Wiley.
Oakes M (1986). Statistical inference: A commentary for the social and behavioral sciences. New York: Wiley.
OBrien RG (1981). A simple test for variance effects in experimental designs. Psychological Bulletin, 89, 570-
574.
OGrady KE (1982). Measures of explained variance: Cautions and limitations. Psychological Bulletin, 92,
766-777.
Olejnik S y Algina J (2000). Measures of effect size for comparative studies: Applications, interpretations and
limitations. Contemporary Educational Psychology, 25, 241-286.
Olejnik S y Algina J (2003). Generalized eta and omega squared statistics: Measures of effect size for some
common research designs. Psychological Methods, 8, 434-447.
Oshima TC y Algina J (1992). Type I error rates for Jamess second order test and Wilcoxs Hm test under hete-
roscedasticity and nonnormality. British Journal of Mathematical and Statistical Psychology, 45, 225-263.
Ostrom CW (1990). Time series analysis: Regression techniques (2 ed). Newbury Park, CA: Sage.
Pardo A, Garrido J, Ruiz MA y San Martn R (2007). La interaccin entre factores en el anlisis de varianza:
errores de interpretacin. Psicothema, 19, 343-349.
Pardo A y Ruiz MA (2009). Gestin de datos con SPSS Statistics. Madrid: Sntesis.
Pardo A, Ruiz MA y San Martn R (2009). Anlisis de datos en ciencias sociales y de la salud (vol 1). Madrid:
Sntesis.
Pardo A y San Martn R (1998). Anlisis de datos en psicologa II (2 ed). Madrid: Pirmide.
Parker S (1995). The difference of means may not be the effect size. American Psychologist, 50, 1101-1102.
Pascual J (1998). Diseo entre grupos. En MT Anguera, J Arnau, M Ato, R Martnez, J Pascual y G Vallejo
(Eds): Mtodos de investigacin en Psicologa (pgs 73-112). Madrid: Sntesis.
476 Anlisis de datos (vol. II)
Pearson K (1905). On the theory of skew correlations and nonlinear regression. Mathematical contributions
to the theory of evolution. Londres: Cambridge University Press (Biometric Laboratory Publications).
Pedhazur EJ y Pedhazur L (1991). Measurement, design and analysis. An integrated approach. Hillsdale,
NJ: LEA.
Peters CC y Van Voorhis WR (1940). Statistical procedures and their mathematical bases. New York: Mc-
Graw-Hill.
Petty RE, Fabrigar LR, Wegener DT y Priester JR (1996). Understanding data when interactions are present or
hypothesized. Psychological Science, 7, 247-252.
Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ (2006). Reporting of noninferiority and equivalence
randomized trials: an extension of the CONSORT statement. Journal of the American Medical Association,
295, 1152-1160.
Posner KL, Sampson PD, Caplan RA, Ward RJ y Cheney FW (1990). Measuring inter-rater reliability among
multiple raters: An example of methods for nominal data. Statistics in Medicine, 9, 1103-1115.
Powers JH (2008). Noninferiority and equivalence trials: Deciphering similarityof medical interventions.
Statistics in Medicine, 27, 343-352.
Prentice DA y Miller DT (1992). When small effects are impressive. Psychological Bulletin, 112, 160- 164.
Rao CR y Kleffe J (1988). Estimation of variance components and applications. Amsterdam: North- Holland
Rasmussen JL (1989). Data transformation, Type I error rate, and power. British Journal of Mathematical and
Statistical Psychology, 42, 203-213.
Richardson JTE (1996). Measures of effect size. Behavioral Research Methods, Instruments, and Computers,
28, 1222.
Rigby AS (1999). Statistical methods in epidemiology. III. The odds ratio as an approximation to the relative
risk. Disability and Rehabilitation, 21, 145-151.
Robinson WS (1950). Ecological correlations and the behavior of individuals. American Sociological Review,
15, 351-357.
Rogan J y Keselman H (1977). Is the ANOVA F-test robust to variance heterogeneity when sample sizes are
equal? An investigation via a coefficient of variation. American Educational Research Journal, 14, 493-498.
Rosenthal R (1990). How are we doing in soft psychology? American Psychologist, 45, 775-777.
Rosenthal R (1991). Meta-analytic procedures for social research (2 ed). Beverly-Hills, CA: Sage.
Rosenthal R, Rosnow RL y Rubin DB (2000). Contrasts and effect sizes in behavioral research: A correlational
approach. New York: Cambridge University Press.
Rosenthal R y Rubin DB (1982). A simple, general purpose display of magnitude of experimental effect.
Journal of Educational Psychology, 74, 166-169.
Rosenthal R y Rubin DB (2003). r-equivalent: A simple effect size indicator. Psychological Methods, 8, 492-496.
Rosnow RL y Rosenthal R (1989a). Definition and interpretation of interaction effects. Psychological Bulletin,
105, 143-146.
Rosnow RL y Rosenthal R (1989b). Statistical procedures and the justification of knowledge in psychological
science. American Psychologist, 44, 1276-1284.
Rosnow RL y Rosenthal R (1991). If youre looking at the cell means, youre not looking only at the interaction
(unless all main effects are zero). Psychological Bulletin, 110, 574-576.
Rosnow RL y Rosenthal R (1995). Some things you learn arent so: Cohens paradox, Aschs paradigm and
the interpretation of interaction. Psychological Science, 6, 3-9.
Rosnow RL y Rosenthal R (1996). Contrast and interactions redux: Five easy pieces. Psychological Science,
7, 253-257.
Rossi JS (1990). Statistical power of psychological research: What have we gained in 20 years? Journal of
Consulting and Clinical Psychology, 58, 646-656.
Rossi JS (1997). A case study in the failure of Psychology as a cumulative science: The spontaneous recovery
of verbal learning. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests?
(pgs 174-197). Mahwah, NJ: LEA.
Rouanet H y Lpine D (1970). Comparisons between treatments in a repeated-measures design: ANOVA and
multivariate methods. The British Journal of Mathematical and Statistical Psychology, 23, 147-163.
Rousseeuw PJ y Leroy AM (1987). Robust regression and outlier detection. New York: Wiley.
Referencias 477
Rozeboom WW (1960). The fallacy of the null hypothesis significance test. Psychological Bulletin, 57, 416-428.
Rozeboom WW (1979). Ridge regression: Bonanza or beguilement? Psychological Bulletin, 86, 242-249.
Rozeboom WW (1997). Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik y
JH Steiger (Eds), What if there were no significance tests? (pgs 335-391). Hillsdale, NJ: LEA.
Ruscio J (2006). Critical thinking in psychology: Separating sense of nonsense (2 ed). Belmont, CA: Thomson
Wadsworth.
Ruscio J (2008). A probability-based measure of effect size: Robustness to base rates and other factors. Psy-
chological Methods, 13, 19-30
Ryan TA (1960). Significance tests for multiple comparisons of proportions, variances and other statistics.
Psychological Bulletin, 57, 318-328.
San Martn R y Pardo A (1989). Psicoestadstica. Contrastes paramtricos y no paramtricos. Madrid:
Pirmide.
Saville BK (2008). Research methods in psychology. A guide to teaching. Malden, MA: Blackwell Publishing.
Scariano SM y Davenport JM (1987). The effects of violations of independence assumptions in the one-way
ANOVA. The American Statistician, 41, 123-129
Scheff HA (1953). A method for judging all possible contrasts in the analysis of variance. Biometrika, 40,
87-104.
Schmidt FL (1992). What do data really mean. American Psychologist, 47, 1173-1181.
Schmidt FL (1996). Statistical significance testing and cumulative knowledge in psychology: Implications for
training research. Psychological Methods, 1, 115-129.
Schmidt FL y Hunter JE (1996). Measurement error in psychological research: Lessons from 26 research
scenarios. Psychological Methods, 1, 199-223.
Schmidt FL y Hunter JE (1997). Eight common but false objections to the discontinuation of significance tes-
ting in the analysis of research data. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no
significance tests? (pgs 37-64). Mahwah, NJ: LEA.
Schroeder LD, Sjoquist DL y Stephan PA (1986). Understanding regression analysis. An introductory Guide.
Beverly Hills, CA: Sage.
Schuirmann DJ (1987). A comparison of the two one-sided tests procedure and the power approach for
assessing the equivalence of average bioavailability. Journal of Pharmacokinetics and Biopharmaceutics,
15, 657-680.
Seaman MA, Levin JR y Serlin RC (1991). New developments in pairwise multiple comparisons: Some
powerfull and practicable procedures. Psychological Bulletin, 110, 577-586.
Seaman MA y Serlin RC (1998). Equivalence confidence intervals for two-groups comparisons of means.
Psychological Methods, 3, 403-411.
Searle SR, Casella G y McCulloch CE (1992). Variance components. New York: Wiley.
Searle SR, Speed FM y Milliken GA (1980). Population marginal means in the linear model: An alternative to
least squares means. The American Statistician, 34, 216-221.
Serlin RC, Carr J y Marascuilo LA (1982). A measure of association for selected nonparametric procedures.
Psychological Bulletin, 92, 786-790.
Shapiro SS y Wilk MB (1965). An analysis of variance test for normality. (complete samples). Biometrika, 52,
591-611.
Shaver JP (1985). Chance and nonsense: A conversation about interpreting tests of statistical significance. Phi
Delta Kappan, 67, 57-60, 138-141.
Shoukri MM (2004). Measures of interobserver agreement. Boca Ratn, FL: Chapman and Hall/CRC Press.
idk Z (1967). Rectangular confidence regions for the means of multivariate normal distributions. Journal of
the American Statistical Association, 62, 626-633.
Siegel S y Castellan NJ (1988). Nonparametric statistics for the behavioral sciences (2 ed). New York: Mc-
Graw-Hill.
Skipper Jr JK, Guenther AL y Nass G (1967). The sacredness of .05: A note concerning the uses of statistical
levels of significance in social science. The American Sociologist, 2, 16-18.
Smirnov NV (1939). Estimate of deviation between empirical distribution functions in two independent
samples. Bulletin Moscow University, 2, 3-16 [ruso].
478 Anlisis de datos (vol. II)
Smirnov NV (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical
Statistics, 19, 279-281.
Snapinn SM (2000). Noninferiority trials. Current Control Trials in Cardiovascular Medicine, 1, 19-21.
Snedecor GW (1934). Analysis of variance and covariance. Ames, IW: Iowa State University Press.
Somers RH (1962). A new asymmetric measure of association for ordinal variables. American Sociological
Review, 27, 799-811.
Spearman C (1904). The proof and measurement of association between two things. American Journal of
Psychology, 15, 72-101.
Spitzer RL, Cohen J, Fleis JL y Endicott J (1967). Quantification of agreement in psychiatric diagnosis. Archi-
ves of General Psiychiatry, 17, 83-87.
Steel RGD, Torrie JH y Dickey DA (1997). Principles and procedures of statistics: A biomedical approach (3
ed). New York: McGraw-Hill.
Steiger JH (2004). Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of
variance and contrast analysis. Psychological Methods, 9, 164-182.
Steiger JH y Fouladi RT (1997). Noncentrality interval estimation and the evaluation of statistical methods. En
LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests? (pgs 221-257).
Mahwah, NJ: LEA.
Stevens JP (1984). Outliers and influential data points in regression analysis. Psychological Bulletin, 95, 334-344.
Stevens JP (1992). Applied multivariate statistics for the social sciences. Hillsdale. NJ: LEA.
Stuart A (1953). The estimation and comparison of strengths os association in contingency tables. Biometrica,
40, 105-112.
Sugiura N (1972). Locally best invariant test for sphericity and the limiting distribution. Annals of Mathematical
Statistics, 43, 1312-1316.
Tabachnik BG y Fidel LS (2001). Using multivariate statistics (2 ed). Boston: Allyn and Bacon.
Tamhane AC (1977). Multiple comparisons in model I one-way ANOVA with unequal variances. Com-
munications in Statistics - Theory and Methods, 6, 15-32.
Tamhane AC (1979). A comparison of procedures for multiple comparisons of means with unequal variances.
Journal of the American Statistical Association, 74, 471-480.
Tan WY (1982). Sampling distributions and robustness of t, F and variance-ratio in two samples and ANOVA
models with respect to departure from normality. Communications in Statistics - Theory and Methods, 11,
486-511.
Tarone RE (1985). On heterogeneity tests based on efficient scores. Biometrika, 72, 91-95.
Tarone RE, Gart JJ y Hauck WW (1983). On the asymptotic relative efficiency of certain noniterative estimators
of a common relative risk or odds ratio. Biometrika, 70, 519-522.
Theil H (1970). On the estimation of relationships involving qualitative variables. American Journal of Socio-
logy, 76, 103-154.
Thompson B (1994). Guidelines for authors. Educational and Psychological Measurement, 54, 837- 847.
Thompson B (1997). Editorial policies regarding statistical significance tests: Further comments. Educational
Researcher, 26, 29-32.
Thompson WD y Walter SD (1988). Kappa and the concept of independent errors. Journal of Clinical
Epidemiology, 41, 969-970.
Tomarken AJ y Serlin RC (1986). Comparison of ANOVA alternatives under variance heterogeneity and spe-
cific noncentrality structures. Psychological Bulletin, 99, 90-99.
Toothaker LE (1991). Multiple comparison for researchers. London: Sage.
Toothaker LE (1999). Multiple comparison procedures (2 ed). London: Sage.
Tryon WW (2001). Evaluating statistical difference, equivalence, and indeterminacy using inferential confi-
dence intervals: An integrated alternative method of conducting null hypothesis statistical tests. Psycho-
logical Methods, 6, 371386.
Tryon WW y Lewis Ch (2008). An inferential confidence interval method of establishing statistical equivalence
that corrects Tryon (2001) reduction factor. Psychological Methods, 13, 272-277.
Tukey JW (1949). One degree of freedom for nonaditivity. Biometrics, 5, 232-242.
Tukey JW (1953). The problem of multiple comparisons. Princeton University (manuscrito no publicado).
Referencias 479
Tukey JW (1991). The philosophy of multiple comparison. Statistical Science, 6, 100-116.
Van Belle G, Fisher LD, Heagerty PJ y Lumley Th (2004). Biostatistics. A methodology for the health sciences
(2 ed). Hoboken, NJ: Wiley.
Vargha A y Delaney HD (1998). The Kruskal-Wallis test and estochastic homogeneity. Journal of Educational
and Behavioral Statistics, 23, 195-217.
Vargha A y Delaney HD (2000). A critique and improvement of the CL common language effect size statistic
of McGraw and Wong. Journal of Educational and Behavioral Statistics, 25, 101-132.
Von Eye A y Mun EY (2005). Analyzing rater agreement. Mahwah, NJ: LEA.
Wainer H (1999). One cheer for null hypothesis significance testing. Psychological Methods, 4, 212-213.
Wainer H y Thissen D (1993). Graphical data analysis. En G Keren y C Lewis (Eds). A handbook for data
analysis in the behavioral sciences. Methodological issues (pgs 391-457). Hillsdale, NJ: LEA.
Wald A y Wolfowitz J (1940). On a test whether two samples are from the same population. Annals of Ma-
thematical Statistics, 11, 147-162.
Wallis WA (1939). The correlation ratio for ranked data. Journal of the American Statistical Association, 34,
533-538.
Weisberg S (2005). Applied linear regression (3 ed). Hoboken, NJ: Wiley.
Welch BL (1951). On the comparison of several mean values: An alternative approach. Biometrika, 38, 330-336.
Wellek S (2003). Testing statistical hypotheses of equivalence. Boca Raton, Fla: Chapman and Hall.
Welsch RE (1977). Stepwise multiple comparison procedures. Journal of the American Statistical Association,
72, 566-575.
Wherry RJ (1931). A new formula for predicting the shrinkage of the coefficient of multiple correlation. Annals
of Mathematical Statistics, 2, 440-447.
Westlake WJ (1972). Use of confidence intervals in analysis of comparative bioavailability trials. Journal of
Pharmaceutical Science, 61, 13401341.
Westlake WJ (1976). Symetrical confidence intervals for bioequivalence trials. Biometrics, 32, 741-744.
Westlake WJ (1979). Statistical aspects of comparative bioavailability trials. Biometrics, 35, 273280.
Westlake WJ (1981). Bioequivalence testing: A need to rethink (response to Kirkwood). Biometrics, 32, 589-594.
Wickens ThD (1989). Multiway contingency tables analysis for the social sciences. Hillsdale, NJ: LEA.
Viechtbauer W (2007). Approximate confidence intervals for standardized effect sizes in the two- independent
and two-dependent samples designs. Journal of Educational and Behavioral Statistics, 32, 39-60.
Wiens BL (2002). Choosing an equivalence limit for noninferiority or equivalence studies. Controlled Clinical
Trials, 23, 2-14.
Wilcox RR (1987a). New designs in analysis of variance. Annual Review of Psichology, 38, 29-60.
Wilcox RR (1987b). New statistical procedures for the social sciences: Modern solutions to basic problems.
Hillsdale, NJ: LEA.
Wilcox RR (1992). Comparing the medians of dependent groups. British Journal of Mathematical and Sta-
tistical Psychology, 45, 151-162.
Wilcox RR (1996). Statistics for the social sciences. San Diego, CA: Academic Press.
Wilcox RR (1997). Three multiple comparison procedures for trimmed means. Biometrical Journal, 37, 643-656.
Wilcox RR (2003). Applying contemporary statistical techniques. San Diego, CA. Academic Press.
Wilcox RR (2005). Introduction to robust estimation and hypothesis testing (2 ed). San Diego, CA: Elsevier
Academic Press.
Wilcox RR, Charin V y Thompson K (1986). New Monte Carlo results on the robustness of ANOVA F, W, and
F* statistics. Communications in Statistics - Simulation and Computation, 15, 933-944.
Wilcoxon F (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
Wilcoxon F (1949). Some rapid approximate statistical procedures. American Cyanamid Company, Standford
Research Laboratories.
Wilkinson L y Task Force on Statistical Inference. (1999). Statistical methods in psychology journals: Guide-
lines and explanations. American Psychologist, 54, 594-604.
Winer BJ, Brown DR y Michels KM (1991). Statistical principles in experimental design (3 ed). New York:
McGraw-Hill.
Wright DB y London K (2009). First steps in statistics (2 ed). London: Sage.
480 Anlisis de datos (vol. II)
Wyrwich KW (2004). Minimal important difference thresholds and the standard error of measurement: Is there
a connection? Journal of Biopharmaceutical Statistics, 14, 97-110.
Wyrwich KW, Nienaber NA, Tierney WM y Wolinsky FD (1999). Linking clinical relevance and statistical sig-
nificance in evaluating intra-individual changes in health-related quality of life. Medical Care, 37, 469-478.
Wyrwich KW, Tierney WM, Wolinsky FD (1999). Further evidence supporting an SEM-based criterion for
identifying meaningful intra-individual changes in health-related quality of life. Journal of Clinical Epi-
demiology, 52, 861-873.
Yule GU (1900). On the association of attributes in statistics. Philosophical transactions of the Royal Society
of London, Series A, 194, 257-319.
Yule GU (1912). On the methods of measuring association between two attributes (with discussion). Journal
of the Royal Statistical Society, 75, 579-652.
Zwick R (1988). Another look at inter-rater agreement. Psychological Bulletin, 103, 374-378.
Zimmerman DW y Zumbo DB (1993). Relative power of the Wilcoxon test, the Friedman test, and repeated-
measures ANOVA on ranks. Journal of Experimental Education, 62, 75-86
ndice de materias

A interaccin (ver interaccin entre factores)


lgica del anlisis de varianza, 189-192
A posteriori, comparaciones (ver comparaciones ml- matriz de varianzas-covarianzas, 303
tiples) matriz L de coeficientes, 286
A priori, comparaciones (ver comparaciones mlti- medias cuadrticas, 190-191, 254, 259, 299
ples) medias estimadas, 279
Acuerdo (ver tambin medidas de asociacin): medidas repetidas, 295-298
coeficiente de concordancia W de Kendall, 321- modelos (ver modelos de anlisis de varianza)
323 modelos I, II y III, 260
coeficiente de correlacin intraclase, 202, 241-
muestreo de niveles, 188-189
242
notacin, 192-194, 248-250, 298-299, 330-331
ndice de acuerdo asimtrico, 102
nmero de factores, 186
kappa de Cohen, 98-103
potencia, 33, 39, 149, 179, 204-206, 263-264,
kappa de Cohen ponderada, 100-104
307, 334, 351
Aceptacin, zona de, 23-24
residuos, 190
Aditividad, 401
residuos de interaccin, 251
Afirmacin del consecuente, falacia de la, 26
sumas de cuadrados, 228
Aleatoria, muestra (ver rachas)
supuestos:
Aleatorios, bloques (ver anlisis de varianza)
esfericidad, 303-305, 309-310, 315, 318,
Aleatorios, efectos (ver anlisis de varianza)
Aleatorios, grupos (ver anlisis de varianza) 338-339, 349-350
Alfa, nivel de significacin o riesgo, 20 esfericidad local, 333, 338
Alternativa, hiptesis, 18-22 esfericidad multi-muestra, 349-350, 355-356
Anlisis de regresin lineal (ver regresin lineal) homocedasticidad (igualdad de varianzas),
Anlisis de varianza (ANOVA): 196-198, 225-228, 234, 240, 260, 277,
bloques aleatorios, 187-188, 296 282, 303
tamaos muestrales distintos, 282-284 igualdad de las matrices de varianzas-cova-
clasificacin de los modelos de ANOVA, 189 rianzas, 349, 356
efectos: independencia, 196-197, 226, 260, 303, 309
fijos-aleatorios, 200, 240-242, 260 normalidad, 196-198, 222, 225-227, 237,
mixtos, 260 260, 303, 305, 309, 315
principales, 250, 253, 264, 265-267, 273- simetra compuesta, 303
275, 277-278, 284 , 341-342, 358-359 tamao del efecto, 200-204, 261-263, 306-307,
simples, 264-265, 267-270, 267-273, 278- 333-334, 341, 350
280, 284-290, 342-343, 359-360, 363 tamaos muestrales distintos, 282-284
estadsticos F, 191-192, 255, 300, 331-332, 348 tipo de aleatorizacin, 186-188
estadsticos F corregidos, 304, 311, 340-341 Aproximacin de la distribucin binomial a la nor-
estadsticos multivariados, 304, 311, 340 mal, 52-53, 78
factores intersujetos-intrasujetos, 296 Asociacin (ver medidas de asociacin; ver tambin
grupos aleatorios, 187 acuerdo y coeficientes de correlacin)
homocedasticidad (homogeneidad o igualdad de Atpicos, casos (ver regresin lineal)
varianzas), 158, 197-198, 225-226, 228, 234, Autocorrelacin, 403-404
277-282, 234, 350, 356-357 Autovalores, 417
482 Anlisis de datos (vol. II)

B gamma de Goodman y Kruskal, 106


intraclase, 202, 241-242
Backward, regresin (ver regresin por pasos) mltiple, 389, 413, 425
Beta, coeficientes de regresin, 380, 388-389 orden cero, 180-182
Beta, probabilidad de cometer errores Tipo II, 28-32, parcial, 180-182, 392-394, 398, 400, 415-417,
42 423
Binomial, prueba, 36, 47, 78, 82 semiparcial, 392-394, 415-416, 422
Biserial-puntual, coeficiente de correlacin, 145 simple (Pearson), 145-146, 161, 171-173, 378,
Bloques aleatorios (ver anlisis de varianza) 383, 388
Bondad de ajuste: Spearman, 174-178
en regresin lineal (ver regresin lineal) tau-a de Kendall, 106
prueba de Kolmogorov-Smirnov para una mues- tau-b de Kendall, 107
tra, 47, 61-66 tau-c de Stuart, 107
prueba X 2 de Pearson (una muestra), 36, 47, 61 Coeficientes de regresin (ver regresin lineal)
Bonferroni, correccin para comparaciones mlti- Cohen:
ples (ver tambin Dunn-Bonferroni), 212, 222, diferencia tipificada (ver delta de Cohen)
269, 282, 308, 314, 334, 337, 342, 351, 355, 359 ndice de acuerdo kappa, 98-103
Bowker, prueba de simetra en tablas 2 2, 77-86 Cohortes, diseo de, 87
Box, prueba sobre igualdad de matrices de varian- Colinealidad, 399, 401-402, 417-418
zas-covarianzas, 350, 356 Comparaciones mltiples, 206-224
Breslow-Day, prueba sobre homogeneidad de odds- a priori o planeadas, 211-219, 232-234, 308,
ratios, 112 312-313, 334, 351, 355
Brown-Forsythe: a posteriori o post hoc, 219-224, 230-231, 308,
prueba para comparaciones post hoc, 222, 224 312-313, 334, 341-342, 351, 358-362
prueba de igualdad de varianzas, 225, 228 lineales, 206-209
prueba de igualdad de medias, 198, 225, 228- ortogonales, 208
229, 237-238 de tendencia, 215-217, 232-234
mtodos secuenciales, 238-240
C tasa de error (total, por comparacin, por familia
de comparaciones), 209-212, 218-220, 222,
Casos atpicos (ver regresin lineal), 240
Casos influyentes (ver regresin lineal), Concordancia (ver acuerdo y medidas de asociacin)
Casos y controles, diseo de, 87 Concordancias-discordancias, clculo, 120-122 (ver
Chi-cuadrado (ver ji-cuadrado) tambin medidas de asociacin)
Circularidad (ver esfericidad) Confianza, nivel de, 23, 28
Cochran: Contingencias, tabla de (ver tabla de contingencias)
prueba de independencia condicional, 111-112 Contraste de hiptesis, 18-38
prueba Q para el contraste de J proporciones re- clasificacin, 35-37
lacionadas, 319-320 definicin, 18
Coeficiente de concordancia W de Kendall, 321-323 errores Tipo I y Tipo II, 28-33
Coeficiente de determinacin (ver regresin lineal), estadstico del contraste, 19, 22
Coeficiente de determinacin corregido (ver regre- hiptesis estadsticas, 18-22
sin lineal), nivel crtico (valor p), 20, 33-34
Coeficiente de incertidumbre de Theil, 118 nivel de confianza, 23, 28
Coeficientes de correlacin (ver tambin acuerdo y nivel de significacin o riesgo, 20, 23, 28
medidas de asociacin): potencia, 28-33, 39-42 (ver tambin Potencia de
biserial-puntual, 145 un contraste)
d de Somers, 107 regla de decisin, 20, 22-27
psilon-cuadrado, 202-203 significacin estadstica, 33-35
eta-cuadrado, 148, 149, 201-202, 229, 261-262, supuestos, 20, 196
333-334, 341, 350 tamao del efecto, 33-35
eta-cuadrado corregida, 202-203, 229 unilateral-bilateral, 26-27
ndice de materias 483
Contrastes (polinmicos, especiales), 312-313 dos factores con medidas repetidas en ambos,
Contrastes sobre medias: 334
anlisis de varianza (ver anlisis de varianza) dos factores con medidas repetidas en uno, 350
prueba de Friedman, 37, 315-317 un factor completamente aleatorizado, 201
prueba de Kolmogorov-Smirnov para dos mues- un factor con medidas repetidas, 306-307
tras independientes, 37, 156-157 dos medias independientes, 143-146
prueba de Kruskal-Wallis, 37, 129, 138-142 dos medias relacionadas, 178-179
prueba de los signos: una media, 143
para dos muestras, 37, 169-171 Diagramas (ver grficos)
para una muestra, 37, 47, 51-59 Diferencia mnima significativa (DMS):
prueba de Mann-Whitney, 37, 132-137, 141, 156 Brown-Forsythe, 222
prueba de Wilcoxon: Duncan, 239
para dos muestras independientes, 132, 137 Dunnett, 218-219
para dos muestras relacionadas, 37, 164-168 Dunnett-C, 238
para una muestra, 37, 47, 48-51, 55-57 Dummett-T3, 238
prueba T de Student: Games-Howell, 238
para dos muestras independientes, 37, 129- Hochberg, 221, 231
132 Ryan-Einot-Gabriel-Welsch Q, 240
para dos muestras relacionadas, 37, 161-163 Scheff, 222
para una muestra, 37, 47, 48, 55-56 Studet-Newman-Keuls, 220, 239
Contraste sobre proporciones: Tamhane-T2, 238
dos proporciones independientes, 36, 74, 76, Tukey, Tukey-b, Tukey-Kramer, 220
104-105 Diseos longitudinales:
dos proporciones relacionadas, 75-76, 77-86, antes-despus, 75
104-105 prospectivo o de cohortes, 87, 89-90, 93-96, 111
homogeneidad marginal, 73, 75-76, 77-86, 104- retrospectivo o de casos y controles, 87, 90-93,
105, 110 111, 124
simetra, 77-86, 104-105 Distancia de Cook, 410, 420-21
simetra relativa, 76, 110-111 Distancia de Mahalanobis, 420
una proporcin, 36, 47 Duncan, prueba del rango mltiple para comparacio-
Contraste sobre una varianza, 37, 47, 59-61 nes post hoc, 239
Control estadstico, 180 Dunn-Bonferroni, prueba para comparaciones mlti-
Cook, distancia de, 410, 420-21 ples, 211-215, 219, 222, 224, 265-266, 270-271,
Correccin por continuidad, 53, 58, 68-69, 78, 112 280
Correlacin de orden cero, 180-182, 415-416 Dunnett:
Correlacin de Pearson, 145-146, 161, 171-173, 378, estadstico T para comparaciones post hoc con
383, 388 un grupo control, 218-219
Correlacin intraclase, 241-242, 306 estadsticos T3 y C para comparaciones post
Correlacin mltiple, 389, 413, 425 hoc, 238
Correlacin parcial, 180-182, 392-394, 398, 400, Durbin-Watson, estadstico para valorar el grado de
415-417, 423 autocorrelacin entre residuos, 404, 418
Correlacin semiparcial, 392-394, 415-416, 422
Covarianza, 172, 376
E
Cuantiles, prueba de los, 51, 70-71
Curva COR (curva caracterstica de operacin del Ecolgica, falacia, 95
receptor), 42, 147-149 Efectos:
fijos y aleatorios, 200, 240-242, 260, 372
D interaccin (ver interaccin entre factores)
mixtos, 260
d de Somers, 107 principales, 250, 253, 264, 265-267, 273-275,
Delta de Cohen (tamao del efecto, diferencia tipifi- 277-278, 284 , 341-342, 357-359
cada o estandarizada): simples, 264-265, 267-270, 267-273, 278-280,
dos factores completamente aleatorizados, 263 284-290, 342-343, 359-360, 363-365
484 Anlisis de datos (vol. II)
psilon (Box, Greenhouse-Geisser, Huynh-Feldt) G
para corregir los grados de libertad en condicio-
nes de no esfericidad, 304, 311-312, 318-319 Games-Howell, prueba para comparaciones post hoc,
psilon-cuadrado (medida de asociacin, tamao del 224, 238
efecto), 202 -203 Goodman y Kruskal:
Equivalencia, contrastes de, 150-156 gamma, coeficiente de correlacin, 106
Error tpico de (ver tambin varianza): reduccin proporcional del error (lambda, tau),
coeficiente de regresin lineal, 382, 391 115-119
comparacin lineal, 212 Grficos:
dos medias independientes, 130, 152, 220 de caja, 195, 258, 301-302, 334, 351-352
dos medias relacionadas, 162 de dispersin, 171, 371-372, 376-377, 400, 404,
dos proporciones relacionadas, 79 406, 409, 418, 420, 426, 428
ndice de acuerdo kappa, 99 de dispersin parciales, 400-401, 417
nmero de concordancias-discordancias, 108 de dispersin por nivel, 226
de lneas (perfiles), 215-217, 233, 252-253, 271,
nmero de xitos, 52, 169
280-281, 285, 302, 343, 360-361
nmero de rachas, 68
de normalidad, 66-67, 419
odds ratio, 92
Greenhouse-Geisser (ver psilon)
pronsticos de la regresin lineal, 384-385
residuos de la regresin lineal, 407
riesgo relativo, 88 H
suma de n rangos, 49, 56, 129
Errores Tipo I y Tipo II en los contrastes de hipte- H, estadstico de Kruskal-Wallis, 37, 129, 138-142
sis, 28-33 H, matriz hat, 407
Esfericidad, 303-305, 309-310, 315, 318, 338-339, Hartley, prueba sobre igualdad de varianzas, 198
349-350 Hiptesis cientfica, 19
Esfericidad local, 333, 338 Hiptesis estadsticas, 18-22
Esfericidad multi-muestra, 349-350, 355-356 Hochberg, GT2, 221, 231
Eta-cuadrado (tamao del efecto),148, 149, 201-202, Homogeneidad de proporciones (ver ji-cuadrado,
229, 261-262, 333-334, 341, 350 McNemar y McNemar-Bowker)
Eta-cuadrado corregida, 202-203, 229 Homogeneidad marginal, 75-76, 77-86, 104-105, 110
Homocedasticidad o igualdad de varianzas, 197-198,
240, 242, 277, 399, 405-406, 419-420
F prueba de Brown-Forsythe, 225, 228
prueba de Levene, 158, 198, 225-226, 228, 234,
F, distribucin, 234-237 277-282, 234, 350, 356-357
F, distribucin no centrada, 204, 230, 263, 312, 341 prueba M de Box, 350, 356
F, estadstico de Fisher (anlisis de varianza), 191- Huynh-Feldt (ver psilon)
192, 255, 300, 331-332, 348, 390, 397-398, 414
distribucin muestral del estadstico F, 234-237
Factor (ver anlisis de varianza) I
Fijos-aleatorios, efectos, 200, 240-242, 260, 372 Incertidumbre, coeficiente de, 118
Fisher: Independencia, 196-197, 226, 260, 303, 309, 399,
aportaciones al anlisis de varianza, 189-192 403-404, 418
aportaciones al contraste de hiptesis, 18, 20, Independencia condicional, 111-112
28, 31 ndices de acuerdo (ver acuerdo y medidas de aso-
distribucin muestral del estadstico F, 192, ciacin)
234-236 ndices de riesgo (ver riesgo)
prueba exacta de, 119-120 Inferencia estadstica, 17-18
transformacin Z, 145 intergrupos, variabilidad, 190-191, 228, 232, 253-
Fraccin etiolgica, 89 255, 261, 275, 299, 330, 347
Friedman, prueba de, 315-317 Interaccin entre factores (en el anlisis de varian-
Forward, regresin (ver regresin por pasos) za), 250-253, 257-259, 264, 266-267, 270-275,
Fuentes de variabilidad (ver variabilidad) 280-282, 284-290, 343-345, 360-362, 365-367
ndice de materias 485
Intersujetos, variabilidad, 299-300, 330, 347 Lineal, relacin, 171-174, 180, 182, 372
Intersujetos, factor, 296 Linealidad, supuesto del anlisis de regresin lineal,
Intervalo de confianza para: 399-401
coeficientes de la regresin lineal, 381 Lmatrix (sentencia SPSS para realizar comparacio-
comparacin lineal, 213, 222 nes mltiples en los modelos factoriales com-
diferencia tipificada delta, 145 pletamente aleatorizados y mixtos), 285-289
dos medias independientes, 220
dos proporciones relacionadas, 79
ndice de acuerdo kappa, 103 M
ndice de riesgo relativo, 88
Mahalanobis, distancia, 420
odds ratio, 92
Mann-Whitney, prueba U, 37, 132-137, 141, 156
pronsticos de la regresin lineal, 384-385
Mantel-Haenszel:
varianza, 60
estimacin del riesgo comn, 113
Intervalos de equivalencia y no inferioridad, 152-154
prueba de independencia condicional, 112
Intraclase, coeficiente de correlacin, 241-242, 306
Matriz de varianzas-covarianzas, 303
Intrasujetos, factor, 296
Matriz hat, 407
Intragrupos o error, variabilidad, 189-190, 228, 253-
Mauchly, prueba de esfericidad, 304, 310, 338-339,
255, 275, 300, 330, 347
350, 356
McNemar, prueba de simetra para tablas 2 2 (ho-
J mogeneidad marginal), 77-86
McNemar-Bowker, prueba de simetra para tablas
Ji-cuadrado: J K , 81-86
distribucin de probabilidad, 235 Medias cuadrticas, 190-191, 254, 259, 299
cociente entre dos variables ji-cuadrado, 235 Medias estimadas, 279
prueba de bondad de ajuste, 36, 47, 61 Medida de lenguaje comn (medida del tamao del
prueba de independencia o igualdad de propor- efecto), 147
ciones en tablas de contingencias, 37, 73-74, Medidas de asociacin (ver tambin acuerdo):
87, 98, 104, 111, 116 coeficiente de incertidumbre de Theil, 118
lambda de Goodman y Kruskal, 116-117
medidas de concordancia (gamma, tau-a, tau-b,
K tau-c), 104-109
odds-ratio, 89-93
Kappa de Cohen (ndice de acuerdo), 98-103
odds-ratio comn, 113
Kendall, coeficiente de:
Q de Yule, 106
concordancia W, 321-323
reduccin proporcional del error, 115-119
correlacin tau-a y tau-b, 106-107
simtricas y asimtricas, 109, 117-118
Kolmogorov-Smirnov, prueba para:
tau de Goodman y Kruskal, 117-118
bondad de ajuste (una muestra), 47, 61-66
Medidas repetidas, 295-298
dos muestras independientes, 156-157
Mnimos cuadrados, 376, 386
Kruskal-Wallis, estadstico H, 37, 129, 138-142
Mnimos cuadrados ponderados, 406
Mixtos, efectos, 260
L Mmatrix (sentencia SPSS para realizar comparacio-
nes mltiples), 362-367
L, matriz de coeficientes, 286 Modelo lineal general, 371
Lambda de Goodman y Kruskal, 116-117 Modelos de regresin lineal (ver regresin lineal)
Lambda, parmetro de no centralidad, 145, 204-205, Modelos de anlisis de varianza (aleatorizados, me-
225, 230, 308, 312, 334 didas repetidas, bloques), 186-189, 296-297
Levene, prueba para contrastar la igualdad de varian- modelo aleatorizado en bloques, 389-390
zas, 158, 198, 225-226, 228, 234, 277-282, 234, modelo de dos factores con medidas repetidas
350, 356-357 en ambos, 297, 329-345
Lillieffors, prueba de normalidad, 65 modelo de dos factores completamente aleatori-
Lineal general, modelo, 371 zados, 253-291
486 Anlisis de datos (vol. II)
modelo de dos factores con medidas repetidas en prueba X 2 sobre independencia y homogeneidad
un factor (split- plot), 299, 346-362 de proporciones, 37
modelo de un factor completamente aleatoriza- Post hoc, comparaciones (ver comparaciones ml-
do, 192-206 tiples)
modelo de un factor con medidas repetidas, Potencia de un contraste:
298-314 a priori y a posteriori, 33
modelos factoriales, 247 clculo 39-40, 149-150, 179, 204-206, 263-264,
modelos jerrquicos o anidados, 291 307-308, 334, 341, 351
Modus tollens, 25 concepto, 28-30
Montona, relacin, 105 curva de potencias, 40-42
Moses, prueba de reacciones extremas, 158-159 factores de los que depende, 31-33
Multicolinealidad, 401 (ver regresin lineal: supues- relacin con la curva COR (curva caracterstica
tos: no colinealidad ) de operacin del receptor), 42
Multivariados, estadsticos para contrastar la hipte- Principales, efectos, 250, 253, 264, 265-267, 273-
sis de igualdad de medias, 304, 311, 340-341 275, 277-278, 284, 341-342, 357-359
Probabilidad de cometer errores Tipo I, 209-210
Pronsticos (ver regresin lineal: pronsticos)
N Proporcin de reduccin en los errores de predic-
Neyman-Pearson, aportaciones al contraste de hip- cin, 381, 389
tesis, 18, 20, 28, 31 Proporcin de varianza comn o explicada, 380-
Nivel crtico (valor p), 20, 33-34 381, 389
Nivel de confianza, 23-28 Proporcin de varianza no explicada, 380-381,
Nivel de significacin o riesgo, 20, 23 393-394
No centralidad, parmetro lambda de, 145, 204-205, Proporciones independientes-relacionadas, 74-76
225, 230, 308, 312, 334 Prueba de significacin (ver Contraste de hiptesis)
No inferioridad, contraste de, 150-156
Normalidad:
Q
grficos de, 66-67, 419-420
pruebas de, 61-66 Q de Cochran para el contraste de proporciones rela-
supuesto de, 196-198, 222, 225-227, 237, 260, cionadas, 319-320
303, 305, 309, 315, 399, 404-405, 418-419 Q de Ryan-Einot-Gabriel-Welsch, prueba para com-
Nula, hiptesis, 18-22 paraciones post hoc, 240
Q de Yule, 106
O
Odds, 89-90 R
Odds ratio, 89-93 Rachas, prueba de las, 68-70
Odds ratio comn, 113 Rachas, prueba de Wald-Wolfowitz, 157-158
Odds ratio, homogeneidad, 113-114 Reduccin proporcional del error (medidas de aso-
Omega-cuadrado (proporcin de varianza explicada, ciacin), 115-119
medida del tamao del efecto), 202-203, 262, Regin crtica (ver zona crtica)
306, 333-334, 350 Regresin curvilnea, 372, 426-428
Ortogonales, comparaciones, 208 Regresin jerrquica, 396-399, 421-424
mtodos de seleccin de variables, 397-398
P Regresin lineal, 371-432
autocorrelacin, 403-404
p, nivel crtico, 20, 33-34 autovalores, 417
Parsimonia, principio de, 396 bondad de ajuste, 379-381, 388-389, 413
Pearson: cambio en el coeficiente de determinacin, 397-
coeficiente de correlacin, 145-146, 161, 171- 398, 422
173, 378, 383, 388 cambio en los coeficientes de regresin (dfbe-
prueba X 2 sobre bondad de ajuste, 37 tas), 410, 420-421
ndice de materias 487
cambio en los pronsticos (dffits), 411, 420-421 proporcin de varianza no explicada, 380-381,
cambio en los residuos, 411 393-394
casos atpicos, 406-408, 420-421 recta de regresin, 375
casos influyentes, 408-412, 420-421 relaciones espurias, 392
coeficiente de determinacin, 381, 384, 389, 391, residuos, 376, 403, 418
393-394, 397-398, 402, 413 eliminados o corregidos, 411
coeficiente de determinacin corregido, 389 eliminados studentizados, 411, 420-421
coeficientes de regresin, 375, 387, 414 studentizados, 407-408
en la poblacin, 382, 390-391 tipificados o estandarizados, 407
intervalos de confianza, 383, 392 varianza de los residuos, 407
significacin de los coeficientes, 382-383, simple-mltiple, 371
390-391, 415 supuestos del modelo de regresin, 399-406
coeficientes de regresin tipificados, 378, 387- homocedasticidad (varianzas iguales), 399,
388, 392, 414 405-406, 419-420
correlacin de orden cero, 180-182, 415-416 independencia, 399, 403-404, 418
correlacin mltiple, 389, 413 linealidad, aditividad, 401
correlacin parcial, 392-394, 415-416 no colinealidad, 399, 401-402, 417
correlacin semiparcial, 392-394, 415-416, 422 normalidad, 399, 404-405, 418-419
diagramas de dispersin, 373-374, 377, 418 tamao muestral, 425
diagramas de dispersin parciales, 400-401, 417 tolerancia, 402, 417-418
distancia de Cook, 410, 420-421 validacin de la ecuacin de regresin, 420-425
distancia de Mahalanobis, 420 variable dependiente o respuesta, 371, 385
Durbin-Watson, estadstico para valorar el grado variable independiente o predictora, 371, 385
de autocorrelacin entre residuos, 404, 418 variables independientes categricas, 394-395,
ecuacin de regresin, 375, 386 424
errores, 403 Regresin por pasos (hacia adelante o forward, hacia
error cuadrtico medio, 382, 390 atrs o backward y por pasos o stepwise), 396-
error de especificacin, 399, 402 399, 421-424
error tpico de la estimacin, 382, 391 mtodos de seleccin de variables, 397-398
errores de prediccin, 376-377 Relacin lineal, 171-174, 180, 182
factores de inflacin de la varianza, 402, 417-418 Relacin montona, 105
importancia relativa de las variables, 392-394, Residuos (errores):
415-416 en el anlisis de regresin (ver regresin lineal:
ndices de condicin, 417 residuos)
influencia (leverage), 407-408, 420-421 en el anlisis de varianza, 190
influencia centrada, 408, 420-421 Riesgo, 86-96
interseccin, 375, 403 atribuible, 89
matriz hat, 407 Cochran, 111-112
media cuadrtica error, 382, 390 fraccin etiolgica, 89
mnimos cuadrados, 376, 386 interpretacin, 93-95
mnimos cuadrados ponderados, 406 riesgo relativo, 87-89, 92-93
ordenada en el origen, 375 Mantel-Haenszel, 111-112
pronsticos, 384-385, 415 odds ratio, 89-93
corregidos, 410 odds ratio comn, 113
error tpico de los, 382 Riesgo, nivel de, 20, 23
individuales-promedio, 382-383, 413 Ryan-Einot-Gabriel-Welsch, prueba Q para compa-
intervalos de confianza para los, 382-383, raciones post hoc, 240
413
tipificados, 411
S
proporcin de reduccin en los errores de pre-
diccin, 381, 389 Scheff, prueba para comparaciones post hoc, 222-
proporcin de varianza comn o explicada, 380- 224
381, 389 Schuirmann, doble contraste unilateral, 151-152
488 Anlisis de datos (vol. II)
Shapiro-Wilk, prueba de normalidad, 65 coeficiente de correlacin intraclase, 202, 241-
idk, correccin de la tasa de error, 211, 238 242
Significacin estadstica, 33-35 delta de Cohen, 143-146, 178-179, 201, 263,
Significacin, nivel de, 20, 23 306-307, 334, 350
Signos, prueba de los: psilon-cuadrado, 202-203
dos muestras, 37, 169-171 eta-cuadrado, 148, 149, 201-202, 229, 261-262,
una muestra, 37, 47, 51-59 333-334, 341, 350
Simetra, hiptesis de, 77-86, 104-105 eta-cuadrado corregida, 202-203, 229
Simetra, supuesto de, 49, 164-165 medida de lenguaje comn, 147
Simetra compuesta, supuesto de, 303 omega-cuadrado, 202-203, 262, 306, 333-334,
Simetra relativa, hiptesis de, 76, 110-111 350
Simtricas-asimtricas, medidas de asociacin, 109, Tamhane, estadstico T2 para comparaciones post
117-118 hoc, 238
Simples, efectos, 264-265, 267-270, 267-273, 278- Tarone, prueba de homogeneidad de odds-ratios, 112
280, 284-290, 342-343, 359-360, 363-365 Tasa de error (total, por comparacin, por familia de
Simpson, paradoja de, 114-115 comparaciones), 209-212, 218-220, 222, 240
Somers, d, 107 Tau de Goodman y Kruskal, 117-118
Spearman, coeficiente de correlacin, 174-178 Tau-a de Kendall, 106
Stepwise, regresin (ver regresin por pasos) Tau-b de Kendall, 107
Student, prueba T : Tau-c de Stuart, 107
dos muestras independientes, 37, 129-132 Tendencia, comparaciones de (ver comparaciones
dos muestras relacionadas, 37, 161-163 mltiples),
una muestra, 37, 47, 48, 55-56 Theil, coeficiente de incertidumbre de, 118
Student-Newman-Keuls, prueba para comparaciones Tolerancia, nivel de, 402, 417-418
post hoc, 220, 239-240 Transformacin de las puntuaciones, 200-201
Sumas de cuadrados, 228 Tukey, prueba para comparaciones post hoc, 220-
Supuestos de un contraste, 19: 222, 230-231, 238-240:
aditividad, 401 diferencia honestamente significativa, 220
distribuciones poblacionales iguales, 133-134, diferencia completamente significativa, 220
138-139, 156-158 Tukey-b, 220, 231
esfericidad, 303-305, 309-310, 315, 318, 338- prueba de no-aditividad, 323-325
339, 348-350 Tukey-Kramer, prueba para comparaciones post hoc,
esfericidad local, 332-333, 338 220-221
esfericidad multimuestra, 348-350, 355-356
homocedasticidad o igualdad de varianzas, 130,
U
147, 149, 197-198, 356-357, 399, 405-406,
419-420 U, prueba de Mann-Whitney, 132-137, 141, 156
independencia, 196-197, 226, 260, 303, 309 Unidades de anlisis, 186-189, 196
linealidad, 399-401
no colinealidad, 399, 401-402, 417
V
normalidad, 60, 143, 147, 149, 152, 158, 174,
196-198, 222, 225-227, 237, 260, 303, 305, Valor p (nivel crtico), 20, 33-34
309, 315, 404-405, 418-419 Variabilidad:
simetra, 49, 164-165 intergrupos, 190-191, 228, 232, 253-255, 261,
simetra compuesta, 303 275, 299, 330, 347
intersujetos, 301-302, 330, 347
T intragrupos o error, 189-190, 228, 253-255, 275,
300, 330, 347
T de Student (ver Student, prueba T ) intrasujetos, 299
Tabla de contingencias, 74-77, 80-81, 84-87, 90, 97- total, 261, 275, 299, 300, 306, 330-331, 347
98, 101, 105, 115-116, 120, 122-123 Variable:
Tamao del efecto, 33-35: dependiente o respuesta, 192, 371, 385
coeficiente de correlacin de Pearson, 145-146 dummy (ficticia, indicador), 394
ndice de materias 489
extraa, 189 W
independiente o predictora, 192, 371, 385
Varianza (ver tambin medias cuadrticas y error W, coeficiente de concordancia de Kendall, 321-323
tpico): W de Mauchly, 304, 310, 338-339, 350, 356
combinada, 144 Wald-Wolfowitz, prueba para dos muestras indepen-
de la diferencia entre dos medias independien- dientes, 157-158
tes, 130, 152 Welch:
de la diferencia entre dos medias relacionadas, correccin de los grados de libertad de la distri-
162 bucin t de student, 238
de la diferencia entre dos proporciones relacio- prueba robusta de igualdad de medias (alter-
nadas, 79 nativa al estadstico F ), 198, 225, 228-229,
de los coeficientes de la regresin lineal, 382 237-238
de los pronsticos individuales de la regresin Welsch, pureba para comparaciones mltiples post
lineal, 384 hoc, 240
de los pronsticos promedio de la regresin li- Westlake, intervalo de confianza para demostrar
neal, 384 equivalencia, 152-154
de los residuos de la regresin lineal, 379-380, Wilcoxon, prueba de,
407, 411 para dos muestras independientes, 132, 137
del estadstico de Cochran sobre independencia para dos muestras relacionadas, 37, 164-168
condicional, 112 para una muestra, 37, 47, 48-51, 55-57
del estadstico de Mantel-Haenszel sobre inde-
pendencia condicional, 112 Y
del ndice de acuerdo kappa, 99
del nmero de aciertos, 78 Yates, correccin por continuidad, 53, 58, 68-69, 78,
del nmero de concordancias-discordancias, 108 112
Varianza, contraste sobre la, 47, 59-61 Yule, coeficiente Q, 106
Varianza, anlisis de (ver anlisis de varianza)
Varianza comn o explicada, proporcin de, 380- Z
381, 389 (ver tambin tamao del efecto)
Varianza no explicada, proporcin de, 380-381, 393- Z, transformacin de Fisher, 145
394 Zona crtica o de rechazo, 23
Varianzas-covarianzas, matriz de, 303 Zona de aceptacin, 23-24

Potrebbero piacerti anche