Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
NDICE
Ocurre, como ya vimos, que para que fuera posible extraer estas generalizaciones las caractersticas
de la muestra obtenida deban ser similares a las de la poblacin, es decir, la muestra deba de ser
representativa. Si esto no fuera as, la muestra podra estar sesgada, y nos encontraramos con
muchas posibilidades de que los resultados obtenidos distasen mucho de los parmetros reales en
los que se mueve la poblacin. En este caso, el estudio resulta errneo y queda invalidado
simplemente por esta falta de representatividad de la muestra elegida.
POBLACIN
N
MUESTRA
n
Cabe recordar tambin, que para obtener una muestra representativa se consideraba como lo ms
importante que las caractersticas socio-demogrficas de inters en la muestra (distribucin por sexo,
edad, curso, provincia, nivel socio-econmico, localidad rural-urbana, estado civil, etc.) deban estar
repartidas de manera similar a las caractersticas de la poblacin, y que para conseguir esto existan
diversas tcnicas de muestreo probabilsticas (aleatoria simple y sistemtica, estratificada y por
conglomerados) y no probabilsticas (accidental, intencional y por cuotas).
Podramos preguntarnos en este punto que, dado que se puede cometer un sesgo (error) importante
al seleccionar una muestra inapropiada, por qu no trabajar directamente con la poblacin completa
para evitarlo, asegurando de este modo la representatividad y posibilidad de generalizacin de los
2
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
resultados obtenidos. Realmente, una situacin en la que se trabaja con la poblacin completa es la
ideal en el marco de la investigacin cuantitativa en Ciencias Sociales. No obstante, en contadas
ocasiones se puede trabajar en la prctica de la Investigacin Educativa con una poblacin completa,
por diversos factores:
Dicho esto, queda clara la importancia capital de establecer tcnicas de muestreo apropiadas y lo
que es ms importante, una vez obtenida la muestra representativa, implementar tcnicas
estadsticas concretas para obtener informacin precisa acerca de la poblacin de referencia a partir
3
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Resulta que, dadas las cuestiones anteriormente sealadas, en las investigaciones cuantitativas
desarrolladas en el mbito de las Ciencias de la Educacin se emplea de manera generalizada
informacin de muestras de sujetos procedentes de una poblacin para tratar de establecer
conclusiones o generalizaciones acerca de la poblacin completa.
Desde un punto de vista formal, cabe destacar que todos los ndices que se pueden calcular a partir
de una muestra (media, desviacin tpica, mediana, varianza, asimetra, curtosis, coeficiente de
correlacin, etc.) se denominan estadsticos. Estos estadsticos simplemente aportan una
informacin acerca de los sujetos disponibles en nuestra muestra, nunca sobre la poblacin
completa. Por eso surgen las tcnicas de estadstica inferencial, que se emplean para estimar los
parmetros poblacionales de los que provienen esos estadsticos muestrales.
As, partiendo de los datos de una muestra que se supone que es representativa de la poblacin,
podemos estimar, con unos supuestos previos y unos niveles de error previamente asumidos, que
el valor poblacional (parmetro) de un estadstico obtenido en la muestra se encuentra en un
intervalo o rango de puntuaciones. Por ejemplo, si he evaluado el nivel de competencia lingstica en
lengua inglesa de una muestra representativa de profesores de Educacin Primaria de Castilla y Len,
conocida la puntuacin media ( ) en esta variable (estadstico), puedo aplicar las tcnicas
inferenciales para estimar entre qu valores se encontrar la competencia lingstica media () en
toda la poblacin (parmetro) asumiendo un error en esta estimacin de, por ejemplo, el 5% (el
asumido comnmente).
4
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
La mayor parte de las medidas cuantitativas de rendimiento, actitudes, percepciones, etc. tomadas
en el marco de la investigacin cuantitativa en Ciencias de la Educacin (y en las Ciencias Sociales en
general) suelen tener un comportamiento similar en cuanto a la forma de su distribucin: La medida
de la altura de la poblacin, del peso de los bebs recin nacidos, el cociente intelectual, el nivel socio-
econmico, el rendimiento acadmico, etc., poseen distribuciones muy parecidas.
Las caractersticas de estas distribuciones tienen que ver con varias cuestiones:
La mayor parte de los sujetos de la poblacin se encuentran alrededor o cerca de los niveles
medios de altura, peso, cociente intelectual, rendimiento o nivel, mientras que son pocos los
que se alejan mucho del punto central, ya sea por la parte inferior o por la parte superior de
la distribucin.
Aproximadamente, los sujetos se distribuyen de manera simtrica en torno a las
puntuaciones superiores e inferiores a la media.
5
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
La frmula para la obtencin de la funcin de densidad de esta distribucin terica es muy compleja,
ya que estamos hablando de una distribucin continua:
(x,)
A esta distribucin terica la llamaremos a partir de ahora distribucin normal o Z, con una media y
una desviacin tpica , y su notacin habitual ser del siguiente modo: Z(). As, una variable
observada en una muestra tendr una distribucin similar a la normal siempre y cuando la forma de
la distribucin sea similar a esta distribucin terica. Esta cuestin es independiente de la media y
desviacin tpica de la variable1, de hecho, lo ms habitual es estandarizar la media y desviacin
tpica de la distribucin normal a una =0 y =1, o lo que es lo mismo, Z(0,1). Cabe destacar tambin
que el valor mnimo y mximo de esta distribucin, dado que es asinttica, est entre (-, +)
Por tanto, la propiedad fundamental de esta distribucin es que es simtrica y posee curtosis
mesocrtica. Gracias a esta propiedad a la que generalmente se ajustan las distribuciones de las
variables estudiadas, es posible simplificar el conjunto de tcnicas estadsticas empleadas para
estimar los parmetros poblacionales, o lo que es lo mismo, calcular entre qu valores se encontrar
un parmetro poblacional partiendo de unos datos y unos estadsticos muestrales y asumiendo un
nivel de error concreto.
Pero en muchos casos en la investigacin prctica ocurre que a partir de las variables originales
disponibles se realizan una serie de clculos que impiden utilizar directamente la distribucin terica
Z como distribucin de referencia para la estimacin de parmetros, y es necesario emplear otras
distribuciones. Las otras distribuciones empleadas habitualmente son la T de student, la distribucin
2 y la F de Snedecor.
En lo que respecta a la distribucin 2, cabe sealar que es una distribucin terica conformada por
un sumatorio de variables independientes que siguen una distribucin normal Z(0,1) al cuadrado2.
2n
As, como se puede observar en la figura 4, en este caso no se obtiene una distribucin terica
simtrica, sino que, al estar conformada por un sumatorio de cuadrados, la distribucin tiene origen
en el 0, estando su rango de puntuaciones entre (0, +), dado que se trata de una curva asinttica
por el lado derecho. El apuntamiento de la curva de esta distribucin y la intensidad de su cada hacia
el eje x est determinado por el nmero de grados de libertad (n) de la distribucin, es decir, el
nmero de sumas de Z2 del que provenga. Si una variable que sigue esta distribucin proviene de una
suma de 10 variables que provienen de una distribucin normal (Z) al cuadrado, entonces los grados
1
Cabe recordar que, gracias a las propiedades de la media y la varianza/desviacin tpica, podemos modificar la
media o la desviacin tpica de una variable sin modificar su forma. Por lo tanto, podemos encontrarnos
variables con distribuciones muy similares o iguales a la normal con medias y desviaciones tpicas muy
diferentes.
2
La mayor parte de las veces que tratamos de estimar parmetros a partir de distribuciones tericas,
estandarizamos los valores de la media y la desviacin tpica de la variable que entendemos que se distribuye
como una Z a una =0 y =1.
6
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
de libertad sern 10, lo cual implica que esa curva asociada a la distribucin terica 2 sea de una
manera y no de otra.
en donde Z sigue una distribucin normal Z(0,1) y X sigue una distribucin 2 con n grados de
libertad.
Esta distribucin, por tanto, es simtrica, con media 0 y n grados de libertad. Esto quiere decir que en
funcin del nmero de grados de libertad de la distribucin, su forma variar ligeramente. A nivel
general, la distribucin T se representa como una normal. En la figura 5 se puede observar cmo
cambia el apuntamiento de la curva en funcin de los grados de libertad encontrados en la
distribucin terica.
7
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
en donde X es una variable con distribucin 2 con n grados de libertad e Y es otra variable con
distribucin 2 con m grados de libertad. As, en este caso, en lugar de trabajar con un indicador de
grados de libertad, como ocurra en las distribuciones 2 y T, en este caso trabajamos con 2
indicadores n y m. As, se suele notar esta distribucin como Fn,m. La funcin de densidad de esta
distribucin la podemos observar en la figura 6. Ntese que, al igual que la distribucin 2, la
distribucin F tiene el mnimo en el valor 0 y es asinttica por la cola derecha. As, su rango de
puntuaciones es (0, +), como se puede observar en la figura 6.
8
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Cuando se extrae una muestra de n sujetos a partir de una poblacin de N sujetos, la muestra
obtenida es una de las otras muchas muestras que se habran podido obtener en base a esa
poblacin. Para poder extraer conclusiones o inferencias acerca de toda la poblacin con respecto a
la variable o variables estudiadas a partir de los sujetos obtenidos en la muestras, es necesario tener
en cuenta que los valores, por ejemplo, de la media o medias de las variables medidas ( ) en la
muestra obtenida pueden no coincidir exactamente con el valor de la media poblacional ().
Analicemos ms en profundidad este aspecto: Sabemos que el clculo del nmero de muestras
posibles de tamao n a partir de una poblacin de tamao N se calcula de la siguiente manera:
9
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
EJEMPLO 1
Por ejemplo, si tenemos una poblacin de 5 sujetos y queremos obtener una muestra de 2 sujetos,
la cantidad de muestras posibles a obtener son 10. Imaginemos en este mismo ejemplo que
evaluamos el rendimiento en matemticas de los 5 sujetos de la poblacin, obteniendo los
siguientes resultados:
PUNTUACIN (xi)
Mara 6
Pedro 6
Juan 8
Sonia 4
Laura 6
Podemos tratar de obtener todas las muestras posibles de tamao 2 para esta poblacin.
xi
Mara y Pedro 6; 6 6
Mara y Juan 6; 7 6.5
Mara y Sonia 6; 5 5.5
Mara y Laura 6; 6 6
Pedro y Juan 6; 7 6.5
Pedro y Sonia 6; 5 5.5
Pedro y Laura 6; 6 6
Juan y Sonia 7; 5 6
Juan y Laura 8; 6 7
Sonia y Laura 4; 6 5
As, se puede observar que, por ejemplo, la probabilidad de obtener una muestra con una media de 7
puntos (si se elige en la muestra a Juan y a Laura) es de 1 entre 10 muestras posibles (si
consideramos que todas las muestras posibles han tenido las mismas probabilidades de ser elegidas,
es decir, si el muestreo se ha realizado de manera probabilstica), es decir, existe un 10% de
10
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
probabilidades o 1/10 de que sea elegida. Por su parte, la probabilidad de obtener una muestra con
una media de 6 puntos es de 4 (Mara y Pedro; Mara y Laura; Pedro y Laura; Juan y Sonia) entre 10
muestras posibles, es decir, de 4/10, o lo que es lo mismo, 2/5 o un 40% de probabilidad.
ni Pi Pa
5 1 10% 10%
5.5 2 20% 30%
6 4 40% 70%
6.5 2 20% 90%
7 1 10% 100%
As, se puede definir el siguiente grfico de la distribucin muestral de la media en la variable
rendimiento en matemticas para la poblacin definida de N=5 y n=2:
Frecuencia
5
0
5 5,5 6 6,5 7
Ntese que de todas las muestras posibles (10), la mayor parte tienen una puntuacin media de 6, es
ms probable obtener una muestra con una puntuacin media igual a la puntuacin media de la
poblacin que una muestra con una puntuacin media de 5 (una muestra de las 10, un 10% de
probabilidades de que salga elegida) o con una puntuacin media de 7 (una muestra de las 10, un
10% de probabilidades de que salga elegida).
EJEMPLO 2
Pensemos ahora en un ejemplo un poco ms complejo, imaginemos que tenemos una poblacin de
10 sujetos (N=10) y que queremos medir el rendimiento en matemticas a una muestra de 5 sujetos
(n=5) de los 10 que componen la poblacin. En este caso, el nmero de muestras posibles que se
pueden extraer aumenta considerablemente:
11
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
PUNTUACIN (xi)
Mara 3
Julio 8
Claudia 5
Marta 6
Elena 6
Fernando 7
Carmen 4
lvaro 6
Rodrigo 7
Andrs 8
ni Pi Pa
4.8 3 1.2% 1.2%
5.0 7 2.8% 4.0%
5.2 15 6.0% 9.9%
5.4 20 7.9% 17.9%
5.6 28 11.1% 29.0%
5.8 32 12.7% 41.7%
6.0 42 16.7% 58.3%
6.2 32 12.7% 71.0%
6.4 30 11.9% 82.9%
6.6 20 7.9% 90.9%
6.8 13 5.2% 96.0%
7.0 7 2.8% 98.8%
7.2 3 1.2% 100.0%
TOTAL 252 100.0%
12
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Frecuencia
45 42
40
35 32 32
30
30 28
25
20 20
20
15
15 13
10 7 7
5 3 3
0
4,80 5,00 5,20 5,40 5,60 5,80 6,00 6,20 6,40 6,60 6,80 7,00 7,20
Pensemos, en primer lugar, en el porcentaje de las muestras que est en un rango de puntuaciones
determinado; por ejemplo, el 97.6% de todas las muestras posibles obtiene una media en la variable
rendimiento en matemticas de entre 5 y 7 puntos, por lo que es muy poco probable que se obtenga
una muestra de n=5 a partir de una poblacin de N=10 en la que la puntuacin media sea de 4.8 o de
7.2 puntos.
En la estadstica inferencial se juega con esta probabilidad, asumiendo un error (nivel de
significacin) o una confianza (nivel de confianza) en todas las estimaciones de parmetros. En el
caso de este ejemplo anterior, lo ms probable (un 97.6% de probabilidad, o un nivel de confianza
del 97.6%) es que yo obtenga una muestra con un rendimiento medio en matemticas de entre 5 y 7
puntos. As, el error que se asume si se estima que la media poblacional est entre 5 y 7 puntos es
del 2.4% (100%-97.6%). Igualmente, existen un 73% de probabilidades de que obtenga una muestra
cuya puntuacin media est entre 5.4 y 6.6 puntos. As, si yo estimo que la media poblacional
(parmetro) en esta variable est entre 5.4 y 6.6 puntos estoy asumiendo un nivel de significacin del
27% o un nivel de confianza del 73%, un error demasiado grande (hay un 27% de posibilidades de
que la media de la muestra obtenida finalmente no est dentro del intervalo del parmetro
poblacional).
De todos modos, el problema no es tan sencillo como lo planteado en el ejemplo anterior por dos
cuestiones bsicas:
13
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
14
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
ESTIMACIN DE PARMETROS
Ya hemos sealado que, gracias a la inferencia estadstica, es posible estimar con un margen de error
determinado entre qu valores se encontrar en la poblacin (parmetro) un estadstico obtenido en
la muestra. Lo cierto es que, mientras que es posible estimar el intervalo poblacional sobre cualquier
estadstico descriptivo (media, mediana, desviacin tpica, varianza, asimetra, etc.), lo ms habitual
es emplear la media como estadstico sobre el que extraer inferencias3. De hecho, en este curso
estudiaremos a nivel terico simplemente la estimacin paramtrica de la media, aunque a nivel
prctico tambin estudiaremos las tcnicas estadsticas alternativas cuando las distribuciones de las
variables no se ajustan a la distribucin normal.
Decamos que para estimar un parmetro debemos asumir un error en esa estimacin, y que la
estimacin consiste (generalmente) en el clculo de un intervalo en el que tenemos cierta seguridad
de que se encuentra el valor del estadstico que estamos estimando en la poblacin (normalmente la
media). As, en trminos generales, si en una estimacin queremos asumir un error ms pequeo, el
intervalo de confianza ser ms grande. Por qu ocurre esto?, pues lo vemos sencillamente con un
ejemplo:
Imaginemos que me apuesto con un amigo una cena: si soy capaz de calcular correctamente la altura
de un edificio, con un margen de error de 2 metros, mi amigo me pagar la cena, si no, se la pago yo.
En el ejemplo, me est permitido alejarme de la altura real del edificio como mximo 2 metros. As, si
el edificio mide realmente 23 metros, mi estimacin tiene que ser de entre 21 y 25 metros, o lo que
es lo mismo, debe estar dentro del intervalo (21, 25). Dicho de otro modo, tengo un margen de error
de 23 2 (este margen de error de 4 metros como mximo, 2 m por encima y 2 m por debajo, podra
ser considerado como mi nivel de confianza en la estimacin).
Imaginemos ahora que realizo la misma apuesta, pero que en este caso el margen de error en mi
estimacin es de 4 metros.
En este caso, para ganar la apuesta, considerando que el edificio mide 23 metros, debo dar una
estimacin de 23 4, es decir de entre 19 y 27 metros. Quiere decir esto que, al aumentar el tamao
del intervalo de confianza, esto es, al aumentar el nivel de confianza de la estimacin, es menos
probable que yo pierda la apuesta, es decir, que cometa un error en la estimacin.
3
Cuando no es posible considerar que la distribucin muestral de la media de una variable posee la
distribucin normal porque la variable de origen tiene una forma de su distribucin muy diferente a la normal,
se suele utilizar la mediana como estadstico para realizar la estimacin poblacional de la tendencia central de
la distribucin.
15
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
En el segundo ejemplo, por tanto, mientras que al aumentar el intervalo en el que puede entrar mi
estimacin de la altura del edificio aumenta mi confianza en ganar la apuesta, tambin se reduce la
posibilidad de error.
En la estimacin de parmetros estadstica ocurre exactamente lo mismo que en este ejemplo:
Mientras que en el ejemplo trato de estimar cul es la altura real del edificio a partir de la
informacin obtenida a travs de mis sentidos, permitiendo un margen de error ms o menos
amplio, en la estimacin de parmetros trato de estimar cul es el valor real (poblacional) de un
estadstico a partir de la informacin obtenida en la muestra, permitiendo un margen de error
concreto (intervalo de confianza).
Y, cmo se realiza la estimacin del intervalo de confianza exactamente? Pues bien, para realizar la
estimacin llevamos a cabo varios pasos:
1. Aceptacin del supuesto previo de que la distribucin de la variable a partir de la que quiero
realizar la estimacin es similar a la distribucin normal Z(, ).
2. Establecimiento del nivel de error y de confianza asumidos en la estimacin.
3. Estimacin del parmetro a partir de la distribucin muestral de la media de la variable, bajo
el supuesto previo de que es normal.
16
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Imaginemos que hemos obtenido una muestra de tamao n y queremos estimar el intervalo del
parmetro media en una variable. El objetivo ahora es calcular un intervalo a partir de la media de
esa variable que incluya la mayor cantidad posible de muestras que hubieran podido extraerse de la
poblacin inicial (cada una de ellas con una puntuacin media que puede ser distinta), hasta llegar al
error mximo definido en el paso 2. Por eso debemos volver a la distribucin muestral de la media
para calcular esto. Entendemos en primer lugar que la distribucin muestral de la media de nuestra
variable a partir de la que queremos estimar el parmetro de la media es normal Z(, ). Como
hemos visto antes, a partir de la distribucin muestral de la media de una variable, podemos calcular
en qu porcentaje de todas las muestras posibles su media se encuentra dentro de un intervalo dado
(ver ejemplo 2 pgina 12). O dicho de otro modo, podemos calcular un intervalo alrededor del punto
17
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
central de la distribucin muestral de la media que incluya un porcentaje determinado de todas las
muestras posibles de tamao n que se podran obtener a partir de la poblacin de referencia.
En la mayor parte de los casos, en los que es imposible obtener la distribucin muestral de la media
emprica porque no se tiene informacin sobre todos los sujetos de la poblacin, si se cumple el
supuesto de normalidad de la variable, se entiende que la distribucin de la media es normal y se
genera el intervalo de confianza alrededor de la media de la variable (estimacin puntual de la media
poblacional) a partir de esta distribucin normal (Z o T, en funcin de si se conoce o desconoce la
varianza poblacional). Aqu, como se puede ver en la figura 6, se puede generar un intervalo
alrededor de la media (por definicin, la media de la distribucin muestral de la media se entiende
que es igual a la media poblacional, que se estima puntualmente a partir de la media muestral) que
incluya un porcentaje concreto de todas las muestras posibles. Este porcentaje debe coincidir
exactamente con el nivel de confianza asumido en el paso anterior.
Por definicin, en una distribucin normal Z(0, ), exactamente el 95% de los sujetos de la
distribucin est entre 1.96*. Por tanto, si la distribucin se estandariza a una Z(0, 1), el 95% de los
sujetos y, por ende, el 95% de las todas las muestras posibles en una distribucin muestral de la
media normal, se encontrar en el intervalo (-1.96, 1.96). As, si asumo la normalidad de la variable
original y un error del 5%, tendr un 95% de confianza si afirmo que el intervalo del parmetro media
para una =0 y Sx=1 se encontrar entre -1.96 y 1.96. Si se mantiene todo igual excepto el nivel de
error, que pasa del 5% al 1%, podra afirmar con un 99% de confianza que la media poblacional se
encuentra en el intervalo (-2.58, 2.58). Claro, siempre puedo haber elegido por pura mala suerte o
por errores/problemas en el muestreo una muestra tan extrema que est equivocndome en la
estimacin, este es el error asumido.
18
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Ocurre, no obstante, que las variables que obtenemos en nuestros estudios no tienen =0 y Sx=1,
sino puntuaciones totalmente diferentes. En este caso, simplemente aplicando las propiedades de la
media y de la varianza, se puede estimar el intervalo del parmetro ajustado a los valores exactos de
la media y la desviacin tpica de la variable original. La frmula general para el clculo de la amplitud
del intervalo de confianza si se conoce la varianza poblacional es la siguiente:
Donde 1-/2 se refiere al percentil correspondiente a la puntuacin Z que hay que seleccionar,
siendo el nivel de error asumido; y el ET se refiere al error tpico, un valor obtenido directamente a
partir de la varianza de la variable, en este caso:
En el caso de desconocer la varianza poblacional, cuestin que ocurre en la prctica totalidad de los
casos, no podemos emplear la distribucin Z, sino que tenemos que recurrir a la T, y por eso cambia
mnimamente la frmula:
Donde n-1 se refiere al nmero de grados de libertad (igual al tamao de la muestra menos 1) y al
nivel de error asumido. En este caso, el
Cabe destacar que las frmulas anteriores son vlidas para todos los casos en los que se realiza un
contraste de hiptesis basado en las distribuciones tericas Z o T. Lo nico que cambia en el clculo
de la frmula es el clculo del Error Tpico, que es diferente en funcin del tipo de contraste
realizado.
Nosotros trabajaremos en todo caso con esta segunda frmula para la estimacin de la amplitud del
intervalo de las medias poblacionales, ya que los ejemplos que veremos en clase consideran
desconocida la varianza poblacional. As, la frmula que emplearemos definitivamente para el clculo
de un intervalo de confianza para la media poblacional ser la siguiente:
Imaginemos que obtenemos una muestra representativa de n=61 maestros de Educacin Primaria en
formacin en la que medimos mediante una escala el nivel de actitudes hacia el empleo de la Pizarra
Digital Interactiva (PDI) en la docencia. Esta escala tiene un valor mximo posible de 10 puntos y
mnimo de 50, y en la muestra se obtienen los siguientes descriptivos para la variable:
=35.6 Sx=8.3
Tras comprobar que la variable actitudes hacia el empleo de la PDI en la docencia se distribuye
conforme a la distribucin normal, se nos pide que calculemos el intervalo de confianza para el
parmetro media (media poblacional) a partir de los datos de la muestra, tanto para el caso de que el
error sea de =5% como que sea de =1%.
19
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Para el caso en el que el error es del 5%, debemos calcular el valor de la T para 60 (n-1) grados de
libertad y un error de 0.025 (por cada lado de la distribucin). Si consultamos las tablas de la
distribucin terica T, resulta que el valor para un nivel del 5% y 60 grados de libertad es de
2.0003.
Podemos observar esto mismo de manera visual. Como se muestra en la figura 7, en una distribucin
muestral de la media con forma T y 60 grados de libertad, el 95% de las muestras posibles estn en el
intervalo (-2.003, 2.003).
Figura 7. Intervalo para un nivel =0.05 en la distribucin t60;0.025 (Fuente: elaboracin propia)
As, ya disponemos de toda la informacin para poder calcular el intervalo del parmetro media:
En conclusin, si establezco una seguridad del 95% en mi estimacin, puedo afirmar que la media
poblacional de la variable actitudes hacia el empleo de la PDI en la docencia se encuentra dentro del
intervalo (33.46, 36.74).
Para el caso en el que el error es del 1%, debemos calcular el valor de la T para 60 (n-1) grados de
libertad y un error de 0.005 (por cada lado de la distribucin). Si consultamos las tablas de la
distribucin terica T, resulta que el valor para un nivel del 1% y 60 grados de libertad es de
2.6603, como se puede observar en la figura 8.
20
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Figura 8. Intervalo para un nivel =0.01 en la distribucin t60;0.025 (Fuente: elaboracin propia)
As, ya disponemos de toda la informacin para poder calcular el intervalo del parmetro media:
Ntese que la amplitud del intervalo, en este caso, es mayor que en el anterior, porque estamos
asumiendo un error menor, es decir, que tenemos una confianza mayor (del 99% en este caso) sobre
la estimacin realizada.
CONTRASTE DE HIPTESIS
Todo este artefacto matemtico tiene mucho ms potencial que la simple estimacin del valor o
valores entre los que con mucha seguridad se va a encontrar el estadstico en la poblacin. Las bases
tericas y matemticas de la estimacin de parmetros se emplean de manera generalizada para
tratar de contrastar hiptesis de todo tipo:
21
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
que es lo mismo, si el lmite inferior del intervalo obtenido es superior a 100 puntos, entonces
puedo aceptar la hiptesis planteada. En caso contrario, no puedo aceptar la hiptesis).
Hiptesis sobre un estadstico en dos o ms grupos o muestras: En muchas ocasiones nos
ocurre que queremos conocer si se puede concluir que una poblacin posee una puntuacin
media ms elevada que otro en alguna variable. Esto nos puede servir, por ejemplo, para
determinar si una poblacin tiene un grado de conocimientos superior a otra, si posee unas
actitudes ms elevadas que otra, etc. (por ejemplo, puedo querer comparar, a partir de la
muestra obtenida en las pruebas PISA, el rendimiento en comprensin lectora de las
poblaciones de estudiantes de algunas comunidades autnomas de Espaa. Para ello,
estimar el intervalo para la media en cada una de las poblaciones por separado y comparar
dichos intervalos en cada pareja. Si los dos intervalos obtenidos en dos de las comunidades no
se solapan en ningn momento, es decir, si los rangos de ambos intervalos no tienen valores
conjuntos, podr afirmar con el nivel de confianza establecido que existen diferencias
significativas en ambas poblaciones. En el caso contrario de que exista alguna parte conjunta
en la amplitud o rango de ambos intervalos, no podr afirmar que existan diferencias
significativas en cuanto a la media de ambas poblaciones).
Hiptesis sobre dos o ms estadsticos en un grupo o muestra: Principalmente en los
estudios de corte experimental en los que existe al menos una medida pretest y una postest,
nos interesa conocer si existen diferencias significativas entre el nivel alcanzado en la
medicin de la variable en el pretest y la medicin en el postest. As, determinaremos si una
poblacin ha alcanzado, por ejemplo, aprendizajes significativos (por ejemplo, si he diseado
un programa para la mejora de la convivencia en centros de Educacin Secundaria y quiero
evaluar su eficacia, puedo tomar como medida pretest el nmero de conductas disruptivas de
la convivencia generadas por la muestra de estudiantes de institutos las semanas previas a la
implementacin del programa y como medida postest el nmero de conductas disruptivas
generadas las semanas posteriores. En este caso, la tcnica procede calculando el intervalo
para la media poblacional de la diferencia entre las conductas disruptivas generadas en el
postest y en el pretest (postest-pretest), y comprobando si el valor 0 est incluido en ese
intervalo. En este caso, podr concluir que el programa no genera efecto alguno sobre la
poblacin de estudiantes de educacin secundaria en cuanto al nmero de conductas
disruptivas generadas antes y despus del programa. En el caso contrario podr concluir que
el programa genera un efecto significativo en la poblacin de estudiantes de educacin
secundaria).
Hiptesis nula (H0): Se refiere a la conjetura que se pone a prueba en el contraste, es decir,
la hiptesis que plantea para su rechazo o no rechazo. La hiptesis nula siempre es la
hiptesis de igualdad.
Hiptesis alternativa (H1): Es la hiptesis opuesta o complementaria a la hiptesis nula. Si se
rechaza la hiptesis nula, entonces la hiptesis alternativa no se puede rechazar (se puede
aceptar como vlida). Sin embargo, si no se rechaza la hiptesis nula, entonces deberemos
22
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
En realidad, se puede pensar el procedimiento del contraste de hiptesis como un juicio. Pensemos
en que somos miembros de un tribunal que debe juzgar y decidir sobre si un acusado es condenado o
queda en libertad. Evidentemente, al igual que en un contraste de hiptesis, deberemos tomar la
decisin a partir de las pruebas o evidencias que se tengan disponibles. Antes de iniciar el juicio y
durante el mismo se mantiene la propia presuncin de inocencia del acusado (hiptesis nula, el
acusado es inocente) hasta que las evidencias no demuestren claramente lo contrario (hiptesis
alternativa, de culpabilidad). Podramos resumir todas las posibles conclusiones del juicio en una
simple tabla.
EN REALIDAD
Es inocente Es culpable
23
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
En estos 4 escenarios existen dos situaciones acertadas y otras dos errneas. Sin embargo, el lector
estar de acuerdo con que no es lo mismo el error de condenar a un inocente que el error de que un
culpable quede en libertad. Al igual que ocurre con un juicio, lo ms importante en un contraste de
hiptesis es evitar el error tipo I, ya que se considera ms grave que el error tipo II. No obstante, si
nos ponemos muy estrictos (asumimos un error muy pequeo) para evitar el error tipo I, es decir,
para evitar condenar a un inocente, va a ser ms fcil acabar cayendo en el error tipo II, dejar en
libertad a una persona que realmente es culpable. Si un tribunal o juez nunca condena a nadie,
evidentemente no caer en el error tipo I, pero no pensaremos por ello que est realizando su labor
encomendada correctamente. Al respecto, se ha convenido en la comunidad cientfica que el mejor
equilibrio entre el error tipo I y el II est en considerar como tolerable un erro tipo I del 5% o del 1%,
segn el caso, como hemos visto hasta ahora.
Partiendo de estas ideas, podemos plantear el esquema general o los pasos que deben ser seguidos
en el contraste de hiptesis:
Un investigador plantea que la clave de que los estudiantes de Educacin Secundaria de Finlandia
alcancen rendimientos tan altos en relacin a estudiantes de otros pases de la OCDE tiene que ver
con que el cociente intelectual medio de los jvenes Finlandeses es superior al del resto de estudiantes
de estos pases. Por los estudios demogrficos previos que existen al respecto, se sabe que el cociente
intelectual medio de los jvenes de estos pases es de 100 puntos (no se posee informacin acerca de
24
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
En este ejemplo deberemos calcular el intervalo del parmetro poblacional media en la poblacin de
estudiantes finlandeses para comprobar si es plausible considerar que el CI medio de esta muestra es
de 100 puntos (H0) o no (H1). En este caso, como el valor del CI medio obtenido en la muestra es
superior a 100 puntos, en caso de rechazar la hiptesis nula podremos concluir que los estudiantes
finlandeses tienen un CI superior a 100 puntos. De este modo, las hiptesis estadsticas planteadas
son, por tanto, las siguientes (paso 2):
H0: finl=100
H1: finl100
Ntese que la hiptesis nula es la de igualdad y la alternativa la de desigualdad, y que lo que plantea
es, o bien que el CI medio poblacional de los estudiantes finlandeses se puede considerar de 100
puntos, o que no puede realizarse esta consideracin.
Una vez planteadas las hiptesis estadsticas, ya estamos en disposicin de generar el intervalo de
confianza para la media de la muestra, apoyndonos en la frmula descrita en la pgina 18. En este
caso, dado que no se posee informacin sobre la varianza poblacional, slo sabemos la muestral, la
distribucin a emplear es la distribucin t con 104 (n-1) grados de libertad. Cabe destacar que los
valores disponibles son los del tamao de la muestra, la media y la varianza. La varianza debe ser
previamente transformada en el valor de la desviacin tpica, ya que este es el valor necesario para
realizar los clculos.
Se observa que el intervalo (99.71, 104.69), aunque por unas pocas dcimas, incluye el valor 100
dentro de los valores poblacionales de la media plausibles, por lo que no se puede rechazar la
hiptesis nula. As, la decisin tomada por el investigador (paso 4), o la conclusin final, es que los
estudiantes de educacin secundaria finlandeses no poseen un cociente intelectual diferente (ni por
25
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
supuesto superior) al del resto de estudiantes de este nivel educativo de pases pertenecientes a la
OCDE.
Podemos ver este intervalo mejor en una imagen (figura 9). Resulta que, como hemos entendido que
la distribucin muestral de la media en la variable CI tiene una forma normal, y que la estimacin
puntual de la m coincide con el valor de la media muestral obtenido, podemos calcular el intervalo
de puntuaciones entre el que se encuentran, en esta distribucin muestral, el 95% de todas las
muestras posibles obtenidas a partir de la poblacin de estudiantes de educacin secundaria en
Finlandia:
Se puede observar cmo ahora tenemos en este grfico una regin de aceptacin (si el valor
hipottico 100 entra en esta regin se acepta la hiptesis nula) y una regin de rechazo (sin el valor
hipottico 100 se encuentra fuera del intervalo, esto es, dentro de la regin de rechazo, se rechaza la
hiptesis nula), que nos aportan una indicacin precisa acerca de la decisin a tomar.
EJEMPLO 5. Contraste de hiptesis para comparar la media de una variable en varios grupos
26
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
En este caso, vemos que la media poblacional con un intervalo de puntuaciones ms bajo es el de los
estudiantes de Andaluca, pero que su intervalo se solapa con el de los estudiantes de Madrid. Por
otro lado, el intervalo de los estudiantes de Castilla y Len, que poseen los valores ms elevados, se
solapa con el de los de Madrid, pero con el de los de Andaluca. Veamos estos resultados incluyendo
las 3 distribuciones muestrales de la media en un hipottico eje x conjunto en la figura 9:
27
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Claramente se muestra cmo, mientras que existe un intervalo comn en las estimaciones
poblacionales de Andaluca y Madrid y de Madrid y Castilla y Len, los intervalos entre Andaluca y
Castilla y Len estn separados. Entonces, puedo acabar tomando las siguientes decisiones a partir
de este contraste (paso 4):
- A nivel general, puedo rechazar H0, ya que los niveles de comprensin lectora de los
estudiantes en Espaa son diferentes en funcin de la comunidad autnoma, al menos en
algn caso. As, existen diferencias significativas en funcin de la comunidad autnoma de
procedencia en cuanto al nivel de comprensin lectora de los estudiantes espaoles.
- A nivel especfico, puedo establecer 3 conclusiones:
o No rechazo la H0 en el caso de las diferencias entre los estudiantes de Andaluca y de
Madrid. No se poseen evidencias suficientes para afirmar que las poblaciones de
estudiantes de estas dos comunidades autnomas posean unos rendimientos en
comprensin lectora diferentes (recordemos que esto es un juicio, y que no
debemos juzgar al acusado como culpable hasta que no tengamos evidencias
irrefutables, en este caso parece que los estudiantes de la muestra de Madrid tienen
un rendimiento ligeramente superior, pero con el nivel de error asumido no
podemos afirmar que estas diferencias puedan ser reales en la poblacin). As, no
existen diferencias significativas entre ambos grupos en cuanto a su nivel de
comprensin lectora.
o No rechazo la H0 en el caso de las diferencias entre los estudiantes de Madrid y
Castilla y Len por las mismas circunstancias. Adems, en este caso, las puntuaciones
son mucho ms cercanas entre ambos grupos, y el rea comn de los intervalos
estimados es mucho ms grande, por lo que tenemos mucha ms seguridad en
nuestra afirmacin de no rechazar la H0. Por tanto, no existen diferencias
significativas entre ambos grupos.
o Rechazo la H0 en el caso de las diferencias entre los estudiantes de Andaluca y
Castilla y Len. Parece que la poblacin de estudiantes de Castilla y Len posee un
rendimiento en comprensin lectora superior a la poblacin de estudiantes de
Andaluca, alcanzndose diferencias significativas entre ambos grupos.
28
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
29
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Ya vemos, en primer lugar, cmo, mientras que inicialmente la cantidad media de conductas
disruptivas de la muestra de estudiantes fue de 8.47 puntos, tras la aplicacin del programa se
reduce a 3.13 conductas disruptivas de media por estudiante. As, se han reducido de media 5.33
conductas disruptivas por estudiante. Ahora la duda es si estas diferencias son suficientes como para
poder considerarse significativas. Aunque los programas estadsticos emplean un clculo estadstico
especfico ms ajustado para realizar esta estimacin, realizaremos los clculos a partir de la frmula
estudiada inicialmente, que realiza un ajuste razonablemente similar.
La hiptesis de investigacin planteada en este caso podra ser la siguiente (paso 0):
El nmero de conductas disruptivas de la convivencia escolar de estudiantes de 6 de educacin
primaria se reducir tras la aplicacin de un programa de mejora de la convivencia escolar en el aula.
En cuanto al paso 1, ya se ha sealado que se posee un nivel de significacin del 1%, y tras el estudio
de la distribucin de la variable, resulta que se acepta la normalidad de la misma.
As, se pueden generar las siguientes hiptesis estadsticas con respecto a los grupos (paso 2):
En conclusin (paso 4), resulta que tengo evidencias suficientes para rechazar la H0, ya que resulta
que postest-pretest0 para un nivel de confianza del 99%. As, el programa de mejora de la convivencia
es efectivo, ya que parece que ejerce un efecto significativo sobre la reduccin de conductas
disruptivas en el aula.
Aunque en realidad cuando realizamos un contraste de hiptesis estamos empleando todo este
artefacto estadstico/matemtico, el software estadstico empleado para el anlisis de datos
descriptivo e inferencial de manera ms generalizada, SPSS, no nos suele aportar la informacin de
los contrastes de hiptesis de este modo, incorporando las hiptesis estadsticas, los intervalos de
confianza para los parmetros que se deben estimar y la decisin tomada. En su lugar, simplemente
nos aporta informacin en todo contraste de hiptesis acerca del valor de la significacin exacta de
ese contraste (SPSS llama a este valor Sig., aunque tambin lo podemos denominar como p-valor).
30
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Qu quiere decir esto exactamente? Pues el valor devuelto por el programa informtico es una
probabilidad, es decir, un valor entre 0 y 1. Lo que nos est indicando exactamente en cada uno de
los 3 casos estudiados es lo siguiente:
Contraste de hiptesis para una media en un grupo: El valor de la significacin (sig.)
devuelto por el programa estadstico en este caso nos indica la probabilidad que existe de
que la muestra a partir de la que se ha generado la estimacin provenga de una poblacin
con la media con el valor sealado en la hiptesis nula (en el ejemplo 3, =100).
Contraste de hiptesis para comparar la media de una variable en varios grupos: En este
caso, el valor de la significacin devuelto por SPSS nos indica la probabilidad exacta de que
las muestras que se comparan provengan de la misma poblacin o de poblaciones con la
misma media (en el ejemplo 4, Mad =And= CyL). En el caso de que el contraste sea no
paramtrico, la comparacin se hace entre las medianas de los grupos (MdnMad = Mdn And =
MdnCyL)
Contraste de hiptesis para comparar varias variables en un grupo: Lo que indica este valor
Sig. o p-valor es la probabilidad de que la muestra obtenida en el estudio provenga de una
poblacin en la que la diferencia entre las puntuaciones de las variables es 0 (En el caso del
ejemplo 5, las variables pretest y postest, o sea, postest-pretest=0). En el caso de que el
contraste sea no paramtrico, la comparacin se hace entre las medianas de las variables
(Mdnpret = Mdnpost).
Ntese que en realidad, este valor de la significacin o p-valor se est refiriendo en todos los casos a
la probabilidad de que H0 sea cierta o, dicho en trminos del ejemplo del juicio, la probabilidad de
que el acusado sea inocente (si la probabilidad de que sea inocente no es suficientemente baja, tan
baja como el nivel de significacin planteado inicialmente, no deberamos acusarle). As, la
interpretacin de este nivel Sig. o p-valor siempre es la misma, en funcin del nivel de error o que
hayamos prefijado:
En el caso de que p-valor < , entonces tendr evidencias suficientes como para rechazar la
H0, ya que la probabilidad de cometer un error tipo I es menor al nivel de error establecido
previamente (normalmente del 5%). En este caso rechazar la hiptesis nula y podr afirmar
que existen diferencias significativas bien entre varios grupos, o entre varias medidas en un
mismo grupo, o entre la media de un grupo y la de una poblacin hipottica.
En el caso de que p-valor , entonces no tendr evidencias suficientes como para rechazar
la H0, ya que la probabilidad de cometer un error tipo I es menor al nivel de error establecido
previamente. En este caso no rechazar la hiptesis nula y no podr afirmar que existan
diferencias significativas entre las puntuaciones en una variable de varias muestras, o entre
la puntuacin en varias variables en una muestra, o entre la puntuacin de una muestra y la
de una poblacin hipottica.
A lo largo de los siguientes temas abordaremos desde un punto de vista prctico una por una las
tcnicas estadsticas inferenciales ms habituales, por lo que profundizaremos en las implicaciones
de este p-valor.
31
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
32
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
El tamao del intervalo podemos prefijarlo nosotros como nos venga en gana, por ejemplo, el grfico
2 muestra el histograma de la misma distribucin con los intervalos de 1 punto de tamao y no de
0.4 puntos.
33
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
En este caso recordemos que el diagrama de cajas representa los 3 cuartiles (Q1 o P25, Q2 o P50 o
mediana y Q3 o P75).
En el ejemplo, tanto en el grfico de cajas, como en el histograma, se observa cmo de manera muy
ligera la distribucin posee una asimetra negativa, esto es, la cola ms larga de la distribucin desde
la posicin ms elevada o la posicin de la mediana se encuentra en las puntuaciones bajas. O lo que
es lo mismo, hay una mayor acumulacin de sujetos en las puntuaciones altas que en las bajas de la
variable.
El anlisis grfico inicial simplemente nos aporta informacin exploratoria acerca de la distribucin
de la variable en la que ya veamos algunas cuestiones de falta de normalidad ms o menos claras.
Mientras que la observacin grfica de una clara falta de normalidad puede ser suficiente para
considerar que una variable no se distribuye normalmente, no se puede tomar la decisin de que una
variable es normal simplemente con el anlisis grfico. Es necesario realizar un anlisis posterior al
menos de los ndices de asimetra y curtosis.
Recordemos que una distribucin de datos se considera normal cuando la asimetra y la curtosis
tienen exactamente el valor 0. En la prctica esto no nos va a ocurrir nunca, pero s es importante
que los valores de asimetra y curtosis estn cercanos a esta puntuacin central.
Esta informacin la pedimos en SPSS en men analizar Estadsticos descriptivos Descriptivos,
obeniendo la siguiente tabla:
Estadsticos descriptivos
N Asimetra Curtosis
Como ya hemos indicado, existe una prueba bsica para el contraste del ajuste a la distribucin
normal de una variable, que se llama generalmente prueba o test de Kolmogorov-Smirnov. Esta
prueba realizar un contraste de hiptesis en el que plantear la hiptesis nula de que la variable se
distribuye conforme a una distribucin normal o que no lo hace. Por lo tanto, si se obtiene un p-
valor, o Sig., inferior al nivel , o de significacin, preestablecido se deber rechazar la H0, y si este
valor es superior se deber aceptar la hiptesis de que la distribucin de la variable medida proviene
de una distribucin normal.
34
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
En men SPSS analizar pruebas no paramtricas cuadros de dilogo antiguos K-S de una
muestra se obtiene la siguiente tabla:
REND_MATEM
N 260
a,b
Parmetros normales Media 7,0769
Desviacin tpica 1,27851
Diferencias ms extremas Absoluta ,087
Positiva ,051
Negativa -,087
Z de Kolmogorov-Smirnov 1,403
Sig. asintt. (bilateral) ,039
La informacin bsica que se debe extraer de esta tabla generalmente para informar del resultado de
la prueba es simplemente la de la Z y la de la Sig.:
Zk-s P-VALOR
RENDIMIENTO MATEMTICAS 1.403 0.039
Ntese que el p-valor es de 0.39, es decir, resulta que hay una probabilidad de 0.039 de que la
variable rendimiento en matemticas obtenida a partir de la muestra provenga de una variable con
distribucin normal en la poblacin. Esto quiere decir que el nivel de error tipo I exacto que puedo
cometer si rechazo H0 es del 3.9%. Depender, por tanto, la decisin final que yo tome en este
contraste del nivel o de error que yo haya preestablecido (del 5% o del 1%):
35
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Parece que la distribucin por comunidad autnoma no est repartida de modo muy equilibrado,
tenemos 200 estudiantes en Castilla y Len por 60 en Andaluca.
Comunidad autnoma
60
Castilla y Len
Andaluca
200
36
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
niveles de dispersin similares en ambos grupos, asimetra prcticamente nula y curtosis platicrtica
moderada de manera generalizada.
Mdn CV As Curt
Castilla y Len 37.43 37 7.44 19.88% 0.06 -0.61
Andaluca 34.97 34 6.84 19.56% -0.08 -0.74
Total 36.86 36 7.36 19.97% 0.06 -0.58
2. SUPUESTOS PREVIOS
En este caso slo ser necesario comprobar el supuesto previo de normalidad. Posteriormente,
deberemos comprobar la homocedasticidad (igualdad de varianzas) cuando realicemos la prueba.
En primer lugar, vimos que las distribuciones parecan simtricas y con leve curtosis platicrtica.
Veremos si este pequeo desajuste con respecto a la curva normal es suficiente para que exista falta
de normalidad. Recordemos que la prueba de dos muestras independientes compara las medias de
las dos distribuciones de los dos grupos (en este caso estudiantes de Castilla y Len y de Andaluca),
por lo que deberemos comprobar la normalidad de los dos grupos por separado. Veamos en primer
lugar, por tanto, el histograma para ambos grupos en la variable puntuacin en el pretest (vamos
forzar 10 intervalos y el eje X con puntuaciones entre 20 y 55 puntos).
Vemos distribuciones aproximadamente normales, al menos a priori. En todo caso, veamos lo que
ocurre cuando aplicamos la prueba de normalidad. Recordemos antes las hiptesis planteadas en
este contraste:
37
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Zk-s P-VALOR
Castilla y Len 1.024 0.245
Andaluca 0.689 0.729
Recordemos que partamos, si no se deca lo contrario, de un nivel de significacin del 5%, es decir,
aceptaremos la hiptesis nula cuando el p-valor sea superior o igual a 0.05 y la rechazaremos cuando
sea inferior a este valor. En este caso, ambos contrastes indican un p-valor superior a 0.05, por lo que
aceptamos H0, es decir, podemos afirmar que ambas distribuciones provienen de la distribucin
normal. As, puedo continuar con el contraste de hiptesis.
Bien, una vez hecho todo lo anterior, vamos a completar la prueba. Para ello debemos, inicialmente,
quitar la segmentacin del archivo. Para ello, vamos a men datos Segmentar archivo y
seleccionamos analizar todos los casos.
Una vez estamos seguros de que el archivo no est segmentado, seleccionarmos men analizar
Comparar medias Prueba T para muestras independientes. En la ventana emergente, debemos
aadir como variable de agrupacin la variable cualitativa que establece los dos grupos (comunidad
autnoma en este caso) y en el botn definir grupos indicar los dos grupos que se quieren
comparar4. En grupo 1 y grupo 2 deberemos aadir el nmero con el que se han codificado ambos
grupos (recordemos que esto lo podemos ver en la vista de variables, en valores). Por otra parte, en
la ventana variables para contrastar se debe aadir la variable cuantitativa (en este caso la
puntuacin en el pretest).
Obtenemos las siguientes tablas:
Estadsticos de grupo
Error tp. de la
Comunidad autnoma N Media Desviacin tp. media
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
Puntuacin Se han asumido ,646 ,422 2,286 258 ,023 2,45833 1,07531 ,34083 4,5758
en el pretest varianzas iguales
4
Por qu crees que el SPSS requiere que definas qu grupos comparar?
38
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Como el p-valor asociado (en SPSS siempre se llama sig.) a esta prueba es de 0.422, superior al valor
0.05, aceptamos la hiptesis nula, y asumimos varianzas iguales. As, en este caso debo interpretar
los datos superiores de la prueba de t y desechar los de la fila inferior. En todo caso, las hiptesis
planteadas en esta prueba de t para grupos independientes se mantienen inalterables:
En todo caso, normalmente, es suficiente con informar del valor del estadstico de contraste t y el p-
valor. Podramos resumir todo el proceso de la siguiente manera:
Tras la exploracin inicial del comportamiento de la variable puntuacin en el pretest y
la comprobacin del supuesto de normalidad de la misma tanto para los estudiantes
andaluces (Zk-s=0.689; p.=0.729) como para los de Castilla y Len (Zk-s=1.024; p.=0.245),
se aplica el contraste de hiptesis paramtrico. Asumiendo un nivel de confianza del
95%, el resultado de la prueba de t para grupos independientes muestra diferencias
significativas entre ambos grupos (t=2.286; p.=0.023). Por lo tanto, se rechaza la
hiptesis nula, y se puede afirmar que los niveles medios de desempeo en el pretest
de los estudiantes andaluces y castellanoleoneses son diferentes. En concreto, los
estudiantes de Castilla y Len poseen un nivel de desempeo en la prueba superior a
los estudiantes de Andaluca.
39
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
As, comprobaremos la hiptesis de si las medianas de los grupos son iguales o diferentes. Antes de
plantear el contraste, como nos interesa comparar medianas, es interesante generar los diagramas
de cajas para la variable objeto de contraste (puntuacin en el pretest) para cada uno de los grupos
de estudiantes:
40
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Castilla y Len y Andaluca, y aadir la variable cuantitativa u ordinal que se va a contrastar, en este
caso puntuacin en el pretest. Las hiptesis concretas planteadas son:
Rangos
Rango Suma de
Comunidad autnoma N promedio rangos
Total 260
a
Estadsticos de contraste
Puntuacin en
el pretest
(competencias
digitales)
U de Mann-Whitney 4952,500
W de Wilcoxon 6782,500
Z -2,053
Sig. asintt. (bilateral) ,040
La primera de las tablas indica los rangos de los sujetos de cada muestra, es decir, la posicin media
de los sujetos de cada grupo despus de ordenar a todos los sujetos de menor a mayor puntuacin
en funcin de la variable de contraste (en este caso, puntuacin en el pretest). Resulta, como ya
veamos en el diagrama de cajas, que los estudiantes de Castilla y Len ocupan posiciones ms altas
en esta clasificacin de puntuaciones en el pretest, o lo que es lo mismo, en trminos promedios los
estudiantes de Castilla y Len tienen puntuaciones ms elevadas en el pretest que los de Andaluca.
Esto ya lo sabamos por la informacin analizada previamente, tanto en los diagramas de cajas, como
en los estadsticos descriptivos, por lo que esta primera tabla no es de gran inters, simplemente
confirma esas observaciones previas.
La tabla que ms interesa es la siguiente, que tiene 4 datos. Los 3 primeros datos indican
puntuaciones de los estadsticos a partir de los que se realiza el contraste de hiptesis. De stos, al
ser la distribucin terica ms conocida, se suele informar del valor de la Z junto con la significacin o
p-valor. Vemos cmo, al igual que ocurra en el contraste paramtrico, los resultados informan de
que existen diferencias significativas entre las medianas de los dos grupos, esto es, que se puede
afirmar que existen diferencias significativas entre los dos grupos de estudiantes. Podramos
informar de esto en un artculo o informe de investigacin de la siguiente manera:
41
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
50%
45,00%
45%
38,50%
40% 36,50%
35%
30,00%
30%
25%
18,00% 18,30% Castilla y Len
20%
Andaluca
15%
10% 6,70%
4,50%
5% 2,50%
0,00%
0%
Totalmente en En desacuerdo Ni de acuerdo De acuerdo Totalmente de
desacuerdo ni en acuerdo
desacuerdo
Se ha generado el diagrama de barras conjunto por las puntuaciones relativas porque recordemos
que los tamaos de muestra de ambos grupos eran diferentes, y por lo tanto, no directamente
comparables. Parece que las distribuciones de las variables en ambas muestras es similar, teniendo
los estudiantes de Castilla y Len unas actitudes ligeramente superiores (ms de un 36% de los
estudiantes de Castilla y Len estn totalmente de acuerdo con la afirmacin, mientras que esto
ocurre con un 30% de los estudiantes andaluces).
Tambin podramos obtener el diagrama de cajas para cada grupo, para hacer una primera
comparacin de ambos grupos:
42
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Vemos en ambos casos distribuciones con una asimetra negativa muy importante (los estudiantes
tienden a valorar con puntuaciones muy altas esta variable) y con una puntuacin mediana igual en
ambos casos (Mdn=De acuerdo). En todo caso, parecen distribuciones muy semejantes
Sern estas diferencias obtenidas en la muestra suficientes como para poder afirmar que en las
poblaciones tambin existen? Veamos, en primer lugar, que la formulacin de las hiptesis se
mantiene, ya que los grupos son los mismos que en el contraste previo:
Por otro lado, podemos realizar el contraste del mismo modo que sealamos antes, accediendo a
men analizar Pruebas no paramtricas Cuadros de dilogo antiguos Muestras
independientes. Veamos las tablas resultantes:
Rangos
Rango Suma de
Comunidad autnoma N promedio rangos
El manejo de herramientas inf. es esencial para los ciudadanos del siglo XXI
U de Mann-Whitney 5722,500
W de Wilcoxon 7552,500
Z -,577
Sig. asintt. (bilateral) ,564
43
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Vemos, en primer lugar, que el rango promedio de los estudiantes de Castilla y Len (131.89) es
ligeramente superior al de los estudiantes de Andaluca (125.88), observacin coincidente con lo
sealado en el diagrama de barras conjunto.
En cuanto al contraste de hiptesis propiamente dicho, se observa que no existen diferencias
significativas entre las medianas de los grupos en la variable actitudes hacia las competencias
digitales (Z=-0.577; p.=0.564). As, acepto la hiptesis nula y concluyo que los dos grupos poseen
actitudes similares en lo que tiene que ver con las actitudes hacia las competencias digitales (no
existen diferencias significativas entre ambos grupos).
44
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Del total de 260 estudiantes de la muestra, resulta que la totalidad han completado tanto el pretest
como el postest, por lo que realizaremos el contraste incluyendo a todos los sujetos disponibles en la
base de datos. En el caso de que, por ejemplo, solamente 20 sujetos hubieran contestado tanto el
pretest como el postest, sera problemtico, ya que el contraste slo se podra realizar con esos 20
sujetos (independientemente de que, por ejemplo, hubieran completado el pretest 125 personas y el
postest 156).
En el caso de la prueba de t para grupos relacionados, si recordamos el primer bloque de contenido,
el clculo se realiza a partir de una nueva variable que podemos denominar diferencia (Xpostest-
Xpretest). As, la comprobacin de la normalidad se debe realizar sobre la nueva variable resultante de
restar la puntuacin en el postest menos la puntuacin en el pretest. En SPSS realizamos esa
operacin en men transformarCalcular variable, y en la ventana emergente, en el cuadro
variable de destino aadimos el nombre de la nueva variable, y en el cuadro expresin numrica
aadimos la resta (Puntuacin en el pretest-Puntuacin en el postest) seleccionando las variables de
la columna inferior izquierda.
Veamos los estadsticos descriptivos bsicos tanto para las variables pretest y postest como para la
variable diferencia. Dado que en este caso la homogeneidad de varianzas no es una cuestin
esencial, no es necesario aportar la informacin sobre el coeficiente de variacin:
n Mdn As Curt
Pretest 260 36.86 36 7.36 0.06 -0.58
Postest 260 36.73 38 6.59 -0.33 -0.46
Diferencia 260 -0.13 -1 9.48 0.23 -0.22
Parece que los estudiantes mostraron un nivel de desempeo prcticamente igual (ligeramente
superior en el pretest) en el pretest y en el postest67. Los niveles de asimetra en el pretest son
5
Cundo buscaremos que las puntuaciones en el postest sean ms altas? Y ms bajas?
6
Es deseable en este caso, en base al diseo, que los sujetos obtengan una puntuacin ms alta en el pretest?
7
Por qu en la mediana s se localizan esas diferencias? (piensa en las distribuciones de las variables)
45
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
prcticamente nulos y de ligera asimetra negativa en el postest, mientras que la variable diferencia
muestra una ligera asimetra positiva. En cuanto a la curtosis, tenemos una ligera curtosis platicrtica
en todos los casos.
2. SUPUESTOS PREVIOS
Veamos si estos ligeros desvos en cuanto a la asimetra y la curtosis son suficientes para rechazar la
normalidad de las variables o no. En primer lugar, podemos observar el histograma de la variable
diferencia.
A priori parece que la distribucin tiene una variacin muy ligera sobre la distribucin normal terica.
En todo caso, aunque podramos considerar la distribucin normal a partir de este grfico, siempre
es mejor realizar el contraste, la prueba de Kolmogorov-Smirnov, que recordemos que tiene las
siguientes hiptesis:
Zk-s P-VALOR
Diferencia 1.201 0.112
Recordemos que el nivel de significacin es del 5%, es decir, aceptaremos la hiptesis nula cuando el
p-valor sea superior o igual a 0.05 y la rechazaremos cuando sea inferior a este valor. En este caso, el
contraste indica un p-valor superior a 0.05, por lo que aceptamos H0, es decir, podemos afirmar que
la distribucin de la variable diferencia proviene de la distribucin normal. As, puedo continuar con
el contraste de hiptesis.
Una vez hemos hecho un anlisis descriptivo de las variables que vamos a contrastar y hemos
comprobado el supuesto de normalidad de la nueva variable generada denominada diferencia,
46
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
seleccionarmos men analizar Comparar medias Prueba T para muestras relacionadas. En este
caso, en la ventana emergente, debemos aadir como variable 1 la puntuacin en el postest y como
variable 2 la puntuacin en el pretest89 de agrupacin la variable cualitativa que establece los dos
grupos (comunidad autnoma en este caso) y en el botn definir grupos indicar los dos grupos que
se quieren comparar10. En grupo 1 y grupo 2 deberemos aadir el nmero con el que se han
codificado ambos grupos (recordemos que esto lo podemos ver en la vista de variables, en valores).
Por otra parte, en la ventana variables para contrastar se debe aadir la variable cuantitativa (en
este caso la puntuacin en el pretest).
Obtenemos las siguientes tablas:
Error tp. de la
Media N Desviacin tp. media
N Correlacin Sig.
Diferencias relacionadas
Par 1 Punt. post-Punt. pret -,12692 9,47600 ,58768 -1,28416 1,03031 -,216 259 ,829
En este caso no hay comprobacin de la igualdad de varianzas porque el procedimiento slo trabaja
con una variable, la variable diferencia. Recordemos la hiptesis planteada en esta prueba de t para
grupos relacionados:
8
En qu casos podra ser ms interesante poner el pretest como variable 1 y el postest como variable 2?
9
Qu crees que ocurrir si ponemos las variables al revs?
10
Por qu crees que el SPSS requiere que definas qu grupos comparar?
47
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Por lo tanto, estamos planteando si es plausible aceptar que el grupo de estudiantes ha demostrado
niveles de desempeo diferentes en el pretest y el postest (H1) o si los niveles mostrados en ambas
pruebas se pueden considerar iguales (H0).
En este caso, nos encontramos con informacin complementaria similar al caso de la prueba de t
para grupos independientes. Adems del valor del estadstico de contraste (t) y el de la significacin
de la prueba (p-valor), nos encontramos con los grados de libertad de la prueba (gl), la diferencia de
medias (postest pretest, en la tabla llamada Media), el error tpico, y el intervalo de confianza de
la diferencia de medias. En este caso, ese intervalo (-1.28416, 1.03031) se puede calcular a partir de
la siguiente frmula:
Imaginemos que, en el ejemplo anterior, hubiramos determinado en las pruebas de normalidad que
la variable diferencia (postest-prestest) no se distribuye normalmente. En ese caso deberamos haber
aplicado la prueba de Wilcoxon de la manera que se expone a continuacin. En primer lugar, para
solicitar la prueba debemos acceder en SPSS a men analizar contrastes no paramtricos
Cuadros de dilogo antiguos 2 muestras relacionadas. La ventana emergente que aparece es
prcticamente igual a la que utilizamos en la prueba de t para muestras relacionadas, simplemente
deberemos insertar la variable postest en la columna 1 y la pretest en la columna 2. Las tablas
resultantes de solicitar el contraste en SPSS son las siguientes:
11
Cmo podramos hacerlo?
48
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Rangos
Rango
N promedio Suma de rangos
a
Puntuacin en el pretest Rangos negativos 112 136,06 15238,50
(competencias digitales) - b
Rangos positivos 139 117,90 16387,50
Puntuacin en el postest Empates 9
c
(competencias digitales)
Total 260
b
Estadsticos de contraste
En la primera tabla se observan los rangos. Esta prueba va comparando cada pareja de valores en las
dos variables para cada sujeto, y comprueba si un sujeto posee una puntuacin mayor, menor o igual
en la primera variable que en la segunda. Como indica bajo la tabla, los rangos positivos se referirn a
aquellas veces en las que el sujeto ha obtenido una puntuacin mayor en el pretest que en el
postest, los rangos negativos cuando el sujeto ha obtenido una puntuacin mayor en el postest que
en el pretest y los empates cuando la puntuacin ha sido exactamente la misma. Se observa que, de
los 260 estudiantes de la muestra, 139 obtuvieron una nota superior en el pretest, 112 en el postest
y 9 obtuvieron puntuaciones iguales. No es necesario interpretar el rango promedio ni la suma de
rangos haciendo una interpretacin correcta de esta N.
Una vez visto que hay ms sujetos en la muestra que obtienen mejor puntuacin en el pretest que en
el postest, podemos comprobar si esas diferencias son significativas a partir del contraste de
hiptesis no paramtrico de la prueba de la W de Wilcoxon. Resulta que estas diferencias no son
significativas (Z=0.499; p.=0.618), por lo que aceptamos H0 y no podemos afirmar que los sujetos
obtienen puntuaciones ms altas en el pretest que en el postest (y evidentemente, tampoco
podemos realizar la afirmacin contraria).
49
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
K MUESTRAS INDEPENDIENTES
En ocasiones nos ocurre que queremos comparar las puntuaciones en una variable de ms de dos
grupos al mismo tiempo. Imaginemos, por ejemplo, que nos interesa comparar el rendimiento
acadmico en matemticas de los estudiantes de las distintas provincias de Castilla y Len; en este
caso, debemos aplicar una tcnica que permita comparar a varios grupos a la vez (estudiantes de
vila, Burgos, Len, Palencia, Valladolid, etc.). El conjunto de tcnicas que vamos a exponer aqu
permiten realizar estos clculos de manera conjunta, sin tener que separar los grupos en cada una de
las parejas posibles y realizar varias pruebas para 2 muestras independientes.
En este ejemplo, vamos a comparar el rendimiento alcanzado en Lengua Castellana por los
estudiantes de las distintas provincias de Castilla y Len representadas en la Base de Datos. As, lo
primero que debemos hacer es seleccionar los datos de los estudiantes de Castilla y Len. Para ello
vamos a men datos Seleccionar casos. En la ventana emergente debemos seleccionar si se
satisface la condicin, y en el cuadro en blanco de la ventana si la opcin, aadir en el cuadro
blanco la variable Comunidad autnoma y poner =1 (en la ventana debe aparecer el texto
CCAA=1).
Parece que la distribucin por provincia est repartida de modo razonablemente equilibrado y que
tenemos ms de 30 sujetos por grupo, por lo que estaramos en condiciones de aplicar un contraste
de hiptesis. Tenemos 200 estudiantes en Castilla y Len que se reparten del siguiente modo:
Provincia
90 82
80
69
70
60
49
50
40
30
20
10
0
Valladolid Len Salamanca
Mdn CV As Curt
Valladolid 5.06 4.6 2.66 52.57% 0.25 -1.14
Len 5.27 5.6 2.19 41.56% 0.10 -0.61
Total 6.80 7.15 2.14 31.48% -0.75 0.02
50
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
A priori, parece que las distribuciones de alguna de las variables pueden alejarse de la distribucin
normal, tanto por los estadsticos de forma como por la gran variacin de las mismas. Veamos para
confirmar estas observaciones el anlisis de los supuestos previos.
2. SUPUESTOS PREVIOS
En este caso ser necesario comprobar tanto el supuesto previo de normalidad como el de
homocedasticidad.
Veremos en primer lugar la prueba de normalidad, tras el anlisis de los histogramas de las
distribuciones de las variables (forzando a 10 intervalos y el eje X con puntuaciones entre 0 y 10).
Vemos distribuciones alejadas de la normalidad por varias cuestiones tanto en Valladolid (curtosis
platicrtica) como en Salamanca (asimetra negativa). En todo caso, veamos lo que ocurre cuando
aplicamos la prueba de normalidad. Recordemos antes las hiptesis planteadas en este contraste:
51
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Zk-s P-VALOR
Valladolid 0.844 0.475
Len 0.567 0.905
Salamanca 1.231 0.097
En base a estos resultados no tenemos evidencias suficientes para afirmar que existen diferencias
significativas entre la distribucin normal y las distribuciones de la variable rendimiento en lengua en
los grupos. No obstante, an tenemos que comprobar la hiptesis de igualdad de varianzas. Para ello,
tras quitar la segmentacin del archivo, accedemos a men analizar Comparar medias ANOVA
de un factor. En la ventana emergente debemos aadir en la lista de dependientes la variable
continua que queremos contrastar (rendimiento en lengua) y en el factor la variable de agrupacin
(provincia). En el botn opciones debemos seleccionar la opcin prueba de homogeneidad de las
varianzas. Recordemos las hiptesis asociadas a la prueba de homogeneidad de varianzas:
Estadstico de
Levene gl1 gl2 Sig.
Se observa un p-valor de 0.023<0.05. Por lo tanto, rechazo H0, y puedo afirmar que las varianzas
entre los grupos no son iguales, es decir, que no existe homocedasticidad. Este resultado imposibilita
la aplicacin de las tcnicas paramtricas, por lo que vamos a aplicar en este caso el contraste no
paramtrico.
Bien, una vez hecho todo lo anterior, vamos a completar la prueba. Para ello, vamos a men datos
Segmentar archivo y seleccionamos analizar todos los casos.
Una vez estamos seguros de que el archivo no est segmentado, seleccionarmos men analizar
Pruebas no paramtricas Muestras independientes. En la pestaa objetivo de la ventana
emergente, debemos seleccionar personalizar anlisis. Tras esto, accedemos a la pestaa campos,
donde aadimos en el cuadro campos de prueba la variable de contraste (en este caso, rendimiento
en Lengua), y en el cuadro grupos la variable de agrupacin (en este caso, provincia). Una vez hecho
eso, accedemos a la pestaa Configuracin, hacemos clic en personalizar pruebas, y seleccionamos
ANOVA de 1 va de Kruskal-Wallis. Seleccionamos ejecutar y nos aparecer en la ventana de
52
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
resultados la informacin del contraste. Recordemos antes de nada las hiptesis asociadas a este
contraste no paramtrico:
La informacin mostrada es muy simple y nos dice directamente que existen diferencias significativas
entre las medianas de alguno de los tres grupos. Veamos la informacin un poco ms detallada
haciendo doble clic encima del cuadro en SPSS:
En este caso ya vemos la informacin un poco ms desarrollada: en los 200 sujetos que compone la
muestra de estudiantes de Castilla y Len, parece que la divisin por Provincia devuelve diferencias
53
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
significativas (2=22.902; p.<0.001). El diagrama de cajas ya nos muestra que parece que, mientras
que Valladolid y Len poseen distribuciones de puntuaciones similares, los estudiantes de Salamanca
tienden a unas puntuaciones superiores. Si recordamos los estadsticos descriptivos obtenidos ms
arriba, la mediana del rendimiento en Lengua de los estudiantes de Valladolid era de 4.6, de los de
Len 5.6 y de los de Salamanca 7.15.
Pero en este punto surge una duda, es esta informacin suficiente para poder hacer una
interpretacin clara de las diferencias entre los grupos? Evidentemente, esta informacin global no
es suficiente, ya que no nos permite saber entre qu parejas de grupos en concreto (en este caso
entre qu provincias) se establecen estas diferencias. Para realizar esta comprobacin, SPSS incluye
las pruebas post-hoc, es decir, las pruebas por parejas asociadas al contraste de Kruskal-Wallis. Para
acceder a ellas, en la misma ventana en la que hemos localizado la informacin de los diagramas de
cajas, el N, el valor del estadstico de contraste Chi-Cuadrado, los grados de libertad y el p-valor,
buscamos en la ventana de la derecha la opcin ver, hacemos clic en el desplegable, y
seleccionamos la categora Comparaciones por parejas. Se nos abrir la siguiente informacin:
54
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Cada uno de los puntos del grfico nos indica cada uno de los grupos y las lneas los contrastes. Las
lneas amarillas se corresponden con los contrastes que han resultado significativos en las
comparaciones por parejas. La informacin concreta est desplegada en la tabla inferior. En esta
tabla tenemos tanto la informacin del estadstico de contraste (Prueba estadstica), como la
informacin sobre la desviacin y error tpico en cada contraste y la significacin de la prueba. De las
dos columnas de la significacin siempre hay que interpretar como p-valor la que dice sig. ady..
En este caso, se puede concluir que la muestra de estudiantes de Salamanca ha obtenido
puntuaciones medianas significativamente superiores (rechazo H0) tanto con respecto a los
estudiantes de Len (2=-38.695; p.<0.001), como en relacin a los estudiantes de Valladolid (2=-
41.280; p.<0.001). Sin embargo, no existen diferencias significativas (acepto H0) entre el rendimiento
demostrado por los estudiantes de Len y de Valladolid (2=-2.584; p.>0.999).
As pues, la prueba de Kruskal-Wallis me permite comparar el desempeo en una variable
cuantitativa (cuando no se cumplen las condiciones de normalidad o homocedasticidad) u ordinal en
varios grupos al mismo tiempo (variable cualitativa politmica), y comprobar entre qu grupos
exactamente se generan las diferencias significativas, en el caso de existir.
Nos puede ocurrir que se cumplan las condiciones de normalidad y homocedasticidad, caso en el que
podremos realizar el contraste de hiptesis paramtrico denominado ANOVA (Anlisis de Varianza)
de 1 factor. Imaginemos, en el ejemplo anterior, que se cumplen las condiciones de normalidad y
homocedasticidad, por lo que estaramos en condiciones de realizar este contraste.
Recordemos que para poder aplicar el ANOVA de 1 factor es necesario disponer en SPSS de una
variable cuantitativa (variable de contraste) y otra cualitativa politmica (variable de agrupacin).
En el ejemplo anterior, para realizar este contraste de hiptesis, debemos acceder a men analizar
Comparar medias Anova de un factor. En la ventana emergente debemos aadir en la lista de
dependientes la variable continua que queremos contrastar (rendimiento en lengua) y en el factor la
variable de agrupacin (provincia). Por otro lado, es recomendable que seleccionemos en el botn
opciones la opcin descriptivos (si no hemos comprobado la homocedasticidad, recordemos en
esta misma opcin debemos seleccionar prueba de homogeneidad de las varianzas). Para que, en
caso de localizarse diferencias significativas en el contraste general, se realicen las pruebas post hoc
para cada pareja de grupos, debemos seleccionar el botn Post hoc, y seleccionar la opcin
Scheff. Estas pruebas post-hoc realizan una prueba de t para 2 grupos independientes en cada
pareja.
Recordemos las hiptesis del contraste principal:
55
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Descriptivos
Rendimiento en Lengua Castellana
ANOVA de un factor
Rendimiento en Lengua Castellana
(I) Provincia (J) Provincia Diferencia de Error Sig. Intervalo de confianza al 95%
medias (I-J) tpico Lmite inferior Lmite superior
En primer lugar, se muestra la tabla de los estadsticos descriptivos para los 3 grupos de estudiantes.
Vemos inicialmente la N, media, desviacin tpica y error tpico para cada grupo en la variable
rendimiento en lengua, y en las ltimas columnas la puntuacin mnima y mxima registrada en la
variable. El intervalo de confianza mostrado es el resultante del clculo del intervalo para la media,
que ya vimos en el primer tema. Por ejemplo, en el caso de los estudiantes de Valladolid:
56
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
7,5
7,27
7,0
6,80
6,5
6,33
6,0 Media
5,83 5,80
Lm. Inf
5,5
Lm. Sup.
5,27
5,06
5,0
4,75
4,5
4,30
4,0
Valladolid Len Salamanca
Se observa en el grfico anterior cmo, mientras que los intervalos de confianza de Len y Valladolid
tienen una parte en la que se superponen (no existen diferencias significativas en la media de estos
dos grupos), el intervalo de confianza del rendimiento medio en Lengua en el caso de los estudiantes
de Salamanca no se solapa en ningn caso con los otros dos grupos. As, podramos concluir
simplemente con esta informacin que existen diferencias significativas globales entre los grupos y
que las diferencias existen entre los estudiantes de Salamanca y los de Len-Valladolid, teniendo los
estudiantes de Salamanca un rendimiento medio superior a los otros dos grupos.
En todo caso, vamos a analizar el resto de datos para confirmar estas afirmaciones. La segunda tabla
(ANOVA de un factor), muestra los resultados del contraste de hiptesis principal, el que determina si
existen diferencias globales entre los grupos. La informacin que interesa interpretar de esa tabla es
la puntuacin del estadstico de contraste, en este caso F, y el p-valor (Sig.). Los valores de la Suma
de Cuadrados, grados de libertad y Media Cuadrtica sern explicados a nivel terico en el siguiente
apartado. En este ejemplo, los resultados obtenidos en el contraste de hiptesis del ANOVA de 1
factor indican que existen diferencias significativas entre los grupos en cuanto al rendimiento en
lengua (F=12.16; p.<0.001), es decir, que rechazo la hiptesis nula de que no existen diferencias
entre los grupos.
En lo que respecta a las pruebas post-hoc, que determinan entre qu grupos en concreto se localizan
las diferencias, vemos informacin sobre la diferencia concreta de medias de cada pareja
contrastada, el error tpico del contraste, el p-valor asociado al contraste y el intervalo de confianza
de la diferencia de medias, calculado a partir de la obtencin de la amplitud del intervalo (t*E.T.). Se
observa que los contrastes significativos resultan de la comparacin SALAMANCA-LEN (p.<0.001) y
SALAMANCA-VALLADOLID (p.<0.001), mientras que la comparacin de la diferencia de medias LEN-
VALLADOLID no resulta significativa (p.=0.886). As, se confirman las observaciones realizadas a partir
del grfico y los intervalos de confianza iniciales:
Los resultados de la prueba de ANOVA de un factor para comprobar si los estudiantes
de las distintas provincias de Castilla y Len obtienen rendimientos medios en Lengua
57
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Cabe realizar una breve explicacin de los valores de la tabla de ANOVA que no se han interpretado
(Suma de cuadrados, grados de libertad y Cuadrados medios). Veamos la siguiente tabla-resumen:
Media
Suma de cuadrados gl F Sig.
cuadrtica
Efectos
I-1 p-valor
principales
Error n-I
Total n-1
Se observa el clculo de todas las celdas. Veamos un pequeo ejemplo para hacernos una idea.
Imaginemos que tenemos un grupo de 12 estudiantes en un aula de educacin infantil y queremos
comprobar si el nivel de comprensin lectora (medido en una escala de 0 a 100 puntos) cambia en
funcin del mtodo de enseanza de la lectura aplicado a los estudiantes (mtodo alfabtico, mixto y
global). As, dividimos a los 12 estudiantes en 3 grupos de 4 estudiantes y a cada grupo le enseamos
durante todo el curso con uno de los 3 mtodos. Al final del curso medimos el nivel de comprensin
lectora, obteniendo los siguientes resultados:
60 39 60
30 66 75
50 80 62
45 58 88
Si quisiramos preparar los datos para utilizar en SPSS, la informacin debera aparecer del siguiente
modo:
58
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
A partir de aqu ya slo me queda calcular las medias cuadrticas, el valor de F y el p-valor asociado:
Veamos pues la tabla de ANOVA completa que se obtiene de estos clculos:
Media
Suma de cuadrados gl F Sig.
cuadrtica
Total 3114.92 11
59
Anlisis de datos inferencial paramtrico y no paramtrico en Ciencias Sociales Fernando Martnez Abad
Por tanto, en este caso, dado que el p-valor es superior al nivel alfa (0.05), podemos determinar que
no existen diferencias significativas en cuanto al nivel de comprensin lectora alcanzado en funcin
del mtodo de enseanza aplicado a los estudiantes. No es necesario, pues, aplicar los contrastes de
hiptesis post-hoc para comprobar las diferencias entre cada pareja, ya que este contraste nos indica
que no existen diferencias entre ninguna de las parejas.
60