Sei sulla pagina 1di 25

RESUMEN - FORMULARIO DE BIOESTADSTICA

A.

INTRODUCCIN A LA ESTADSTICA................................................................................... 2
1.
Por qu hablar de estadstica?............................................................................... 2
2.
Un concepto fundamental: la variabilidad. .................................................................. 2
3.
Variabilidad debida al muestreo................................................................................ 2
4.
En qu nos ayuda la Estadstica.............................................................................. 2
5.
Conozcamos algo ms sobre variables. .................................................................... 3
6.
La Muestra, La Poblacin Muestreada, La Poblacin ................................................. 3

B.

ESTADSTICA DESCRIPTIVA.............................................................................................. 4
7.
Formas de presentar la Informacin. ......................................................................... 4

C.

ESTADSTICA INFERENCIAL.............................................................................................. 5
8.
Fundamentos intuitivos de la estimacin por intervalos ............................................... 5
9.
Aplicacin en la realidad.......................................................................................... 7
10.
Regresin lineal y coeficiente de correlacin ............................................................. 10

D.

ESTADSTICA INFERENCIAL: TEST DE HIPTESIS ........................................................... 12


11.
Concepto de test de hiptesis.................................................................................. 12
12.
Test de hiptesis con una muestra.......................................................................... 14
TEST PARA UNA MEDIA: ....................................................................................... 14
TEST PARA UNA PROPORCION: ........................................................................... 14
13.
Test de homogeneidad con dos muestras ................................................................. 14
A. COMPARACIN DE MEDIAS DE DOS MUESTRAS INDEPENDIENTES................ 14
B. COMPARACIN DE MEDIAS PARA MUESTRAS APAREADAS ........................... 16
14.
Anlisis de la varianza (ANOVA).............................................................................. 16
15.
Test no paramtricos .............................................................................................. 17
TEST DE WILCOXON PARA COMPARAR DOS GRUPOS......................................... 18
COMPARACIN DE DOS GRUPOS CON MUESTRAS APAREADAS:....................... 19
COMPARACIN DE VARIOS GRUPOS: TEST DE KRUSKAL-WALLIS ...................... 19
VENTAJAS Y DESVENTAJAS DE LOS MTODOS NO PARAMTRICOS
EN RELACIN CON LOS PARAMTRICOS................................................. 20
2
16.
El test (chi-cuadrado o ji-cuadrado) y sus aplicaciones........................................... 20
TEST DE BONDAD DE AJUSTE:............................................................................. 20
TEST DE HOMOGENEIDAD DE UN CONJUNTO DE MUESTRAS
CUALITATIVAS: ......................................................................................... 21
TEST DE INDEPENDENCIA PARA VARIABLES CUALITATIVAS ............................... 22
MEDIDAS DE DEPENDENCIA EN TABLAS DE CONTINGENCIA ............................... 22
17.
Contraste de hiptesis en regresin.......................................................................... 22

E.

ALGUNAS CUESTIONES A TENER EN CUENTA EN LA REVISION ESTADISTICA


DE ARTICULOS CIENTFICOS ............................................................................................ 24

F.

PRINCIPALES TIPOS DE PROBLEMAS, Y MTODOS PARA SU RESOLUCIN ................... 25

Jos Luis Snchez Ramos

A. INTRODUCCIN A LA ESTADSTICA
1.

Por qu hablar de estadstica?

La informacin es, cada vez ms, una de las materias primas ms importantes de nuestro trabajo como
profesionales de la salud. Esta informacin es ms cuantitativa que descriptiva, y la estadstica es el
lenguaje necesario para producir, manejar, comunicar e interpretar correctamente esta informacin. La
investigacin, al menos la positivista predominante, se basa fundamentalmente en la metodologa
estadstica, sobre todo en la comprobacin de hiptesis o "pruebas de significacin".
La estadstica invade la literatura cientfica sobre salud. Por todas partes hay continuas referencias a los
"valores de p" y a "hallazgos estadsticamente significativos". Para leer de forma inteligente, crtica, hay
que tener unas cuantas ideas claras: NO TODO LO QUE SE PUBLICA ES VERDAD (por no hablar de lo
que nos quieren vender).
2.

Un concepto fundamental: la variabilidad.

La informacin que nos interesa est formada por conjuntos de datos referidos a caractersticas medidas
en distintos indivi duos. Como toda medicin, est sujeta a variaciones por distintas causas: si le tomamos
la tensin arterial a una persona, obtendremos, en mediciones repetidas, distintos valores. Esto se debe,
en primer lugar, al fenmeno que estamos midiendo: la tensin arterial vara a lo largo del da
dependiendo de diversos factores (variabilidad debida al fenmeno en s ). Por otro lado, depende de
quin realice la medicin, y en qu momento: uno puede no coincidir consigo mismo al repetir una
medicin, y mucho menos con otro compaero (variabilidad intra e interobservador). Por ltimo, con
distintos esfigmomanmetros, obtendremos tensiones diferentes (variabilidad debida al instrumento
de medida).
Como es sabido, la Epidemiologa trabaja con grupos de personas ms que con individuos; esto
introduce un motivo ms de variabilidad: las personas son distintas unas de otras. En biologa, la variabilidad no es la excepcin, sino la regla. Ello nos impide ser deterministas: afortunadamente no todos los
fumadores llegan a desarrollar un cncer de pulmn, y hay (pocos, pero hay) cnceres de pulmn entre
los no fumadores, infartos de miocardio entre deportistas, casos de gripe entre los vacunados, etc. El
concepto de riesgo, como probabilidad de que ocurra un fenmeno no deseado o dao, nos permite ser
operativos: a pesar de tanta variabilidad, los problemas de salud no se distribuyen al azar.
Hace tiempo que la enfermedad o la muerte dejaron de ser un castigo divino o una lotera. Podemos
identificar factores asociados a distintas probabilidades de presentacin de ese dao (factores de riesgo)
e intervenir sobre ellos para modificar la situacin.
3.

Variabilidad debida al muestreo.

Hay una causa ms de variacin: normalmente no medimos la caracterstica que nos interesa en toda la
poblacin: si queremos saber cul es la prevalencia de caries en nuestra poblacin infantil no es
necesario que les midamos el ndice CAO (Caries/Ausencia/Obturacin) a todos los nios de la zona;
esto sera muy largo, costoso, y quiz, de peor calidad. Si escogemos bien una muestra de los nios, de
forma que representen bien al total de ellos, podemos estimar la prevalencia que nos interesa de toda la
poblacin infantil a partir de la prevalencia que hemos medido en nuestra muestra. Lgicamente, la
prevalencia de la muestra no coincidir exactamente con la de la poblacin, y ser algo diferente con
una muestra a si hubisemos elegido otra distinta, pero existen maneras de asegurarse de que esa
prdida de precisin no es demasiado importante.
4.

En qu nos ayuda la Estadstica.

La Estadstica nos puede ayudar a poner un poco de orden en todo este lo de variabilidades. No reduce
la variabilidad, ni siquiera reduce la incertidumbre que nos produce esa variabilidad; nicamente nos
puede ayudar mediante el mantenimiento de esa incertidumbre dentro de unos lmites tolerables, que no
nos dejen invlidos, que nos permitan la accin.

Podramos definir pues la Estadstica como un conjunto de tcnicas que nos permiten, por un lado,
recoger, representar, clasificar, resumir datos de un colectivo (Estadstica descriptiva). Por otro
lado, nos permite obtener conclusiones a partir de esos datos (Estadstica inferencial).
5.

Conozcamos algo ms sobre variables.

Una variable no es ms que una caracterstica que no es constante para todos los individuos de una
poblacin. As, las personas no tienen la misma altura ni el mismo peso unas que otras, etc. Hay distintos
tipos de variables:
a) Cualitativas: Son caractersticas que no se pueden medir, al menos numricamente. Pueden tomar
dos valores o categoras, o varias. Por ejemplo, la variable sexo toma dos posibles valores: varn o
mujer. La variable nivel socioeconmico tiene varios posibles valores: Bajo, medio bajo, medio,
medio alto, alto. Dentro de estas mismas variables cualitativas podemos hacer un grupo aparte con
aqullas que mantienen un cierto orden entre sus categoras, por ejemplo la ya dicha de nivel
socioeconmico. A estas variables les llamamos Ordinales.
b) Cuantitativas: Se pueden medir, asignndoles nmeros; por ejemplo, la altura, el peso, la glucemia,
etc. Dentro de estas existen dos tipos a su vez:
Discretas: Los valores que toman son aislados, representados por nmeros naturales. Son de este
tipo la variable nmero de hijos que tiene una pareja, o la variable nmero de consultas que hace
una persona a un Centro de Salud a lo largo de un ao.
Continuas: Pueden tomar cualquier valor dentro de un rango, es decir tericamente una persona
puede medir cualquier valor entre 1,70 y 1,71, nicamente depende de la precisin de nuestro
instrumento de medida.
Por qu este inters en diferenciar los tipos de variables?: el tratamiento estadstico que se da a
cada uno de estos tipos de variables es completamente distinto.
6.

La Muestra, La Poblacin Muestreada, La Poblacin

Habitualmente en Estadstica trabajamos con muestras; la muestra es la parte de la poblacin en la que


se efecta el estudio, en el ejemplo de la caries pues seran aquellos nios a los que realmente le
miramos las caries que tenan. La poblacin muestreada sera aquella poblacin de la que se obtiene la
muestra. Sobre ella puede establecerse una conclusin. Llamaramos poblacin objetivo al conjunto de
individuos en los que deseamos estudiar un fenmeno. Los datos los obtenemos de la muestra; a partir
de ella y mediante el proceso de inferencia estadstica podemos obtener conclusiones acerca de la
poblacin muestreada. El salto desde la muestra a la poblacin muestreada lo realizamos con un
determinado grado de error. Este es el error aleatorio debido al muestreo (variabilidad debida al
muestreo). Desde la poblacin muestreada a la poblacin objetivo hemos de dar otro salto. Aqu
nicamente importa hasta qu punto la poblacin muestreada se parece a la poblacin objetivo. Por
ejemplo, el archivo de historias clnicas del Centro de Salud del que obtenemos una muestra de historias,
sera la poblacin muestreada. Nuestra poblacin objetivo sera aqu el total de personas que viven en la
zona bsica de salud. Se diferencian mucho las personas que tienen abierta historia de las personas
que no tienen abierta historia?. En esa diferencia estriba el error que podemos cometer al intentar
obtener conclusiones sobre la poblacin objetivo, es decir sobre toda la zona bsica, a partir de la
poblacin muestreada.
Para poder realizar inferencias desde una muestra hacia la poblacin necesitamos que nuestra muestra
sea representativa, es decir, que nuestra muestra est representando bien a la poblacin que queremos
estudiar. Para ello existen unas tcnicas de muestreo, que lo que intentan conseguir son muestras
representativas, tanto en nmero como en composicin, es decir: Cuntas personas necesito incluir en
la muestra? Quines han de estar presentes en la muestra?. Para ello existen dos reglas:

Aleatoriedad: Todos los individuos de la poblacin, tienen la misma probabilidad de estar incluidos
en la muestra.
Homogeneidad con la poblacin: Al menos en las variables importantes. Por ejemplo, la
composicin por grupos de edad y sexo de la muestra ha de ser lo ms semejante posible a la de
la poblacin.

Para intentar cumplir estas reglas podemos recurrir a varias tcnicas de muestreo:

Muestreo aleatorio simple: Sorteo con bolas, o tablas de nmeros aleatorios.


Muestreo estratificado: permite lograr la mxima homogeneidad. En l se obtienen muestras de
cada estrato de la poblacin, entendindose por estrato cada grupo de la poblacin, por ejemplo,
los grupos por sexo, por edad, etc.
Muestreo por conglomerado (etapas): Permite aprovechar agrupaciones naturales de la poblacin.

B. ESTADSTICA DESCRIPTIVA
7.

Formas de presentar la Informacin.

a) Tablas: Permiten resumir y representar valores. Tienen unas reglas muy sencillas:
Han de ser lo ms simples posible.
Deben explicarse por s solas.
El ttulo debe responder a las preguntas: qu, cundo, donde.
Se debe especificar claramente la procedencia de los datos.
Contienen filas y columnas. En cada fila se representan las clases, es decir, las agrupaciones que
se hacen con los dotas. En las columnas se establecen las frecuencias, es decir, el nmero de
veces que se repite cada fenmeno. Esta frecuencia puede ser de varios tipos:
Frecuencias absolutas: Es el nmero de veces que se repite cada clase.
Frecuencia relativa: Es el cociente entre frecuencia absoluta y tamao total.
Frecuencia acumulada: La frecuencia acumulada de una clase, es la suma de las frecuencias
de las clases que le preceden.
b) Grficos. Permiten representar distribuciones de frecuencias mediante sistemas de coordenadas
cartesianas (x e y) . Tienen las mismas reglas que las tablas. Los principales tipos de grficos son:
Diagramas de barras: Se utilizan para representar frecuencias de variables discretas o cualitativas.
Histogramas: Para variables continuas. Cada clase se representa por un rectngulo de rea
proporcional a la frecuencia.
Polgono de frecuencias: Resulta de unir en un histograma los puntos centrales de cada clase. Es
especialmente til para comparaciones.
Diagramas de sectores ("Tarta"). Es un sector circular de ngulo proporcional a la frecuencia. Es,
como el diagrama de barras, una buena representacin para variables discretas o cualitativas.
Pictogramas: representacin ideogrfica de la variable, de tamao proporcional a la frecuencia.
Mapas: muy tiles para expresar la distribucin geogrfica del fenmeno que nos interesa.
Vivimos en la era de la informtica, y es relativamente sencillo acceder a ordenadores que
construyen los grficos ms inverosmiles a partir de nuestros datos. Pero hay que tener cuidado: si
uno no lleva una idea clara del resultado que quiere obtener, puede acabar perdido entre los
montones de opciones, que a veces estorban al propsito principal: la claridad en la expresin de los
resultados.

c) Medidas numricas que resumen la distribucin de los datos (para variables cuantitativas):
Medidas de tendencia central y posicin:
Moda: la clase con ms frecuencia
Mediana: divide a la muestra ordenada en dos partes iguales: la mitad a cada lado.
Percentil: el percentil i (pi) deja a su izquierda un i% de la muestra ordenada. (i = 1,2,...99).
Cuartil: c1 = p25; c 2 = p50; c 3 = p75.
Decil: d1 = p10; d2 = p20; ...; d9 = p90.
Media aritmtica: suma de todos los valores, dividido por el nmero de valores:

x=

Medidas de dispersin:
Rango: la diferencia entre el valor ms grande y el ms pequeo de la muestra.
Suma de cuadrados: Suma de las distancias al cuadrado de cada valor a la media

SC = (x i x )

x i
n

Varianza: es una especie de promedio de las distancias al cuadrado de cada valor a la media:

(x
=

x)
n 1

Desviacin tpica: s = raz cuadrada de la varianza; es una especie de promedio de las


distancias de cada valor a la media
Rango intercuartlico: c3 - c 1 ; seala entre qu valores se encuentra el 50% central
Coeficiente de variacin:

CV =

s
100 ; indica la variabilidad con respecto a la media
x

C. ESTADSTICA INFERENCIAL
Se trata de una serie de mtodos que permiten obtener conclusiones acerca de una poblacin a partir
de una muestra representativa de la misma. Podramos establecer dos grandes bloques: mtodos de
estimacin y pruebas de contraste de hiptesis.
La nica forma exacta de conocer un parmetro que resuma la distribucin de valores de una
variable en una poblacin como una prevalencia p, o una media , o la varianza , es medir esta
variable en todos los individuos de la poblacin y calcular el resumen a partir de estos datos. Como
esto suele ser imposible, lo que se hace es elegir una muestra, realizar las mediciones slo en los
individuos seleccionados y calcular los resmenes numricos (llamados ahora estadsticos, o
2
estimadores) correspondientes: proporcin muestral p , media muestral x , varianza muestral s , etc.
De alguna forma, los valores que obtenemos en la muestra nos dan una idea de cmo son las cosas
en la poblacin. Es lo que se llama estimacin puntual: al desconocer el verdadero parmetro
poblacional, intentamos sustituirlo por un valor puntual, obtenido de la muestra. Pero a nadie
sorprender que lo ms seguro es que el estimador no acierte con el verdadero valor del parmetro
poblacional. Y lo que es peor, no sabemos si nos equivocamos mucho o poco. La estimacin por
intervalos viene a solventar en parte este problema. Vamos a intentar resumir los fundamentos en
los que se basa.
8.

Fundamentos intuitivos de la estimacin por intervalos

Supongamos que tenemos una poblacin cuyo nivel de colesterol se distribuye segn la tpica forma
de campana de la distribucin Normal, con media = 225 mg y desviacin tpica = 50 mg (figura 1).
Esto quiere decir que en el espacio comprendido entre - (175 mg de colesterol) y + (225 mg de
colesterol) se encuentra el aproximadamente el 68% de los individuos. Tambin significa que entre 1,96 (127 mg) y + 1,96 (323 mg) se encuentra el 95%. Estos lmites configuran el intervalo de
probabilidad. Si de esta poblacin obtenemos una muestra aleatoria de tamao n = 100 personas, les
medimos su colesterol, y calculamos la media de la muestra x, podremos obtener una cifra que se
aproxime a la media poblacional (estimacin puntual), aunque ser raro que coincida exactamente
con ella. Si obtuviramos una segunda muestra, probablemente variar algo con respecto a la
primera. Lo mismo ocurrira con una tercera, etc.
5

Si repetimos el proceso de muestreo infinitas veces, obtendremos una larga serie de estimaciones
puntuales: las medias de las infinitas muestras. Ahora no son niveles de colesterol de personas lo que
tenemos, sino medias de colesterol de distintas muestras de 100 personas cada una. Resulta bastante
intuitivo comprender que la media de todas estas medias coincidir con la media de la poblacin de la
que salieron las muestras: todas ellas son medidas de tendencia central de cada muestra, y a su vez
calculamos la tendencia central de todas ellas, as que apuntamos cada vez ms al centro. Por tanto, en
nuestro ejemplo la media de la distribucin de las medias valdra 225 mg de colesterol.
Tambin resulta intuitivo otro hecho: si bien resulta relativamente fcil encontrar individuos en la
poblacin con valores extremos de colesterol, pongamos por ejemplo 150 mg, o 370, ya no es tan
fcil que una muestra de 100 individuos tenga como media 150 mg. Tendramos que haber elegido a
100 individuos con unas cifras de colesterol extremadamente bajas!. Si nuestras muestras son
aleatorias, esto es muy difcil que ocurra. Es decir, la distribucin de las medias tendr una dispersin
mucho menor que la distribucin de los niveles de colesterol en la poblacin. Por otra parte, no sera
tan raro encontrar una media de 150 si nuestra muestra slo tuviese un tamao n=2. Podra ocurrir
que el azar del muestreo nos seleccionase a dos individuos con unas cifras de colesterol bajas. Con
muestras mucho mayores ocurrira lo contrario: seran mucho ms raras las medias extremas. Es
decir, el tamao de la muestra influye decisivamente en la dispersin de la distribucin de las medias.
El Teorema Central del Lmite demuestra que la dispersin de la distribucin de las medias es raz de
n veces menor que la dispersin de la poblacin, es decir,
de la media (EEM). En nuestro ejemplo, valdra

50 100 = 5 .

Distribucin del colesterol en la poblacin

Distribucin de las

Media 225, desviacin tpica 50mg

25

75

125

175

225

275

325

n . Es lo que se llama error estndar

medias de 100 individuos

Media 225, desviacin tpica 5 mg

375

425

25

75

125

175

225

275

325

375

425

Una ltima caracterstica de esta distribucin de las medias: a nadie le resulta extrao que, si la
distribucin del colesterol en la poblacin era una distribucin Normal, la distribucin de las medias
tambin lo sea. Se puede comprobar empricamente que, aunque la distribucin de la variable en la
poblacin no sea Normal, para tamaos de muestra suficientemente grandes (n>=30), la distribucin
de las medias s que es Normal. De nuevo, si pensamos que son medidas de tendencia central, es
fcil concluir que se tratar de valores centrados alrededor de un punto (la media poblacional), con
algunos (aproximadamente la mitad) desviados hacia la izquierda y otros hacia la derecha.
En resumen, las medias de las posibles muestras que obtengamos de una poblacin tienen una
distribucin Normal (si n>=30), con media igual a la de la poblacin y desviacin tpica el error

estndar de la media n . Hemos planteado aqu el fundamento de toda la inferencia estadstica:


conocer cmo es la distribucin de las medias.
Sabemos, por las caractersticas de la distribucin Normal, que el 95% de los valores se encuentran
entre la media menos 1,96 veces la desviacin tpica, y la media ms 1,96 veces la desviacin tpica.
Es decir, aplicando esta propiedad a nuestra distribucin de medias, obtenemos que la probabilidad
de que un valor cualquiera de la distribucin (una media de cualquiera de las muestras) se encuentre
entre estos dos valores es de 0,95:


P 1.96
< x < + 1.96
= 0.95
n
n

Es decir, el 95% de las muestras que obtengamos de esa poblacin tendrn una media que estar
alrededor de la verdadera media poblacional , a una distancia no superior a 1.96

n . Con varias

operaciones simples podemos transformar fcilmente la expresin anterior en esta otra:


P x 1.96
< < x + 1.96
= 0.95
n
n

Y esta ltima es una expresin muy importante: indica que la probabilidad de que la media
poblacional se encuentre entre dos valores, que podemos obtener de nuestra muestra, en realidad
la nica que se toma para representar a la poblacin (lmite inferior,

x + 1,96

x - 1,96

n y lmite superior,

n ) es una probabilidad conocida: 0,95. Hasta ahora habamos supuesto que la media

de colesterol de la poblacin era conocida. En la realidad nunca la conocemos, pero ya tenemos un


mecanismo de dar una estimacin para su verdadero valor indicando que hay una determinada
probabilidad, o confianza (habitualmente del 95%) de que se encuentre entre dos valores. A estos
dos valores se les llama lmites de confianza, y al intervalo, intervalo de confianza.

9.

Aplicacin en la realidad

Todo lo anterior interesa slo para comprobar que las frmulas no salen de ningn sombrero de copa,
pero lo que hacemos en la realidad es simplemente calcular, a partir de una nica muestra, la
estimacin de por dnde anda ms o menos el parmetro poblacional. El intervalo de confianza nos
informa de cunto vale ese ms o menos. Pero, adems, nos informa de qu probabilidad de error
tenemos en la estimacin.
Si establecemos el nivel de confianza en el 95%, concluiremos que en el 95% de las ocasiones (95
de cada 100 muestras que obtengamos) la media poblacional estar entre: x 1,96 n ,
mientras que 5 de cada 100 muestras nos darn un intervalo que no contenga realmente a la media
poblacional. Si establecemos el nivel de confianza en el 99% concluiremos que en 99 de cada 100
muestras que obtengamos la media poblacional estar entre: x 2,57 n , mientras que 1 de
cada 100 muestras nos dar un intervalo que no contenga realmente a la media poblacional.
Los nmeros anteriores (1,96 y 2,57) expresan la relacin, en una distribucin normal, entre un valor
de la variable (x) y la probabilidad de estar por encima o por debajo de este valor (la suma de las dos,
la mitad a cada lado de la curva). Se obtienen de la siguiente tabla:

Distribucin normal tipificada (media 0, desviacin tpica 1)


En el exterior de la tabla se da la probabilidad P(x) de que una
Normal tpica caiga por debajo de -x o por encima de +x (x en el
interior de la tabla). El encabezamiento de la fila da el primer
decimal, y el de la columna el segundo. Por ejemplo, el valor terico
correspondiente a una probabilidad de 0,23 (0,2 + 0,03) es 1,2. El
correspondiente a una P de 0,05 (0,0 + 0,05) es de 1,96
P (x) 0

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

2,326

2,170

2,054

1,960

1,881

1,812

1,751

1,695

0,1
0,2

1,645
1,282

2,576
1,598
1,254

1,555
1,227

1,514
1,200

1,476
1,175

1,440
1,150

1,405
1,126

1,372
1,103

1,341
1,080

1,311
1,058

0,3

1,036

1,015

0,994

0,974

0,954

0,935

0,915

0,896

0,878

0,860

0,4
0,5

0,842
0,674

0,824
0,659

0,806
0,643

0,789
0,628

0,772
0,613

0,755
0,598

0,739
0,583

0,722
0,568

0,706
0,553

0,690
0,539

0,6

0,524

0,510

0,496

0,482

0,468

0,454

0,440

0,426

0,412

0,399

0,7
0,8

0,385
0,253

0,372
0,240

0,358
0,228

0,345
0,215

0,332
0,202

0,319
0,189

0,305
0,176

0,292
0,164

0,279
0,151

0,266
0,138

0,9

0,126

0,113

0,100

0,088

0,075

0,063

0,050

0,038

0,025

0,013

0,0

Tabla para valores pequeos de P(x):


P(x)

0,002

0,001

0,0001

0,00001

0,000001

0,0000001

3,090

3,290

3,891

4,414

4,892

5,327

En el caso en que se desconozca el valor del parmetro (desviacin tpica poblacional), que es la
situacin ms frecuente, los lmites de confianza se calcularan mediante la expresin

x ts

n , en

donde t corresponde a los valores tabulados de la distribucin terica t de Student (pgina siguiente),
y s es la desviacin tpica de la muestra, que usamos como estimacin de .
Ejemplo: Para conocer la media de la distribucin del colesterol en la ZBS de la Orden se ha obtenido
una muestra de 802 personas, con los siguientes resultados: x = 223,84; s=49. Dar un intervalo de
confianza al 95% para la media de colesterol de la poblacin de la que se ha extrado esta muestra:

ts
2,004 49
= 223,84
= 220,37
n
802
ts
2,004 49
Lmite superior: x +
= 223,84 +
= 227,3
n
802
Lmite inferior:

La interpretacin de este intervalo es sencilla: la poblacin de la Orden tiene una cifra media de
colesterol que se encuentra entre 220,37 y 227,3. Y esto lo afirmamos con una probabilidad de
equivocarnos de un 5%. Ms concretamente, el procedimiento nos garantiza que 95 de cada cien
muestras nos proporcionaran un intervalo que contendra a la verdadera media poblacional. Y
nosotros esperamos que nuestra muestra sea una de esas 95 que obtienen un resultado correcto, y
no de las 5 que nos induciran a error.

Distribucin t de Student
Para cada valor de los grados de libertad en la primera columna (gl=n1) y para cada valor de en la primera fila, en el interior de la tabla se
da el valor t tal que a la izquierda de -t y a la derecha de t queda un
rea total de . Por ejemplo, con n=31 (30 gl), el valor terico
correspondiente es a un del 5% es 2,042.
gl
1
2
3
4
5
6
7
8
9
10

0,5
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700

0,4
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879

0,3
1,963
1,386
1,250
1,190
1,156
1,134
1,119
1,108
1,100
1,093

0,2
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372

0,1
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812

0,05
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228

0,02
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764

0,01
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169

0,001
636,57
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587

0,0001
6370,54
100,136
28,014
15,534
11,176
9,080
7,888
7,120
6,594
6,212

11
12
13
14
15
16
17
18
19
20

0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687

0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860

1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064

1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325

1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725

2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086

2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528

3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845

4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850

5,923
5,695
5,513
5,364
5,239
5,134
5,043
4,966
4,899
4,838

21
22
23
24
25
26
27
28
29
30

0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683

0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854

1,063
1,061
1,060
1,059
1,058
1,058
1,057
1,056
1,055
1,055

1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310

1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697

2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042

2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457

2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750

3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646

4,785
4,736
4,694
4,654
4,619
4,587
4,556
4,531
4,505
4,482

35
40
45
50
60
80
100

0,682
0,681
0,680
0,679
0,679
0,678
0,677
0,674

0,852
0,851
0,850
0,849
0,848
0,846
0,845
0,842

1,052
1,050
1,049
1,047
1,045
1,043
1,042
1,036

1,306
1,303
1,301
1,299
1,296
1,292
1,290
1,282

1,690
1,684
1,679
1,676
1,671
1,664
1,660
1,645

2,030
2,021
2,014
2,009
2,000
1,990
1,984
1,960

2,438
2,423
2,412
2,403
2,390
2,374
2,364
2,326

2,724
2,704
2,690
2,678
2,660
2,639
2,626
2,576

3,591
3,551
3,520
3,496
3,460
3,416
3,390
3,291

4,389
4,321
4,269
4,228
4,169
4,095
4,054
3,891

Una cuestin que frecuentemente se plantea a la hora de iniciar un trabajo de investigacin es qu


tamao de muestra necesito?. Si nuestro objetivo es conocer la media de una poblacin (dar un intervalo
de confianza para ella), la respuesta puede deducirse fcilmente de la expresin anterior: El producto

ts

n , es decir, el producto del valor terico correspondiente a la confianza deseada por el EEM es la

cantidad que aadimos o quitamos a la media muestral para construir el intervalo. De alguna forma,
9

cuantifica el grado de error que cometemos por recoger informacin slo de las muestras, y no de
poblaciones completas. Es el error debido al muestreo. Si lo representamos por d, la expresin

d = ts n nos recuerda que el grado de error cometido depende de la confianza que queramos tener
(t), la variabilidad de la variable (s) y el tamao de la muestra. Para invertir el proceso, es decir, averiguar
qu tamao se necesita para conseguir un grado de error mximo d, no tenemos ms que despejar n:
2 2 2
n= t s /d .
La informacin necesaria, por tanto, para calcular n, es la confianza que queramos tener en nuestro
intervalo, el error global d requerido y la variabilidad s de la variable. El problema suele ser conocer
esto ltimo. Para ello se puede obtener informacin de la bibliografa, o bien una muestra piloto,
inicial, que nos proporcione algo de informacin sobre la variable.
Para variables de tipo cualitativo, por ejemplo para determinar la prevalencia de hipertensin, las
cosas seran muy similares, salvo que, claro est, aqu no habra medias y desviaciones tpicas, y s
prevalencia estimada en la muestra p : la verdadera prevalencia poblacional se encontrara en el
intervalo

p q 1
p 1,96
+
n
2n

( q

= 1 p )

Pero esta expresin slo se puede usar si se cumplen ciertas condiciones: en nuestro ejemplo, que
hubiese un mnimo de 20 hipertensos y de 20 no hipertensos en nuestra muestra. Por ejemplo, si
queremos conocer la prevalencia de hipertensin en una poblacin a partir de la obtenida en una
muestra de 802 personas, de las cuales 192 presentan hipertensin, podramos concluir que la
prevalencia buscada se encuentra entre el 20.92 y el 26,96%.
El tamao mnimo de muestra requerido para dar intervalos de confianza para una proporcin viene
2
2
dado por n=z pq/d . Si no se tiene ninguna informacin sobre el valor de p y q puede sustituirse por el
mximo valor que puede tomar su producto, es decir p=0.5 q=1-p=0.5; por tanto, pq=0.25
10. Regresin lineal y coeficiente de correlacin
a) Clculos previos: Dadas n parejas de valores cuantitativos (x i, y i), siendo i= 1,2,...,n:
Suma de cuadrados de x (SCX ):

SCx = ( xi x )

Suma de cuadrados de y (SCy ):

SCy = ( yi y )

Suma de productos cruzados xy (SPx y ):

( x)
= x
n
( y)
= y
2

SPxy = ( xi x )( yi y ) = xi yi

( x )( y )
i

Trucos con la calculadora (si no puede calcular directamente regresin lineal): introducir las x, y
calcular

x , sx y x; a partir de aqu, calcular sx2 . Hacer lo mismo con las y: y , sy , y, s 2y .

Ya slo queda ir sumando todos los productos cruzados xy (xy), y entonces:

SCx = sx2 ( n 1) ;

SCy =s 2y ( n 1) ;

b) Estimacin de la recta de regresin:

SPxy =x iy i (x)(y)/n

y = a + bx , con pendiente b =

SPxy
y altura a = y bx
SCx

Si la calculadora puede hacer directamente regresin lineal, no hay ms que introducir las parejas
de datos y pedirle directamente a y b.

c) Estimacin de la varianza de regresin:

s 2yx =

SPxy2
SCx
2
; a partir de aqu, s yx = s yx
n2

SC y

10

d) Condiciones de validez para la prxima seccin: Los valores de la variable y, para cada valor de la
2
x, siguen distribuciones Normales de medias situadas sobre la lnea recta + x y varianzas ( )
iguales.
e) Inferencias sobre la pendiente: Intervalo de confianza:

t s yx
SCx

Las t se buscan en la tabla de la distribucin t-Student con (n - 2) g.l.


f)

Estimacin del coeficiente de correlacin (se puede obtener directamente de la calculadora):

r=

SPxy
SC x SC y

; a partir de aqu, se calcula el coeficiente de determinacin r

Escala de valoracin para r:

<0.6:
0.6<0.8:
0.8 y ms:

mala correlacin
mediana
buena correlacin

El coeficiente de determinacin r informa del porcentaje de variacin de la variable dependiente


que es explicado por la variable independiente.

11

D. ESTADSTICA INFERENCIAL: TEST DE HIPTESIS


11. Concepto de test de hiptesis
Un test o contraste de hiptesis es un conjunto de reglas tendentes a decidir cul de dos hiptesis, llamadas H0
(hiptesis nula) y H1 (hiptesis alternativa) debe aceptarse, segn el resultado obtenido en una muestra. La H0
consiste habitualmente en una afirmacin sobre el valor de un parmetro, o sobre la igualdad entre los grupos
que se comparan. La H1 ser una negacin de la H0; esta negacin puede ser completa (test de dos colas) o
parcial (test de una cola). Si se estn comparando dos tratamientos, la H0 afirmar que tienen el mismo efecto.
En nuestro ejemplo, la H1 en un test de dos colas afirmara que los dos tratamientos son distintos; en un test de
una cola, que uno de los tratamientos en particular es ms eficaz que el otro.
Para tomar la decisin, debe elegirse la muestra o muestras apropiadas, que proporcionarn la informacin
necesaria sobre qu es lo que ocurre en la realidad, por encima de lo que afirmen o nieguen las hiptesis. Los
resultados obtenidos en la muestra se resumen en un nmero, llamado estadstico de contraste. Bajo la
suposicin de que la H0 es cierta, se calcula la probabilidad de obtencin de los resultados. Si stos son raros, es
decir, poco probables, estarn en contradiccin con la afirmacin contenida en la H0. Esta contradiccin entre la
teora y la experiencia la resolveremos a favor de la experiencia, rechazando lo afirmado en la H0. Si los
resultados son los esperables, es decir, tienen una probabilidad alta de ocurrir si la H0 es cierta, no podremos
rechazarla.
Ilustraremos el proceso que se sigue con un sencillo ejemplo: supongamos que nos invitan a participar en un
juego de azar, con un sistema de apuestas. Consiste en el lanzamiento de una moneda: si el resultado es cara,
tendremos que pagar 100 Ptas.; si el resultado es cruz, obtendremos 100 Ptas. Antes de lanzarnos a jugar,
pedimos hacer una prueba: jugaremos slo 10 partidas, y en funcin de la experiencia continuaremos o no. Si
nuestro contrincante obtiene 10 caras, nosotros habremos perdido 1000 Ptas., y seguramente no nos quedarn
ganas de seguir jugando. Aunque suponamos (hiptesis nula) que el juego era honesto, es decir, que la
probabilidad de obtener cara en cada lanzamiento era de 0.5, los resultados parecen decir lo contrario (hiptesis
alternativa): han salido ms caras de lo esperado. Si decidimos no seguir jugando (rechazo de la hiptesis nula)
podemos estar cometiendo una injusticia con nuestro contrincante: puede haber tenido suerte, y obtener, sin
trampas, unos resultados, que, aunque raros, son posibles. Tiene una probabilidad, siendo cierta la hiptesis
nula, de 0,510 = 0,001 de obtener esos resultados. Nuestra probabilidad de equivocarnos al decidir no seguir
jugando (de alguna forma le estamos llamando tramposo) es, por tanto, de una entre mil. Remota, pero existente.
Es lo que se llama error de tipo I, o error : error que podemos cometer al rechazar la H0, siendo cierta.
Habramos seguido jugando si hubiera obtenido 9 caras? y 8?. Estos resultados van siendo progresivamente
ms probables. De forma arbitraria se ha establecido que un resultado con una probabilidad inferior a 0,05 es un
resultado poco probable, y que por tanto lleva a rechazar la H0.
Si nuestro contrincante hubiera obtenido 6 caras, seguramente no se nos pasara por la cabeza que nos
estuviera haciendo trampas, sino que nos parecera un resultado esperable. No podramos, en este caso,
rechazar la H0, y continuaramos jugando. Pero supongamos que nuestro adversario es un listillo que nos hace
trampa de un modo muy sutil, y tiene trucada la moneda, de manera que salga cara 6 veces de cada 10. Aunque
nunca nos daramos cuenta (no rechazaramos la hiptesis nula), lo cierto es que a la larga el juego nos
resultara desfavorable: la H0 es falsa. Nos estaramos equivocando de nuevo, esta vez con el error tipo II, o error
: error que podemos cometer al no rechazar la H0 siendo falsa. Es decir, sea cual sea la decisin que tomemos,
siempre conllevar una posibilidad de error.
En
1.
2.
3.

resumen, un test o contraste de hiptesis:


comienza siempre con el planteamiento de una H0 y una H1
se comprueba si se cumplen o no las condiciones de aplicacin
para contrastar las hiptesis, se obtiene informacin de la realidad mediante muestras y se resume sta en
un nico nmero, llamado estadstico de contraste
4. se calcula la probabilidad de haber obtenido esos resultados; si los resultados son poco probables (p<0.05)
se rechaza la H0. Si los resultados son probables, no se puede rechazar
La estructura bsica e interpretacin de los tests de hiptesis es siempre la misma, si bien las
condiciones que deben cumplirse para que sean aplicables, as como la forma de resumir los
resultados de la experiencia en el estadstico de contraste para calcular la probabilidad
correspondiente cambian en funcin del tipo de variable que estemos manejando, del nmero de
poblaciones que queramos representar, de la estructura del muestreo, etc.
12

DE UNA MANERA UN POCO MS FORMAL: CONCEPTO GENERAL DE TEST DE HIPTESIS


1. Objetivo: Un test o contraste de hiptesis es un conjunto de reglas tendentes a decidir cual de dos hiptesis H0 (hiptesis nula) H1 (hiptesis alternativa)- debe aceptarse segn el resultado obtenido en una muestra.
2. Tipos:

a) De 2 colas bilateral: si H1 es la negacin de H0


b) De 1 cola unilateral: si H1 es una parte de la negacin de H0

3. Elecciones previas: Antes de realizar un test, el investigador debe decidir:


H0: viene dada por una igualdad afirmacin positiva.
H1: es la hiptesis que se quiere demostrar fuera de toda duda. Es una negacin de H0
: valor que ser tanto ms pequeo cuantas ms garantas se precisen de que una decisin de
rechazar H0 sea correcta. Usualmente es =5%
4. Mtodo: Para tomar la decisin, debe elegirse un estadstico de contraste (una especie de resumen numrico
de la muestra obtenida) apropiado al problema, as como una prediccin sobre los valores esperables
(aceptables) para el mismo. Observada la muestra, si el valor que toma en ella el estadstico de contraste es
un valor esperable (probable) segn la hiptesis nula, no se puede rechazar H0 (estadsticamente no
significativo). Si el valor del estadstico de contraste es inesperado (poco probable), se rechaza la H0
(estadsticamente significativo).
5. Errores:
Toda decisin de rechazar H0 viene acompaada por una posibilidad de error llamada error , de
tipo I nivel de significacin: = P(rechazar H0 | es cierta H0).
Toda decisin de no rechazar H0 viene acompaada por una probabilidad de error llamada error , o
de Tipo II: = P(no rechazar H0 | es falsa H0):
El error es controlable y fijado de antemano. Por ello las decisiones de rechazar H0 son siempre
fiables.
El error no est controlado de antemano y suele ser grande. Por ello las decisiones de no rechazar
H0 no son de fiar.
El error es un nico nmero, pero el error depende de la H1 que se considere.
El error disminuye conforme la H1 se aleja de H0 y conforme aumenta el tamao de la muestra (si
todo lo dems permanece fijo).
Si un error disminuye, el otro aumenta (si todo lo dems permanece fijo).
6. Potencia: A 1- se le llama potencia del test. Potencia = P (rechazar H0 | es falsa H0). Es tambin funcin de
la hiptesis alternativa. Un test es tanto mejor cuanto ms potente sea.
7. Valor p: Al mnimo error al cual un resultado es significativo se le llama valor p nivel crtico p nivel
mnimo de significacin.
En los tests de una cola, p suele ser la mitad de su valor que en los tests de dos colas.
Fijado : si p = se rechaza H0; si p > no se rechaza H0.
8. Tamao de muestra: Determinando el tamao de muestra n de antemano, las conclusiones de rechazar o no
H0 son ambas fiables. Para determinar n hace falta especificar:
El error del test.
La primera hiptesis alternativa de inters (mnima diferencia entre H0 y H1 que resulte importante).
El error aceptable para tal alternativa.
9. Reglas para tomar la decisin
Si p = 5%: rechazar H0.
Si p > 15% 20% (depende de n): no rechazar H0.
En otro caso (5% < p < 15%): no rechazar H0 provisionalmente, pero aumentar el tamao de muestra.
10. Intervalos de confianza tras un test de hiptesis: En el caso de test de hiptesis acerca de parmetros (ej.:
media o proporcin poblacionales), es conveniente dar un intervalo de confianza para el/los parmetro/s
implicado/s tanto si se rechaza H0 como si no.

13

12. Test de hiptesis con una muestra


TEST PARA UNA MEDIA:
(una poblacin, una variable cuantitativa)
1.
2.
3.

H0 : La media de una poblacin presenta un valor determinado ( = 0)


Condiciones: si la variable es de distribucin Normal n 30
Estadstico de contraste:

t exp =
4.

x 0
s
n

Clculo de la probabilidad: se compara te xp con una t de la distribucin t de Student con n-1


grados de libertad. Si texp > t se rechaza H0 con una probabilidad de error .

TEST PARA UNA PROPORCION:


(una poblacin, una variable cualitativa)
1.
2.

H0 : La proporcin de una poblacin presenta un valor determinado (p = p0)


Condiciones: Sea x el nmero de individuos de entre n que verifican una caracterstica,
proporcin de individuos de la muestra que la verifican y

p la

q = 1 p ; se cumplen las condiciones si

p y q son mayores que 0.05 y tanto x como (n-x) son ambas > 5
3.

Estadstico de contraste:

z exp =
4.

p p0 12 n
p0 q0
n

Clculo de la probabilidad: se compara zexp con una z de la distribucin Normal. Si zexp > z se
rechaza H0 con una probabilidad de error .

13. Test de homogeneidad con dos muestras


A. COMPARACIN DE MEDIAS DE DOS MUESTRAS INDEPENDIENTES
(dos poblaciones, una variable cuantitativa)
1.
2.

H0 : Las medias de dos poblaciones son iguales (1 = 2)


Condiciones: La variable sigue una distribucin Normal en ambas poblaciones. Si esto no es
as, el procedimiento sigue siendo vlido siempre que los tamaos de ambas muestras sean al
menos de 30. Es preciso comprobar previamente si las dos poblaciones que se comparan
tienen o no la misma dispersin (varianza). Esto se realiza, a su vez, mediante un contraste
de hiptesis (test de la F de Snedecor), en donde H0 : las varianzas de ambas poblaciones son
2
2
2
2
iguales (1 =2 ). La probabilidad del estadstico Fexp=s 1 /s 2 (siendo s1>s 2) se obtiene de una
tabla de la distribucin F de Snedecor con n1-1 (columnas) y n2-1 (filas) grados de libertad:

14

Distribucin F de Snedecor:
Para cada valor de los primeros gl (primera fila) y de los segundos gl
(primera columna) en el interior de la tabla se da el valor F que deja
a su derecha un rea de =10%. Por ejemplo, la probabilidad de que
un valor terico de la distribucin F de Snedecor con 30 y 40 g.
supere el 1,54 es de un 10%

2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 60,71 61,22 61,74 62,00 62,26 62,53 62,79 63,06 63,33

2
3

8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,41 9,42 9,44 9,45 9,46 9,47 9,47 9,48 9,49
5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 5,22 5,20 5,18 5,18 5,17 5,16 5,15 5,14 5,13

4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 3,90 3,87 3,84 3,83 3,82 3,80 3,79 3,78 3,76

5
6

4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 3,27 3,24 3,21 3,19 3,17 3,16 3,14 3,12 3,10
3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,72

3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 2,67 2,63 2,59 2,58 2,56 2,54 2,51 2,49 2,47

8
9

3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,50 2,46 2,42 2,40 2,38 2,36 2,34 2,32 2,29
3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,38 2,34 2,30 2,28 2,25 2,23 2,21 2,18 2,16

10

3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,28 2,24 2,20 2,18 2,16 2,13 2,11 2,08 2,06

11
12

3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,21 2,17 2,12 2,10 2,08 2,05 2,03 2,00 1,97
3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19 2,15 2,10 2,06 2,04 2,01 1,99 1,96 1,93 1,90

13

3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,10 2,05 2,01 1,98 1,96 1,93 1,90 1,88 1,85

14
15

3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10 2,05 2,01 1,96 1,94 1,91 1,89 1,86 1,83 1,80
3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,02 1,97 1,92 1,90 1,87 1,85 1,82 1,79 1,76

16

3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 1,99 1,94 1,89 1,87 1,84 1,81 1,78 1,75 1,72

17
18

3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,96 1,91 1,86 1,84 1,81 1,78 1,75 1,72 1,69
3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98 1,93 1,89 1,84 1,81 1,78 1,75 1,72 1,69 1,66

19

2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,91 1,86 1,81 1,79 1,76 1,73 1,70 1,67 1,63

20
21

2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94 1,89 1,84 1,79 1,77 1,74 1,71 1,68 1,64 1,61
2,96 2,57 2,36 2,23 2,14 2,08 2,02 1,98 1,95 1,92 1,87 1,83 1,78 1,75 1,72 1,69 1,66 1,62 1,59

22

2,95 2,56 2,35 2,22 2,13 2,06 2,01 1,97 1,93 1,90 1,86 1,81 1,76 1,73 1,70 1,67 1,64 1,60 1,57

23
24

2,94 2,55 2,34 2,21 2,11 2,05 1,99 1,95 1,92 1,89 1,84 1,80 1,74 1,72 1,69 1,66 1,62 1,59 1,55
2,93 2,54 2,33 2,19 2,10 2,04 1,98 1,94 1,91 1,88 1,83 1,78 1,73 1,70 1,67 1,64 1,61 1,57 1,53

25

2,92 2,53 2,32 2,18 2,09 2,02 1,97 1,93 1,89 1,87 1,82 1,77 1,72 1,69 1,66 1,63 1,59 1,56 1,52

26
27

2,91 2,52 2,31 2,17 2,08 2,01 1,96 1,92 1,88 1,86 1,81 1,76 1,71 1,68 1,65 1,61 1,58 1,54 1,50
2,90 2,51 2,30 2,17 2,07 2,00 1,95 1,91 1,87 1,85 1,80 1,75 1,70 1,67 1,64 1,60 1,57 1,53 1,49

28

2,89 2,50 2,29 2,16 2,06 2,00 1,94 1,90 1,87 1,84 1,79 1,74 1,69 1,66 1,63 1,59 1,56 1,52 1,48

29
30

2,89 2,50 2,28 2,15 2,06 1,99 1,93 1,89 1,86 1,83 1,78 1,73 1,68 1,65 1,62 1,58 1,55 1,51 1,47
2,88 2,49 2,28 2,14 2,05 1,98 1,93 1,88 1,85 1,82 1,77 1,72 1,67 1,64 1,61 1,57 1,54 1,50 1,46

40

2,84 2,44 2,23 2,09 2,00 1,93 1,87 1,83 1,79 1,76 1,71 1,66 1,61 1,57 1,54 1,51 1,47 1,42 1,38

60
120

2,79 2,39 2,18 2,04 1,95 1,87 1,82 1,77 1,74 1,71 1,66 1,60 1,54 1,51 1,48 1,44 1,40 1,35 1,29
2,75 2,35 2,13 1,99 1,90 1,82 1,77 1,72 1,68 1,65 1,60 1,55 1,48 1,45 1,41 1,37 1,32 1,26 1,19

2,71 2,30 2,08 1,94 1,85 1,77 1,72 1,67 1,63 1,60 1,55 1,49 1,42 1,38 1,34 1,30 1,24 1,17 1,00

Gl

15

3.

Estadstico de contraste:
Si las varianzas son iguales (test de la t de Student):

x1 x2

t exp =
s
4.

s=

Con

1
1
+
n1 n2

s12 (n1 1) + s22 ( n2 1)


n1 + n2 2

Clculo de la probabilidad: se compara texp con una z de la distribucin t de Student con (n1+n2-2)
grados de libertad. Si texp > t se rechaza H0 con una probabilidad de error .

3b. Estadstico de contraste:

Si las varianzas son distintas (test de Welch):


2

t exp =

x1 x 2
s12 s22
+
n1 n2

Con

s12 s22
+
n n
f = 12 2 2
s12 s22

n1 + n2
n1 1 n2 1

grados de libertad

4b. Clculo de la probabilidad: se compara texp con una t de la distribucin t de Student con f grados
de libertad. Si texp > t se rechaza H0 con una probabilidad de error .

B. COMPARACIN DE MEDIAS PARA MUESTRAS APAREADAS


(una poblacin, una variable cuantitativa medida de forma repetida)
1.
2.

H0: No hay diferencias en dos mediciones repetidas en los mismos individuos (1-2=d=0)
Condiciones: dadas n parejas de datos (x 1i, x 2i), con i=1,2,....n, obtener sus diferencias di

3.

(di=x 1i - x 2i) y, si son normales, la media y varianza, d y s d de dicha muestra (d1,d2,....dn). Vlido si
la variable diferencia presenta un distribucin Normal, o, cuando no lo es, ser vlido
aproximadamente si los tamaos muestrales son mayores que 30.
Estadstico de contraste:

t exp =
4.

d
sd

Clculo de la probabilidad: se compara te xp con una t de la distribucin t de Student con n-1


grados de libertad. Si texp > t se rechaza H0 con una probabilidad de error .

14. Anlisis de la varianza (ANOVA)


(dos o ms poblaciones, una variable cuantitativa)
Permite la comparacin entre las distribuciones de una variable cuantitativa entre ms de dos
grupos. Lgicamente, tambin entre slo dos, coincidiendo en este caso con el test de la t de Student.
Se basa en la particin de la variabilidad total en un conjunto de datos en los componentes debidos a
las distintas fuentes de variacin: los individuos dentro de los grupos que se comparan son distintos
entre s, y adems hay cierta variabilidad de unos grupos a otros. La comparacin toma la forma de
una razn entre la varianza estimada a partir de las medias de los grupos (Variacin ENTRE grupos)
y la varianza existente entre los individuos dentro de cada grupo (Variacin DENTRO de los grupos)
1.

H0 : Las medias de varias poblaciones son iguales (1 = 2= ... = n)

16

2.

3.

Condiciones: la variable cuantitativa sigue una distribucin normal en todos los grupos que se
comparan, y con la misma varianza en todos los grupos. Esta ltima condicin se comprueba
mediante el test de Bartlett, una extensin del test de la F de Snedecor anterior
Estadstico de contraste: se calcula mediante la siguiente tabla, donde:
k: n de grupos que se comparan
ni: tamao de muestra del grupo isimo (i= 1, 2, .... k)
x i : media del grupo isimo (i= 1, 2, .... k)
n: tamao total de la muestra (n= n1 + n2 + ... + nk )
x ij: valor en el individuo jotasimo (j= 1, 2,... ni) del grupo isimo (i= 1, 2, .... k)
x : media de la totalidad de los individuos
Fuente de grados
variacin
de
libertad
Entre
k-1
grupos

Suma de cuadrados
SC

Media
Cuadrtica

SCE = ni ( x i x ) 2

MCE =

SCE
MCE
Fexp =
k 1
MCD

MCD =

SCD
nk

i =1

Dentro de n-k
los grupos

ni

SCD = ( x ij x i ) 2 = SCT SCE


i =1 j =1

Total

n-1

Estadstico F

ni

SCT = ( xij x ) 2
i =1 j =1

Trucos: recuerda que la informacin de esta tabla la puedes obtener fcilmente con las
medias ( xi ), varianzas ( si ) y tamaos muestrales (ni) de cada grupo uno de los grupos:
2

x=
4.

xn

i i

a partir de aqu, calcula SCE;

SCD = SCi = si2 ( ni 1)

Clculo de la probabilidad: se compara Fexp con una F de la distribucin F de Snedecor con k-1 y
n-k grados de libertad. Si Fexp > F se rechaza H0 con una probabilidad de error .

15. Test no paramtricos


En el apartado anterior vimos cmo la aplicacin de los distintos mtodos para comparacin de
medias, tanto en muestras independientes como apareadas, requeran de una serie de condiciones
para su aplicacin. Recordemos que estas condiciones se referan a la base conceptual del Teorema
Central del Lmite: dada una variable X en una poblacin que tuviese una distribucin normal, la
distribucin que siguen las medias xi de las infinitas muestras aleatorias de tamao constante n que
se pudiesen obtener es una distribucin normal, de media (igual que la de la poblacin) y de una
variabilidad inferior a la de la poblacin tantas veces como indique la raz cuadrada del tamao
muestral (error estndar de la media,

).

Aunque la variable no tenga una distribucin normal en la poblacin, si n es suficientemente grande lo


anterior sigue siendo cierto. Arbitrariamente se establece en 30 el tamao de muestra que puede
considerarse suficientemente grande. En la prctica, todo esto implica que si estamos manejando
variables de distribucin normal, no importe demasiado el tamao muestral (con unos mnimos) y, por
el contrario, si tenemos un tamao de muestra suficientemente grande, no sea muy importante la
condicin de normalidad. El problema surge con los tamaos de muestra pequeos (n<30): al estar
todos los mtodos anteriores basados en la hiptesis de normalidad, hay que verificar sta antes de
poder aplicarlos. Existen varios mtodos para hacerlo, siendo lo primero (aunque no suficiente) la
representacin grfica de la variable en la muestra: si es claramente no normal, podemos parar ah; si
hay dudas, el test de normalidad de DAgostino, que se puede realizar a mano, o algunos de los
17

procedimientos basados en el test de Kolmogorov-Smirnov o Shapiro-Wilks que aparecen en los


programas estadsticos nos sacarn de ellas.
Cuando las variables no son normales, el procedimiento siguiente permite realizar el test para
contrastar la hiptesis nula de igualdad de dos medias, independientemente del tamao muestral. El
procedimiento es vlido para cualquier variable aleatoria, no slo para las no normales, y por ello es
un mtodo no paramtrico, no condicionado por los parmetros de una distribucin en concreto.
TEST DE WILCOXON PARA COMPARAR DOS GRUPOS
(dos poblaciones, una variable cuantitativa)
Aunque se utiliza como alternativa al test de la t de Student para comparar dos medias, las hiptesis
que se contrastan aqu no son estrictamente la igualdad o no de las medias. En realidad, H0 afirma
que las poblaciones comparadas son iguales, frente a H1, segn la cual una poblacin tiende a dar
valores ms altos que la otra.
Tomemos un ejemplo del libro de Estadstica para las ciencias de la Salud, de Martn Andrs y Luna
del Castillo: supongamos que se desea conocer la eficiencia de dos hospitales A y B en el manejo de
ciertos enfermos, y uno de los aspectos a considerar es la estancia tras una intervencin quirrgica
determinada. Como los dos hospitales son distintos y no hay asociacin de los datos de una muestra
con los de otra, las muestras son independientes.
Das de
Estancia
Datos
Ordenados
n de orden
Rangos ri

A 12, 14, 11, 30, 10


B 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
A
10 11
12
14
B 7
11
12 12
14
1 2
3
4 5 6
7 8
9
A
2
3,5
6
8,5
B 1
3,5
6
6
8,5

30
16
10

18
11

21
12

22
13

10

11

12

13

14
14

34
15

15
Suma

Totales
34= R(A)
86= R(B)
120

Pasos a seguir en la elaboracin de esta tabla (coinciden con las filas):


1. Separar de los datos de estancia de ambos hospitales, (nA y nB ), con nA < nB
2. Ordenar, de menor a mayor, las estancias de cada paciente, considerndolos como una sola
muestra de tamao n
3. Asignar n de orden, desde 1 hasta n, prestando especial atencin a los empates, es decir,
enfermos con igual n de das de estancia en el hospital A que en el B.
4. Asignar rangos definitivos: n de orden de cada enfermo en la muestra global, y en caso de
empate, se asigna el rango promedio de los que hubiesen correspondido: para las estancias de 11
das, a los n de orden 3 y 4 se les asigna un rango de 3,5; para las estancias de 12 das, a los n
de orden 5,6 y 7 se les asigna el rango 6. Las barras verticales separan los empates.
Seguidamente se calcula la suma de los rangos de cada una de las muestras. Para el hospital A,
ri= 2 + 3,5 + 6 + 8,5 + 14 = 34. Para B, ri = 86.
5. Como comprobacin de los clculos debe ocurrir que R(A) + R(B) sea igual que la suma desde 1
hasta n (1 + 2 + 3 + ....+ 15) = 120. Abreviadamente, esta suma se puede calcular:

n( n + 1)
2

en nuestro caso, (15 16 )/2 = 120

Para realizar el test, basta con calcular la suma de rangos de la muestra de menor tamao, pero
conviene hacer los clculos completos para comprobar el paso 5.
La cantidad experimental Rexp suma de los rangos de la muestra de menor tamao se compara con lo
que debera haber ocurrido si la hiptesis nula fuese cierta. Y cul era la prediccin? Si el hospital A
tiende a tener una estancia menor, al ordenar la muestra conjunta sus rangos tendern a ser bajos, y
su suma Rexp un nmero pequeo. Si ocurre lo contrario, y la estancia en A es mayor que en B, los
rangos sern altos, y Rexp ser un nmero grande. Es decir, valores altos o bajos de Rexp llevarn a
rechazar la hiptesis nula, mientras que valores intermedios no permitirn hacerlo. Una gua para
interpretar qu se entiende por valores altos o bajos de Rexp la obtenemos en las tablas
correspondientes (n 14 del libro de A. Martn Andrs), que dan intervalos de aceptacin para esta
18

cantidad. En nuestro ejemplo, Rexp= 34 , para n1 =5 y n2 =10, se encuentra dentro del rango que se
considera aceptable con una probabilidad de 0,1. Como no es suficientemente pequea, no podemos
rechazar la hiptesis nula, y concluimos que ambos hospitales tienen igual estancia tras la
intervencin quirrgica. Si el resultado hubiera sido Rexp= 58, este valor hubiese estado fuera del
rango aceptable con una probabilidad 0,05. La hiptesis nula se hubiese rechazado con un error de
probabilidad p<0,05.
COMPARACIN DE DOS GRUPOS CON MUESTRAS APAREADAS:
(una poblacin, una variable cuantitativa medida de forma repetida)
En este caso se calculan inicialmente las diferencias entre los valores apareados (fase paramtrica) y
se consideran como dos grupos de valores las diferencias positivas y negativas encontradas, es
decir, A y B son ahora las diferencias + y - encontradas. El resto del procedimiento es idntico, salvo
que la probabilidad del resultado se localiza en la tabla 15 del libro de A Martn Andrs.
Veamos un ejemplo: Supongamos que se registran las presiones sistlicas en 10 alcohlicos antes y
despus de dejar la bebida, con los siguientes resultados:
Individuo
Antes:
Despus:
Diferencia:

1
2
3
4
5
6
7
8
9
10
140 165 160 160 175 190 170 175 155 160
145 150 150 160 170 175 160 165 145 170
+
15 10
0
5 15 10 10 10
5
10

Comparamos ahora las diferencias positivas y negativas, despreciando las parejas en las que no se
ha producido ningn cambio, por el mismo procedimiento anterior:
Diferencias
ordenadas
N de orden
Rangos ri

+
-

5
5

1
2
+
1,5
- 1,5

10
3

10

10

10

10

15

15

8
9
8,5 8,5

5
Suma

Totales
R(+)= 38,5
R(-)= 6,5
45

Como comprobacin, se sigue cumpliendo que n(n+1)/2 = (9 10) / 2 = 45


Si la presin antes fuera superior a despus, las diferencias deberan ser positivas y grandes, lo que
implicara que R(+) sera grande. Si por el contrario la presin despus de dejar la bebida fuese
superior, el valor de R(+) sera pequeo. As pues, valores altos o bajos de R(+) llevaran a rechazar
la hiptesis nula. La tabla correspondiente (n 15 del libro de A. Martn Andrs) proporciona los
intervalos de aceptacin para R(+). En nuestro ejemplo, R(+) = 38,5, que para n=9 est fuera del
intervalo para =0,05 pero no para =0,1. Por tanto, la probabilidad de este resultado se encuentra
entre 0,05 y 0,1. No sera tan pequea como para rechazar la hiptesis nula ni tan grande como para
aceptarla, por lo que lo ms indicado sera no tomar ninguna decisin y aumentar el tamao de la
muestra.
COMPARACIN DE VARIOS GRUPOS: TEST DE KRUSKAL-WALLIS
(dos o ms poblaciones, una variable cuantitativa)
No es ms que una generalizacin del test de Wilcoxon para la comparacin de ms de dos grupos.
En realidad, cuando el nmero de grupos es 2, ambos tests son idnticos. Cuando las medidas son
repetidas (apareadas) el test de Friedman, tambin no paramtrico, contrasta la hiptesis de igualdad
de todas las medidas. A su vez, es una extensin del test de Wilcoxon para muestras apareadas en el
caso de ms de dos medidas.

19

VENTAJAS Y DESVENTAJAS DE LOS MTODOS NO PARAMTRICOS EN RELACIN CON


LOS PARAMTRICOS
Ventajas:
1. Los mtodos no paramtricos valen siempre, sea cual sea la variable de partida. As, su aplicacin
no precisa de la hiptesis de normalidad, que no tiene por qu ser verificada (son tests ms
generales) ni comprobada (se ahorra tiempo).
2. El clculo manual es muy sencillo y rpido cuando las muestras son pequeas.
Desventajas:
1. Cuando las variables son normales los tests paramtricos son ms potentes (1-) que los no
paramtricos. Viene a representar una reduccin de potencia a un 95%, es decir, si con 100
observaciones se podra detectar una diferencia mediante un test no paramtrico, con el
paramtrico bastaran 95.
2. El clculo se hace ms complejo con las muestras mayores.
3. Los mtodos no paramtricos permiten menos refinamientos en el anlisis posterior de los datos,
como intervalos de confianza para las diferencias detectadas, o bsqueda de los grupos que son
diferentes si se estn comparando ms de dos.
2

16. El test (chi-cuadrado o ji-cuadrado) y sus aplicaciones


TEST DE BONDAD DE AJUSTE:
(una poblacin, una variable cuantitativa)
1.

2.

H0: la distribucin de una variable cualitativa en una poblacin se ajusta bien a una distribucin de
parmetros conocidos (las proporciones especificadas en la H0 son las correctas para cada valor
de la variable)
Condiciones de aplicacin: Si los n individuos de una muestra pueden caer en una y slo una de
las k clases exhaustivas y excluyentes C1, C2,..., Ck con probabilidades p1, p2,...,pk ,
respectivamente, dadas por H0, y si O1, O2,...Ok es el nmero de individuos, de entre los n de la
muestra, que caen en las clases C1, C2,... Ck (valores observados Oi experimentalmente) ,
entonces, calculados los valores esperados (bajo H0) E1= np1, E2= np2,...Ek = npk (Ei= n), si
ninguna Ei es < 1 y no ms del 20% de ellas pueden ser 5. Los datos pueden presentarse como
en la tabla siguiente:
clases
probabilidades
valores observados
valores esperados

3.

C2......Ck
p2......pk
O2......Ok
E2......Ek

Clculo del estadstico de contraste:

4.

C1
p1
O1
E1

Si k > 4 n > 200:

Si k 4 y n 200:

2
exp

2
exp

Totales
1
n
n

(O E ) 2
E

(O E
=
i

Oi2
=
n
Ei

)
2

Ei

2
exp

Clculo de la probabilidad: se compara


con una de la distribucin con k-1 grados de
2
2
libertad. Si exp > se rechaza H0 con una probabilidad de error .

20

Para
cada
gl
(columnas) y para
cada (filas) se da
en el interior de la
2
tabla el valor de
que
deja
a
su
derecha un rea .

gl
1
2
3
4
5
6
7
Por ejemplo, con un gl, la probabilidad de que 8
2
una supere el 3,841 e es de un 5%
9
10

0,9
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865

0,2
1,645
3,219
4,642
5,989
7,289
8,558
9,803
11,030
12,242
13,442

0,1
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987

0,05
3,841
5,991
7,851
9,488
11,070
12,592
14,067
15,507
16,919
18,307

0,025
5,204
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483

0,01
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209

0,001
10,828
13,816
16,266
18,467
20,515
22,458
24,322
26,124
27,877
29,588

TEST DE HOMOGENEIDAD DE UN CONJUNTO DE MUESTRAS CUALITATIVAS:


(dos o ms poblaciones, una variable cualitativa)
1.

H0: la proporcin de individuos que caen en cierta clase es la misma para todas las poblaciones, y
esto vale para todas las clases. Dadas r muestras cuyos individuos se clasifican en s clases como
en la tabla siguiente, en la cual:
Oij=
Fi =
Cj =
T =

n de individuos de la muestra i que caen en la clase j = cantidades observadas


total de fila i= n de individuos de la muestra i
total de columna j= n de individuos de la clase j
n total de individuos considerados = Fi= Cj= Oij

Muestra 1
Muestra 2
...
Muestra i
...
Muestra r
Totales

Clase 1 Clase 2 ...


O11
O12
...
O21
O22
...
...
...
...
Oi1
Oi2
...
...
...
...
Or1
Or2
...
C1
C2
...

Clase j
O1j
O2j
...
Oij
...
Orj
Cj

...

Clase s Totales
O1s
F1
O2s
F2
...
...
Ois
Fi
...
...
Ors
Fr
Cs
T

...
...
...
...
...
...
...

Para tablas 2*2: (dos filas y dos columnas)

Muestra 1
Muestra 2
Totales
2.

3.

Clase 1
O11
O21
C1

Clase 2
O12
O22
C2

Totales
F1
F2
T

Condiciones de validez: Calcular las cantidades esperadas Eij= Fi Cj / T y entonces el test que
sigue es vlido si:

En tablas 2 2: si T > 40, si 20 T 40 pero todas las Eij son > 5

En otras tablas: ninguna Ei debe ser inferior a 1 y no ms del 20% de ellas < 5.
Clculo del estadstico de contraste:
En tablas 2 2:
En otras tablas:

(O
=

O22 O12O21 T / 2 )

11

F1 F2 C1C2

OI2
=
T
EI
2

4.

Clculo de la cantidad terica: en tablas de con (r-1) (s-1) grados de libertad.

21

TEST DE INDEPENDENCIA PARA VARIABLES CUALITATIVAS


(una poblacin, dos variables cualitativas)
1.

H0: los caracteres A y B son independientes. Si los T individuos de una muestra aleatoria son
clasificados con arreglo a dos caracteres A y B, el primero dividido en r clases y el segundo en s
clases, obtenindose una tabla como la anterior (cambiando muestras y clases por "clases del
carcter A" y "clases del carcter B" respectivamente, entonces las condiciones de validez, el
clculo de las cantidades experimentales y tericas son idnticas a las del test anterior (Test de
homogeneidad de un conjunto de muestras cualitativas).

MEDIDAS DE DEPENDENCIA EN TABLAS DE CONTINGENCIA


Para ver el grado de dependencia (fuerza de la asociacin) de ambos criterios de clasificacin en
tablas de 22 se definen:
O11 O22
Razn del producto cruzado (odds ratio):
OR = --------O12 O21
Puede calcularse en estudios de casos y controles y tambin en estudios de cohortes

Riesgo relativo (del factor de riesgo B para la enfermedad A)

O11/C1
RR = -------O12/C2

Slo tiene sentido en estudios de cohortes, comparando la frecuencia de enfermedad A (O11)


entre el grupo expuesto al factor de riesgo B (C1), es decir, la incidencia O11/C1 con la incidencia
en el grupo no expuesto (O12/C2)
En ambos casos, un valor superior a 1 significara un aumento del riesgo, un valor cercano a 1
igualdad de riesgo, y un valor inferior a 1 disminucin del riesgo (factor de proteccin).
Tanto para la OR como para el RR tiene sentido, si se demuestra que existe una asociacin
estadstica, que se calcule un intervalo de confianza que informe acerca de la precisin con que se
mide el riesgo. Un mtodo sencillo para calcularlo viene dado por la expresin:

IC (95%) : OR

1. 96
1

IC (95%) : RR

1 .96
1

donde el lmite inferior del intervalo se obtiene elevando OR (o RR) a (1-1.96/), y el superior a
2
(1+1.96/), y es la raz cuadrada del estadstico de contraste .
17. Contraste de hiptesis en regresin
Una vez realizados los clculos previos (ver apartado 10 en este mismo documento), se pueden
comprobar hiptesis en regresin:
1.
2.

H0: La variable dependiente toma el mismo valor para todos los valores de la independiente, o lo
que es igual, la pendiente es 0 (H0=0)
Condiciones de validez: Los valores de la variable y, para cada valor de la x, siguen distribuciones
2
Normales de medias situadas sobre la lnea recta + x y varianzas ( ) iguales.

t exp =

b SCx
s 2yx

3.

Test:

4.

Clculo de la cantidad terica: Las t se buscan en la tabla de la distribucin t-Student con (n - 2)


grados de libertad

22

Alternativamente, se puede contrastar la misma hiptesis (H0=0) mediante la realizacin de un


intervalo de confianza para (ver apartado 10). Si el intervalo excluye el valor =0, puede concluirse
que la pendiente es distinta de 0.
Otra alternativa es contrastar la independencia de ambas variables (x e y) descomponiendo la
varianza total de y mediante una tabla de ANOVA, que divida la suma de cuadrados total de y ( SCy )
en dos partes: la debida a regresin:

SCreg = ( y y ) y la residual: SCres = ( y y ) :


2

Fuente de grados
variacin
de
libertad
Regresin k-1

Suma de cuadrados
SC

Media
Cuadrtica

SCreg = ( y y )

MC reg =

Residual

n-k

SCres = ( y y )

Total

n-1

SC y = ( y y )

MCres =

Estadstico F

SC reg
k 1

Fexp =

MC reg
MC res

SC reg
nk

k: nmero de variables. Si slo hay una variable predictora x, k=2 (x e y)


En realidad, el modelo de regresin es un modelo ms general, que incluye como caso particular al
anlisis de la varianza, y lo podramos usar para comparar las medias de dos grupos, si stos estn
definidos por los valores de una variable dicotmica, como por ejemplo el sexo (1: varones, 0:
mujeres).
2

El coeficiente de determinacin, r , expresa el porcentaje de la variabilidad de y explicada por x:

r2 =

SC reg
;
SC y

a partir de aqu, el coeficiente de correlacin,

r = r2

23

E. ALGUNAS CUESTIONES A TENER EN CUENTA EN LA REVISION ESTADISTICA DE


ARTICULOS CIENTFICOS
1.

Anotar los fines del trabajo y enumerarlos, en trminos no estadsticos, lo ms precisamente


posible.
2. Encontrar las variables que se han elegido para alcanzar los fines propuestos. Enumerarlas
detalladamente, asignndoles sus tipos (cuantitativas o cualitativas, discretas o continuas) y
plantendose, siempre que se pueda, el conocimiento, aunque sea aproximado, de su distribucin
(Normal, Binomial, Poisson, o ninguna de ellas).
3. Con respecto a la muestra estudiar los siguientes extremos:
Cmo se ha extrado
Si la extraccin hace que la muestra pueda considerarse aleatoria
Estudiar si han sido recogidas variables como la edad o el sexo, que nos permitan "asegurarnos" de
que la muestra representa suficientemente bien a la poblacin (se distribuye por edad y sexo igual
que la poblacin)
Identificar a la poblacin de la que ha sido extrada la muestra, con objeto de ver si las conclusiones
obtenidas lo son para esa o para otras poblaciones.
Enumerar, segn el conocimiento del problema, los posibles sesgos en los que se pueda incurrir, y
si stos sesgos han sido evitados o no. Si no han sido evitados, en qu sentido afectaran a los
resultados.
Analizar el tamao de la muestra del que se ha dispuesto, viendo si ha sido calculado fijando
condiciones previas y cules son stas. Si no se sabe cmo ha sido fijado el tamao de muestra
(que es lo ms comn) habr que ver si ha sido suficiente o no.
4. Especificar las hiptesis de cada uno de los tests a realizar (ahora de manera estadstica)
5. Observar si se verifican las condiciones de los tests. Esas condiciones son vitales para poder
aplicarlos. Si no se verifican, su aplicacin es incorrecta y sus resultados, y por tanto las
conclusiones que se extraen de ellos, pueden estar muy apartados de la realidad.
6. Siempre que se puedan comprobar los resultados de los tests, debera hacerse. Hay veces que los
resultados que se obtienen son distintos de los que se dan, indicando esto que no se han hecho en
el artculo los tests que se dicen.
7. El nivel de significacin "p" debe comprobarse en las tablas. Recurdese que lo habitual es considerar un test significativo si p < 0.05.
8. Comprubese cmo se interpreta la significacin de los tests, pensando en las hiptesis
identificadas anteriormente. Es muy comn concluir al revs. Estudiar asimismo las conclusiones
que se deducen de tests no significativos (atencin al tamao de muestra).
9. Observar si las conclusiones finales del artculo van ms all o no de los tests realizados.
10. Pensar en tests alternativos para obtener las conclusiones del trabajo. Estudiar si tales tests son
ms apropiados que los usados. Es muy comn usar tests que impliquen una prdida de
informacin importante (ej.: agrupamiento en clases).
11. No olvidar nunca que, por encima de la significacin estadstica, los valores de p, etc., debe
situarse siempre la relevancia clnica o biolgica de las diferencias o asociaciones encontradas.

24

F. PRINCIPALES TIPOS DE PROBLEMAS, Y MTODOS PARA SU RESOLUCIN


1.COMPARACION DE DISTRIBUCIONES
Una Variable cuantitativa:
Una poblacin
Intervalo de confianza para una media
test de contraste para una media
Dos poblaciones
Muestras
Distribucin Normal (o n30)
independientes
(comparacin de dos medias)
Muestras
apareadas
Distribuciones cualesquiera
Muestras
(no normales, y n<30)
independientes
Muestras
apareadas
>dos poblaciones Anlisis de la Varianza (ANOVA)
Una Variable cualitativa:
Una poblacin

Dos poblaciones

>dos poblaciones

Varianzas iguales: t-Student


Varianzas distintas: Welch
t-Student para muestras
apareadas
Wilcoxon, Kruskal-Wallis
tests no paramtricos
Wilcoxon para muestras
apareadas

Intervalo de confianza para una proporcin


Dos categoras: test para una proporcin
2
Ms de dos categoras: test de bondad de ajuste:
Muestras independientes Test de homogeneidad : 2,
Test de Fisher, si no
2
condiciones para el
Muestras apareadas
Test de McNemar
Muestras independientes 2
Muestras apareadas
Test de Cochrane

se

cumplen

las

2.COMPROBAR LA ASOCIACIN O RELACIN ENTRE VARIABLES


Dos variables:
2
Cualitativas
(tablas de contingencia)
Cuantitativas Correlacin
V. Normales
Correlacin lineal simple
V. Cualesquiera
Correlacin no paramtrica: de Spearman
2
Mixtas
Cualitivizar la cuantitativa:
poco deseable, al perder informacin
se convierte en una escala
Correlacin
Cuantitivizar la cualitativa
(si es ordinal1,2,3...)
Comprobar si la distribucin de la Comparacin de medias
cuantitativa es igual en todas las ANOVA
categoras de la cualitativa
Ms de dos variables:
Correlacin parcial
Estadstica multivariante
3.PREDICCIN DE LOS VALORES DE UNA VARIABLE
Variables dependientes Normales Regresin (lineal simple, mltiple, curvilnea
Variables dependientes Binomiales
Regresin logstica
Variables dependientes de Poisson
Regresin de Poisson

25

Potrebbero piacerti anche