Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
A.
INTRODUCCIN A LA ESTADSTICA................................................................................... 2
1.
Por qu hablar de estadstica?............................................................................... 2
2.
Un concepto fundamental: la variabilidad. .................................................................. 2
3.
Variabilidad debida al muestreo................................................................................ 2
4.
En qu nos ayuda la Estadstica.............................................................................. 2
5.
Conozcamos algo ms sobre variables. .................................................................... 3
6.
La Muestra, La Poblacin Muestreada, La Poblacin ................................................. 3
B.
ESTADSTICA DESCRIPTIVA.............................................................................................. 4
7.
Formas de presentar la Informacin. ......................................................................... 4
C.
ESTADSTICA INFERENCIAL.............................................................................................. 5
8.
Fundamentos intuitivos de la estimacin por intervalos ............................................... 5
9.
Aplicacin en la realidad.......................................................................................... 7
10.
Regresin lineal y coeficiente de correlacin ............................................................. 10
D.
E.
F.
A. INTRODUCCIN A LA ESTADSTICA
1.
La informacin es, cada vez ms, una de las materias primas ms importantes de nuestro trabajo como
profesionales de la salud. Esta informacin es ms cuantitativa que descriptiva, y la estadstica es el
lenguaje necesario para producir, manejar, comunicar e interpretar correctamente esta informacin. La
investigacin, al menos la positivista predominante, se basa fundamentalmente en la metodologa
estadstica, sobre todo en la comprobacin de hiptesis o "pruebas de significacin".
La estadstica invade la literatura cientfica sobre salud. Por todas partes hay continuas referencias a los
"valores de p" y a "hallazgos estadsticamente significativos". Para leer de forma inteligente, crtica, hay
que tener unas cuantas ideas claras: NO TODO LO QUE SE PUBLICA ES VERDAD (por no hablar de lo
que nos quieren vender).
2.
La informacin que nos interesa est formada por conjuntos de datos referidos a caractersticas medidas
en distintos indivi duos. Como toda medicin, est sujeta a variaciones por distintas causas: si le tomamos
la tensin arterial a una persona, obtendremos, en mediciones repetidas, distintos valores. Esto se debe,
en primer lugar, al fenmeno que estamos midiendo: la tensin arterial vara a lo largo del da
dependiendo de diversos factores (variabilidad debida al fenmeno en s ). Por otro lado, depende de
quin realice la medicin, y en qu momento: uno puede no coincidir consigo mismo al repetir una
medicin, y mucho menos con otro compaero (variabilidad intra e interobservador). Por ltimo, con
distintos esfigmomanmetros, obtendremos tensiones diferentes (variabilidad debida al instrumento
de medida).
Como es sabido, la Epidemiologa trabaja con grupos de personas ms que con individuos; esto
introduce un motivo ms de variabilidad: las personas son distintas unas de otras. En biologa, la variabilidad no es la excepcin, sino la regla. Ello nos impide ser deterministas: afortunadamente no todos los
fumadores llegan a desarrollar un cncer de pulmn, y hay (pocos, pero hay) cnceres de pulmn entre
los no fumadores, infartos de miocardio entre deportistas, casos de gripe entre los vacunados, etc. El
concepto de riesgo, como probabilidad de que ocurra un fenmeno no deseado o dao, nos permite ser
operativos: a pesar de tanta variabilidad, los problemas de salud no se distribuyen al azar.
Hace tiempo que la enfermedad o la muerte dejaron de ser un castigo divino o una lotera. Podemos
identificar factores asociados a distintas probabilidades de presentacin de ese dao (factores de riesgo)
e intervenir sobre ellos para modificar la situacin.
3.
Hay una causa ms de variacin: normalmente no medimos la caracterstica que nos interesa en toda la
poblacin: si queremos saber cul es la prevalencia de caries en nuestra poblacin infantil no es
necesario que les midamos el ndice CAO (Caries/Ausencia/Obturacin) a todos los nios de la zona;
esto sera muy largo, costoso, y quiz, de peor calidad. Si escogemos bien una muestra de los nios, de
forma que representen bien al total de ellos, podemos estimar la prevalencia que nos interesa de toda la
poblacin infantil a partir de la prevalencia que hemos medido en nuestra muestra. Lgicamente, la
prevalencia de la muestra no coincidir exactamente con la de la poblacin, y ser algo diferente con
una muestra a si hubisemos elegido otra distinta, pero existen maneras de asegurarse de que esa
prdida de precisin no es demasiado importante.
4.
La Estadstica nos puede ayudar a poner un poco de orden en todo este lo de variabilidades. No reduce
la variabilidad, ni siquiera reduce la incertidumbre que nos produce esa variabilidad; nicamente nos
puede ayudar mediante el mantenimiento de esa incertidumbre dentro de unos lmites tolerables, que no
nos dejen invlidos, que nos permitan la accin.
Podramos definir pues la Estadstica como un conjunto de tcnicas que nos permiten, por un lado,
recoger, representar, clasificar, resumir datos de un colectivo (Estadstica descriptiva). Por otro
lado, nos permite obtener conclusiones a partir de esos datos (Estadstica inferencial).
5.
Una variable no es ms que una caracterstica que no es constante para todos los individuos de una
poblacin. As, las personas no tienen la misma altura ni el mismo peso unas que otras, etc. Hay distintos
tipos de variables:
a) Cualitativas: Son caractersticas que no se pueden medir, al menos numricamente. Pueden tomar
dos valores o categoras, o varias. Por ejemplo, la variable sexo toma dos posibles valores: varn o
mujer. La variable nivel socioeconmico tiene varios posibles valores: Bajo, medio bajo, medio,
medio alto, alto. Dentro de estas mismas variables cualitativas podemos hacer un grupo aparte con
aqullas que mantienen un cierto orden entre sus categoras, por ejemplo la ya dicha de nivel
socioeconmico. A estas variables les llamamos Ordinales.
b) Cuantitativas: Se pueden medir, asignndoles nmeros; por ejemplo, la altura, el peso, la glucemia,
etc. Dentro de estas existen dos tipos a su vez:
Discretas: Los valores que toman son aislados, representados por nmeros naturales. Son de este
tipo la variable nmero de hijos que tiene una pareja, o la variable nmero de consultas que hace
una persona a un Centro de Salud a lo largo de un ao.
Continuas: Pueden tomar cualquier valor dentro de un rango, es decir tericamente una persona
puede medir cualquier valor entre 1,70 y 1,71, nicamente depende de la precisin de nuestro
instrumento de medida.
Por qu este inters en diferenciar los tipos de variables?: el tratamiento estadstico que se da a
cada uno de estos tipos de variables es completamente distinto.
6.
Aleatoriedad: Todos los individuos de la poblacin, tienen la misma probabilidad de estar incluidos
en la muestra.
Homogeneidad con la poblacin: Al menos en las variables importantes. Por ejemplo, la
composicin por grupos de edad y sexo de la muestra ha de ser lo ms semejante posible a la de
la poblacin.
Para intentar cumplir estas reglas podemos recurrir a varias tcnicas de muestreo:
B. ESTADSTICA DESCRIPTIVA
7.
a) Tablas: Permiten resumir y representar valores. Tienen unas reglas muy sencillas:
Han de ser lo ms simples posible.
Deben explicarse por s solas.
El ttulo debe responder a las preguntas: qu, cundo, donde.
Se debe especificar claramente la procedencia de los datos.
Contienen filas y columnas. En cada fila se representan las clases, es decir, las agrupaciones que
se hacen con los dotas. En las columnas se establecen las frecuencias, es decir, el nmero de
veces que se repite cada fenmeno. Esta frecuencia puede ser de varios tipos:
Frecuencias absolutas: Es el nmero de veces que se repite cada clase.
Frecuencia relativa: Es el cociente entre frecuencia absoluta y tamao total.
Frecuencia acumulada: La frecuencia acumulada de una clase, es la suma de las frecuencias
de las clases que le preceden.
b) Grficos. Permiten representar distribuciones de frecuencias mediante sistemas de coordenadas
cartesianas (x e y) . Tienen las mismas reglas que las tablas. Los principales tipos de grficos son:
Diagramas de barras: Se utilizan para representar frecuencias de variables discretas o cualitativas.
Histogramas: Para variables continuas. Cada clase se representa por un rectngulo de rea
proporcional a la frecuencia.
Polgono de frecuencias: Resulta de unir en un histograma los puntos centrales de cada clase. Es
especialmente til para comparaciones.
Diagramas de sectores ("Tarta"). Es un sector circular de ngulo proporcional a la frecuencia. Es,
como el diagrama de barras, una buena representacin para variables discretas o cualitativas.
Pictogramas: representacin ideogrfica de la variable, de tamao proporcional a la frecuencia.
Mapas: muy tiles para expresar la distribucin geogrfica del fenmeno que nos interesa.
Vivimos en la era de la informtica, y es relativamente sencillo acceder a ordenadores que
construyen los grficos ms inverosmiles a partir de nuestros datos. Pero hay que tener cuidado: si
uno no lleva una idea clara del resultado que quiere obtener, puede acabar perdido entre los
montones de opciones, que a veces estorban al propsito principal: la claridad en la expresin de los
resultados.
c) Medidas numricas que resumen la distribucin de los datos (para variables cuantitativas):
Medidas de tendencia central y posicin:
Moda: la clase con ms frecuencia
Mediana: divide a la muestra ordenada en dos partes iguales: la mitad a cada lado.
Percentil: el percentil i (pi) deja a su izquierda un i% de la muestra ordenada. (i = 1,2,...99).
Cuartil: c1 = p25; c 2 = p50; c 3 = p75.
Decil: d1 = p10; d2 = p20; ...; d9 = p90.
Media aritmtica: suma de todos los valores, dividido por el nmero de valores:
x=
Medidas de dispersin:
Rango: la diferencia entre el valor ms grande y el ms pequeo de la muestra.
Suma de cuadrados: Suma de las distancias al cuadrado de cada valor a la media
SC = (x i x )
x i
n
Varianza: es una especie de promedio de las distancias al cuadrado de cada valor a la media:
(x
=
x)
n 1
CV =
s
100 ; indica la variabilidad con respecto a la media
x
C. ESTADSTICA INFERENCIAL
Se trata de una serie de mtodos que permiten obtener conclusiones acerca de una poblacin a partir
de una muestra representativa de la misma. Podramos establecer dos grandes bloques: mtodos de
estimacin y pruebas de contraste de hiptesis.
La nica forma exacta de conocer un parmetro que resuma la distribucin de valores de una
variable en una poblacin como una prevalencia p, o una media , o la varianza , es medir esta
variable en todos los individuos de la poblacin y calcular el resumen a partir de estos datos. Como
esto suele ser imposible, lo que se hace es elegir una muestra, realizar las mediciones slo en los
individuos seleccionados y calcular los resmenes numricos (llamados ahora estadsticos, o
2
estimadores) correspondientes: proporcin muestral p , media muestral x , varianza muestral s , etc.
De alguna forma, los valores que obtenemos en la muestra nos dan una idea de cmo son las cosas
en la poblacin. Es lo que se llama estimacin puntual: al desconocer el verdadero parmetro
poblacional, intentamos sustituirlo por un valor puntual, obtenido de la muestra. Pero a nadie
sorprender que lo ms seguro es que el estimador no acierte con el verdadero valor del parmetro
poblacional. Y lo que es peor, no sabemos si nos equivocamos mucho o poco. La estimacin por
intervalos viene a solventar en parte este problema. Vamos a intentar resumir los fundamentos en
los que se basa.
8.
Supongamos que tenemos una poblacin cuyo nivel de colesterol se distribuye segn la tpica forma
de campana de la distribucin Normal, con media = 225 mg y desviacin tpica = 50 mg (figura 1).
Esto quiere decir que en el espacio comprendido entre - (175 mg de colesterol) y + (225 mg de
colesterol) se encuentra el aproximadamente el 68% de los individuos. Tambin significa que entre 1,96 (127 mg) y + 1,96 (323 mg) se encuentra el 95%. Estos lmites configuran el intervalo de
probabilidad. Si de esta poblacin obtenemos una muestra aleatoria de tamao n = 100 personas, les
medimos su colesterol, y calculamos la media de la muestra x, podremos obtener una cifra que se
aproxime a la media poblacional (estimacin puntual), aunque ser raro que coincida exactamente
con ella. Si obtuviramos una segunda muestra, probablemente variar algo con respecto a la
primera. Lo mismo ocurrira con una tercera, etc.
5
Si repetimos el proceso de muestreo infinitas veces, obtendremos una larga serie de estimaciones
puntuales: las medias de las infinitas muestras. Ahora no son niveles de colesterol de personas lo que
tenemos, sino medias de colesterol de distintas muestras de 100 personas cada una. Resulta bastante
intuitivo comprender que la media de todas estas medias coincidir con la media de la poblacin de la
que salieron las muestras: todas ellas son medidas de tendencia central de cada muestra, y a su vez
calculamos la tendencia central de todas ellas, as que apuntamos cada vez ms al centro. Por tanto, en
nuestro ejemplo la media de la distribucin de las medias valdra 225 mg de colesterol.
Tambin resulta intuitivo otro hecho: si bien resulta relativamente fcil encontrar individuos en la
poblacin con valores extremos de colesterol, pongamos por ejemplo 150 mg, o 370, ya no es tan
fcil que una muestra de 100 individuos tenga como media 150 mg. Tendramos que haber elegido a
100 individuos con unas cifras de colesterol extremadamente bajas!. Si nuestras muestras son
aleatorias, esto es muy difcil que ocurra. Es decir, la distribucin de las medias tendr una dispersin
mucho menor que la distribucin de los niveles de colesterol en la poblacin. Por otra parte, no sera
tan raro encontrar una media de 150 si nuestra muestra slo tuviese un tamao n=2. Podra ocurrir
que el azar del muestreo nos seleccionase a dos individuos con unas cifras de colesterol bajas. Con
muestras mucho mayores ocurrira lo contrario: seran mucho ms raras las medias extremas. Es
decir, el tamao de la muestra influye decisivamente en la dispersin de la distribucin de las medias.
El Teorema Central del Lmite demuestra que la dispersin de la distribucin de las medias es raz de
n veces menor que la dispersin de la poblacin, es decir,
de la media (EEM). En nuestro ejemplo, valdra
50 100 = 5 .
Distribucin de las
25
75
125
175
225
275
325
375
425
25
75
125
175
225
275
325
375
425
Una ltima caracterstica de esta distribucin de las medias: a nadie le resulta extrao que, si la
distribucin del colesterol en la poblacin era una distribucin Normal, la distribucin de las medias
tambin lo sea. Se puede comprobar empricamente que, aunque la distribucin de la variable en la
poblacin no sea Normal, para tamaos de muestra suficientemente grandes (n>=30), la distribucin
de las medias s que es Normal. De nuevo, si pensamos que son medidas de tendencia central, es
fcil concluir que se tratar de valores centrados alrededor de un punto (la media poblacional), con
algunos (aproximadamente la mitad) desviados hacia la izquierda y otros hacia la derecha.
En resumen, las medias de las posibles muestras que obtengamos de una poblacin tienen una
distribucin Normal (si n>=30), con media igual a la de la poblacin y desviacin tpica el error
P 1.96
< x < + 1.96
= 0.95
n
n
Es decir, el 95% de las muestras que obtengamos de esa poblacin tendrn una media que estar
alrededor de la verdadera media poblacional , a una distancia no superior a 1.96
n . Con varias
P x 1.96
< < x + 1.96
= 0.95
n
n
Y esta ltima es una expresin muy importante: indica que la probabilidad de que la media
poblacional se encuentre entre dos valores, que podemos obtener de nuestra muestra, en realidad
la nica que se toma para representar a la poblacin (lmite inferior,
x + 1,96
x - 1,96
n y lmite superior,
n ) es una probabilidad conocida: 0,95. Hasta ahora habamos supuesto que la media
9.
Aplicacin en la realidad
Todo lo anterior interesa slo para comprobar que las frmulas no salen de ningn sombrero de copa,
pero lo que hacemos en la realidad es simplemente calcular, a partir de una nica muestra, la
estimacin de por dnde anda ms o menos el parmetro poblacional. El intervalo de confianza nos
informa de cunto vale ese ms o menos. Pero, adems, nos informa de qu probabilidad de error
tenemos en la estimacin.
Si establecemos el nivel de confianza en el 95%, concluiremos que en el 95% de las ocasiones (95
de cada 100 muestras que obtengamos) la media poblacional estar entre: x 1,96 n ,
mientras que 5 de cada 100 muestras nos darn un intervalo que no contenga realmente a la media
poblacional. Si establecemos el nivel de confianza en el 99% concluiremos que en 99 de cada 100
muestras que obtengamos la media poblacional estar entre: x 2,57 n , mientras que 1 de
cada 100 muestras nos dar un intervalo que no contenga realmente a la media poblacional.
Los nmeros anteriores (1,96 y 2,57) expresan la relacin, en una distribucin normal, entre un valor
de la variable (x) y la probabilidad de estar por encima o por debajo de este valor (la suma de las dos,
la mitad a cada lado de la curva). Se obtienen de la siguiente tabla:
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
2,326
2,170
2,054
1,960
1,881
1,812
1,751
1,695
0,1
0,2
1,645
1,282
2,576
1,598
1,254
1,555
1,227
1,514
1,200
1,476
1,175
1,440
1,150
1,405
1,126
1,372
1,103
1,341
1,080
1,311
1,058
0,3
1,036
1,015
0,994
0,974
0,954
0,935
0,915
0,896
0,878
0,860
0,4
0,5
0,842
0,674
0,824
0,659
0,806
0,643
0,789
0,628
0,772
0,613
0,755
0,598
0,739
0,583
0,722
0,568
0,706
0,553
0,690
0,539
0,6
0,524
0,510
0,496
0,482
0,468
0,454
0,440
0,426
0,412
0,399
0,7
0,8
0,385
0,253
0,372
0,240
0,358
0,228
0,345
0,215
0,332
0,202
0,319
0,189
0,305
0,176
0,292
0,164
0,279
0,151
0,266
0,138
0,9
0,126
0,113
0,100
0,088
0,075
0,063
0,050
0,038
0,025
0,013
0,0
0,002
0,001
0,0001
0,00001
0,000001
0,0000001
3,090
3,290
3,891
4,414
4,892
5,327
En el caso en que se desconozca el valor del parmetro (desviacin tpica poblacional), que es la
situacin ms frecuente, los lmites de confianza se calcularan mediante la expresin
x ts
n , en
donde t corresponde a los valores tabulados de la distribucin terica t de Student (pgina siguiente),
y s es la desviacin tpica de la muestra, que usamos como estimacin de .
Ejemplo: Para conocer la media de la distribucin del colesterol en la ZBS de la Orden se ha obtenido
una muestra de 802 personas, con los siguientes resultados: x = 223,84; s=49. Dar un intervalo de
confianza al 95% para la media de colesterol de la poblacin de la que se ha extrado esta muestra:
ts
2,004 49
= 223,84
= 220,37
n
802
ts
2,004 49
Lmite superior: x +
= 223,84 +
= 227,3
n
802
Lmite inferior:
La interpretacin de este intervalo es sencilla: la poblacin de la Orden tiene una cifra media de
colesterol que se encuentra entre 220,37 y 227,3. Y esto lo afirmamos con una probabilidad de
equivocarnos de un 5%. Ms concretamente, el procedimiento nos garantiza que 95 de cada cien
muestras nos proporcionaran un intervalo que contendra a la verdadera media poblacional. Y
nosotros esperamos que nuestra muestra sea una de esas 95 que obtienen un resultado correcto, y
no de las 5 que nos induciran a error.
Distribucin t de Student
Para cada valor de los grados de libertad en la primera columna (gl=n1) y para cada valor de en la primera fila, en el interior de la tabla se
da el valor t tal que a la izquierda de -t y a la derecha de t queda un
rea total de . Por ejemplo, con n=31 (30 gl), el valor terico
correspondiente es a un del 5% es 2,042.
gl
1
2
3
4
5
6
7
8
9
10
0,5
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,4
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,3
1,963
1,386
1,250
1,190
1,156
1,134
1,119
1,108
1,100
1,093
0,2
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
0,1
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
0,05
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
0,02
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
0,01
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
0,001
636,57
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
0,0001
6370,54
100,136
28,014
15,534
11,176
9,080
7,888
7,120
6,594
6,212
11
12
13
14
15
16
17
18
19
20
0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
5,923
5,695
5,513
5,364
5,239
5,134
5,043
4,966
4,899
4,838
21
22
23
24
25
26
27
28
29
30
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
1,063
1,061
1,060
1,059
1,058
1,058
1,057
1,056
1,055
1,055
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646
4,785
4,736
4,694
4,654
4,619
4,587
4,556
4,531
4,505
4,482
35
40
45
50
60
80
100
0,682
0,681
0,680
0,679
0,679
0,678
0,677
0,674
0,852
0,851
0,850
0,849
0,848
0,846
0,845
0,842
1,052
1,050
1,049
1,047
1,045
1,043
1,042
1,036
1,306
1,303
1,301
1,299
1,296
1,292
1,290
1,282
1,690
1,684
1,679
1,676
1,671
1,664
1,660
1,645
2,030
2,021
2,014
2,009
2,000
1,990
1,984
1,960
2,438
2,423
2,412
2,403
2,390
2,374
2,364
2,326
2,724
2,704
2,690
2,678
2,660
2,639
2,626
2,576
3,591
3,551
3,520
3,496
3,460
3,416
3,390
3,291
4,389
4,321
4,269
4,228
4,169
4,095
4,054
3,891
ts
n , es decir, el producto del valor terico correspondiente a la confianza deseada por el EEM es la
cantidad que aadimos o quitamos a la media muestral para construir el intervalo. De alguna forma,
9
cuantifica el grado de error que cometemos por recoger informacin slo de las muestras, y no de
poblaciones completas. Es el error debido al muestreo. Si lo representamos por d, la expresin
d = ts n nos recuerda que el grado de error cometido depende de la confianza que queramos tener
(t), la variabilidad de la variable (s) y el tamao de la muestra. Para invertir el proceso, es decir, averiguar
qu tamao se necesita para conseguir un grado de error mximo d, no tenemos ms que despejar n:
2 2 2
n= t s /d .
La informacin necesaria, por tanto, para calcular n, es la confianza que queramos tener en nuestro
intervalo, el error global d requerido y la variabilidad s de la variable. El problema suele ser conocer
esto ltimo. Para ello se puede obtener informacin de la bibliografa, o bien una muestra piloto,
inicial, que nos proporcione algo de informacin sobre la variable.
Para variables de tipo cualitativo, por ejemplo para determinar la prevalencia de hipertensin, las
cosas seran muy similares, salvo que, claro est, aqu no habra medias y desviaciones tpicas, y s
prevalencia estimada en la muestra p : la verdadera prevalencia poblacional se encontrara en el
intervalo
p q 1
p 1,96
+
n
2n
( q
= 1 p )
Pero esta expresin slo se puede usar si se cumplen ciertas condiciones: en nuestro ejemplo, que
hubiese un mnimo de 20 hipertensos y de 20 no hipertensos en nuestra muestra. Por ejemplo, si
queremos conocer la prevalencia de hipertensin en una poblacin a partir de la obtenida en una
muestra de 802 personas, de las cuales 192 presentan hipertensin, podramos concluir que la
prevalencia buscada se encuentra entre el 20.92 y el 26,96%.
El tamao mnimo de muestra requerido para dar intervalos de confianza para una proporcin viene
2
2
dado por n=z pq/d . Si no se tiene ninguna informacin sobre el valor de p y q puede sustituirse por el
mximo valor que puede tomar su producto, es decir p=0.5 q=1-p=0.5; por tanto, pq=0.25
10. Regresin lineal y coeficiente de correlacin
a) Clculos previos: Dadas n parejas de valores cuantitativos (x i, y i), siendo i= 1,2,...,n:
Suma de cuadrados de x (SCX ):
SCx = ( xi x )
SCy = ( yi y )
( x)
= x
n
( y)
= y
2
SPxy = ( xi x )( yi y ) = xi yi
( x )( y )
i
Trucos con la calculadora (si no puede calcular directamente regresin lineal): introducir las x, y
calcular
SCx = sx2 ( n 1) ;
SCy =s 2y ( n 1) ;
SPxy =x iy i (x)(y)/n
y = a + bx , con pendiente b =
SPxy
y altura a = y bx
SCx
Si la calculadora puede hacer directamente regresin lineal, no hay ms que introducir las parejas
de datos y pedirle directamente a y b.
s 2yx =
SPxy2
SCx
2
; a partir de aqu, s yx = s yx
n2
SC y
10
d) Condiciones de validez para la prxima seccin: Los valores de la variable y, para cada valor de la
2
x, siguen distribuciones Normales de medias situadas sobre la lnea recta + x y varianzas ( )
iguales.
e) Inferencias sobre la pendiente: Intervalo de confianza:
t s yx
SCx
r=
SPxy
SC x SC y
<0.6:
0.6<0.8:
0.8 y ms:
mala correlacin
mediana
buena correlacin
11
13
t exp =
4.
x 0
s
n
p la
p y q son mayores que 0.05 y tanto x como (n-x) son ambas > 5
3.
Estadstico de contraste:
z exp =
4.
p p0 12 n
p0 q0
n
Clculo de la probabilidad: se compara zexp con una z de la distribucin Normal. Si zexp > z se
rechaza H0 con una probabilidad de error .
14
Distribucin F de Snedecor:
Para cada valor de los primeros gl (primera fila) y de los segundos gl
(primera columna) en el interior de la tabla se da el valor F que deja
a su derecha un rea de =10%. Por ejemplo, la probabilidad de que
un valor terico de la distribucin F de Snedecor con 30 y 40 g.
supere el 1,54 es de un 10%
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 60,71 61,22 61,74 62,00 62,26 62,53 62,79 63,06 63,33
2
3
8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,41 9,42 9,44 9,45 9,46 9,47 9,47 9,48 9,49
5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 5,22 5,20 5,18 5,18 5,17 5,16 5,15 5,14 5,13
4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 3,90 3,87 3,84 3,83 3,82 3,80 3,79 3,78 3,76
5
6
4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 3,27 3,24 3,21 3,19 3,17 3,16 3,14 3,12 3,10
3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,72
3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 2,67 2,63 2,59 2,58 2,56 2,54 2,51 2,49 2,47
8
9
3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,50 2,46 2,42 2,40 2,38 2,36 2,34 2,32 2,29
3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,38 2,34 2,30 2,28 2,25 2,23 2,21 2,18 2,16
10
3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,28 2,24 2,20 2,18 2,16 2,13 2,11 2,08 2,06
11
12
3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,21 2,17 2,12 2,10 2,08 2,05 2,03 2,00 1,97
3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19 2,15 2,10 2,06 2,04 2,01 1,99 1,96 1,93 1,90
13
3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,10 2,05 2,01 1,98 1,96 1,93 1,90 1,88 1,85
14
15
3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10 2,05 2,01 1,96 1,94 1,91 1,89 1,86 1,83 1,80
3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,02 1,97 1,92 1,90 1,87 1,85 1,82 1,79 1,76
16
3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 1,99 1,94 1,89 1,87 1,84 1,81 1,78 1,75 1,72
17
18
3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,96 1,91 1,86 1,84 1,81 1,78 1,75 1,72 1,69
3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98 1,93 1,89 1,84 1,81 1,78 1,75 1,72 1,69 1,66
19
2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,91 1,86 1,81 1,79 1,76 1,73 1,70 1,67 1,63
20
21
2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94 1,89 1,84 1,79 1,77 1,74 1,71 1,68 1,64 1,61
2,96 2,57 2,36 2,23 2,14 2,08 2,02 1,98 1,95 1,92 1,87 1,83 1,78 1,75 1,72 1,69 1,66 1,62 1,59
22
2,95 2,56 2,35 2,22 2,13 2,06 2,01 1,97 1,93 1,90 1,86 1,81 1,76 1,73 1,70 1,67 1,64 1,60 1,57
23
24
2,94 2,55 2,34 2,21 2,11 2,05 1,99 1,95 1,92 1,89 1,84 1,80 1,74 1,72 1,69 1,66 1,62 1,59 1,55
2,93 2,54 2,33 2,19 2,10 2,04 1,98 1,94 1,91 1,88 1,83 1,78 1,73 1,70 1,67 1,64 1,61 1,57 1,53
25
2,92 2,53 2,32 2,18 2,09 2,02 1,97 1,93 1,89 1,87 1,82 1,77 1,72 1,69 1,66 1,63 1,59 1,56 1,52
26
27
2,91 2,52 2,31 2,17 2,08 2,01 1,96 1,92 1,88 1,86 1,81 1,76 1,71 1,68 1,65 1,61 1,58 1,54 1,50
2,90 2,51 2,30 2,17 2,07 2,00 1,95 1,91 1,87 1,85 1,80 1,75 1,70 1,67 1,64 1,60 1,57 1,53 1,49
28
2,89 2,50 2,29 2,16 2,06 2,00 1,94 1,90 1,87 1,84 1,79 1,74 1,69 1,66 1,63 1,59 1,56 1,52 1,48
29
30
2,89 2,50 2,28 2,15 2,06 1,99 1,93 1,89 1,86 1,83 1,78 1,73 1,68 1,65 1,62 1,58 1,55 1,51 1,47
2,88 2,49 2,28 2,14 2,05 1,98 1,93 1,88 1,85 1,82 1,77 1,72 1,67 1,64 1,61 1,57 1,54 1,50 1,46
40
2,84 2,44 2,23 2,09 2,00 1,93 1,87 1,83 1,79 1,76 1,71 1,66 1,61 1,57 1,54 1,51 1,47 1,42 1,38
60
120
2,79 2,39 2,18 2,04 1,95 1,87 1,82 1,77 1,74 1,71 1,66 1,60 1,54 1,51 1,48 1,44 1,40 1,35 1,29
2,75 2,35 2,13 1,99 1,90 1,82 1,77 1,72 1,68 1,65 1,60 1,55 1,48 1,45 1,41 1,37 1,32 1,26 1,19
2,71 2,30 2,08 1,94 1,85 1,77 1,72 1,67 1,63 1,60 1,55 1,49 1,42 1,38 1,34 1,30 1,24 1,17 1,00
Gl
15
3.
Estadstico de contraste:
Si las varianzas son iguales (test de la t de Student):
x1 x2
t exp =
s
4.
s=
Con
1
1
+
n1 n2
Clculo de la probabilidad: se compara texp con una z de la distribucin t de Student con (n1+n2-2)
grados de libertad. Si texp > t se rechaza H0 con una probabilidad de error .
t exp =
x1 x 2
s12 s22
+
n1 n2
Con
s12 s22
+
n n
f = 12 2 2
s12 s22
n1 + n2
n1 1 n2 1
grados de libertad
4b. Clculo de la probabilidad: se compara texp con una t de la distribucin t de Student con f grados
de libertad. Si texp > t se rechaza H0 con una probabilidad de error .
H0: No hay diferencias en dos mediciones repetidas en los mismos individuos (1-2=d=0)
Condiciones: dadas n parejas de datos (x 1i, x 2i), con i=1,2,....n, obtener sus diferencias di
3.
(di=x 1i - x 2i) y, si son normales, la media y varianza, d y s d de dicha muestra (d1,d2,....dn). Vlido si
la variable diferencia presenta un distribucin Normal, o, cuando no lo es, ser vlido
aproximadamente si los tamaos muestrales son mayores que 30.
Estadstico de contraste:
t exp =
4.
d
sd
16
2.
3.
Condiciones: la variable cuantitativa sigue una distribucin normal en todos los grupos que se
comparan, y con la misma varianza en todos los grupos. Esta ltima condicin se comprueba
mediante el test de Bartlett, una extensin del test de la F de Snedecor anterior
Estadstico de contraste: se calcula mediante la siguiente tabla, donde:
k: n de grupos que se comparan
ni: tamao de muestra del grupo isimo (i= 1, 2, .... k)
x i : media del grupo isimo (i= 1, 2, .... k)
n: tamao total de la muestra (n= n1 + n2 + ... + nk )
x ij: valor en el individuo jotasimo (j= 1, 2,... ni) del grupo isimo (i= 1, 2, .... k)
x : media de la totalidad de los individuos
Fuente de grados
variacin
de
libertad
Entre
k-1
grupos
Suma de cuadrados
SC
Media
Cuadrtica
SCE = ni ( x i x ) 2
MCE =
SCE
MCE
Fexp =
k 1
MCD
MCD =
SCD
nk
i =1
Dentro de n-k
los grupos
ni
Total
n-1
Estadstico F
ni
SCT = ( xij x ) 2
i =1 j =1
Trucos: recuerda que la informacin de esta tabla la puedes obtener fcilmente con las
medias ( xi ), varianzas ( si ) y tamaos muestrales (ni) de cada grupo uno de los grupos:
2
x=
4.
xn
i i
Clculo de la probabilidad: se compara Fexp con una F de la distribucin F de Snedecor con k-1 y
n-k grados de libertad. Si Fexp > F se rechaza H0 con una probabilidad de error .
).
30
16
10
18
11
21
12
22
13
10
11
12
13
14
14
34
15
15
Suma
Totales
34= R(A)
86= R(B)
120
n( n + 1)
2
Para realizar el test, basta con calcular la suma de rangos de la muestra de menor tamao, pero
conviene hacer los clculos completos para comprobar el paso 5.
La cantidad experimental Rexp suma de los rangos de la muestra de menor tamao se compara con lo
que debera haber ocurrido si la hiptesis nula fuese cierta. Y cul era la prediccin? Si el hospital A
tiende a tener una estancia menor, al ordenar la muestra conjunta sus rangos tendern a ser bajos, y
su suma Rexp un nmero pequeo. Si ocurre lo contrario, y la estancia en A es mayor que en B, los
rangos sern altos, y Rexp ser un nmero grande. Es decir, valores altos o bajos de Rexp llevarn a
rechazar la hiptesis nula, mientras que valores intermedios no permitirn hacerlo. Una gua para
interpretar qu se entiende por valores altos o bajos de Rexp la obtenemos en las tablas
correspondientes (n 14 del libro de A. Martn Andrs), que dan intervalos de aceptacin para esta
18
cantidad. En nuestro ejemplo, Rexp= 34 , para n1 =5 y n2 =10, se encuentra dentro del rango que se
considera aceptable con una probabilidad de 0,1. Como no es suficientemente pequea, no podemos
rechazar la hiptesis nula, y concluimos que ambos hospitales tienen igual estancia tras la
intervencin quirrgica. Si el resultado hubiera sido Rexp= 58, este valor hubiese estado fuera del
rango aceptable con una probabilidad 0,05. La hiptesis nula se hubiese rechazado con un error de
probabilidad p<0,05.
COMPARACIN DE DOS GRUPOS CON MUESTRAS APAREADAS:
(una poblacin, una variable cuantitativa medida de forma repetida)
En este caso se calculan inicialmente las diferencias entre los valores apareados (fase paramtrica) y
se consideran como dos grupos de valores las diferencias positivas y negativas encontradas, es
decir, A y B son ahora las diferencias + y - encontradas. El resto del procedimiento es idntico, salvo
que la probabilidad del resultado se localiza en la tabla 15 del libro de A Martn Andrs.
Veamos un ejemplo: Supongamos que se registran las presiones sistlicas en 10 alcohlicos antes y
despus de dejar la bebida, con los siguientes resultados:
Individuo
Antes:
Despus:
Diferencia:
1
2
3
4
5
6
7
8
9
10
140 165 160 160 175 190 170 175 155 160
145 150 150 160 170 175 160 165 145 170
+
15 10
0
5 15 10 10 10
5
10
Comparamos ahora las diferencias positivas y negativas, despreciando las parejas en las que no se
ha producido ningn cambio, por el mismo procedimiento anterior:
Diferencias
ordenadas
N de orden
Rangos ri
+
-
5
5
1
2
+
1,5
- 1,5
10
3
10
10
10
10
15
15
8
9
8,5 8,5
5
Suma
Totales
R(+)= 38,5
R(-)= 6,5
45
19
2.
H0: la distribucin de una variable cualitativa en una poblacin se ajusta bien a una distribucin de
parmetros conocidos (las proporciones especificadas en la H0 son las correctas para cada valor
de la variable)
Condiciones de aplicacin: Si los n individuos de una muestra pueden caer en una y slo una de
las k clases exhaustivas y excluyentes C1, C2,..., Ck con probabilidades p1, p2,...,pk ,
respectivamente, dadas por H0, y si O1, O2,...Ok es el nmero de individuos, de entre los n de la
muestra, que caen en las clases C1, C2,... Ck (valores observados Oi experimentalmente) ,
entonces, calculados los valores esperados (bajo H0) E1= np1, E2= np2,...Ek = npk (Ei= n), si
ninguna Ei es < 1 y no ms del 20% de ellas pueden ser 5. Los datos pueden presentarse como
en la tabla siguiente:
clases
probabilidades
valores observados
valores esperados
3.
C2......Ck
p2......pk
O2......Ok
E2......Ek
4.
C1
p1
O1
E1
Si k 4 y n 200:
2
exp
2
exp
Totales
1
n
n
(O E ) 2
E
(O E
=
i
Oi2
=
n
Ei
)
2
Ei
2
exp
20
Para
cada
gl
(columnas) y para
cada (filas) se da
en el interior de la
2
tabla el valor de
que
deja
a
su
derecha un rea .
gl
1
2
3
4
5
6
7
Por ejemplo, con un gl, la probabilidad de que 8
2
una supere el 3,841 e es de un 5%
9
10
0,9
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,2
1,645
3,219
4,642
5,989
7,289
8,558
9,803
11,030
12,242
13,442
0,1
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
0,05
3,841
5,991
7,851
9,488
11,070
12,592
14,067
15,507
16,919
18,307
0,025
5,204
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
0,01
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
0,001
10,828
13,816
16,266
18,467
20,515
22,458
24,322
26,124
27,877
29,588
H0: la proporcin de individuos que caen en cierta clase es la misma para todas las poblaciones, y
esto vale para todas las clases. Dadas r muestras cuyos individuos se clasifican en s clases como
en la tabla siguiente, en la cual:
Oij=
Fi =
Cj =
T =
Muestra 1
Muestra 2
...
Muestra i
...
Muestra r
Totales
Clase j
O1j
O2j
...
Oij
...
Orj
Cj
...
Clase s Totales
O1s
F1
O2s
F2
...
...
Ois
Fi
...
...
Ors
Fr
Cs
T
...
...
...
...
...
...
...
Muestra 1
Muestra 2
Totales
2.
3.
Clase 1
O11
O21
C1
Clase 2
O12
O22
C2
Totales
F1
F2
T
Condiciones de validez: Calcular las cantidades esperadas Eij= Fi Cj / T y entonces el test que
sigue es vlido si:
En otras tablas: ninguna Ei debe ser inferior a 1 y no ms del 20% de ellas < 5.
Clculo del estadstico de contraste:
En tablas 2 2:
En otras tablas:
(O
=
O22 O12O21 T / 2 )
11
F1 F2 C1C2
OI2
=
T
EI
2
4.
21
H0: los caracteres A y B son independientes. Si los T individuos de una muestra aleatoria son
clasificados con arreglo a dos caracteres A y B, el primero dividido en r clases y el segundo en s
clases, obtenindose una tabla como la anterior (cambiando muestras y clases por "clases del
carcter A" y "clases del carcter B" respectivamente, entonces las condiciones de validez, el
clculo de las cantidades experimentales y tericas son idnticas a las del test anterior (Test de
homogeneidad de un conjunto de muestras cualitativas).
O11/C1
RR = -------O12/C2
IC (95%) : OR
1. 96
1
IC (95%) : RR
1 .96
1
donde el lmite inferior del intervalo se obtiene elevando OR (o RR) a (1-1.96/), y el superior a
2
(1+1.96/), y es la raz cuadrada del estadstico de contraste .
17. Contraste de hiptesis en regresin
Una vez realizados los clculos previos (ver apartado 10 en este mismo documento), se pueden
comprobar hiptesis en regresin:
1.
2.
H0: La variable dependiente toma el mismo valor para todos los valores de la independiente, o lo
que es igual, la pendiente es 0 (H0=0)
Condiciones de validez: Los valores de la variable y, para cada valor de la x, siguen distribuciones
2
Normales de medias situadas sobre la lnea recta + x y varianzas ( ) iguales.
t exp =
b SCx
s 2yx
3.
Test:
4.
22
Fuente de grados
variacin
de
libertad
Regresin k-1
Suma de cuadrados
SC
Media
Cuadrtica
SCreg = ( y y )
MC reg =
Residual
n-k
SCres = ( y y )
Total
n-1
SC y = ( y y )
MCres =
Estadstico F
SC reg
k 1
Fexp =
MC reg
MC res
SC reg
nk
r2 =
SC reg
;
SC y
r = r2
23
24
Dos poblaciones
>dos poblaciones
se
cumplen
las
25