Sei sulla pagina 1di 48

Curso de Bioestadstica

Apunte de Bioestadstica
Conceptos bsicos
Estadstica aplicada

Docente: Bioq. Silvia Barzn

Bioestadstica
DEFINICIN Y CLASIFICACIN
Definimos el trmino Estadstica: es una disciplina de estudio relacionada con
la recopilacin, organizacin, resumen y anlisis de datos siempre y cuando la
variabilidad sea una causa intrnseca de los mismos; as como de realizar
inferencias a partir de esos datos con el objeto de formular predicciones.

Clasificacin:
Estadstica Descriptiva: Describe, analiza y representa un grupo de datos
utilizando mtodos numricos y/o grficos que resumen y presentan la
informacin contenida en ellos. En este tipo de anlisis no se aplican test
estadsticos. Cuando un trabajo de investigacin se limita a describir los
resultados sin realizar inferencia estadstica* dicho trabajo se denomina estudio
descriptivo.

Estadstica Inferencial: Apoyndose en el clculo de probabilidades y a partir de


datos muestrales, efecta estimaciones, decisiones, predicciones u otras
generalizaciones sobre la poblacin de la cual fueron obtenidos los datos. En
este tipo de anlisis se aplican test estadsticos y se realiza inferencia estadstica.
Estos trabajos se denominan estudio analtico.

Toda investigacin en el campo de la ciencia de la salud se basa en el mtodo


cientfico

*Inferencia estadstica: proceso por el cual se extraen conclusiones a partir de una o ms


muestras de datos aplicando test estadsticos o intervalos de confianza.

MTODO CIENTFICO
Es el mtodo de investigacin para el conocimiento de la realidad observable el
cual consiste en formularse interrogantes sobre esa realidad, con base en la
teora ya existente, tratando de hallar soluciones a los problemas planteados. El
mtodo cientfico se basa en la recopilacin de datos, su ordenamiento y su
posterior anlisis.
Cuando nos planteamos comenzar un trabajo de investigacin lo ms importante
es realizar una bsqueda bibliogrfica sobre el tema. Las citas encontradas nos
darn una idea de la vigencia del tema como as tambin de las limitaciones de la
investigacin, lo cual se ve reflejado en los criterios de inclusin y exclusin para
1

Bioestadstica
la seleccin de los pacientes y en la metodologa. Si se nos plantea una
investigacin para la cual hay escasas publicaciones o la misma no est
actualizada deberemos evaluar la conveniencia de la realizacin de la misma. Es
aconsejable realizar estudios analticos para las investigaciones que cuenten con
algn aval cientfico (publicaciones sobre el tema), de lo contrario nos
deberamos limitar a realizar estudios descriptivos.

Pasos simplificados del Mtodo Cientfico:

Observacin: el primer paso es la observacin de una parte limitada del


universo o poblacin que constituye la muestra. Se realiza un registro de lo
observado, posterior ordenamiento, tabulacin y seleccin de los datos para
quedarse con los ms representativos.
Hiptesis: se desarrolla en esta etapa, el planteamiento de la o las hiptesis
que expliquen los hechos ocurridos (observados). Este paso intenta explicar la
relacin causa efecto entre los hechos. Para buscar la relacin causa
efecto se utiliza la analoga y el mtodo inductivo. La hiptesis debe estar de
acuerdo con lo que se pretende explicar y no se debe contraponer a otras
hiptesis generales ya aceptadas. La hiptesis debe tener matices predictivos,
si es posible. Cuanto ms simple sea, mas fcilmente demostrable es (las
hiptesis complejas generalmente suelen ser reformuladas a dos o ms
hiptesis simples). La hiptesis debe poder ser comprobable
experimentalmente por otros investigadores, o sea ser reproducible. Un
ejemplo de formulacin de hiptesis: La alergia a leche de vaca se manifiesta
con ms frecuencia en hijos de madres con alergia alimentaria. Junto a la/s
hiptesis se pueden plantear uno o ms objetivos; ejemplo: ...el objetivo de
nuestro estudio es investigar la asociacin entre alergia a leche de vaca, en
los tres primeros meses de vida, en hijos de madres con alergia alimentaria.
Experimentacin: la hiptesis debe ser comprobada en estudios planificados
de antemano en el protocolo de estudio. La seleccin de sujetos no
planificada puede derivar en resultados confusos; una mala seleccin de
sujetos y/o datos no puede solucionarse con el anlisis estadstico. El autor
debe realizar la investigacin con autntica veracidad.
Anlisis de los resultados: en este punto se realiza la descripcin y/o
anlisis de los datos obtenidos en la investigacin.
Conclusin: es un juicio que se basa en la informacin obtenida. Las
conclusiones deberan estar circunscriptas a la muestra estudiada; el autor
debe ser cauto con las generalizaciones.
Los test estadsticos a aplicar dependen de los objetivos planteados por
los autores: objetivos claros derivan en un anlisis estadstico
concreto. Cuando no hemos planteado objetivos los datos pueden ser
manipulados estadsticamente con el riesgo de obtener conclusiones
errneas.
2

Bioestadstica

Caractersticas de una investigacin cientfica:


1. Debe ser original o novedosa: debe haber un aporte a nuestro medio (un
nuevo conocimiento) luego de realizar la investigacin. En este punto
tambin se considera la confirmacin o no de los hallazgos observados por
otros autores, o sea la reproducibilidad del fenmeno.
2. Genera y/o apoya una hiptesis: la experimentacin llevada a cabo
pretende explicar la hiptesis de trabajo.
3. La informacin proporcionada es completa y puede ponerse a
prueba: no deben ocultarse hallazgos que surjan de la investigacin que
hemos realizado. Los materiales y mtodos deben ser exhaustivos en su
descripcin; otros autores deben ser capaces de reproducir nuestra
experiencia.
4. Genera nuevas ideas: la informacin obtenida puede derivar en otras
investigaciones.

Bioestadstica
POBLACIN Y MUESTRA

Individuo: es la unidad mnima que se estudia. En medicina habitualmente es el


paciente o personas saludables a los cuales tambin nos podemos referir como
sujetos. Adems pueden estudiarse: animales de experimentacin, datos de
laboratorio, especmenes de biopsias, etc.

Poblacin: conjunto de individuos, sujetos u observaciones con alguna


caracterstica en comn. Conjunto de elementos de la misma especie que se
pretende estudiar en una investigacin cientfica y de la cual se obtiene una
muestra.

Las poblaciones pueden ser clasificadas bsicamente en:

Poblacin Objetivo o Madre: poblacin real que se pretende estudiar y a


la cual se desea extender las conclusiones obtenidas. Difcilmente
tengamos acceso a esta poblacin; si quisiramos realizar un estudio de
prevalencia de microalbuminuria en diabticos Tipo 2 con HTA residentes
en la ciudad de Crdoba, tendramos que obtener los datos de todos los
diabticos con esas caractersticas de la ciudad.

Poblacin Muestreada: es la poblacin de la cual se obtendr la muestra


y es en realidad a la que nosotros tenemos acceso. Siguiendo con el
ejemplo anterior seran los diabticos Tipo 2 con HTA que concurren a un
determinado hospital o centro de salud.

Muestra: es un subconjunto de individuos, sujetos u observaciones que se


estudiarn, los cuales provienen de la poblacin muestreada y cumplen
con los criterios de inclusin y exclusin detallados en el protocolo de
trabajo; el establecer estos criterios evitar factores confundentes a la hora
de analizar los datos. En nuestro ejemplo seran los diabticos Tipo 2 con
HTA excluyendo los que cursan con infeccin urinaria, proteinuria, tumores
renales, etc. Debemos tener en cuenta que quizs no tengamos acceso a
todos los individuos con esas caractersticas que asisten al lugar en donde
realizamos el estudio, de ah la mencin de subconjunto. Sera ptimo que
la muestra sea elegida al azar (muestreo aleatorio: todos los individuos
tienen las mismas chances de participar) y debera ser representativa de la
poblacin a la cual pertenece; esto quiere decir sin sesgos o errores. En
general la muestra es toda parte representativa de un conjunto, poblacin
o universo, cuyas caractersticas debe reproducir, lo ms exactamente
posible, a la poblacin madre. A partir del anlisis de la muestra, obtenida
4

Bioestadstica
correctamente y al azar, se puede inferir o generalizar a la poblacin
objetivo o madre; este proceso de inferencia se basa en mtodos
estadsticos basados en la probabilidad. Para elegir la muestra debe
apelarse a un determinado mtodo de muestreo el cual depender del
objetivo del estudio; el mtodo habitual es el de muestreo al azar o
muestreo aleatorio, pudiendo ser: muestreo aleatorio simple, muestreo
sistemtico, muestreo estratificado y muestreo de conglomerados. Cuando
no se realiza ningn tipo de muestreo y se toma la totalidad de los
individuos, sujetos u observaciones, se denomina Muestra Conveniente
(muestra no escogida por probabilidad), la cual es factible que tenga
sesgos. Esta ltima muestra es la que normalmente obtenemos en
nuestros estudios y tiene la limitacin de que las conclusiones a las cuales
llegamos deben limitarse a la muestra estudiada.

Pacientes y controles: frecuentemente el objetivo de una investigacin es la


comparacin de determinadas caractersticas entre los pacientes y un grupo
control, el cual puede provenir de una poblacin saludable o de una poblacin
con alguna patologa relacionada o no a la muestra en estudio. En la planificacin
del protocolo de trabajo sera conveniente igualar o emparejar caractersticas
importantes como: sexo, edad, raza, gravedad de la enfermedad, etc., a los fines
de evitar confundentes, lo cual luego genera desviaciones que conllevan a
conclusiones errneas.

Poblacin
Objetivo (PO)
La PM es representativa de la
PO? Esta respuesta la podemos
encontrar en la seccin
Materiales y mtodos de las
publicaciones para saber que
poblacin se muestre

Poblacin
Muestreada (PM)

Muestra

Para realizar inferencias


estadsticas de la muestra a
la PM se requiere que
la muestra sea aleatoria, sino lo es
las conclusiones se limitarn a la
muestra estudiada

Bioestadstica
TIPOS DE ESTUDIOS CIENTFICOS
Los estudios en Investigacin Cientfica o Clnica se dividen en Estudios
Observacionales y Estudios Experimentales.

1. Estudios Observacionales: el investigador es un simple espectador y no


interviene en los sujetos, animales o cosas que est investigando.
1.1 Estudio de Casos en Serie: generalmente se trata de la descripcin de
observaciones interesantes en un grupo de sujetos. No incluyen a un grupo
control. No plantea ninguna hiptesis a investigar. Por su importante funcin
descriptiva anteceden muchas veces a otros tipos de estudios que se
encargaran de comprobar diversas hiptesis.
1.2 Estudio de Caso-Control: En los estudios de caso-control se comienza
con la presencia o ausencia de una determinada caracterstica o propiedad y
luego se investiga hacia atrs en el tiempo tratando de detectar causas o
factores de riesgo posibles. La pregunta bsica es: qu pas?. Existen
Criterios de Inclusin y Exclusin para el seguimiento de pacientes (casos) y
los controles son sujetos sin esa enfermedad o caracterstica. De esta manera
se estudian las historias o evolucin de controles y enfermos para determinar
sus diferencias y el grado de significacin de las mismas. O sea que el
Estudio de Caso-Control es un estudio Longitudinal Retrospectivo. Con
este tipo de estudio podemos sacar Incidencia.
1.3 Estudio de corte Transversal: se analizan los datos de un grupo de
pacientes, sujetos u observaciones en un momento dado, en lugar de un
perodo determinado. La pregunta bsica es: que es lo que est pasando en
este momento?. Son tambin llamados estudios de Prevalencia. Un ejemplo
clsico son las encuestas. Se utilizan para describir una enfermedad o
situacin y proporcionar informacin respecto al diagnstico o etapa de la
misma. Los podemos representar como sacar una foto, se observa lo que
sucede en un determinado momento; no se realiza un seguimiento de los
sujetos.
1.4 Estudios Cohorte: los estudios cohorte son Longitudinales y
Prospectivos (el seguimiento de los pacientes es a futuro). Una Cohorte es
un conjunto de Individuos que tienen algo en comn y que forman parte de un
grupo, el cual es seguido por un perodo de tiempo. En medicina los sujetos
de un estudio cohorte se relacionan por alguna caracterstica definida, o por
uno o ms factores de riesgo para una determinada situacin, patologa o
evolucin. La pregunta bsica es: Que pasar?. Un estudio cohorte puede
servir para varios fines, tales como la investigacin de factores de riesgo, la
evolucin de una enfermedad o de un tratamiento, etc. Este es el mejor
diseo para establecer Incidencia. Si la cohorte de paciente se evala en
forma retrospectiva el estudio se denomina cohorte histrica.

Bioestadstica
Todos los tipos de estudios tienen ventajas y desventajas
2. Estudios Experimentales o Pruebas Clnicas: el investigador interviene en
los sujetos, animales o cosas, ya sea administrando un medicamento,
realizando una dieta, modificando hbitos, etc., y el inters de la investigacin
radica en el cambio producido antes y despus de la intervencin.
2.1 Pruebas Clnicas Controladas: pueden disearse de varias formas, por
ejemplo con un grupo control, con autocontroles o con control histrico. Las
pruebas clnicas con un grupo de estudio y otro control son las ms usadas en
medicina. Bsicamente a un grupo con la enfermedad se lo somete a un
tratamiento y se lo compara con un grupo control al cual se le administra
placebo u otro tratamiento. Al grupo que recibe tratamiento se lo denomina
grupo experimental. Cuando el mdico conoce el tratamiento y el paciente no,
la prueba se llama simple ciego, cuando ninguno de los dos conoce si se
esta administrando el tratamiento o el placebo, la prueba se denomina doble
ciego y si a la ltima situacin se le agrega que el estadista que procese los
datos desconozca el grupo con tratamiento se denomina triple ciego. Los
pacientes deben asignarse a cada grupo en forma aleatoria.
2.2 Pruebas Clnicas No Controladas: son aquellas en donde no se
establece ningn grupo control. Para la investigacin de un tratamiento o
intervencin teraputica son totalmente inapropiadas.

CLASIFICACIN DE LOS ESTUDIOS


NO Interviene el investigador

Interviene el investigador

Observacionales

Experimentales

Toma de Datos

Datos tomados de archivos

Datos a tomar en el futuro

Retrospectivos

Prospectivos

Nmero de mediciones realizadas

Una medicin

Seguimiento del paciente

Transversales

Longitudinales

Anlisis realizado

Sin anlisis estadstico

Anlisis comparativo

Descriptivos

Analticos

Bioestadstica
TIPOS DE DATOS
Existen 2 grandes tipos de datos: Datos Categricos y Datos Numricos. Es de
fundamental importancia identificar qu tipo de datos tenemos porque de ellos
depende la estadstica a aplicar.
Variable: es una caracterstica o propiedad determinada del individuo, sea
medible o no. Esta propiedad hace que las personas de un grupo puedan diferir
de las de otro grupo en la muestra o poblacin de estudio.
Las variables se clasifican en:
Variables Numricas: es la que se puede medir. Habitualmente es llamada
variable cuantitativa. Esta a su vez se divide en Continua (se pueden obtener
infinitos nmeros entre dos medidas de acuerdo a la precisin de la medicin) y
Discreta (son nmeros enteros). Estas variables son representadas por medidas
de posicin (media, mediana, modo, percentilos) y de dispersin (desviacin
estndar, error estndar, coeficiente de variacin, rango)
Variables Categricas: son variables que representan cualidades de la muestra,
tambin se las llama cualitativas. Estas variables pueden ser a su vez Nominales
(dos o ms caractersticas posibles) u Ordinales (se puede establecer un orden
lgico). Estas variables son representadas por porcentajes o proporciones.

Tipo de datos

Categricos

Numricos

Nominales

Ordinales

Discretos

Continuos

Ejemplo:
femenino/masculino
raza (blanca/negra/amarilla)
especies (animales/vegetales)

Ejemplo:
leve/moderado/severo
cra/recra/invernada/engorde
score I / II / III / IV

Ejemplo:
n de hijos
edad (aos)
n de clulas

Ejemplo:
colesterolemia, Vit. B12
edad (aos, meses, das)
contenido graso en alimentos

Adems de lo expuesto anteriormente, existe otra forma de clasificar a las


variables que es tambin de suma importancia en estadstica: en dependientes e
independientes

Bioestadstica
Variable Dependiente: es la variable motivo de nuestro inters, cuyos valores
dependen de otras variables que pueden influir en ella. Tambin se la llama
variable respuesta. Por ejemplo: concentracin plasmtica de colesterol, vitamina
A, B12, etc.

Variable Independiente: es la que modifica de una u otra manera a la variable


dependiente, llamndose tambin segn el caso factor de riesgo, factor
predictivo, etc. Por ejemplo: sexo, edad, tiempo (horas, das, meses), etc.

FORMA DE REPRESENTAR LOS DATOS


Como se mencion anteriormente las variables categricas se representan por
porcentajes o proporciones (Ej.:: ...el 45% de las muestras remitidas al
laboratorio estaban contaminadas con Salmonella spp; si se expresa en
proporcin 45/100). Por el contrario para representar variables numricas
utilizamos medidas de posicin y dispersin, la utilizacin de unas u otras
depender de la distribucin de la variable.

Medidas de posicin:

Medida

Definicin

Frmula

Smbolo

Media
Promedio aritmtico de
las observaciones

Mediana

Modo

Percentilos

Ordenando los datos de <


a > es la observacin que
divide la muestra en dos
partes iguales

____

Es el valor ms
frecuente

____

Indica el % de una
distribucin que es = o <
que esa cifra

___

Md

Mo
El percentilo
50th (es la
mediana)

Bioestadstica
Medidas de dispersin:

Medida

Definicin

Estndar

Es una medida de la
dispersin de los datos
alrededor de su media

Varianza

Es el cuadrado de la ds

Rango

Es la diferencia entre el
mayor menos el menor
valor de una serie de
datos

Desviacin

Rango
Intrercuartlico
Coeficiente de
Variacin

Frmula
s

(x x )

Smbolo
2

s, ds

N 1

(x x )

N 1

-----

Generalmente
se
Es la diferencia entre el
informan los extremos
percentilo 75th menos el
del rango es decir los
percentilo 25 th
percentilos 25th y 75th
Es una medida de la
s
dispersin relativa de los CV (%) * 100
x
datos

s2

-----

-----

CV

En estadstica se realiza una divisin entre poblacin y muestra dependiendo


del nmero de datos recolectados. Al tamao de la muestra se la denomina con
la letra (n). Si pudiramos evaluar a toda la poblacin de sujetos que nos interesa
conoceramos la media y la desviacin estndar (conoceramos la varianza
poblacional) de la variable estudiada, debido a que eso es imposible, trabajamos
con una muestra, y su media y desviacin estndar son estimadores de la media
y desviacin estndar de la poblacin. Las caractersticas de un buen estimador
puntual son: insesgabilidad, consistencia o exactitud, eficiencia o precisin,
robustez y suficiencia.

Se ha comprobado que con muestras iguales o mayores a 30 datos la estimacin


de la varianza poblacional, a travs de la desviacin estndar de la muestra, se
realiza con un error mnimo; cuanto menor es la muestra mayor es el error en la
estimacin de los parmetros poblacionales. La nomenclatura de los ndices
estadsticos cambian segn se trate de una poblacin (alfabeto griego) o una
muestra (alfabeto latino). Cuando se habla de poblacin denominamos a los
ndices parmetros poblacionales, mientras que cuando trabajamos con una
muestra los llamamos estadsticos:

10

Bioestadstica
Poblacin

Muestra

Media

Desviacin estndar

s, ds

varianza

s2, ds2

proporcin

Coeficiente de correlacin

DISTRIBUCIN DE LOS DATOS (Distribucin de probabilidades)


En bioestadstica, la distribucin se refiere en general a toda lista o tabla de datos
ordenados segn un criterio determinado. Una distribucin se define por ciertas
propiedades de su variable componente: medidas de tendencia central o posicin
y medidas de dispersin de la variable.

Distribucin de Frecuencias: tabla de datos, referentes a una variable en


cuestin, en la que se exponen varias categoras de la misma, junto con sus
frecuencias o nmero de veces que se repite en la muestra (puede expresarse
tambin en porcentaje). La tabla puede tener diferentes formatos y es llamada
tabla de frecuencias. A partir de una tabla de frecuencia de datos
numricos se puede construir un histograma en el cual se representa en el
eje y la frecuencia (nmero de sujetos o cosas) y en el eje x la variable en
estudio. Con el histograma se puede visualizar la distribucin de los datos
lo cual es de suma importancia a la hora de definir el test estadstico a
emplear y la forma de expresar los mismos. Cuando se comparan las
frecuencias de dos variables categricas, se compone una tabla de
contingencia, en la cual una variable ocupa las filas y la otra las columnas
Distribucin normal o
simtrica

Distribucin sesgada o
asimtrica

11

Bioestadstica

Distribucin Normal: La distribucin normal o gaussiana se utiliza para


datos numricos; esta distribucin la adquieren los datos de una poblacin.
Esta curva es simtrica alrededor de su media () y su desviacin estndar
() que es la distancia horizontal, hacia la derecha o la izquierda, entre y
el punto de inflexin de la curva. Existen por lo tanto infinitas curvas
normales, una para cada par de y . El rea bajo la curva es igual a 1 y
esto conduce al uso de la distribucin normal para calcular probabilidades.
De esta forma, para el clculo de probabilidades, hara falta integrar el
rea de la distribucin de cada poblacin estudiada; para evitar esto se
emplea una curva normal estndar que tiene una = 0 y = 1. Esta curva
se designa tambin distribucin z y todos los valores de reas integrados
bajo la curva son tabulados en una tabla desde -z a +z.

Distribucin gaussiana

Integrando el rea bajo la curva tenemos:

1
2
3
1,65
1,96

% de valores muestreados
68.2%
95,4%
99,8%
90,0%
95,0%
12

Bioestadstica

Los valores de z ms utilizados en medicina son 1,65 y 1,96 aunque ste ltimo
es el ms difundido.
Existen varios parmetros para definir a una distribucin como normal o
gaussiana. Hay test estadsticos especficos (Ej.: test de Kolmogorov-Smirnov,
test de la bondad de ajuste, etc.), tambin existen grficos (qq plot, pp plot); lo
cierto es que nada es concluyente y definitivo. Una alternativa prctica es realizar
una estadstica descriptiva de los datos (comparar media y mediana), graficar los
datos en un histograma y calcular el coeficiente de variacin el cual debera ser
menor al 30%.
Los datos distribuidos en forma gaussiana se analizan con Test paramtricos y
son representados por la media y desviacin estndar. Si la distribucin no es
normal se denomina distribucin sesgada (existen sesgos positivos y
negativos); debido a esto se puede realizar una transformacin de los datos (la
ms utilizada es la transformacin logartmica) y observar si se normaliza la
distribucin. De continuar el sesgo, se analizan los datos originales con Test no
paramtricos.
En las variables con distribucin gaussiana los datos se representan con la
media 1 desvo estndar (Ej.:21015 mg% de colesterol), si la variable tiene
sesgos en su distribucin la mejor forma de representarla es con la mediana y el
rango intercuartlico (percentilo 25 th percentilo 75 th) o mediana (mnimo
mximo).
La mediana a diferencia de la media es insensible a cambios en los valores
extremos, esta caracterstica se denomina robustez.

Ejemplo:
12 14 17 35 40 41 45

media= 29.1

Md= 35

media= 56.8

Md= 37.5

Si agregamos un nuevo valor extremo


12 14 17 35 40 41 45 250

Podemos observar como la media vara considerablemente a diferencia de la


mediana la cual ha tenido poca variacin.

Distribucin t (Student): La distribucin t se utiliza con muestras de n <


30, al igual que z es simtrica y continua, pero la media es y la
desviacin estndar es s o ds (aqu la varianza no se conoce).
Esta distribucin depende de los grados de libertad (g.l.) que son n-1.
A medida que el tamao de la muestra aumenta t se asemeja a z.
Los valores de t estn tabulados en tablas al igual que z

13

Bioestadstica

Distribucin t de student

Distribucin chi cuadrado (2): El estadstico chi cuadrado tiene valores


(+), esta distribucin es bastante sesgada con media igual a los g.l.
Tambin estn tabulados los valores de chi cuadrado para distintos g.l. y
distintas probabilidades.
Lo vamos a utilizar para averiguar asociacin entre dos variables
categricas construyendo tablas de contingencia. Aparte tiene otras
aplicaciones como la prueba de la bondad de ajuste para determinar la
distribucin de la muestra.

Distribucin F de Fisher: esta distribucin se emplea para realizar


comparaciones de varianzas en aquellos test donde se requiere esta
comparacin (homogeneidad de varianza en el test de Student y en
ANOVA).

Distribucin Binomial: la distribucin Binomial afecta a las variables


discretas solamente. Se deduce a partir del ensayo de Bernoulli, en donde
se expone que cuando un experimento, solo puede conducir a dos
resultados probables y mutuamente excluyentes, ambos son rotulados
como xito y fracaso, la probabilidad de xito es p y la probabilidad de
fracaso es q = 1 p. Un ejemplo claro de distribucin Binomial es la
frecuencia de distribucin de variables dicotmicas excluyentes como la
sobrevida.
14

Bioestadstica

Distribucin de Poisson: la distribucin de Poisson tambin se observa


en variables discretas. La ley de Poisson dice: la frecuencia de un evento
es independiente de otros. La frecuencia de un evento en un intervalo de
espacio o tiempo, no tiene efecto sobre la probabilidad de una segunda
frecuencia del evento en el mismo intervalo o en cualquier otro. La
distribucin de Poisson se utiliza cuando se hacen registros de eventos
que se distribuyen al azar en un espacio o tiempo determinado. Puede
esperarse que cierto proceso obedezca la ley de Poisson y ante esta
suposicin se puede calcular la probabilidad de que ese evento se
presente en una unidad de tiempo.

ANLISIS ESTADSTICO
El anlisis estadstico se divide en tres grandes tipos: univariado, bivariado y
multivariado.

En el anlisis univariado se describen las caractersticas de una variable


por vez. Tambin se lo llama estadstica descriptiva.

En el anlisis bivariado se investiga la influencia de una variable


independiente, por vez, con respecto a la variable dependiente.

En el anlisis multivariado se investiga la influencia de dos o ms


variables independientes sobre una o ms variables dependientes.

El anlisis de los datos tiene como fin el responder a las preguntas, hiptesis y
objetivos que se hicieron los investigadores; para llegar a ese punto primero se
deben describir la/s variables o datos que se recolectaron durante el estudio.
Cuando el planteamiento del problema no contempla realizar comparaciones
entre grupos y slo el investigador describe los datos, el anlisis estadstico se
limita a un anlisis descriptivo, este tipo de trabajos tambin se denominan
descriptivos. Cuando el investigador ha planteado comparaciones entre grupos se
requiere de test estadsticos especficos, a estos trabajos se los designa como
trabajos analticos.
Cuando se plantea la confrontacin entre grupos de sujetos, ya sea de variables
categricas o numricas, surge el concepto de Inferencia Estadstica. La
inferencia estadstica resuelve problemas tales como la comparacin de valores
medios entre 2 o ms grupos, comparacin de proporciones, buscar asociaciones
entre variables, buscar correlacin o concordancia, etc.
La inferencia estadstica nos plantea resolver el problema de dos maneras
distintas, cualquiera de las dos conlleva una incertidumbre que se reflejar en el
resultado emitido. Por un lado podemos responder a nuestras preguntas
mediante Test de hiptesis y por otro lado mediante Intervalos de Confianza.

15

Bioestadstica

Inferencia Estadstica

Test de Hiptesis

Estimacin por Intervalos de


Confianza (IC)

El propsito de la inferencia estadstica es permitir generalizaciones de la


muestra a la poblacin de la cual provino.

Test de Hiptesis
Hiptesis en investigacin significa literalmente lo que se supone. Est
compuesta por enunciados tericos probables, referentes a variables o relaciones
entre ellas. En el campo de la investigacin, la hiptesis, supone soluciones
probables al problema de estudio.
Los test estadsticos se basan en la comprobacin de hiptesis
previamente planteadas por el investigador
Existen dos tipos de hiptesis:
Hiptesis Alternativa: es la hiptesis que pretende comprobar el investigador
en su muestra de pacientes. Bsicamente significa que la distribucin y
frecuencia de un evento en un grupo o muestra es diferente de la de otro/s
grupo/s.
Ha: grupo 1 grupo 2
Ha: grupo 1 grupo 2 ni grupos

Hiptesis Nula: es lo contrario de la anterior, o sea que no existen diferencias


estadsticamente significativas entre dos o ms grupos o muestras. La
diferencia observada es debida al azar y a la variabilidad propia de la
distribucin de los datos.
Ho: grupo 1 = grupo 2

16

Bioestadstica
Ho: grupo 1 = grupo 2 = ni grupos

Concepto de Probabilidad
Toda estimacin de una caracterstica poblacional basada en informacin
contenida en una muestra debe ir asociada a una probabilidad del error de
estimacin.

La probabilidad de un resultado dado es el nmero de veces que el resultado


ocurre dividido el nmero total de pruebas. En otras palabras, la probabilidad es
cuantificar la posibilidad de que algo ocurra. Existe una probabilidad subjetiva
que es la que nos planteamos habitualmente (Ej.: por las caractersticas de las
nubes hay probabilidades de lluvia). La otra es la probabilidad objetiva y es la
que analizamos con los test estadsticos. El mdico en el consultorio, en base a
la anamnesis que le realiza al paciente, intuye la probabilidad de la presencia de
una determinada patologa (probabilidad a priori) y solicita estudios para la
confirmacin o no de la misma (probabilidad a posteriori).
Errores que podemos cometer en los test de hiptesis: Error tipo I y Error
tipo II
En el campo de la investigacin en ciencias biolgicas, un margen de error de
hasta un 5% es aceptable desde el punto de vista estadstico. Este margen de
error significa que las observaciones o resultados derivados de la investigacin
en curso pueden deberse al azar en hasta un 5% de los casos. Esto significa
tambin que los resultados son confiables en el 95% de los casos estudiados.
La decisin de un investigador de rechazar o no una hiptesis nula (Ho), se basa
en la consideracin de la probabilidad de que las diferencias halladas se deban o
no al azar. Como el investigador no cuenta con los datos de toda la poblacin,
siempre se puede incurrir en errores. Existen dos tipos de errores en los cuales
se puede caer en la inferencia estadstica:
Error tipo Alfa o tipo I: es rechazar una Ho verdadera
Error tipo Beta o tipo II: es aceptar una Ho falsa
El error tipo I se comete con frecuencia cuando empleamos mal los test
estadsticos (utilizamos test paramtricos cuando en realidad tendramos que
haber usado un test no paramtrico, o al revs)
El error tipo II est asociado al tamao de la muestra, o sea a la potencia del
estudio, y se da cuando no encontramos diferencias estadsticamente
significativas debido a que tenemos un tamao muestral insuficiente o escaso.
Ac se plantea el interrogante cul es el tamao de la muestra suficiente?
realmente nos faltan sujetos en el estudio o la falta de diferencia significativa es
debido a que en realidad las muestras provienen de la misma poblacin?
Etapas de un Test o Contraste de Hiptesis
17

Bioestadstica

Todo contraste de hiptesis debe contemplar el desarrollo de los siguientes


pasos:
1. Planteamiento del problema en el que se decide que contraste o test se

debe emplear para resolver el problema


2. Se definen las hiptesis a contrastar (hiptesis nula e hiptesis

alternativa)
3. Se fija el nivel de significacin (error tipo I). Queda entonces decidido

el nivel de confianza 1- . Como sabemos, se fija en funcin del grado


de peligrosidad de cada uno de los errores de tipo I y II. Normalmente
elegiremos = 0,05. El valor 0,05 (5% de error) est repartido 2,5% en
cada extremo de las colas de la campana de gauss, por lo que se dice
habitualmente a dos colas. Los test a una cola, en donde el error
es 5% en uno de los extremos, no son de uso habitual y se reservan para
algunas situaciones especiales.
4. Premisas o condiciones de validez. Son requisitos relativos al tipo de

distribucin (gaussiana o sesgada), homogeneidad de varianza, tamao


muestral mnimo, etc., tales que de cumplirse nos permitirn hacer un test
ms potente que aquel al que habra que recurrir en caso de no
cumplimiento. Los test paramtricos requieren que los datos cumplan con
ciertas premisas para poder ser utilizados.
5. Se calcula el test estadstico de contraste que depende del tipo de

datos y de los objetivos planteados


6. Regla de decisin. Decidiremos cual es el valor crtico que limita la zona

de aceptacin y de rechazo de la hiptesis nula. Con los soft estadsticos


obtenemos directamente los valores de p
7. Establecemos la significancia estadstica, de acuerdo al valor de p

obtenido decidimos si existen o no diferencias estadsticamente


significativas

En estadstica, se dice que un evento, suceso o valor, es significativo, cuando su


ocurrencia no se debe al azar, sino a factores especficos.
Todo test de hiptesis arroja un valor de p (probabilidad), que surge de tablas
estadsticas confeccionadas para cada distribucin de probabilidades; segn el
resultado analizaremos la significancia estadstica. Este concepto es una forma
de expresar matemticamente si dos o ms grupos de datos son o no diferentes y
si esas diferencias son debidas o no al azar.
Por lo tanto p es la probabilidad de error al comparar dos o ms muestras o
grupos cuando aseguramos que ambos son diferentes. O sea que p es la
probabilidad en el sentido de la significancia estadstica. El error = 0,05 se
transforma en p = 0.05 como lmite de significancia luego de realizar el anlisis
estadstico.
El valor de p es entonces una medida de la evidencia contra la hiptesis
nula. Cuanto menor sea el valor de p menor ser la probabilidad de que la
18

Bioestadstica
hiptesis nula sea cierta, por lo cual se rechazar, aceptando la hiptesis
alternativa (hiptesis de diferencia) como verdadera.
Si p < 0,05 rechazamos la hiptesis nula de igualdad y EXISTEN
DIFERENCIAS ESTADSTICAMENTE SIGNIFICATIVAS (aceptamos la
hiptesis alternativa)
Si p > 0,05 no rechazamos la hiptesis nula de igualdad y NO EXISTEN
DIFERENCIAS ESTADSTICAMENTE SIGNIFICATIVAS
Actualmente ya no se utilizan ms los clculos manuales y los valores de p
exactos o aproximados son dados por la mayora de los soft estadsticos (SPSS,
Instat, Statistic, Epi info, InfoStat, Medcalc, etc.).
En resumen, si obtenemos un valor de p<0,01 significa que cometeramos
un error menor al 1% en rechazar la hiptesis nula si esta fuera verdadera.
En otras palabras, si repitiramos el mismo estudio 100 veces la
probabilidad de no rechazar la hiptesis nula (o sea de no obtener
diferencias estadsticamente significativa) sera menor al 1%; la
probabilidad de que la hiptesis nula sea verdadera es menor al 1%.

Intervalos de confianza (IC)


Otra forma de realizar inferencia estadstica es a travs de IC. Recordemos
que cuando hablamos de muestra y poblacin dijimos que , s, s2 eran
estimadores puntuales de los parmetros poblacionales; el IC es un estimador
por intervalo.
El IC est definido por un lmite superior y un lmite inferior con una
probabilidad relacionada. Por lo general se utiliza un 95% de confianza. El
IC se calcula de distinta manera para los distintos parmetros o
estadsticos.

IC para la media:

para n > 30

IC = X 1,96 . ES

para n < 30

IC = X

tcrit.(g.l. n-1)0,05 . ES X

Los extremos del IC se designan lmites de confianza


El IC nos da el 95% de confianza de incluir la media verdadera de la
poblacin de pacientes () de donde se tom la muestra.
19

Bioestadstica
ES= error estndar = (ds / n )
As como la desviacin estndar es una medida de la dispersin de los datos
alrededor de la media el error estndar es una medida de la dispersin entre
medias.
Ejemplo: se obtuvo el siguiente IC 95% para una muestra de n=22 en la cual se
determin colesterolemia obtenindose = 280 mg% s= 20 mg%

IC = 280 2,080 . 4,26


IC = 280 8,9
= 271 mg% a 289 mg%

Lo cual significa que si recolectamos 100 veces muestras con n= 22 en iguales


condiciones obtendremos en 95 de ellas (5% de error) un valor medio
comprendido entre 271 y 289 mg%. En definitiva un IC comprende con un 95%
de confianza al verdadero valor de en la poblacin.

Podemos realizar inferencia estadstica comparando los IC entre dos o ms


muestras y decir, al igual que con los test de hiptesis, si existen
diferencias estadsticamente significativa entre ellas:

Si los IC se superponen no existen diferencias estadsticamente


significativa entre los valores medios de ambas muestras (Ej.:
grupos C y D)

Si los IC no se tocan existen diferencias estadsticamente


significativas entre ambos (Ej.: grupo A y C)

Si los IC se solapan, pero sin superponerse totalmente, no podemos


sacar conclusiones con los IC y debemos recurrir a test de
hiptesis para resolver el problema (Ej.: grupos A y B)

20

Bioestadstica
IC 95% para la media
450

400

mg%

350

300

250

200

150
A

Grupos

La interpretacin de la significancia de un IC vara de acuerdo al parmetro


o estadstico para el cual se calcule. A diferencia de los test de hiptesis los
IC no arrojan un valor de p.
Los soft estadsticos nos dan directamente los valores de p e IC, ellos tienen
incorporadas las tablas correspondientes a cada distribucin.

TAMAO DE LA MUESTRA: un estudio de potencia consiste en decidir cul


deber ser el tamao de la muestra necesario para obtener valores de p e IC
para un estadstico, con precisin y significacin dadas de antemano. Para que
esto sea posible es necesario poseer cierta informacin previa, que se obtiene a
partir de las denominadas muestras piloto. Cuando recolectamos el nmero de
muestras, de acuerdo al tamao calculado previamente, y no obtenemos
diferencias significativas entre los grupos, podemos estar seguros que no se debe
a que faltan datos, o sea no se debe a un n insuficiente.
Por qu es suficiente obtener conclusiones con una nica muestra
representativa? Si se obtiene una muestra aleatoria de una poblacin normal,
entonces la media muestral tiene una distribucin normal sin importar el tamao
de la muestra. Sin embargo, se puede demostrar que de hecho no importa el
modelo de probabilidad del cual se obtenga la muestra (o sea la forma de la
distribucin de la poblacin original), la distribucin de muestreo de la media se
aproximar a una distribucin normal conforme n aumente. Lo anterior
constituye uno de los ms importantes teoremas en inferencia estadstica y se
conoce como TEOREMA DEL LMITE CENTRAL. De este teorema se deduce
que toda muestra aleatoria con n 30 tendr distribucin gaussiana
independientemente de la distribucin original de la poblacin de donde
proviene. Muchas veces obtenemos muestras con n>30 y al realizarles el
histograma nos encontramos con distribuciones sesgadas; este sesgo es
producido por el experimento en s, ya sea porque la muestra no es aleatoria, por
21

Bioestadstica
el error que introducimos en la medicin o cuantificacin del analito, porque
mezclamos dos poblaciones, etc.

PRUEBA t DE STUDENT (test de hiptesis)


La prueba o test de Student (test t) es un mtodo de anlisis estadstico, que
compara los valores medios de dos grupos de datos numricos. Es una
prueba paramtrica, o sea que requiere que las variables numricas cumplan
con ciertas premisas para poder ser utilizado. La prueba t de Student, arroja el
valor del estadstico t el cual se compara con el valor de t crtico de la tabla (n-1
g.l. , y de acuerdo a eso corresponder un valor de significacin
estadstica determinado (p).
En definitiva el test de Student contrasta las siguientes hiptesis:
Ho X1 = X2
Ha X1 X2

Hay tres situaciones en las cuales aplicaremos el test t:

Comparar el valor medio de una muestra versus un valor medio


dado: este valor puede ser el obtenido de la literatura u otra fuente. En
este caso tenemos nuestra muestra de la cual obtenemos una media y
desviacin estndar y un valor medio del cual no se conoce su
dispersin (desconocemos s). Este es el caso ms simple de
comparacin entre valores medios. Premisa a cumplir: la muestra
debe tener distribucin gaussiana.
Comparar dos muestras independientes: la prueba t para muestras
independientes se utiliza para comparar la media de dos grupos no
relacionados entre s, por ejemplo grupo de pacientes y grupo control.
El trmino independientes significa que el valor de un dato en un
grupo no est relacionado al otro grupo. Para utilizar este test se deben
cumplir ciertas premisas: los datos de ambos grupos deben tener
distribucin gaussiana y debe existir homogeneidad de varianza (las
desviaciones estndar de ambos grupos deben ser similares).

Comparacin de muestras apareadas: se utiliza para comparar las


medias de un mismo grupo en diferentes etapas, como por ejemplo pre
y post tratamiento, antes y despus de una dieta, antes y despus de
cualquier intervencin del investigador. En este caso lo que interesa es
el cambio producido, o sea la diferencia. Premisa a cumplir: la
diferencia entre los datos debe tener distribucin gaussiana. Las
hiptesis a plantear seran:
Ho

diferencia = 0 (no hay diferencia antes y despus)


22

Bioestadstica
Ha

diferencia 0 (hay un cambio)

Si no se cumplen las premisas se pueden transformar los datos a logaritmo


(log10), con el objetivo de normalizar la distribucin o utilizar test alternativos
como el test de Mann-Whitney (no paramtrico) y el test de Welch (para ds
distintas con distribucin gaussiana)
En muestras apareadas, cuando la premisa no se cumple, tambin se puede
recurrir a transformar (log10) los datos de ambos grupos y comprobar la
distribucin de la diferencia. El test no paramtrico es el Test de Wilcoxon.

ANLISIS DE VARIANZA (test de hiptesis)


El anlisis de varianza (ANOVA) es una prueba semejante a la prueba t de
Student, en cuanto a la prctica, pero la comparacin entre grupos no es a travs
de la media y su s sino a travs de la varianza de la variable numrica.
Bsicamente el ANOVA, se utiliza para realizar comparaciones entre valores
medios de tres o ms grupos de datos numricos.
Suponiendo que se analizan 3 grupos, el ANOVA, analiza las variaciones entre
los grupos (inter-grupal) y la compara con la variacin dentro de cada grupo
(intra-grupal), para obtener mediante una suma de cuadrados el valor del
estadstico F de Fisher. Si las diferencias de varianza entre cada grupo son
mayores que las intra-grupales, seguramente existen diferencias significativas
entre los grupos que no son debidas al azar.
Si se analizaran 2 grupos con un ANOVA se obtendran resultados iguales al test
t. Cuando se desee comparar valores medios en ms de 2 grupos es incorrecto
utilizar el test t ya que cuando se utiliza un grupo para compararlo ms de una
vez (Ej.: 1 vs 2, 1 vs 3, 2 vs 3) se incrementa el error alfa y pasa de 5% a 15%
(5% x 3 comparaciones). Ampliamos las chances de encontrar diferencias
estadsticamente significativas cuando en realidad no la hay (podramos cometer
un error tipo I).
En ANOVA se contrastan las siguientes hiptesis:
Ho X1 = X2 = Xi
Ha X1 X2 Xi

Al igual que con el test t el ANOVA puede ser aplicado a datos de grupos
independientes o apareados.
Si un ANOVA da estadsticamente significativo (p<0,05) nos dice que existen
diferencias significativas entre los grupos pero no sabemos entre cuales. Para
23

Bioestadstica
saber entre qu grupos existen diferencias se realizan pruebas pos test. Estas
pruebas se denominan pos hoc y existen distintos test pos ANOVA (test de
Tuckey, Dunnet, Bonferroni, Newman-keuls, etc.). Si el ANOVA no da
estadsticamente significativo (p>0,05) se dice que no existen diferencias entre
los grupos y el anlisis termina ah.
Las premisas para realizar un ANOVA son:

Todas las variables deben tener distribucin gaussiana


Debe existir homogeneidad de varianza (test de Bartlet)
Las muestras deben ser independientes

Si no se cumplen las premisas se pueden transformar los datos (log10) o utilizar


test no paramtricos (test de Kruskal Wallis).
En caso de que las muestras no sean independientes y se hayan obtenido datos
de seguimiento de los pacientes en ms de dos oportunidades se tienen medidas
repetidas, es una extensin del test t apareado; en este caso se utiliza el ANOVA
de medidas repetidas; si no se cumplen las premisas el test no paramtrico es el
de Friedman.
Hemos detallado anteriormente un ANOVA de una va o sentido, en el cual la
variable dependiente tiene una nica forma de ser clasificada (Ej.: valores de
ferremia en tres grupos etarios de una escuela primaria rural, variable
dependiente: ferremia, forma de clasificarla: grupo etario 1, 2 y 3). Si a su vez
quisiramos saber si entre los 3 grupos hay diferencias entre varones y mujeres
se debe armar un ANOVA de 2 vas, lo cual hace ms complejo el anlisis y la
interpretacin de los resultados.
No es correcto utilizar un test t como pos test de un ANOVA
estadsticamente significativo.

TABLAS DE CONTINGENCIA (test de hiptesis chi cuadrado)

Las tablas de contingencia estn compuestas por filas (horizontales) y columnas


(verticales) que delimitan celdas donde se vuelcan la frecuencia de cada
categora analizada. El objetivo de armar una tabla de contingencia es averiguar
si existen diferencias entre proporciones o asociaciones entre las mismas; de
esto se deduce que sirven para comparar datos categricos.
El anlisis estadstico de una tabla de contingencia (generalmente denominadas
tablas 2x2) se realiza mediante la prueba Chi Cuadrado (.

Se contrastan las siguientes hiptesis:


Ho No existe asociacin entre filas y columnas (las variables son independientes)
24

Bioestadstica
Ha Existe una asociacin entre filas y columnas

Un valor de p<0.05, indica que existe una relacin o asociacin entre las
categoras estudiadas, o sea que las variables no son independientes.
Cuando se realiza una prueba chi cuadrado debemos tener en cuenta que:

El estadstico chi cuadrado compara los valores observados por los


investigadores con los valores esperados de acuerdo al azar.
Siempre se elige el valor chi cuadrado con correccin de continuidad de
Yates (los programas en PC de estadstica lo dan automticamente)
Si el n es pequeo se debe utilizar la prueba exacta de Fisher para
obtener el valor de chi cuadrado (se considera n pequeo a que
tengamos una celda con frecuencia esperada 2 o dos celdas 5), denoto
que son las frecuencias esperadas y no las observadas las que deben
cumplir con esta premisa.

Con el test chi cuadrado podemos averiguar si existe una asociacin, por
ejemplo entre HTA y eventos cardiovasculares (ECV):
ECV presente

Evento CV ausente

HTA presente

18

HTA ausente

10

El valor p<0,0001 demuestra una asociacin estadsticamente significativa entre


HTA y ECV.
Chi cuadrado mide slo la asociacin. Existen dos estadsticos que pueden
calcularse a partir de esta tabla llamados riesgo relativo (RR), el cual se emplea
en estudios cohorte o prospectivos y el odds ratio (OR) el cual se emplea en
estudios retrospectivos o transversales, estos ndices miden la fuerza de la
asociacin y dan una idea del riesgo. La interpretacin es la misma para los dos:
RR u OR = 1 no hay riesgo
RR o OR < 1 disminucin del riesgo
RR u OR > 1 aumento del riesgo
Los valores del RR u OR siempre se deben interpretar junto a sus IC 95%. Si
obtuve un RR de 2,3 (IC = 0,80 4,5) no puedo decir que el riesgo sea verdadero
ya que el lmite inferior del IC es menor a 1 y en una nueva muestra analizada mi
25

Bioestadstica
RR puede arrojar un valor inferior a 1 con lo cual ya no hay riesgo. El lmite
inferior del IC debe ser mayor a 1 para que exista riesgo.
Para el caso de disminucin del riesgo podemos decir que la aspirina disminuye
el riesgo de eventos cardiovasculares con un RR= 0,70 (IC= 0,50 0,80), en este
caso para que la disminucin en el riesgo sea considerada verdadera el
lmite superior del IC no debe superar a 1. Podemos calcular el % de la
reduccin del riesgo (1 - 0,70)x100 con lo cual la aspirina reduce en un 30% el
riesgo de complicaciones cardiovasculares.
Ante la duda sobre el diseo del estudio se debe obtener OR; el RR slo se debe
calcular en estudios cohorte.

CORRELACIN Y REGRESIN
Otra forma de anlisis bivariado es la correlacin y regresin de variables
numricas. El concepto de correlacin y regresin se basa en el grado de
relacin lineal que poseen dos variables numricas entre si.
El coeficiente de correlacin de Pearsons (r) permite predecir si entre dos
variables existe o no una relacin lineal.
El coeficiente de correlacin r siempre oscila entre +1 y 1. Un valor igual a cero
significa que no existe correlacin lineal entre ambas variables. Un valor positivo
indica que existe una correlacin positiva y un valor negativo una correlacin
inversa entre las variables. Mientras ms cerca de +1 o -1 este el valor de r
mejor es la asociacin entre las variables.
Podemos graficar la correlacin entre las dos variables a travs de una grfica de
dos ejes cartesianos (abscisas y ordenadas). En el eje de las x se representa la
variable independiente y en el eje de las y la variable dependiente.

26

Bioestadstica

En la situacin planteada en a se observa una correlacin perfecta positiva, en b


una correlacin perfecta negativa y en c no hay correlacin lineal. Estas
situaciones ideales difcilmente se observen en la prctica y generalmente
obtenemos una nube de puntos alrededor de la recta.
Cabe resaltar que el encontrar una asociacin, ya sea en este test u otro, NO
implica demostrar causa-efecto, para lo cual se deben cumplir una serie de
premisas bien definidas.
A mayor valor de r mayor es la asociacin entre las variables. Un valor de r
tiene distintas interpretaciones segn el caso en el que lo estemos calculando.
Cuando se realizan correlaciones de variables clnicas, el objetivo de la
correlacin es la de saber si las variables incrementan o no en el mismo sentido o
si hay una relacin inversa entre ambas (Ej.: temperatura corporal vs frecuencia
cardaca) o como se muestra en el grfico, creatinina vs cistatina C en plasma.
En estos casos el valor de r se interpreta en el contexto de su significancia
estadstica (valor de p e IC 95%) y no hay una intencin de realizar intrapolacin
de datos (estimar y a partir de x).
Se debe resaltar que el valor de r depende directamente del tamao de la
muestra; valores de r pequeos pueden ser estadsticamente significativos
cuando el tamao de la muestra es grande, inclusive con nubes de puntos
bastantes dispersas. El valor de r tambin depende de valores extremos; en el
grfico el valor correspondiente a 50 de creatinina y 6 de cistatina incrementa
notablemente el valor del coeficiente.

27

Bioestadstica

Clinical Chemistry 44, No. 6, 1998

Cuando se realizan estudios de comparacin de mtodos el objetivo de la


comparacin es saber si los mtodos que se estn comparando son
intercambiables o si un nuevo mtodo puede reemplazar al de rutina; esta es una
forma de estimar el bias (error sistemtico) de un mtodo. En este caso si importa
el valor de r y se considera que un valor de r 0,975 sera suficiente para
realizar el anlisis de regresin. En curvas de calibracin la exigencia es an
mayor r 0,98.

Clinical Chemistry 53, No. 5, 2007

Un parmetro de utilidad es elevar r al cuadrado (r2) llamado coeficiente de


determinacin. Por ejemplo si r=0,975 entonces r2= (0,975)2 = 0,95 lo cual
quiere decir que el 95% de los datos covaran en la correlacin; el 95% de los
datos son explicados por el modelo estadstico.
Se debe tener cuidado al analizar la correlacin entre dos variables, ambas no
deben variar juntas permanentemente. Esto parece redundante, pero es
importante. Por ejemplo, si correlacionamos edad y altura. La altura ir
aumentando con la edad hasta un determinado punto en donde ya no aumentar
ms. No se deben correlacionar variables que de antemano se saben estn
correlacionadas.
28

Bioestadstica
La significancia de r la da un valor de p< 0,05 o el IC 95% el cual no debe
contener al cero.
El coeficiente de correlacin de Pearsons es un estadstico paramtrico.
Premisas: las variables a correlacionar deben tener distribucin gaussiana y
deben ser independientes. Si la distribucin de las variables es sesgada se puede
realizar transformacin (log10); si el sesgo no se elimina se puede optar por el
coeficiente de correlacin de Spearman (rs) el cual es un test no paramtrico,
este estadstico es tambin til para correlacionar una variable numrica con una
variable categrica (Ej.: score de rinitis con niveles sricos de Ig E).

Anlisis de Regresin
Existen varios tipos de regresin y todos se basan en modificaciones de la
frmula de regresin lineal.
Regresin lineal simple (RLS)
Y = a + b . X (ecuacin matemtica de la recta)
Y es la variable dependiente (en estudio) y X la variable independiente.
a y b son factores derivados de la ecuacin matemtica de la recta:
a = ordenada al origen (la ideal es 0)
b= pendiente (la ideal es 1)
Syx= residuales
Bsicamente, por medio de la regresin se pretende predecir el valor de una
variable llamada genricamente Y, a travs de otra variable llamada X.
Para poder intrapolar se deben cumplir una seria de premisas que por lo general
se emplean en la validacin de mtodos, es decir cuando quiero reemplazar un
mtodo nuevo por uno ya existente, en este caso me interesa poder intrapolar los
valores de y (mtodo nuevo) de los valores de x (mtodo viejo). En estos casos
es en donde la regresin lineal adquiere real importancia.
Para utilizar la regresin lineal, en la comparacin de mtodos, el mtodo con el
que estoy comparando al nuevo mtodo debe ser un mtodo de referencia. Si el r
es a 0.975, el IC 95% de la ordenada al origen incluye al 0 (cero) y el IC
de la pendiente incluye al 1 puedo decir que ambos mtodos son
comparables e intercambiables. El modelo de RLS es paramtrico. Premisas:
las variables deben tener distribucin normal y deben ser independientes. El
anlisis por RLS atribuye todo el error al mtodo evaluado en las ordenadas (y) y
considera de referencia al mtodo en las abcisas (x). En caso de que el mtodo
con el que me estoy comparando no sea un mtodo de referencia debo utilizar
otro tipo de regresin lineal, como la regresin de Demming; la interpretacin de
29

Bioestadstica
r, a y b son la misma que en la RLS. La regresin de Passing-Bablok es el test no
paramtrico para realizar regresin.
Siempre que se realicen estudios de comparacin de mtodos se deben
interpretar los resultados en un contexto clnico. Nos debemos preguntar, ms
all de las significancia estadstica de cada coeficiente, si las diferencias son
clnicamente relevantes y si hemos tenido en cuenta los niveles de decisin
mdica a la hora de obtener los datos para realizar la comparacin.

TEST PARAMTRICOS vs TEST NO PARAMTRICOS


Los test paramtricos utilizan premisas que deben cumplir las variables para
poder ser utilizados. Si esas premisas no se cumplen se puede recurrir a realizar
transformaciones matemtica de los datos. Una de las transformaciones ms
utilizadas en bioestadstica es la transformacin logartmica de los datos la cual
remueve la mayora de los sesgos positivos. Cuando la transformacin de los
datos no logr remover el sesgo se debe recurrir a test no paramtricos para los
cuales las variables no tienen que cumplir ninguna premisa.
Siempre es conveniente optar por la utilizacin de test paramtricos ya que los no
paramtricos tienden a dar diferencias estadsticamente significativas con mayor
frecuencia.
Hay test paramtricos que son robustos a pequeos sesgos en la distribucin de
la muestra. Uno de estos test es el test de Student, el cual no cambia el resultado
si es utilizado en distribuciones con pequeos sesgo.

ANLISIS MULTIVARIADO
El anlisis multivariado posee la propiedad de poder enfrentar a diferentes
variables o factores independientes con una o ms variables dependientes.
Existen varios tipos de mtodos multivariados, vamos a describir sintticamente
el fundamento de los ms usados:

Regresin Lineal Mltiple: el fundamento es el de la regresin lineal


simple, pero la diferencia es que se estudia la relacin entre dos o ms
variables independientes con una o ms variables dependientes,
hallndose el r2 que las asocia, establecindose as un modelo predictivo
lineal.
Regresin Logstica: posee una frmula logartmica que calcula la
relacin entre una o ms variables independientes con una variable
dependiente categrica dicotmica (si/no). Se utiliza mucho para investigar
variables predictivas de un evento determinado en la poblacin y para la
confeccin de modelos de scores de probabilidad.
Anlisis Discriminante: discrimina la pertenencia a diferentes grupos
dentro de una muestra, asignndole diferentes pesos a cada variable
30

Bioestadstica
independiente analizada y estableciendo su relacin con una variable
dependiente categrica nominal u ordinal generalmente.

EVALUACIN DE PRUEBAS DIAGNSTICAS


La exactitud diagnstica de una prueba es la capacidad para clasificar
correctamente a un individuo en categoras o estados en relacin con la
enfermedad (tpicamente dos: estar o no estar enfermo).
La capacidad de un test diagnstico para separar adecuadamente sanos de
enfermos es lo que define la validez y confiabilidad de un test.

Es de fundamental importancia analizar la validez del estudio y cmo se


seleccionaron los pacientes, se debe verificar:

1. Que el test fue utilizado en personas con la enfermedad que se quiere


diagnosticar y en personas sin la enfermedad, para verificar las tasas de
falsos positivos y falsos negativos.
2. Que entre los pacientes estudiados se incluyeron todas las formas clnicas
de la enfermedad. Esto es importante para estar seguro que el test puede
ser usado tanto en pacientes con formas leves como avanzadas de la
enfermedad.
3. Que el test en estudio fue comparado con un test establecido como prueba
de oro (Gold Standard) en el diagnstico de la enfermedad.
4. Que la prueba de oro fue aplicada a todos los participantes del estudio de
manera independiente del resultado del test en estudio.
5. Que los investigadores se mantuvieron ciegos al interpretar los resultados
del test en relacin a los obtenidos con la prueba de oro. Esto anula el
sesgo por observacin.

Se evala el resultado de la prueba en un grupo de pacientes con la enfermedad


y en otro grupo de pacientes sin la enfermedad. Si la prueba arroja resultados
dicotmicos o categricos (positivo o negativo) la evaluacin del rendimiento
del test se realiza en tablas 2x2. Si el resultado de la prueba es un valor
numrico se analizan los datos por curva ROC.

La prueba arroja resultados categricos o dicotmicos


Tradicionalmente, la exactitud de una prueba diagnstica para detectar o excluir
una enfermedad se expresa en trminos de Sensibilidad, Especificidad, Valor
Predictivo Positivo (VPP) y Valor Predictivo Negativo (VPN), todas las cuales
son proporciones o probabilidades que se calculan a partir de una tabla 2x2:

31

Bioestadstica

A = nmero de verdaderos positivos


B = nmero de falsos positivos
C = nmero de falsos negativos
D = nmero de verdaderos negativos
Sensibilidad (S): es la proporcin o porcentaje de individuos con la
enfermedad que tienen un resultado positivo con la prueba.
Especificidad (E): es la proporcin o porcentaje de individuos sin la
enfermedad que tienen un resultado negativo con la prueba.
VPP: es la probabilidad de tener realmente la enfermedad, cuando un
resultado es positivo.
VPN: es la probabilidad de no tener la enfermedad cuando un resultado es
negativo.
La S y E son propias de la prueba y no varan de un lugar a otro. Lo que s
cambia con la prevalencia de la enfermedad son los VPN y VPP. En otras
palabras en zonas de alta prevalencia de la enfermedad (Ej.: Chagas en
Santiago del Estero) un resultado positivo de la prueba seguramente
corresponder a un verdadero positivo (alto VPP), en cambio en lugares de
baja prevalencia de la enfermedad (Ej.: Chagas en Ro Gallegos) un
resultado positivo probablemente corresponda a un falso positivo.

Clculos:
Sensibilidad (%) = 100*A/(A+C)
Especificidad (%) = 100*D/(B+D)
Prevalencia (%) = 100*(A+C)/N
VPP (%) = 100*A/(A+B)
VPN (%) = 100*D/(C+D)
Prevalencia: A+C / N
32

Bioestadstica
Exactitud de la prueba es la proporcin de individuos correctamente clasificados
por la prueba: A+D / N
En las publicaciones estos ndices van acompaados de sus respectivos IC 95%.
Los VPP y VPN al estar influenciados por la prevalencia de la enfermedad son
poco extrapolables a nuestro lugar de trabajo, es decir que es difcil evaluar el
rendimiento de un test con estos ndices.
Mediante la combinacin de la sensibilidad y especificidad de un test se pueden
obtener resultados ms confiables sobre la validez de un test diagnstico. Del uso
combinado de la sensibilidad y especificidad de un test surge el concepto de la
razn de probabilidades, razn de verosimilitud o Likelihood Ratio (LR). La
razn de probabilidad puede ser positiva o negativa.
La razn de probabilidad nos indica cunto ms probable es un resultado
determinado de una prueba diagnstica en un paciente con una enfermedad
dada comparado con un paciente sin la enfermedad
LR = probabilidad de un resultado particular en pacientes con la enfermedad
dividida por la probabilidad del mismo resultado en pacientes sin la enfermedad.

LR(+): Probabilidad de un resultado positivo en los pacientes con la enfermedad


Probabilidad de un resultado positivo en personas sin la enfermedad
LR (+) = S / (1-E)
Esta razn describe la probabilidad de tener la enfermedad en oposicin a
no tenerla, teniendo un resultado positivo del test.

LR(-): Probabilidad de un resultado negativo en los pacientes con la enfermedad


Probabilidad de un resultado negativo en personas sin la enfermedad
LR (-)= 1-S / E
Esta razn describe la probabilidad de no tener la enfermedad en oposicin
a tenerla, teniendo un resultado negativo del test.
Cuanto ms alta sea la LR para una prueba positiva, mejor es la prueba para
diagnosticar la enfermedad y mientras ms baja sea la LR para una prueba
negativa, mejor es la prueba para excluir la enfermedad.
a. LR (+) 10 LR (-) 0,1 generan grandes cambios, usualmente conclusivos,
de la probabilidad pre-prueba.
b. LR (+) de 5 a 10 y LR (-) de 0,1 a 0,2 generan moderados cambios en la
probabilidad pre-prueba.
c. LR (+) de 2 a 5 y LR (-) de 0,2 a 0,5; generan pequeos cambios en la
probabilidad.
d. LR (+) de 1 a 2 y LR (-) de 0,5 a 1; alteran la probabilidad en un grado
pequeo (rara vez importante).
33

Bioestadstica

La LR es independiente de la prevalencia de la enfermedad y, por lo tanto, es la


medida de exactitud que se prefiere en la actualidad cuando se interpretan los
resultados de una prueba diagnstica.

Concordancia entre Pruebas Diagnsticas


En ocasiones, la sensibilidad y la especificidad de una prueba no son estimables
ya que utilizar un gold standard resulta imposible o es muy costoso y difcil de
desarrollar. En estos casos lo correcto es establecer concordancia entre las
pruebas lo que se expresa por medio del Coeficiente de concordancia Kappa.
Kappa expresa la proporcin de concordancia (o de acuerdo) ms all del
azar. Un valor de kappa de cero indica que no existe concordancia, mientras
que un valor de kappa de 1 indica una concordancia total.
Kappa puede usarse tambin para comparar los diagnsticos de dos clnicos (en
general se pueden cotejar las apreciaciones diagnsticas de dos o ms individuos
con el objeto de saber si los mismos comparten iguales criterios). Kappa no
indica cual es el mtodo que da los mejores resultados, se limita a indicar si
existe acuerdo entre las dos pruebas comparadas o no.
El clculo de kappa se obtiene a partir de una tabla de contingencia de 2x2:

La concordancia esperada debida al azar (EP) o resultados iguales debidos al


azar es:

34

Bioestadstica
La mxima proporcin de concordancia no debida al azar es 1-EP
La concordancia descontado el azar es: ((A+D)/N) - EP
El valor Kappa es el cociente entre la proporcin observada de concordancia
descontado el azar y la mxima proporcin de concordancia no debida al azar.
Un valor de kappa de 0.5 indica un nivel moderado de concordancia.

Un valor de Kappa de 0,10 a 0,30 se considera malo, de 0,31 a 0,50 regular, de


0,51 a o,71 bueno, de 0,71 a 0,90 muy bueno y de 0,91 a 1 excelente.

La prueba arroja resultados numricos: Curvas ROC (Receiver Operator


Characteristic Curve)
En las pruebas diagnsticas se consider que el resultado era categrico, sin
embargo muchas pruebas producen resultados numricos. El comportamiento de
dichas pruebas depende de donde se ponga el punto de corte y lo habitual es
que exista un grado variable de solapamiento en las distribuciones de frecuencias
de la variable resultado. En el caso de la glucosa la situacin se esquematiza en
la grfica:

Si se desplaza el punto de corte a la derecha (valores mayores de glucosa)


disminuyen los falsos positivos pero aumentan los falsos negativos o, en otros
trminos, disminuye la sensibilidad y aumenta la especificidad e inversamente si
se desplaza a la izquierda, de modo que un problema en estas pruebas es la
seleccin del punto de corte ptimo. Las llamadas curvas ROC (Receiver
Operating Characteristic) desarrolladas por los operadores de radar e
introducidas en la investigacin clnica por los radilogos, se utilizan cuando
queremos establecer un punto de corte para variables cuantitativas. Son curvas
en las que se representa la sensibilidad en funcin de 1-especificidad (falsos
positivos) para distintos puntos de corte.

35

Bioestadstica

ABC

1-Especificidad= Falsos positivos


Area Bajo la Curva (ABC): es el rea entre la lnea diagonal y la curva propiamente dicha

Informacin contenida en la curva:


- Si la prueba fuera perfecta, es decir, sin solapamiento, tendra 100% de S y
100% de E, la curva estara pegada al vrtice superior izquierdo.
- Si la prueba fuera intil: ambas distribuciones de frecuencias coinciden y la
sensibilidad (verdaderos positivos) es igual a la proporcin de falsos positivos, la
curva sera la lnea diagonal.
- Las pruebas habituales tienen curvas intermedias.

36

Bioestadstica
Un parmetro para evaluar la bondad de la prueba es el rea bajo la curva (ABC)
que tomar valores entre 1 (prueba perfecta) y 0,5 (prueba intil). Puede
demostrarse que esta rea puede interpretarse como la probabilidad de que ante
un par de individuos, uno enfermo y el otro sano, la prueba los clasifique
correctamente. Por lo tanto la significancia de un ABC debe interpretarse en el
contexto de su IC 95% en el cual su lmite inferior no debe ser menor a 0,5. Los
soft estadsticos tambin arrojan el valor de p.
Se pueden comparar varias curvas ROC a la vez y decidir cual es la prueba con
mejor rendimiento. Existen test estadstico para comparar curvas ROC entre s.

En consecuencia las curvas ROC son tiles para:

Conocer el rendimiento global de una prueba mediante el ABC


Comparar dos o ms pruebas comparando el ABC y los puntos de corte.
Elegir el punto de corte apropiado

Para el establecimiento del valor de corte existen varios mtodos y sugerencias.


Uno de los ms utilizados es calcular las LR (+) y LR (-) para cada valor de corte
y elegir aquel en el que coincida la mayor LR (+) con la menor LR (-).

Limitaciones de su uso: slo contemplan dos estados clnicos posibles (sano,


enfermo) y no sirven para situaciones en que se trata de discernir entre ms de
dos enfermedades.

Ejemplo: Evaluacin del volumen corpuscular medio (VCM) en el diagnstico de


anemia ferropnica. Se usa como "patrn de oro" la existencia de depsitos de
hierro en la mdula sea
Tabla de datos (hipottica):

VCM
Sin Fe (n=34): 52, 58, 62, 65, 67, 68, 69, 71, 72, 72, 73, 73, 74, 75, 76, 77, 77, 78,
79, 80, 80, 81, 81, 81, 82, 83, 84, 85, 85, 86, 88, 88, 90, 92
Con Fe (n=66): 60, 66, 68, 69, 71, 71, 73, 74, 74, 74, 76, 77, 77, 77, 77, 78, 78,
79, 79, 80, 80, 81, 81, 81, 82, 82, 83, 83, 83, 83, 83, 83, 83, 84, 84, 84, 84, 85,
85, 86, 86, 86, 87, 88, 88, 88, 89, 89, 89, 90, 90, 91, 91, 92, 93, 93, 93, 94, 94,
94, 94, 96, 97, 98, 100, 103

37

Bioestadstica

Se observa gran solapamiento de datos. Para diversos puntos de corte las


sensibilidades y proporciones de falsos positivos figuran en la siguiente tabla:

Punto Corte

Sensibilidad

1-Especificidad

65

3/34=0,088

1/66=0,015

70

7/34=0,206

4/66=0,061

75

13/34=0,382

10/66=0,152

80

19/34=0,559

19/66=0,288

85

27/34=0,794

37/66=0,561

90

32/34=0,941

49/66=0,742

92

33/34=0,971

53/66=0,803

38

Bioestadstica
Se grafica S en funcin de FP o (1-E) y se obtiene la siguiente curva ROC:

cuya ABC es 0,717 (IC 95%: 0,657 0,778). El IC 95% en su lmite inferior no es
menor a 0,5 por lo cual el ABC es estadsticamente significativa. La S = 56% y la
E= 29% por lo cual el VCM no es un muy buen ndice para diferenciar ambos
grupos de sujetos debido al solapamiento de los datos.

PREVALENCIA E INCIDENCIA
Prevalencia
Es la proporcin de individuos de una poblacin que presentan el evento en un
momento, o periodo de tiempo, determinado. Por ejemplo la prevalencia de
desnutricin en el ao 2002 en Formosa es la proporcin de individuos de esa
provincia que en el ao 2002 padecan la enfermedad.
P = n de eventos (+)
n eventos totales
Caractersticas:

Es una proporcin
Es adimensional
su valor oscila entre 0 y 1, aunque generalmente se expresa
como porcentaje (0% - 100%)
Es un indicador esttico, que se refiere a un momento
temporal
39

Bioestadstica

Indica la carga del evento que soporta la poblacin, tiene su


mayor utilidad en los estudios de planificacin de servicios
sanitarios
En la prevalencia influye la velocidad de aparicin del evento y
su duracin; es por ello poco til en la investigacin causal y
de medidas teraputicas

Incidencia
La incidencia refleja el nmero de nuevos casos en un periodo de tiempo. Es un
ndice dinmico que requiere seguimiento en el tiempo de la poblacin de inters.
Cuando la enfermedad es recurrente se suele referir a la primera aparicin.
Se puede medir con dos ndices: incidencia acumulada y densidad (o tasa) de
incidencia.
Incidencia acumulada
Es la proporcin de individuos que desarrollan el evento durante el periodo de
seguimiento.
IA =

n de eventos nuevos
n de sujetos susceptible al comienzo

Caractersticas:

Es una proporcin
Es adimensional
Su valor oscila entre 0 y 1, aunque tambin se suele expresar
como porcentaje (0% - 100%)
Depende del tiempo de seguimiento
Se calcula sobre una cohorte fija, es decir no se permiten
entradas de nuevos individuos durante el seguimiento.

La principal limitacin de este ndice proviene del efecto de cohorte fija,


puesto que a lo largo del seguimiento generalmente se pierden
individuos.

Incidencia (casos nuevos)

Prevalencia

Recuperados
Fallecidos

40

Bioestadstica
DETERMINACIN DEL TAMAO MUESTRAL
Todo estudio epidemiolgico lleva implcito en la fase de diseo la determinacin
del tamao muestral necesario para la ejecucin del mismo. El no realizar dicho
proceso, puede llevarnos a dos situaciones diferentes: primera que realicemos el
estudio sin el nmero adecuado de pacientes, con lo cual no podremos ser
precisos al estimar los parmetros y adems no encontraremos diferencias
significativas cuando en la realidad s existen. La segunda situacin es que
podramos estudiar un nmero innecesario de pacientes, lo cual lleva implcito no
solo la prdida de tiempo e incremento de recursos innecesarios sino que
adems la calidad del estudio, dado dicho incremento, puede verse afectada en
sentido negativo.
Para determinar el tamao muestral de un estudio, debemos considerar
diferentes situaciones:

A. Estudios para determinar parmetros. Es decir pretendemos hacer


inferencias a valores poblacionales (proporciones, medias) a partir de una
muestra.
B. Estudios para contraste de hiptesis. Es decir pretendemos comparar si las
medias o las proporciones de las muestras son diferentes.

A. Estudios para determinar parmetros


Con estos estudios pretendemos hacer inferencias a valores poblacionales
(proporciones, medias) a partir de una muestra.
A.1. Estimar una proporcin
Si deseamos estimar una proporcin, debemos saber:
a) El nivel de confianza o seguridad (1- ). El nivel de confianza
prefijado da lugar a un coeficiente (Z ). Para una seguridad del
95% = 1.96, para una seguridad del 99% = 2.58.
b) La precisin que deseamos para nuestro estudio.
c) Una idea del valor aproximado del parmetro que queremos
medir (en este caso una proporcin). Esta idea se puede obtener
revisando la literatura o por estudio pilotos previos. En caso de no
tener dicha informacin utilizaremos el valor p = 0.5 (50%).

41

Bioestadstica
Ejemplo: A cuantas personas tendramos que estudiar para conocer la
prevalencia de diabetes?
Seguridad = 95% Precisin = 3% Proporcin esperada = asumamos que puede
ser prxima al 5%; si no tuvisemos ninguna idea de dicha proporcin
utilizaramos el valor p = 0,5 (50%) que maximiza el tamao muestral:

donde:

Z 2 = 1.962 (ya que la seguridad es del 95%)

p = proporcin esperada (en este caso 5% = 0.05)

q = 1 p (en este caso 1 0.05 = 0.95)

d = precisin (en este caso deseamos un 3%)

Si la poblacin es finita, es decir conocemos el total de la poblacin y


desesemos saber cuntos del total tendremos que estudiar la respuesta seria:

donde:

N = Total de la poblacin

Z2 = 1.962 (si la seguridad es del 95%)

p = proporcin esperada (en este caso 5% = 0.05)

q = 1 p (en este caso 1-0.05 = 0.95)

d = precisin (en este caso deseamos un 3%).

A cuntas personas tendra que estudiar de una poblacin de 15.000


habitantes para conocer la prevalencia de diabetes?
Seguridad = 95%; Precisin = 3%; proporcin esperada = asumamos que puede
ser prxima al 5% ; si no tuviese ninguna idea de dicha proporcin utilizaramos el
valor p = 0.5 (50%) que maximiza el tamao muestral.

42

Bioestadstica
A.2. Estimar una media
Si deseamos estimar una media, debemos saber:
a. El nivel de confianza o seguridad (1- ). El nivel de confianza prefijado da
lugar a un coeficiente (Z ). Para una seguridad del 95% = 1.96; para una
seguridad del 99% = 2.58.
b. La precisin con que se desea estimar el parmetro
c. Una idea de la varianza s2 de la distribucin de la variable cuantitativa que
se supone existe en la poblacin.

Ejemplo: Si deseamos conocer la media de la glucemia basal de una poblacin,


con una seguridad del 95 % y una precisin de 3 mg/dl y tenemos informacin
por un estudio piloto o revisin bibliogrfica que la varianza es de 250 mg/dl

Si la poblacin es finita, como previamente se seal, es decir conocemos el total


de la poblacin y desearamos saber cuantos del total tendamos que estudiar la
respuesta sera:

B. Estudios para contraste de hiptesis


Estos estudios pretenden comparar si las medias o las proporciones de las
muestras son diferentes. Habitualmente el investigador pretende comparar dos
tratamientos. Para el clculo del tamao muestral se precisa conocer:
a. Magnitud de la diferencia a detectar que tenga inters clnicamente
relevante. Se pueden comparar dos proporciones o dos medias.
b. Tener una idea aproximada de los parmetros de la variable que se
estudia (bibliografa, estudios previos).
c. Seguridad del estudio (riesgo de cometer un error )
d. Poder estadstico (1 - ) (riesgo de cometer un error )

43

Bioestadstica
B.1. Comparacin de dos proporciones

Donde:

n = sujetos necesarios en cada una de las muestras

Z = Valor Z correspondiente al riesgo deseado

Z = Valor Z correspondiente al riesgo deseado

p1 = Valor de la proporcin en el grupo de referencia, placebo, control o


tratamiento habitual.

p2 = Valor de la proporcin en el grupo del nuevo tratamiento, intervencin


o tcnica.

p = Media de las dos proporciones p1 y p2

B.2. Comparacin de dos medias

Donde:

n = sujetos necesarios en cada una de las muestras

Z = Valor Z correspondiente al riesgo deseado

Z = Valor Z correspondiente al riesgo deseado

S2 = Varianza de la variable cuantitativa que tiene el grupo control o de


referencia.

d = Valor mnimo de la diferencia que se desea detectar (datos


cuantitativos)

Los valores Z segn la seguridad y Z segn el poder se indican en la siguiente


tabla:

44

Bioestadstica
Valores de Z y Z ms frecuentemente utilizados
Z

Test unilateral

Test bilateral

0.200
0.150
0.100
0.050
0.025
0.010

0.842
1.036
1.282
1.645
1.960
2.326

1.282
1.440
1.645
1.960
2.240
2.576

Potencia

(1-)

0.01
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50

0.99
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
0.50

2.326
1.645
1.282
1.036
0.842
0.674
0.524
0.385
0.253
0.126
0.000

Los valores resaltados en negrita son los ms utilizados en la bibliografa mdica

Ejemplo de comparacin de dos medias


Deseamos utilizar un nuevo frmaco antidiabtico y consideramos que seria
clnicamente eficaz si lograse un descenso de 15 mg/dl respecto al tto. Habitual
con el antidiabtico estndar. Por estudios previos sabemos que la desviacin
tpica de la glucemia en pacientes que reciben el tratamiento habitual es de 16
mg/dl. Aceptamos un riesgo de 0.05 y deseamos un poder estadstico de 90%
para detectar diferencias si es que existen.

Precisamos 20 pacientes en cada grupo.

45

Bioestadstica
Ejemplo de comparacin de dos proporciones
Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para el
alivio del dolor para lo que diseamos un ensayo clnico. Sabemos por datos
previos que la eficacia del frmaco habitual est alrededor del 70% y
consideramos clnicamente relevante si el nuevo frmaco alivia el dolor en un
90%. Nuestro nivel de riesgo lo fijamos en 0.05 y deseamos un poder estadstico
de un 80%.

n = 48 pacientes. En cada grupo precisamos 48 pacientes.

El tamao muestral ajustado a las prdidas


En todos los estudios es preciso estimar las posibles perdidas de pacientes por
razones diversas (prdida de informacin, abandono, no respuesta.) por lo que
se debe incrementar el tamao muestral respecto a dichas prdidas.
El tamao muestral ajustado a las prdidas se puede calcular:
Muestra ajustada a las prdidas = n (1 / 1R)

n = nmero de sujetos sin prdidas


R = proporcin esperada de prdidas

As por ejemplo si en el estudio anterior esperamos tener un 15% de prdidas el


tamao muestral necesario seria: 48 (1 / 1-0.15) = 56 pacientes en cada grupo.

46

Bioestadstica

BIBLIOGRAFA CONSULTADA
El presente apunte se realiz obteniendo informacin de distintas pginas Web,
ingresando palabras claves en el buscador Google, la mayora de las palabras
estn en negrita en el texto.

47