Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Muestreo
inverso, con población finita
estratificado, por conglomerados,
bietápico con el método de Simon
Comparación de
medias, medias en escala logarítmica,
medianas y proporciones
Tipos de muestras
una muestra, dos muestras relacionadas,
dos muestras independientes,
k muestras independientes
Tipos de comparación
no igualdad, no inferioridad,
equivalencia, superioridad relevante
Diseños para
regresión lineal, regresión Logística
Anova, tablas Kx2, supervivencia
www.e–biometria.com
Autores
Llorenç Badiella Busquets
Servei d’Estadística, Universidad Autónoma de Barcelona, Bellaterra. Barcelona
Alejandro Pedromingo Marino
Departamento de Biometría, GlaxoSmithKline, Tres Cantos. Madrid
Derechos de propiedad del libro
No se permite la reproducción total o parcial de esta publicación, ni su
tratamiento informático, ni la transmisión de ninguna forma o por cualquier
medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos,
ni su préstamo, alquiler o cualquier otra forma de cesión de uso de este libro, sin
el permiso previo y por escrito de los propietarios del mismo.
Edita
GlaxoSmithKline S.A.
Estimación de parámetros 42
Intervalo de Confianza para la media de una variable cuantitativa Normal 42
Intervalo de Confianza para la media de una variable cuantitativa no Normal 45
Intervalo de Confianza para una proporción 45
Intervalo de Confianza para un riesgo relativo (RR) 46
Intervalo de Confianza para un odds ratio (OR) 46
Intervalo de Confianza para un cuantil 47
Técnicas de Muestreo 48
Ejemplos 52
Ejemplo 1. Intervalo de confianza para una media 52
Ejemplo 2. Intervalo de confianza para una proporción 53
Ejemplo 3. Intervalo de confianza para un riesgo relativo (RR) 55
Ejemplo 4. Intervalo de confianza para un odds ratio (OR) 58
Ejemplo 5. Intervalo de confianza para un cuantil 61
Ejemplo 6. Intervalo de confianza para una media en una población finita 62
Ejemplo 7. Intervalo de confianza para una proporción (población finita) 64
Ejemplo 8. Intervalo de confianza para una proporción con muestreo inverso 66
Ejemplo 9. Intervalo de confianza para una media con muestreo estratificado 68
Ejemplo 10. Intervalo de confianza para una proporción con muestreo
estratificado 70
Ejemplo 11. Intervalo de confianza para una media con muestreo por
conglomerados 73
Ejemplo 12. Intervalo de confianza para una proporción con muestreo por
conglomerados 75
Comparación de dos grupos (no igualdad) 78
Introducción 78
Comparación de no igualdad entre la media de una variable Normal frente a un
valor teórico 79
Comparación de no igualdad entre las medias de dos muestras independientes de
variables Normales 85
2
Bibliografía 289
1
Presentación
Determinar el tamaño de muestra necesario para llevar a cabo un estudio o ensayo
clínico es una tarea ardua, técnica y complicada. Este libro pretende proporcionar
los conocimientos y las herramientas de soporte para que –empleando el
programa Ene 3.0– se pueda calcular el número óptimo de individuos a reclutar
en el estudio.
Este manual está dirigido principalmente a investigadores del ámbito de las
ciencias de la salud que deseen realizar cualquier tipo de estudio experimental u
observacional y que tengan conocimientos elementales de bioestadística. No
obstante, el libro también es útil para investigadores de otros ámbitos, debido a
que los principios estadísticos en los que se basa el cálculo del tamaño muestral
(TM) son aplicables a cualquier disciplina.
En el primer capítulo “Conceptos, errores y estrategias en el cálculo del TM” se
introducen, sin apenas formulación, aquellas nociones que son importantes para
determinar el tamaño de muestra.
En el siguiente capítulo “Características del programa Ene 3.0” se muestran las
funcionalidades y posibilidades del programa.
En los capítulos siguientes:
Estimación de parámetros
Comparación de dos grupos (no igualdad)
Comparación de dos grupos (no inferioridad, superioridad o equivalencia)
Otros diseños (más de dos grupos, regresión lineal y regresión logística,
análisis de supervivencia)
se explican de forma detallada los conceptos que debe tener en cuenta el usuario
para determinar el número necesario de sujetos de un estudio en cada una de las
distintas situaciones. El capítulo “Estimación de parámetros” comprende aquellos
estudios donde se desea conocer un parámetro poblacional. Los capítulos
“Comparación de dos parámetros” se refieren a estudios en donde se comparan
únicamente dos tratamientos. El capítulo “Otros diseños” incluye otros diseños
más avanzados con diferentes peculiaridades.
En los capítulos de “Ejemplos” se incluyen casos resueltos para cada una de las
técnicas utilizando el programa Ene 3.0. Para los usuarios que deseen conocer los
detalles técnicos de los cálculos, en cada técnica se incluye un apartado con las
fórmulas utilizadas.
El Anexo contiene información complementaria relacionada con el cálculo del
TM. En “Conceptos Básicos de Estadística” se explican algunos aspectos básicos,
de Estadística. Estos detalles pueden ser útiles si el lector desea repasar los
2 Cálculo del tamaño muestral con el programa Ene 3.0
Conceptos básicos
El problema
El siguiente párrafo es un ejemplo del apartado “Material y métodos” de un artículo
de una publicación científica cualquiera. A primera vista parece totalmente
incomprensible:
“Se eligió una muestra aleatoria de 26 pacientes que permitiera detectar una
diferencia de un 50 % en la proporción de pacientes curados (90% vs. 40%) con un
poder del 80%, a un nivel de significación del 0.05, utilizando un contraste
bilateral”
Para una mente sana, las siguientes dudas son inmediatas:
¿Por qué se eligieron 26 pacientes?
¿Cómo se sabe que se va a producir una diferencia del 50% entre las eficacias
de los tratamientos?
¿Por qué precisamente un 90% frente a un 40% si todavía no ha comenzado
la experimentación?
¿Es un contraste bilateral porque hay dos tratamientos?
¿Es el poder algo relacionado con la eficacia de los tratamientos?
¿De dónde sale y quién decide el nivel de significación?
Incluso pueden aparecer otras dudas:
¿Si tengo disponibilidad de más de 26 pacientes, por qué no aumentar el
tamaño?
¿No sería más fácil tomar un número “redondo “de pacientes como 50, 60 ó
100?
¿Por qué no coger el mismo tamaño que en estudios parecidos?
¿No es el conocimiento sustantivo de la enfermedad y su tratamiento lo que
debería marcar las pautas para el tamaño de la muestra?
¿Por qué la estadística tiene que intervenir en todo esto?
La mayoría de estos problemas desaparecerían si existiesen recomendaciones de
expertos para el tamaño de la muestra dependiendo de lo que se está estudiando.
4 Cálculo del tamaño muestral con el programa Ene 3.0
tienen una tendencia innata a presentar sesgos, que son desviaciones de sus
características respecto a las de la población de donde proceden.
Esencialmente las muestras deben ser aleatorias y tener el tamaño suficiente. De
este modo se obtendrán muestras representativas con mayor fiabilidad y sus
resultados podrán ser extrapolados a la población de referencia. El tamaño de
muestra permite controlar la precisión de los resultados y hace posible la
generalización de los resultados, es decir, controla su fiabilidad. Las técnicas de
muestreo así como todas las medidas de control de las posibles fuentes de sesgo
(enmascaramiento, asignación aleatoria, empleo de variables objetivas, etc.) otorgan
validez a la muestra. La validez es ser un concepto bastante abstracto porque es
difícil de medir, el investigador únicamente podrá esperar que sus medidas de
control hayan sido efectivas y que la muestra sea razonablemente válida. Una
muestra será representativa únicamente si es válida y fiable, y las muestras que no
cumplan simultáneamente ambas propiedades proporcionarán resultados confusos,
falsos o inútiles.
tendrá un TM menor que si el mismo estudio tiene como objetivo demostrar no–
igualdad. Del mismo modo, el TM necesario si el estudio se diseña como estudio de
superioridad será aún mayor. Los estudios planteados en términos de equivalencia
tienen un TM mayor que planteados como de no–inferioridad. A pesar de estas
variaciones en cuanto a la magnitud del TM, cada uno de los diseños anteriores es
aplicable a situaciones experimentales totalmente diferentes, por lo que no deberían
confundirse nunca. El objetivo del estudio debería fijar, previamente al cálculo del
TM, la situación a considerar.
Este libro incluye solamente los escenarios más habituales, con combinación de las
diferentes posibilidades.
El TM a medida
Error: Aumentando los riesgos α y β se reduce el TM. Aumentando las expectativas
de resultados también.
El admitir mayores riesgos, aumentando los posibles errores en la decisión, o el
aumentar las expectativas de resultados para disminuir el TM, suele producir
estudios con resultados más frustrantes que la situación inicial.
Muchos estudios no se hacen y otros tantos no se deberían hacer por estas razones.
El no comenzar un estudio sin garantías es tan meritorio como comenzar uno con
ellas.
Números mágicos
Error: Al realizar una encuesta, un tamaño de muestra de 100 individuos garantiza
siempre una muestra válida y fiable.
Por razones no documentadas pero justificables, determinados tamaños muestrales
ejercen un gran poder de atracción y una capacidad de anular razonamientos
alternativos. Entre ellos destacan los números 17, 24, 30, y 100. En menor medida
algunos de sus múltiplos como 34, 120, 200, 400, 500, 1000, o 3000. Estos TM
suelen producir efectos balsámicos en experimentados investigadores, revisores y
lectores. Aunque en determinadas circunstancias estos tamaños sí son adecuados, el
uso por defecto de tales cantidades no puede ir desvinculado de su justificación.
Por otro lado, en ocasiones se suele redondear el TM al alza, hecho que podría
explicar porqué bastantes tamaños de muestra finales son múltiplos de 10. La mejor
estrategia consiste en la documentación de las asunciones empleadas para el cálculo
del TM, de tal manera que pueda ser reproducible por terceros.
Relevancias irrelevantes
Error: Dado que se buscan diferencias, cualquier diferencia es relevante.
En la comparación de grupos, el factor determinante en el TM suele ser la diferencia
esperada. La teoría dice que si en la realidad existe esta diferencia, con el TM
calculado se alcanzará la significación estadística con garantías. Pero una diferencia
estadística no tiene valor si al mismo tiempo no es una diferencia relevante.
La diferencia esperada utilizada en el cálculo del TM debe ser relevante.
Diferencias muy pequeñas, paradójicamente asociadas a TM más elevados, no son
admisibles si son irrelevantes. Si, como ocurre cuando se comparan tratamientos
similares, el TM es elevado o muy elevado, lo recomendable es no comenzar por un
doble motivo: mucho para nada.
En cuanto al nivel de confianza del intervalo, el valor clásico es del 95% y se suelen
considerar intervalos bidireccionales.
En el caso de medias:
En el supuesto de máximo desconocimiento, en muchos casos se puede optar por
una diferencia entre grupos de al menos 1/3 de la desviación estándar. En ocasiones
se baraja el consignar una diferencia mayor pero, aunque esta diferencia suele ser
relevante, normalmente es poco realista.
Sólo en fases muy iniciales se admite un desconocimiento de la magnitud del
fenómeno estudiado y estas soluciones son un último recurso desesperado para
intentar desbloquear la situación.
Para índices estadísticos diferentes a medias y proporciones:
La mayoría de los estadísticos suelen derivarse de proporciones o medias por lo
tanto puede ser orientativo calcular las diferencias relevantes a partir de éstas.
Simulación
En algunas ocasiones el diseño o las características de los estudios son
suficientemente complicados como para no encontrar un procedimiento fiable del
cálculo del TM y lo suficientemente fáciles de analizar como para que por técnicas
de simulación se pueda calcular el TM adecuado. Esto exige técnicas
computacionales potentes y recursos de programación normalmente fuera de lo
estándar. Otra dificultad añadida a estas técnicas es la necesidad de realizar diversas
suposiciones sobre los datos que no son contrastables a priori.
En estos casos:
La significación estadística del contraste no se alcanza
El intervalo de confianza y, por consiguiente, la imprecisión de la estimación
es mayor
Como se ha comentado, la situación ideal es que las expectativas se cumplan
evitando que se empleen más recursos de los necesarios y alcanzándose la
significación estadística mínima exigida.
Asunción de normalidad
La mayoría de los supuestos y diseños asumen normalidad en las respuestas
cuantitativas. Las fórmulas empleadas son robustas y producen resultados del TM
fiables aun si el supuesto de normalidad no está totalmente garantizado. Aunque no
está suficientemente documentado, se suele aceptar que si se van a emplear pruebas
no paramétricas en el análisis y el TM es reducido, éste se aumente en un 10%.
Estudios bietápicos
En la nueva versión 3.0 del programa Ene, es posible realizar los cálculos para el
TM en estudios bietápicos para una proporción aplicando el método bietápico de
Simon.
Documentar siempre
Como el título indica, es recomendable documentar siempre los supuestos sobre los
que se calcula el TM, incluyendo explícitamente las razones del desconocimiento o
la falta de información si ésta se produce, así como incluir las fuentes y referencias
de valores documentables y las argumentaciones sobre valores subjetivos y
modificaciones.
También se debe mencionar qué técnica estadística será empleada en el análisis de
la variable respuesta principal, y qué suposiciones relativas a la técnica se han de
asumir. De este modo, terceros podrían ser capaces de reproducir los cálculos.
Estimación
Una media: muestreo aleatorio simple, poblaciones finitas, conglomerados,
estratos.
Una proporción: muestreo aleatorio simple, poblaciones finitas,
conglomerados, estratos, muestreo inverso.
Un Riesgo relativo (RR)
Un Odds Ratio (OR)
Un cuantil
Dos proporciones
Dos proporciones relacionadas
Otros estudios
Dos medianas (variable ordinal, variable cuantitativa)
Dos medias con desviaciones diferentes (corrección de Satterthwaite)
Más de dos medias
Más de dos proporciones
Una correlación
Modelo de regresión lineal múltiple
Una covariable en regresión logística
Una covariable en regresión logística ajustada por otras covariables
La supervivencia de dos grupos
La supervivencia de dos grupos con inclusión, seguimiento y tasa de
abandonos
La supervivencia de dos grupos con inclusión, seguimiento y tasa de
abandonos – no–inferioridad
Comparación de una proporción frente a un valor teórico método bietápico
Instalación
Seguir las instrucciones contenidas en el propio CD o, alternativamente, consultar
la información actualizada en: www.e–biometria.com
Técnicas implementadas
En estimación de parámetros
TECNICA
VARIABLE ESTADISTICA
OBJETIVO RESPUESTA MUESTRAS ASOCIADA
Intervalo de Confianza
Estimación Continua Una muestra
para una Media
Intervalo de Confianza
Una muestra /
Estimación Continua para una Media
población finita
(Población Finita)
Intervalo de Confianza
Una muestra /
Estimación Continua para una Media muestra
Conglomerados
con conglomerados
Intervalo de Confianza
Una muestra /
Estimación Continua para una Media muestra
Estratos
estratificada
Intervalo de Confianza
Estimación Proporción Una muestra
para una Proporción
Intervalo de Confianza
Una muestra /
Estimación Proporción para una Proporción
población finita
(Población Finita)
Estimación Proporción Una muestra / Intervalo de Confianza
30 Cálculo del tamaño muestral con el programa Ene 3.0
En contrastes de hipótesis
TECNICA
VARIABLE ESTADISTICA
OBJETIVO RESPUESTA MUESTRAS ASOCIADA
Prueba t–Student para una
No Igualdad Continua Una muestra
muestra
No Prueba t–Student para una
Continua Una muestra
Inferioridad muestra
Prueba t–Student para una
Superioridad Continua Una muestra
muestra
Prueba t–Student para una
Equivalencia Continua Una muestra
muestra
Dos muestras Prueba t–Student para dos
No Igualdad Continua
independientes muestras independientes
Dos muestras Prueba t–Student
independientes (Satterthwaite) para dos
No Igualdad Continua
– Varianzas muestras independientes
diferentes con varianzas diferentes
31
Prueba U de Mann–
Continua Dos muestras
No–Igualdad Whitney para dos
(medianas) independientes
Cuantitativas
Prueba U de Mann–
Ordinal Dos muestras
No–Igualdad Whitney para dos
(medianas) independientes
Ordinales
Más de dos
ANOVA de 1 Factor para
No–Igualdad Continua muestras
K muestras independientes
independientes
Más de dos
Prueba χ2 para k muestras
No–Igualdad Proporción muestras
independientes
independientes
Contraste para el
No–Igualdad Continua Una muestra Coeficiente de Correlación
de Pearson
K covariables Regresión Lineal para k
ajustadas por H covariables ajustadas por h
No–Igualdad Continua
covariables en covariables en regresión
regresión lineal lineal
Prueba de Wald para una
No–Igualdad Proporción Una muestra covariable en regresión
logística
Prueba de Wald para una
covariable ajustada por
No–Igualdad Proporción Una muestra
otras covariables en
regresión logística
Tiempo de Dos muestras
No–Igualdad Test Log Rank
supervivencia independientes
Test Log Rank
Tiempo de Dos muestras
No–Igualdad (Exponencial) Inclusión +
supervivencia independientes
Censurados
Test Log Rank
No Tiempo de Dos muestras
(Exponencial) Inclusión +
Inferioridad supervivencia independientes
Censurados
34 Cálculo del tamaño muestral con el programa Ene 3.0
Ventana de trabajo
El usuario puede seleccionar la técnica que desee emplear a través del desplegable
que aparece tras pulsar el menú Estudio. También puede abrir una técnica a partir
de los desplegables que aparecen en el apartado Técnicas disponibles.
Una vez abierto el estudio, aparecerá el cuadro de trabajo, donde el investigador
deberá rellenar los campos que solicite el programa. Pulsando finalmente el botón
Calcular, para que aparezca el resultado.
Algunos parámetros facilitan un pequeño desplegable con las opciones posibles.
El resto de parámetros disponen de filtros inteligentes que controlan y evitan la
introducción de valores incorrectos o incoherentes con el resto de parámetros.
Visor de Técnicas
El ususario dispone de una ventana con un visor para consultar cualquier de las
técnicas abiertas o abrir técnicas nuevas.
Ayudas
El programa contiene una ayuda general donde el usuario puede explorar todas las
técnicas así como un glosario de términos utilizados:
Ayuda específica
Cada técnica tiene una pestaña con la ayuda explicativa de la técnica que se está
utilizando
36 Cálculo del tamaño muestral con el programa Ene 3.0
Filtros inteligentes
Cuando el valor de algún parámetro es incorrecto o incoherente, en la línea
inferior de la pantalla aparecerá un mensaje advirtiendo al usuario y especificando
qué tipo de error está cometiendo. Los filtros inteligentes controlan el valor de
cada parámetro asegurándose que está dentro de los valores permitidos así como
si existe alguna incoherencia entre dos o más parámetros. En el caso de que
aparezca algún mensaje, el botón Calcular permanecerá desactivado.
Gráficos
Excepto en las ventanas de estimación de parámetros, el usuario dispone de una
pestaña que proporciona los gráficos de potencia. En ellos se puede apreciar como
varía la potencia en función de diferentes tamaños de muestra, dejando la
posibilidad al usuario de que introduzca y personalice el resto de parámetros que
intervienen en los cálculos.
Las ayudas particulares para cada una de las técnicas se han incluido en la
misma pantalla de introducción de valores de cada técnica.
Se ha incluido un nuevo parámetro en todas las técnicas prospectivas:
porcentaje esperado de abandonos.
La ayuda incorpora conceptos prácticos sobre cómo determinar valores
aproximados para los parámetros de interés a partir de información
incompleta.
El glosario del programa ha pasado de 84 a 143 entradas.
42 Cálculo del tamaño muestral con el programa Ene 3.0
Estimación de parámetros
Introducción
El objetivo de determinados estudios es la obtención de información de un
parámetro que resuma la variable respuesta principal del estudio. Por ejemplo,
estudios observacionales donde se desea conocer la prevalencia de cierta
enfermedad, o donde se desea conocer la media del colesterol de una población
infantil. En estas situaciones, se está interesado en obtener una estimación de un
parámetro poblacional (generalmente proporciones o medias) con determinado
nivel de precisión.
Entonces, el objetivo del estudio puede responderse mediante el intervalo de
confianza del parámetro de interés. Es decir, un intervalo basado en una
estimación puntual que proporcione un margen suficientemente conciso y que
contenga de forma razonable el valor verdadero del parámetro objetivo.
En la fase de diseño del estudio se trata de responder a alguna de las siguientes
preguntas:
¿Cuántos individuos será necesario incluir en el estudio para conseguir un
intervalo con una precisión ω ?
¿Qué precisión se obtendrá si en el estudio se han incluido n sujetos?
¿Hasta qué punto el intervalo de confianza contendrá de forma razonable el
valor verdadero del parámetro? ¿Cuál es la confianza del intervalo?
Por lo tanto, para realizar los cálculos es necesario anticipar las proporciones
esperadas p1 y p2. En esta fórmula intervienen los parámetros w1 y w2 que
corresponden a la proporción de individuos en los grupos 1 y 2 respecto del total
de individuos de la muestra.
Por lo tanto, para realizar los cálculos es necesario anticipar las proporciones
esperadas p1 y p2. En esta fórmula también intervienen los parámetros w1 y w2,
que corresponden a la proporción de individuos en los grupos 1 y 2 respecto del
total de individuos de la muestra.
Cuantil
correspondiente al
percentil 95 de la
distribución
48 Cálculo del tamaño muestral con el programa Ene 3.0
Técnicas de Muestreo
En general, cuando la población de estudio es grande, se asume que el muestreo
realizado es simple y con reposición. Si no existen otras fuentes de sesgo, y todos
los elementos de la población tienen la misma probabilidad de ser seleccionados,
la muestra tiene la propiedad de ser probabilística. Esta es la situación más
habitual cuando se desea calcular el intervalo de confianza para un parámetro de
interés. Sin embargo existen otras situaciones en las que puede ser conveniente no
emplear muestras probabilísticas. Ene 3.0 permite emplear técnicas de muestreo
alternativas en el cálculo de intervalos de confianza para medias y para
proporciones.
Muestreo estratificado
Los estratos son segmentos de unidades experimentales en cierto sentido
homogéneas respecto la variable de interés. De esta manera, es posible estimar el
parámetro de interés con mayor precisión seleccionando un mayor número de
unidades de los estratos con menor homogeneidad, y equivalentemente, un
número menor en los estratos con mayor homogeneidad.
Las variables empleadas con mayor frecuencia para estratificar una muestra son la
edad y el sexo de los individuos, aunque también se suelen emplear variables
territoriales como provincia o comarca.
Existen diversos métodos para repartir o asignar la muestra total entre los
diferentes estratos, siendo los más habituales las asignaciones siguientes:
Asignación simple: equilibrada entre todos los estratos
1
wi =
S
Donde wi es la fracción de la muestra total correspondiente al estrato i-ésimo y S
es el número de estratos considerados.
Asignación proporcional: asignación proporcional al tamaño del estrato.
Ni
wi =
N
Donde Ni es el tamaño total del estrato i-ésimo y N es el tamaño total de la
población.
Asignación de Neyman: tiene en cuenta la variabilidad de la variable de interés en
cada estrato. También recibe el nombre de asignación óptima, ya que proporciona
estimaciones con mayor precisión que empleando otras asignaciones.
N iσ i
wi = S
∑N σ
k =1
k k
∑σ
k =1
k
50 Cálculo del tamaño muestral con el programa Ene 3.0
σ i = pi (1 − pi )
Finalmente, el tamaño de muestra asignado al estrato i-ésimo será:
ni = n × wi
Ejemplos
Detalles técnicos
Basado en el Intervalo de confianza para una variable Normal
53
Parámetros necesarios:
γ (0,1)* Nivel de confianza: Gamma, 1–α, (valor recomendado: 0.95)
c 1,2 ** Unilateral / Bilateral (valor recomendado: 2 Bilateral)
σ >0 Desviación típica
ab (0,0.5) Porcentaje esperado de abandonos
*Cualquier valor entre los valores del paréntesis excluyendo los límites
** Solo es posible elegir uno de los dos valores
Parámetros respuesta:
n ≥2 Tamaño de la muestra
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
ω >0 Precisión
Fórmula para la precisión:
σ
ω = z1−α / c
n
Detalles técnicos
Basado en el Intervalo de confianza asintótico para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la
proporción de ocurrencia de cierto evento medido en una única muestra
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1–α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción esperada
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
n ≥2 Tamaño de la muestra
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
ω (0,0.5) Precisión. Valores superiores a 0.5 (50%) no tienen sentido.
55
Detalles técnicos
Basado en el Intervalo de confianza asintótico para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar el
Riesgo Relativo de la ocurrencia de determinado evento medido en dos muestras
independientes
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1–α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción grupo de Referencia
p2 (0,1) Proporción grupo Experimental
w1 (0,1) Proporción de la muestra en el grupo de Referencia.
Porcentaje de unidades experimentales que pertenecen al
grupo de referencia respecto del total de unidades
experimentales del estudio. Si el estudio es balanceado, este
valor es 0.5
ab (0,0.5) Porcentaje esperado de abandonos
RR = p2 / p1 Riesgo relativo esperado
log RR = log (RR) Logaritmo del riesgo relativo esperado
57
Parámetros respuesta:
n1 ≥2 Tamaño de la muestra en el grupo de Referencia
nr1 ≥2 Tamaño de la muestra a reclutar en el grupo de Referencia
(corregido por posibles abandonos)
ω >0 Precisión para el logaritmo del riesgo relativo
Fórmula para la precisión:
1 ⎛ 1 − p1 w1 (1 − p 2 ) ⎞
ω = z1−α / c ⎜⎜ + ⎟
n1 ⎝ p1 (1 − w1 ) p 2 ⎟⎠
Las fórmulas utilizadas por esta técnica son asintóticas y permiten obtener buenas
aproximaciones si el tamaño de muestra es suficientemente grande (>30).
La precisión ω, es relativa al logaritmo del riesgo relativo:
log RR +/– ω
Para interpretarla a partir del propio riesgo relativo es necesario transformar la
expresión anterior:
e log RR +/– ω = ( RR e – ω ; RR e +ω)
Cuando el usuario escoja un intervalo de confianza unilateral, el programa
continuará mostrando los valores correspondientes al límite superior del intervalo
de confianza y al límite inferior, siendo aplicable sólo uno de ellos en función del
objetivo del investigador. Si el usuario desea un intervalo unilateral izquierdo el
intervalo tendrá cómo límites los valores 0 y el límite superior. Si el usuario desea
un intervalo unilateral derecho el intervalo tendrá cómo límites los valores límite
inferior e infinito.
58 Cálculo del tamaño muestral con el programa Ene 3.0
modo, se desea conocer cual sería el tamaño de muestra necesario en cada uno de
los grupos para conseguir una precisión de 0.368 (w=0.368) unidades en la
estimación del odds ratio.
Utilizando Ene 3.0
Estimación Æ Otros Æ Un odds ratio
Pestaña: Tamaño de Muestra
Detalles técnicos
Basado en el Intervalo de confianza asintótico para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar el
Odds Ratio de la ocurrencia de determinado evento medido en dos muestras
independientes
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1–α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción grupo de Referencia.
60 Cálculo del tamaño muestral con el programa Ene 3.0
1⎛ 1 1 w1 w1 ⎞
ω = z1−α / c ⎜⎜ + + + ⎟
n1 ⎝ p1 (1 − p1 ) (1 − w1 ) p2 (1 − w1 )(1 − p2 ) ⎟⎠
Las fórmulas utilizadas por esta técnica son asintóticas y permiten obtener buenas
aproximaciones si el tamaño de muestra es suficientemente grande (>30).
La precisión ω que proporciona los cálculos es relativa al logaritmo del odds
ratio:
log OR +/- ω
Para interpretarla a partir del propio riesgo relativo, es necesario transformar la
expresión anterior:
e log OR +/- ω = ( OR e -ω , OR e +ω )
Cuando el usuario escoja un intervalo de confianza unilateral, el programa
continuará mostrando el valor correspondiente al límite superior del intervalo de
confianza y al límite inferior, siendo aplicable sólo uno de ellos en función del
objetivo del investigador. Si el usuario desea un intervalo unilateral izquierdo el
61
intervalo tendrá cómo límites los valores 0 y el límite superior. Si el usuario desea
un intervalo unilateral derecho el intervalo tendrá cómo límites los valores límite
inferior e infinito.
Detalles técnicos
Basado en el Intervalo de confianza para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar
determinado Cuantil de una variable de naturaleza continua medida en una única
muestra
62 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
σ >0 Desviación típica
pc (0,1) Percentil de interés.
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
n ≥2 Tamaño de la muestra
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
ω >0 Precisión
Fórmula para la precisión:
Δ = Z pc
σ
ω = F −1 (1 − α ,1, n − 1, nΔ2 ) − σZ pc
n
Fórmula para el tamaño de muestra:
La fórmula para el tamaño de muestra se obtiene invirtiendo la fórmula para la
precisión.
teniendo además en cuenta que el tamaño total de población del área de salud que
se está estudiando es de 1000 individuos (N=1000). La corrección en los cálculos
para poblaciones finitas puede mejorar los resultados, ya que la muestra
representaría casi un 40% del total de la población (385 vs 1000). Inicialmente el
investigador había considerado utilizar una desviación estándar de 10 g/l (σ=10),
así como un intervalo de confianza al 95% (γ=0.95) bilateral (c=2).
Aplicando los nuevos cálculos, el investigador deberá incluir 278 pacientes
(n=278)
Utilizando Ene 3.0
Estimación Æ La media de una variable continua Æ
Poblaciones finitas
Pestaña: Tamaño de muestra
Detalles técnicos
Basado en el Intervalo de confianza para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la
media de una variable de naturaleza continua medida en una única muestra
considerando que la población de referencia es de tamaño finito
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
64 Cálculo del tamaño muestral con el programa Ene 3.0
n=
Nω 2 + (z1−α / c σ )
2
Detalles técnicos
Basado en el Intervalo de confianza asintótico para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la
proporción de ocurrencia de cierto evento medido en una única muestra
considerando que la población de referencia es de tamaño finito
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción esperada
N >5 Tamaño total de la población en estudio
66 Cálculo del tamaño muestral con el programa Ene 3.0
ω = z1−α / c
(N − n ) p (1 − p )
1 1
Nn
Detalles técnicos
Basado en Intervalo de confianza asintótico para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la
proporción de ocurrencia de cierto evento medido en una única muestra y se
desea realizar un muestreo inverso
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción esperada
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
ne ≥2 Número de efectivos necesarios con evento.
ω (0, 0.5) Precisión. Valores superiores a p1 no tienen sentido. Una
precisión razonable en muestreos inversos es 0.01 (1%)
68 Cálculo del tamaño muestral con el programa Ene 3.0
Las fórmulas utilizadas por esta técnica son las mismas que las utilizadas para
calcular el intervalo de confianza para una proporción. Únicamente es necesario
tener en cuenta que el tamaño de muestra se calcula en relación al número de
sujetos con evento observado en lugar del número total de sujetos en la muestra.
El número de eventos esperado es: neventos = np1.
En ésta técnica no se puede corregir el tamaño de muestra por posibles abandonos
ya que el número de efectivos necesarios con evento no contempla los abandonos.
Detalles técnicos
Basado en Intervalo de confianza para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la
media de una variable de naturaleza continua medida en una única muestra y se
desea realizar un muestreo estratificado.
Los estratos son segmentos de unidades experimentales en cierto sentido
homogéneas respecto la variable de interés.
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2 Bilateral)
j [1,6] Número de estratos que se desean estudiar
σi >0 Desviación típica de la variable respuesta en el estrato i–ésimo
wi (0,1) Porcentaje de unidades experimentales que pertenecen al
estrato i–ésimo respecto del total de unidades experimentales
del estudio. Si el estudio es balanceado, este valor es 1 / j.
ab (0,0.5) Porcentaje esperado de abandonos
70 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros respuesta:
ni ≥2 Tamaño de la muestra en el estrato i–ésimo
nri ≥2 Tamaño de la muestra a reclutar en el estrato i–ésimo
(corregido por posibles abandonos)
ω >0 Precisión que se desea para el intervalo de confianza
Fórmula para la precisión:
σE
ω = z1−α / c
n
Fórmula para el tamaño de muestra en el estrato 1:
j
σ E 2 = ∑ wiσ i 2
i =1
2
⎛ σ ⎞
n1 = w1 ⎜ z1−α / c E ⎟
⎝ ω ⎠
Detalles técnicos
Basado en Intervalo de confianza asintótico para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la
proporción de ocurrencia de cierto evento medido en una única muestra y se
desea realizar un muestreo estratificado.
Los estratos son segmentos de unidades experimentales en cierto sentido
homogéneas respecto la variable de interés.
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
72 Cálculo del tamaño muestral con el programa Ene 3.0
⎛⎛ σE ⎞
2
⎞
⎜
n1 = w1 ⎜ z1−α / c ⎟ + 1⎟
⎜⎝ ω ⎠ ⎟
⎝ ⎠
Detalles técnicos
Basado en Intervalo de confianza para una variable Normal
74 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2 Bilateral)
σ >0 Desviación típica de la población
Μ ≥1 Número medio de unidades experimentales en cada
conglomerado
Parámetros respuesta:
n ≥2 Tamaño de la muestra (número de conglomerados)
nt ≥2 Tamaño de muestra total esperado (número de unidades
experimentales), calculado cómo nt = n × M
ω >0 Precisión
Fórmula para la precisión:
σ
ω = z1−α / c
n×M
Fórmula para el tamaño de muestra:
2
⎛ σ M ⎞
n = ⎜⎜ z1−α / c ⎟⎟
⎝ ω ⎠
Detalles técnicos
Basado en Intervalo de confianza asintótico para una variable Normal
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la
proporción de ocurrencia de cierto evento medido en una única muestra y se
desea realizar un muestreo por conglomerados
Los conglomerados son agrupaciones de un número no muy elevado de unidades
experimentales con elevada heterogeneidad en la variable de interés, de manera
que la observación de todas las unidades experimentales de un mismo
conglomerado proporciona directamente una "buena" estimación del parámetro de
interés.
Parámetros necesarios:
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción de ocurrencia esperada del evento de interés en
cada conglomerado
Μ ≥1 Número medio de unidades experimentales en cada
conglomerado
Parámetros respuesta:
n ≥2 Tamaño de la muestra (número de conglomerados)
nt ≥2 Tamaño de muestra total esperado (número de unidades
experimentales), calculado cómo nt = n × M
p1 (1 − p1 )
ω = z1−α / c
n× M
Fórmula para el tamaño de muestra:
⎞ p (1 − p1 )
2
⎛z
n = ⎜ 1−α / c ⎟ 1
⎝ ω ⎠ M
77
Introducción
El objetivo de estos estudios es la comparación de dos grupos o tratamientos
distintos o de un mismo grupo de sujetos bajo dos circunstancias diferentes. La
comparación se basa en el estudio de la variable respuesta principal, íntimamente
ligada al objetivo del estudio. En particular, se desea comparar un parámetro
(generalmente proporciones o medias) que resuma la variable respuesta principal
del estudio. El ejemplo clásico es la comparación de la eficacia de un tratamiento
experimental frente a la eficacia de un tratamiento de referencia para establecer
que el nuevo tratamiento es superior al tratamiento habitual.
Estos estudios donde se intenta mostrar que la variable respuesta es diferente en
los dos grupos estudiados, reciben el nombre de estudios de no–igualdad.
El objetivo del estudio se puede concretar definiendo las hipótesis nula y
alternativa.
H0: La eficacia de ambos grupos es igual
HA: La eficacia de ambos grupos no es igual
o bien,
H0: La eficacia de ambos grupos es igual
HA: El grupo experimental es superior al de referencia
Se está interesado en realizar una prueba estadística para rechazar la hipótesis
nula y confirmar la hipótesis alternativa. Es deseable utilizar una prueba
estadística que sea potente y pueda detectar con ciertas garantías aquellas
diferencias mínimas que sean relevantes.
Es necesario recordar que la prueba estadística se diseña para poder confirmar la
hipótesis alternativa. Por ejemplo, si una prueba estadística de no–igualdad no
puede rechazar la hipótesis nula, no se puede concluir que los tratamientos sean
equivalentes o iguales. Para contrastar estos objetivos experimentales se
emplearían pruebas específicas (pruebas de no–inferioridad o pruebas de
equivalencia). De manera similar, si una prueba de no–igualdad consigue
rechazar la hipótesis nula, el investigador únicamente puede concluir que las
diferencias no son 0. En caso de querer detectar unas diferencias relevantes desde
un punto de vista experimental, debería emplear pruebas de superioridad
relevante.
De nuevo, en la fase de diseño del estudio, se tratará de responder a las siguientes
preguntas:
79
α/2
α/2
Ζα/2 Ζ1−α/2
β d
Ζ1−α/2 σ0 n
Distribución Distribución
teórica de Z teórica de Z
α/2 1–α 1–β bbajo HA
bajo H0 d
Z1−α/2 σ0 n
β α/2
El gráfico muestra las distribuciones teóricas del estadístico bajo la hipótesis nula
y bajo la hipótesis alternativa. Si el estadístico de la prueba es superior a Z1–α/2,
entonces se rechazará la hipótesis nula.
Si tanto el tamaño de muestra como las diferencias esperadas entre tratamientos
son fijados a partir de un nivel de significación dado, automáticamente se puede
determinar la potencia de la prueba calculando el valor de 1 – β.
Sin embargo, si a priori se fijan los valores de α y β y se conoce d, entonces se
podrá determinar un tamaño de muestra que cumpla los requisitos especificados.
Ahora se puede intentar responder a la pregunta clave: ¿Cuántos sujetos son
necesarios para rechazar mediante una prueba Z bilateral con un nivel de
significación α, la hipótesis nula de igualdad entre tratamientos fijando una
potencia de 1 – β, y cuando en realidad, las diferencias esperadas son del orden de
d unidades?
Para rechazar la hipótesis nula con un nivel de significación α en una prueba
bilateral, es necesario que el estadístico calculado bajo H0 sea superior al cuantil 1
– α/2 (Z1 – α/2) de la distribución Normal estándar:
X − μR
Z= > Z1−α / 2 es decir,
σ0 n
P ( Z > Z1−α / 2 | H 0 ) = α / 2
De igual modo, si las diferencias que se esperan entre tratamientos son de signo
negativo, los cálculos se harían utilizando “< Zα/2”.
82 Cálculo del tamaño muestral con el programa Ene 3.0
d
= P( Z A > Z1−α / 2 − | H A) = 1− β
σ0 n
Por otro lado, es claro que si ZA es una variable con distribución Normal estándar,
entonces:
P( Z A > Z β | H A ) = 1 − β
n=
(Z 1−α / 2 + Z1−β )
2
Δ2
Δ es el tamaño del efecto y representa la diferencia estandarizada, que se espera
observar entre tratamientos. La estandarización se consigue dividiendo por la
desviación estándar. De este modo, dados dos experimentos distintos, se podrán
comparar sus tamaños del efecto. De forma más formal, se define como:
83
μE − μR
Δ=
σ0
(
1 − β = Φ Δ n − Z1−α )
Una vez halladas las expresiones para determinar n, Δ y 1 – β, se puede
comprobar qué factores determinan y en qué grado influyen tanto en el número de
sujetos como en el tamaño del efecto que la prueba puede detectar.
Diferencia esperada
Si la diferencia esperada entre tratamientos es elevada, entonces el estudio
requerirá pocos sujetos para conseguir detectar diferencias. Al diseñar un estudio,
se debe especificar los promedios esperados para cada grupo. En ocasiones, si se
trata de un estudio inicial, tal cantidad es desconocida. El investigador puede
llevar a cabo los cálculos del TM que le permitirían detectar la hipótesis
experimental a partir de las diferencias mínimas clínicamente relevantes, es decir,
especificando unas diferencias esperadas iguales a la mínima magnitud de
relevancia clínica.
Potencia
La potencia de la prueba está relacionada con la capacidad de detectar la hipótesis
alternativa. En este sentido, si se desea una potencia elevada, será necesario un
número elevado de sujetos. Habitualmente se fija la potencia en el 80 – 90%.
No obstante pueden diseñarse estudios cuya potencia sea del 95% si se considera
que será muy difícil reproducirlo. De este modo prácticamente se asegura la
detección de la hipótesis alternativa si es cierta. Nunca puede utilizarse una
potencia superior a 1 – α, ya que sería contradictorio con el carácter conservador
de la prueba estadística.
Nivel de significación
Si el investigador desea realizar una prueba con un nivel de significación pequeño
deberá incluir más individuos en el estudio. Reducir el nivel de significación
implica una actitud más conservadora para rechazar la hipótesis nula. Sólo se
rechazaría si las evidencias son clarísimas. Es habitual considerar un nivel de
significación igual a 0.05.
Bilateral / Unilateral
En el caso de utilizar una prueba unilateral, el número de sujetos necesarios para
conseguir determinada potencia será menor. No obstante el caso bilateral
proporciona información más válida. El caso unilateral debe aplicarse únicamente
cuando las diferencias en la dirección opuesta no tienen ningún sentido.
Prueba T
Finalmente, es importante notar que las fórmulas implementadas en el programa
Ene 3.0 para la comparación de medias están ajustadas en relación a las descritas
anteriormente. La diferencia básica consiste en que las fórmulas del programa Ene
3.0 contemplan que se realizará la prueba t–Student en lugar de la prueba Z.
85
Aunque la desviación estándar debe ser anticipada en ambos casos para calcular el
tamaño de muestra, al llevar a cabo la prueba estadística, la prueba t – Student
utilizará la desviación muestral (S) calculada a partir de los propios datos de la
muestra en lugar de la desviación teórica. Esta corrección implica que las
fórmulas resultantes son mucho más complejas. No obstante, las fórmulas
descritas anteriormente son aproximaciones válidas y aceptadas que permiten
ejemplificar todo el proceso llevado a cabo.
Por ejemplo, la fórmula resultante para el cómputo de la potencia en una prueba
de no igualdad entre la media de una muestra y un valor teórico es la siguiente:
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, nΔ2 )
siendo dfe = n − 1 , F –1 la función IDF de una variable con distribución F y Fnc la
función CDF de una variable con distribución F – no centrada.
De hecho, las mismas que en los casos anteriores pero expresadas directamente en
función de las diferencias entre parejas. El estadístico de la prueba vuelve a ser el
mismo que en la comparación de una muestra frente a un valor teórico. De hecho,
si se calcula la variable diferencia para cada pareja, tenemos una única muestra,
cuyo promedio se desea comparar con el valor teórico 0.
En este caso, existe una nueva particularidad que afecta al parámetro desviación
estándar y que es importante tener en cuenta. La desviación estándar debe ser de
la variable diferencia. Si X es la variable correspondiente a la primera muestra e Y
es la variable correspondiente a la segunda muestra, entonces se define la variable
D = X – Y.
Suponiendo que la desviación estándar de X es σ X y que la desviación estándar de
Y es σ Y, entonces se puede comprobar que la desviación estándar de D es:
σ D = σ X 2 + σ Y 2 − 2 cov( X , Y )
que corresponde a:
H0: log(μE ) = log(μR )
HA: log(μE ) ≠ log(μR )
σ log( y ) = log(1 + CV y2 )
Ejemplos
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para la media de una muestra
frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en una única muestra y la
hipótesis experimental es de no igualdad entre el grupo experimental y un valor
teórico
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
μ1 Media teórica de Referencia
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador, de forma que
represente la magnitud que produce la mínima diferencia
clínicamente relevante
σ >0 Desviación típica. Este valor se suele obtener de la
bibliografía o de un estudio piloto previo
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
Δ >0 Tamaño del efecto. Tamaño del efecto detectable por la prueba
estadística
Fórmula para la potencia:
μ 2 − μ1
Δ=
σ
dfe = n − 1
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, nΔ2 )
93
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra y para el tamaño del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Se asume que la distribución de la variable respuesta es Normal y que la prueba
estadística para rechazar la hipótesis nula será la prueba t–Student para una
muestra. Si la variable respuesta no cumple el requisito de Normalidad, es
necesario que el tamaño de muestra sea suficientemente grande para que los
resultados sean buenas aproximaciones.
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para las medias de dos muestras
independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
independientes y la hipótesis experimental es de no igualdad entre ambos
grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador de forma que
represente la magnitud que produce la mínima diferencia
relevante
σ >0 Desviación típica conjunta. Este valor se suele obtener de la
bibliografía o de un estudio piloto previo
w1 (0,1) Proporción de la muestra en el Grupo de referencia respecto
del total de la muestra
95
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
siendo F–1 la función IDF de una variable con distribución F y Fnc la función CDF
de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra en el grupo de referencia y para el tamaño
del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para las medias de dos muestras
relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
relacionadas y la hipótesis experimental es de no igualdad entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador de forma que
represente la magnitud que produce la mínima diferencia
relevante
σ >0 Desviación típica de la diferencia. Este valor se suele obtener
de la bibliografía o de un estudio piloto previo
ab (0,0.5) Porcentaje esperado de abandonos
98 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo. Número de parejas
nr ≥2 Tamaño de la muestra a reclutar. Número de parejas
(corregido por posibles abandonos)
Fórmula para la potencia:
μ 2 − μ1
Δ=
σ
dfe = n p − 1
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n p Δ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra (número de parejas) y para el tamaño del
efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para las medias de dos muestras
independientes con la corrección de Satterthwaite
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
independientes, la hipótesis experimental es de no igualdad entre ambos grupos
y las desviaciones estándar para cada grupo no son iguales
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
100 Cálculo del tamaño muestral con el programa Ene 3.0
dfe1 = e1 / e2
dfe2 = u1 / u 2
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe1 ),1, dfe2 , nΔ2 )
donde
c1 = σ 12 /( n12 − n1 )
c2 = σ 22 /(n22 − n2 )
101
e1 = c12 (n1 − 1)(n1 + 1) + 2c1 (n1 − 1)c2 (n2 − 1) + c22 (n2 − 1)(n2 + 1)
e2 = c12 (n1 + 1) + c22 (n2 + 1)
u1 = (σ 12 w1 / n + σ 22 (1 − w1 ) / n )
2
( )2
( )
u 2 = σ 12 w1 / n / (n1 − 1) + σ 22 (1 − w1 ) / n / (n2 − 1)
2
siendo F–1 la función IDF de una variable con distribución F y Fnc la función CDF
de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra en el grupo de referencia:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para la media de una muestra
frente a un valor teórico en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en una única muestra y la
hipótesis experimental es de no igualdad entre el grupo experimental y un valor
teórico
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
μ1 >0 Media teórica de Referencia en escala natural
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador, de
forma que represente la magnitud que produce la mínima
diferencia clínicamente relevante
103
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra y para el tamaño del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para las medias de dos muestras
independientes en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en dos muestras
independientes y la hipótesis experimental es de no igualdad entre ambos
grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador de
forma que represente la magnitud que produce la mínima
diferencia relevante
σ >0 Desviación típica conjunta en escala logarítmica. Este valor se
suele obtener de la bibliografía o de un estudio piloto previo
w1 (0,1) Proporción de la muestra en el Grupo de referencia respecto
del total de la muestra
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra efectivo del grupo de referencia
nr1 ≥2 Tamaño de la muestra a reclutar del grupo de referencia
(corregido por posibles abandonos)
Δ >0 Tamaño del efecto. Tamaño del efecto detectable por la prueba
estadística
106 Cálculo del tamaño muestral con el programa Ene 3.0
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
siendo F–1 la función IDF de una variable con distribución F y Fnc la función CDF
de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra en el grupo de referencia y para el tamaño
del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student. Se asume que la distribución de la variable respuesta es log–Normal y
que la prueba estadística para rechazar la hipótesis nula será la prueba t–Student
para dos muestras independientes en escala logarítmica.
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para las medias de dos muestras
relacionadas en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en dos muestras
relacionadas y la hipótesis experimental es de no igualdad entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador de
forma que represente la magnitud que produce la mínima
diferencia relevante
108 Cálculo del tamaño muestral con el programa Ene 3.0
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n p Δ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra (número de parejas) y para el tamaño del
efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la prueba χ2 para una proporción frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en una única muestra y la
hipótesis experimental es de no igualdad entre el grupo experimental y un valor
teórico
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción teórica del grupo de Referencia. Proporción de
ocurrencia teórica de referencia
p2 (0,1) Proporción del grupo Experimental. Proporción de ocurrencia
esperada en el grupo experimental
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
111
Detalles técnicos
Basado en la Prueba χ2 para dos proporciones de muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
independientes y la hipótesis experimental es de no igualdad entre el grupo
experimental y un valor teórico
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción del grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia.
p2 (0,1) Proporción del grupo Experimental. Proporción de ocurrencia
esperada del evento de interés en el grupo experimental
w1 (0,1) Proporción de la muestra en el Grupo de referencia respecto
del total de la muestra
113
(1 + ϕ ) p(1 − p ) + Z1−β
2
⎛⎜ Z ϕp1 (1 − p1 ) + p2 (1 − p2 ) ⎞⎟
1−α / c
n1 = ⎝ ⎠
ϕ | p2 − p1 |2
Detalles técnicos
Basado en la Prueba de McNemar para dos proporciones de muestras relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
relacionadas y la hipótesis experimental es de no igualdad entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción del grupo de Referencia. Proporción de
ocurrencias esperada del evento de interés en el grupo o
periodo de referencia
p2 (0,1) Proporción del grupo Experimental. Proporción de ocurrencias
esperada del evento de interés en el grupo o periodo
experimental
pd |p2 – p1|<pd<1 Proporción de parejas que cambiarán de valor (parejas
discordantes)
ab (0,0.5) Porcentaje esperado de abandonos
116 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
np ≥2 Tamaño de la muestra efectivo. Número de parejas
nrp ≥2 Tamaño de la muestra a reclutar. Número de parejas
(corregido por posibles abandonos)
Fórmula para la potencia:
⎛ ⎞
⎜ n p2 − p1 − Z1−α / c pd ⎟
1 − β = Φ⎜ ⎟
⎜ p − p − p
2
⎟
⎝ d 2 1 ⎠
Introducción
El objetivo habitual de algunos ensayos es la demostración de la superioridad (o
no–igualdad) del tratamiento experimental frente a un tratamiento de referencia (o
bien frente a un placebo). Estos casos se han tratado en los apartados anteriores.
En ocasiones el interés del estudio consiste en demostrar que dos tratamientos son
equivalentes dentro de un determinado rango, demostrar que el tratamiento
experimental es no–inferior a determinado límite o bien demostrar que las
diferencias son clínicamente relevantes.
Los estudios de equivalencia o de no–inferioridad son interesantes cuando el
tratamiento experimental ofrece las mismas garantías en cuanto a la eficacia
requerida, sin ser mejor, pero que puede proporcionar otras ventajas (facilidad de
administración, menor coste, menos efectos adversos, etc.). También suelen
emplearse cuando ambos tratamientos ofrecen una eficacia muy elevada, de
manera que puede ser difícil o poco realista intentar demostrar la superioridad del
tratamiento experimental.
Los estudios de superioridad relevante permiten detectar no únicamente que los
tratamientos son diferentes (hecho que correspondería a los estudios de no–
igualdad) sino que además pretenden demostrar que las diferencias son superiores
a cierto margen de relevancia experimental.
El objetivo del estudio se puede concretar definiendo las hipótesis nula y
alternativa.
Estudios de Equivalencia
H0: La eficacia de ambos grupos no es equivalente
HA: La eficacia de ambos grupos es equivalente
Estudios de no–inferioridad
H0: El grupo experimental es inferior al grupo de referencia
HA: El grupo experimental no es inferior al grupo de referencia
Prueba T
Tal y como se ha comentado para las técnicas de no–igualdad, en las técnicas de
no–inferioridad, superioridad relevante y equivalencia, el programa Ene 3.0
contempla que se realizará la prueba t–Student en lugar de la prueba Z,
empleando fórmulas mucho más complejas que las descritas a continuación. No
obstante, las fórmulas presentadas en los siguientes apartados son aproximaciones
válidas y aceptadas que permiten ejemplificar todo el proceso llevado a cabo.
119
Eficacia
μE
μR−ε μR μR +ε
En el programa Ene 3.0, el usuario deberá tener en cuenta los siguientes aspectos:
Si la eficacia se mide en términos positivos, deberá introducir un límite de
no–inferioridad negativo. Este límite se mide respecto al grupo de
referencia.
Si la eficacia se mide en términos negativos, se deberá introducir un límite
de no–inferioridad positivo. Este límite se mide respecto al grupo de
referencia.
El valor de la diferencia esperada siempre se mide como la diferencia entre
el tratamiento experimental menos el grupo de referencia.
Ahora se puede observar como influyen los factores que intervienen en el cálculo
del TM para estudios de no–inferioridad.
La potencia, el número de sujetos, la variabilidad, la proporción de sujetos en
cada grupo respecto al total y el nivel de significación, influyen del mismo modo
que en los estudios de no–igualdad. En esta prueba sólo se considera el caso
unilateral. El tamaño del efecto se define a partir de la diferencia esperada y del
límite de no–inferioridad, por lo tanto es necesario observar como influyen ambos
parámetros en el resultado final.
La diferencia esperada
La diferencia esperada siempre debe estar comprendida entre +/– ε. Sin embargo,
considerando la eficacia en términos positivos, si la diferencia esperada d = μE –
μR, es negativa (se estaría asumiendo que el tratamiento experimental es algo peor
que el de referencia), entonces será necesario incluir un número mayor de sujetos
121
Límite de no–inferioridad
Si se considera un límite amplio, hará falta un menor número de sujetos para
confirmar la no–inferioridad habiendo fijado la potencia de la prueba. Si se desea
un límite muy sensible y por lo tanto estrecho, la prueba estadística tendrá menor
potencia o, equivalentemente, será necesario incluir un mayor número de
individuos en el estudio. No obstante, límites amplios pueden incluir el efecto del
grupo placebo, hecho que conduciría a una situación paradójica (asumiendo que
el placebo es inferior) de aceptar la equivalencia del placebo con los demás
tratamientos.
Al utilizar Ene 3.0, en los estudios de no inferioridad, cuando la eficacia se mide
en términos positivos, se deberá introducir un valor menor que 0 (mayor que 0 si
la eficacia se mide en términos negativos).
Eficacia
μE
μR−ε μR μR +ε
⎛ d −ε ⎞
Z ~ N⎜ ,1⎟
⎜ σ 2 (1 nw + 1 nw ) ⎟
⎝ 0 E R ⎠
Siendo de nuevo d=μE – μR la diferencia esperada entre tratamientos y ε el límite
de equivalencia.
Por lo tanto, procediendo de forma similar al caso de no–igualdad, se encontraría
la fórmula para el TM para demostrar superioridad relevante mediante una prueba
Z unilateral.
El tamaño del efecto en estudios de superioridad relevante se puede escribir
como:
| d −ε |
Δ=
σ0
123
En el programa Ene 3.0, el usuario deberá tener en cuenta los siguientes aspectos:
Si la eficacia se mide en términos positivos, deberá introducir un límite de
superioridad relevante positivo. Este límite se mide respecto al grupo de
referencia.
Si la eficacia se mide en términos negativos, se deberá introducir un límite
de superioridad relevante negativo. Este límite se mide respecto al grupo de
referencia.
El valor de la diferencia esperada siempre se mide como la diferencia entre
el tratamiento experimental menos el grupo de referencia.
Los factores que intervienen en el cálculo del TM para estudios de superioridad
relevante son los mismos que en los estudios de no–inferioridad sin embargo,
exicten pequeñas diferencias en la interpretación de los siguientes parámetros:
La diferencia esperada
La diferencia esperada siempre no puede estar comprendida entre +/– ε. Cuanto
mayor sea la diferencia esperada, menor será el tamaño de muestra requerido.
Eficacia
μE
μR−ε μR μR +ε
Distribución Distribución
Distribución
teórica de Z teórica de Z
teórica de Z
bajo H01 bajo HA bajo H02
1–α 1–α
1–β
β/2 β/2
α
125
El gráfico muestra las distribuciones teóricas del estadístico bajo la hipótesis nula
y bajo la hipótesis alternativa.
De hecho se trata de dos pruebas de no–igualdad unilaterales y no centradas entre
dos medias de muestras independientes. El estadístico de contraste para ambas
pruebas es similar al utilizado en las pruebas de no–igualdad.
En la primera prueba se tiene que el estadístico de contraste es:
XE − XR +ε
Z= ~ N(0,1) bajo la hipótesis nula.
σ 0 (1 nwE + 1 nwR )
2
SE = σ 0 (1 nwE + 1 nwR )
2
ε XE − XR ε
Z1−α − < < Zα +
SE SE SE
Para obtener una potencia de 1 – β sería necesario que bajo la hipótesis alternativa
ε XE − XR ε
P( Z1−α − < < Zα + | H A) = 1− β
SE SE SE
Bajo la hipótesis alternativa, el término
XE − XR d
ZA = ~ N ( ,1)
SE SE
donde d=μE – μR. Sin embargo, debido a que se está intentando demostrar
equivalencia, la suposición natural sería d=0. La suposición d≠0 implica una
pérdida de la simetría y requiere nuevos métodos numéricos para determinar el
TM.
De este modo, se asume que d=0 para proseguir con los detalles técnicos:
XE − XR
ZA = ~ N (0,1)
SE
ε XE − XR ε
P ( Z1−α − < < Zα + | H A ) = 1− β ,
SE SE SE
Ahora,
ε ε
P ( Z1−α − < Z A < Zα + | H A) = 1− β
SE SE
y utilizando las propiedades de los cuantiles y agrupando términos,
ε ε
P ( Z1−α − < Z A < −( Z1−α − ) | H A ) = 1− β
SE SE
Debido a que ZA es una variable Normal estándar centrada, se puede buscar un
intervalo de forma que:
P(− Z1− β / 2 < Z A < Z1− β / 2 | H A ) = 1 − β
son asintóticas, de forma que para tamaños de muestra elevados, los resultados
serán más fiables.
Sin embargo, habitualmente, se utilizan las fórmulas corregidas para contemplar
que la desviación estándar del estadístico bajo la hipótesis nula y alternativa no es
la misma.
El resto de consideraciones realizadas en las pruebas de no–igualdad para
variables cuantitativas binarias son igualmente aplicables en este tipo de estudios.
Ejemplos
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para la media de una muestra
frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en una única muestra y la
hipótesis experimental es de no inferioridad entre el grupo experimental y un
valor teórico
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media teórica de Referencia
133
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
134 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para la media de una
muestra frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en una única muestra y la
hipótesis experimental es de superioridad relevante entre el grupo experimental
y un valor teórico
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media teórica de Referencia.
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador.
136 Cálculo del tamaño muestral con el programa Ene 3.0
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra y para el tamaño del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
137
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para la media de
una muestra frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en una única muestra y la
hipótesis experimental es de equivalencia entre el grupo experimental y un valor
teórico
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media teórica de Referencia
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador. Es habitual
considerar ambas medias iguales.
ε |ε|>|μ2 – μ1| Límite de equivalencia respecto del grupo de referencia.
Este valor suele considerarse igual al margen de equivalencia
clínicamente relevante.
σ >0 Desviación típica. Este valor se suele obtener de la
bibliografía o de un estudio piloto previo
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
Δ >0 Tamaño del efecto. Tamaño del efecto detectable por la prueba
estadística
Fórmula para la potencia:
| ε | − | μ 2 − μ1 |
Δ=
σ0
dfe = n − 1
139
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra y para el tamaño del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student unilateral de no–inferioridad para las medias dos
muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
independientes y la hipótesis experimental es de no inferioridad entre ambos
grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía.
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador. Es habitual
considerar ambas medias iguales.
141
Fórmula para el tamaño de muestra del grupo de Referencia y para el tamaño del
efecto:
Se obtienen solucionando de forma numérica la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student unilateral de superioridad relevante para las
medias de dos muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
independientes y la hipótesis experimental es de superioridad relevante entre
ambos grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía.
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador.
144 Cálculo del tamaño muestral con el programa Ene 3.0
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
145
Fórmula para el tamaño de muestra del grupo de Referencia y para el tamaño del
efecto:
Se obtienen solucionando de forma numérica la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para las medias de
dos muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
independientes y la hipótesis experimental es de equivalencia entre ambos
grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía.
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador. Es habitual
considerar ambas medias iguales.
ε |ε|>|μ2 – μ1| Límite de equivalencia respecto del grupo de referencia.
Este valor suele considerarse igual al margen de equivalencia
clínicamente relevante.
σ >0 Desviación típica conjunta. Este valor se suele obtener de la
bibliografía o de un estudio piloto previo
147
dfe = n1 / w1 − 2
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para las medias de dos muestras
relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
relacionadas y la hipótesis experimental es de no inferioridad entre ambos
grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía.
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador. Es habitual
considerar ambas medias iguales.
ε |ε|>|μ2 – μ1| Límite de no-inferioridad respecto del grupo de referencia.
Este valor suele considerarse igual al margen de no-
inferioridad clínicamente relevante. Es importante observar
que si la eficacia se mide en términos positivos, se deseará
demostrar que μE > μR - ε. De este modo, deberá introducirse el
valor - ε. Si la eficacia se mide en términos negativos (por lo
tanto se trata de un estudio de no-superioridad), se deseará
demostrar que μE < μR + ε y el valor introducido deberá ser + ε
σ >0 Desviación típica de la variable diferencia. Este valor se suele
obtener de la bibliografía o de un estudio piloto previo
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo. Número de parejas
150 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para las medias de dos
muestras relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
relacionadas y la hipótesis experimental es de superioridad relevante entre
ambos grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
152 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía.
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador.
ε |ε|<|μ2 – μ1| Límite de superioridad relevante respecto del grupo de
referencia. Este valor suele considerarse igual al margen de
superioridad clínicamente relevante. Es importante observar
que si la eficacia se mide en términos positivos, se deseará
demostrar que μE > μR + ε. De este modo, deberá introducirse
el valor + ε. Si la eficacia se mide en términos negativos (por
lo tanto se trata de un estudio de inferioridad relevante), se
deseará demostrar que μ E < μR - ε y el valor introducido
deberá ser - ε
σ >0 Desviación típica de la variable diferencia. Este valor se suele
obtener de la bibliografía o de un estudio piloto previo
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo. Número de parejas
nr ≥2 Tamaño de la muestra a reclutar. Número de parejas
(corregido por posibles abandonos)
Δ >0 Tamaño del efecto. Tamaño del efecto detectable por la prueba
estadística
Fórmula para la potencia:
μ 2 − μ1 − ε
Δ=
σ
dfe = n − 1
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra (número de parejas) y para el tamaño del
efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para las medias de
dos muestras relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en dos muestras
relacionadas y la hipótesis experimental es de equivalencia entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía.
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador. Es habitual
considerar ambas medias iguales.
ε |ε|>|μ2 – μ1| Límite de equivalencia respecto del grupo de referencia.
Este valor suele considerarse igual al margen de equivalencia
clínicamente relevante.
σ >0 Desviación típica de la variable diferencia. Este valor se suele
obtener de la bibliografía o de un estudio piloto previo
155
dfe = n − 1
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de no–inferioridad para una
proporción frente a un valor teórico
157
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción teórica del grupo de Referencia. Proporción de
ocurrencia teórica de referencia
p2 (0,1) Proporción grupo Experimental. Proporción de ocurrencia
esperada del evento de interés en el grupo experimental. Es
habitual considerarlo exactamente igual al porcentaje del
grupo de Referencia
ε |ε|>|p2 – p1|Límite de no-inferioridad respecto del grupo de referencia.
Este valor suele considerarse igual al margen de no-
inferioridad clínicamente relevante. Si la eficacia se mide en
términos positivos, el investigador deseará demostrar que pE >
pR - ε. De este modo, deberá introducir el valor - ε. Si la
eficacia se mide en términos negativos (por lo tanto se trata de
un estudio de no-superioridad), deseará demostrar que pE < pR
+ ε. El valor introducido deberá ser + ε
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
158 Cálculo del tamaño muestral con el programa Ene 3.0
( p1 + ε )(1 − ( p1 + ε )) + Z1−β p2 (1 − p2 ) ⎞
2
⎛Z
n = ⎜ 1−α ⎟
⎜
⎝ p2 − ( p1 + ε ) ⎟
⎠
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de superioridad relevante para
una proporción frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en una única muestra y la
hipótesis experimental es de superioridad relevante entre el grupo experimental
y un valor teórico
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción teórica del grupo de Referencia. Proporción de
ocurrencia teórica de referencia
160 Cálculo del tamaño muestral con el programa Ene 3.0
( p1 + ε )(1 − ( p1 + ε )) + Z1−β p2 (1 − p2 ) ⎞
2
⎛Z
n = ⎜ 1−α ⎟
⎜
⎝ p2 − ( p1 + ε ) ⎟
⎠
Las fórmulas se basan en la aproximación asintótica Normal para proporciones.
Para obtener buenas aproximaciones es necesario que el tamaño de muestra sea
relativamente elevado.
161
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral doble de equivalencia para una
proporción frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en una única muestra y la
hipótesis experimental es de equivalencia entre el grupo experimental y un valor
teórico
162 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción teórica del grupo de Referencia. Proporción de
ocurrencia teórica de referencia
p2 (0,1) Proporción grupo Experimental. Proporción de ocurrencia
esperada del evento de interés en el grupo experimental. Es
habitual considerarlo exactamente igual al porcentaje del
grupo de Referencia
ε |ε|>|p2 – p1|Límite de equivalencia respecto del grupo de referencia. Este
valor suele considerarse igual al margen de equivalencia
clínicamente relevante.
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
Cálculos previos:
Si p2>p1, entonces ε =|ε| ; sino, ε = – |ε|
( p1 + ε )(1 − ( p1 + ε )) + Z (1+β ) / 2 p2 (1 − p2 ) ⎞
2
⎛Z
n = ⎜ 1−α ⎟
⎜
⎝ p2 − ( p1 + ε ) ⎟
⎠
163
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de no–inferioridad para dos
proporciones de muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
independientes y la hipótesis experimental es de no inferioridad entre ambos
grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia
p2 (0,1) Proporción grupo Experimental. Proporción de ocurrencia
esperada del evento de interés en el grupo experimental. Es
165
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra efectivo del grupo de referencia
nr1 ≥2 Tamaño de la muestra a reclutar del grupo de referencia
(corregido por posibles abandonos)
Cálculos previos:
ϕ = 1 / w1 − 1
⎛ n1ϕ ( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
⎝ ⎠
Fórmula para el tamaño de muestra del grupo de Referencia:
n1 =
(z1−α + z1− β ) ( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
2
ϕ ( p2 − p1 − ε )
2
166 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de superioridad para dos
proporciones de muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
independientes y la hipótesis experimental es de superioridad relevante entre
ambos grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia
168 Cálculo del tamaño muestral con el programa Ene 3.0
⎛ n1ϕ ( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
⎝ ⎠
Fórmula para el tamaño de muestra del grupo de Referencia:
n1 =
(z1−α + z1−β ) ( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
2
ϕ ( p2 − p1 − ε )
2
169
Detalles técnicos
Basado en la prueba asintótica Normal unilateral doble de equivalencia para dos
proporciones de muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
independientes y la hipótesis experimental es de equivalencia entre ambos
grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia.
p2 (0,1) Proporción grupo Experimental. Proporción de ocurrencia
esperada del evento de interés en el grupo experimental. Es
habitual considerarlo exactamente igual al porcentaje del
grupo de Referencia
ε |ε|>|p2 – p1|Límite de equivalencia respecto del grupo de referencia. Este
valor suele considerarse igual al margen de equivalencia
clínicamente relevante
w1 (0,1) Proporción de la muestra en el Grupo de referencia respecto
del de la muestra
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α.
n1 ≥2 Tamaño de la muestra efectivo del grupo de referencia
nr1 ≥2 Tamaño de la muestra a reclutar del grupo de referencia
(corregido por posibles abandonos)
Cálculos previos:
ϕ = 1 / w1 − 1
171
⎛ n1ϕ ( p2 − p1 − ε ) ⎞
2
1 − β = 2Φ⎜⎜ − z1−α ⎟⎟ − 1
( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
⎝ ⎠
Fórmula para el tamaño de muestra del grupo de Referencia:
n1 =
(z
1−α + z (1+ β ) / 2 ) ( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
2
ϕ ( p2 − p1 − ε )
2
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de no–inferioridad para dos
proporciones de muestras relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
relacionadas y la hipótesis experimental es de no inferioridad entre ambos
grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia
173
⎛ n( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
⎝
(p d − ( p2 − p1 )
2
) ⎠
Fórmula para el tamaño de muestra (número de parejas):
n=
(z 1−α
2
(
+ z1− β ) pd − ( p2 − p1 )
2
)
(p 2 − p1 − ε )
2
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de superioridad relevante para
dos proporciones de muestras relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
relacionadas y la hipótesis experimental es de superioridad relevante entre
ambos grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia
176 Cálculo del tamaño muestral con el programa Ene 3.0
⎛ n( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
⎝
(p d − ( p2 − p1 )
2
) ⎠
Fórmula para el tamaño de muestra (número de parejas):
n=
(z 1−α
2
(
+ z1− β ) pd − ( p2 − p1 )
2
)
(p 2 − p1 − ε )
2
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral doble de equivalencia para dos
proporciones de muestras relacionadas
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en dos muestras
relacionadas y la hipótesis experimental es de equivalencia entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia
p2 (0,1) Proporción grupo Experimental. Proporción de ocurrencia
esperada del evento de interés en el grupo experimental. Es
habitual considerarlo exactamente igual al porcentaje del
grupo de Referencia
pd: (0,1) Proporción de pares discordantes. Proporción de parejas que
cambiarán de valor entre una muestra y la otra. Este valor se
suele obtener de la bibliografía o de un estudio piloto previo.
ε |ε|>|p2 – p1|Límite de equivalencia respecto del grupo de referencia. Este
valor suele considerarse igual al margen de equivalencia
clínicamente relevante.
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo. Número de parejas
nr ≥2 Tamaño de la muestra a reclutar. Número de parejas
(corregido por posibles abandonos)
Fórmula para la potencia:
⎛ n( p2 − p1 − ε ) ⎞
2
1 − β = 2Φ⎜⎜ − z1−α ⎟⎟ − 1
⎝
(p d − ( p2 − p1 )
2
) ⎠
179
n=
(z 1−α
2
(
+ z(1+ β ) / 2 ) pd − ( p2 − p1 )
2
)
(p 2 − p1 − ε )
2
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para la media de una muestra
en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en una única muestra y la
hipótesis experimental es de no inferioridad entre el grupo experimental y un
valor teórico
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media teórica de Referencia en escala natural
181
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
182 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para la media de una
muestra en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en una única muestra y la
hipótesis experimental es de superioridad relevante entre el grupo experimental
y un valor teórico
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media teórica de Referencia en escala natural.
184 Cálculo del tamaño muestral con el programa Ene 3.0
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
185
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para la media de
una muestra en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en una única muestra y la
hipótesis experimental es de equivalencia entre el grupo experimental y un valor
teórico
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media teórica de Referencia en escala natural
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador. Es
habitual considerar ambas medias iguales.
L |log(L)|>|log(μ2/μ1)| Límite de equivalencia expresado como ratio
respecto del grupo de referencia. Este valor suele considerarse
igual al margen de equivalencia clínicamente relevante.
σ >0 Desviación típica en escala logarítmica. Este valor se suele
obtener de la bibliografía o de un estudio piloto previo
187
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra y para el tamaño del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student unilateral de no–inferioridad para las medias de
dos muestras independientes en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en dos muestras
independientes y la hipótesis experimental es de no inferioridad entre ambos
grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía.
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador. Es
habitual considerar ambas medias iguales.
L |log(L)|>|log(μ2/μ1)| Límite de no-inferioridad expresado como ratio
respecto del grupo de referencia. Este valor suele considerarse
igual al margen de no-inferioridad clínicamente relevante. Es
importante observar que si la eficacia se mide en términos
positivos, se deseará demostrar que μE > μR * L. De este modo,
deberá introducirse un valor < 1. Si la eficacia se mide en
términos negativos (por lo tanto se trata de un estudio de no-
superioridad), se deseará demostrar que μE < μR * L y el valor
introducido deberá ser >1
σ >0 Desviación típica conjunta en escala logarítmica. Este valor se
suele obtener de la bibliografía o de un estudio piloto previo
w1 (0,1) Proporción de la muestra en el Grupo de referencia respecto
del total de la muestra
ab (0,0.5) Porcentaje esperado de abandonos
190 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra efectivo del grupo de referencia
nr1 ≥2 Tamaño de la muestra a reclutar del grupo de referencia
(corregido por posibles abandonos)
Δ >0 Tamaño del efecto. Tamaño del efecto detectable por la prueba
estadística
Fórmula para la potencia:
log(μ 2 ) − log(μ1 ) − log(L )
Δ=
σ
dfe = n1 / w1 − 2
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra del grupo de Referencia y para el tamaño del
efecto:
Se obtienen solucionando de forma numérica la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
disminución de dolor, siendo éste obtenido a partir de una escala visual analógica.
Se decide trabajar con la variable transformada mediante el logaritmo. A partir de
un estudio previo, se sabe que la variable de interés tiene un coeficiente de
variación de 0.5, por lo que aproximadamente, la variable transformada a
logaritmos tiene una desviación estándar de 0.472 (σ=0.472). También se sabe
que la disminución de dolor esperada para el tratamiento placebo es de 10
unidades en la escala original (μ1=10) y para el tratamiento experimental es de 20
unidades (μ2=20). Se decide fijar un límite de Superioridad relevante expresado
como ratio respecto el tratamiento de referencia de 1.33 (L=1.33). Se necesitará
incluir un mínimo de 18 pacientes (n1=18, w1=0.5) por grupo de tratamiento en el
estudio para asegurarse una potencia de l 80% (pow=1-β=0.80) para poder
concluir superioridad relevante con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Comparación de dos medias (escala logarítimica) Æ Dos
muestras independientes Æ Superioridad relevante
Pestaña: Tamaño de muestra
Detalles técnicos
Basado en la Prueba t–Student unilateral de superioridad relevante para las
medias de dos muestras independientes en escala logarítmica
192 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía.
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador.
L |log(L)|<|log(μ2/μ1)| Límite de superioridad relevante expresado como
ratio respecto del grupo de referencia. Este valor suele
considerarse igual al margen de superioridad clínicamente
relevante. Es importante observar que si la eficacia se mide en
términos positivos, se deseará demostrar que μE > μR * L. De
este modo, deberá introducirse un valor > 1. Si la eficacia se
mide en términos negativos (por lo tanto se trata de un estudio
de inferioridad relevante), se deseará demostrar que μE < μR *
L y el valor introducido deberá ser <1
σ >0 Desviación típica conjunta en escala logarítmica. Este valor se
suele obtener de la bibliografía o de un estudio piloto previo
w1 (0,1) Proporción de la muestra en el Grupo de referencia respecto
del total de la muestra
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra efectivo del grupo de referencia
193
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra del grupo de Referencia y para el tamaño del
efecto:
Se obtienen solucionando de forma numérica la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para las medias de
dos muestras independientes en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en dos muestras
independientes y la hipótesis experimental es de equivalencia entre ambos
grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía.
195
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmulas para el tamaño de muestra del grupo de Referencia y para el tamaño
del efecto:
Se obtienen solucionando de forma numérica la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
196 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para las medias de dos muestras
relacionadas en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en dos muestras
relacionadas y la hipótesis experimental es de no inferioridad entre ambos
grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía.
198 Cálculo del tamaño muestral con el programa Ene 3.0
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
199
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para las medias de dos
muestras relacionadas en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en dos muestras
relacionadas y la hipótesis experimental es de superioridad relevante entre
ambos grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía.
201
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
202 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para las medias de
dos muestras relacionadas en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en dos muestras
relacionadas y la hipótesis experimental es de equivalencia entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía.
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador. Es
habitual considerar ambas medias iguales.
L |log(L)|>|log(μ2/μ1)| Límite de equivalencia expresado como ratio
respecto del grupo de referencia. Este valor suele considerarse
igual al margen de equivalencia clínicamente relevante.
σ >0 Desviación típica de la variable cociente en escala logarítmica.
Este valor se suele obtener de la bibliografía o de un estudio
piloto previo
204 Cálculo del tamaño muestral con el programa Ene 3.0
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra (número de parejas) y para el tamaño del
efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Otros Diseños
Introducción
En general, el objetivo de muchos estudios suele ser la comparación de no–
igualdad, no–inferioridad, superioridad relevante o equivalencia de una variable
medida en dos grupos. Habitualmente la respuesta principal se puede resumir
mediante diferencias de medias, proporciones o medias expresadas en escala
logarítmica. Estas situaciones han sido tratadas anteriormente.
Sin embargo, puede ocurrir que la variable respuesta sea una variable cualitativa
ordinal o bien un tiempo de supervivencia.
También puede suceder que en lugar de comparar dos grupos, se esté interesado
en comparar tres o más grupos.
También sería posible que el objetivo fuera medir el efecto de una variable
continúa en la variable respuesta, en lugar de medir el efecto de los distintos
grupos. En esta situación, se puede diferenciar además entre una variable
respuesta continua o una variable respuesta cualitativa binaria (proporción) y si el
modelo está ajustado por otras variables o no.
En algunos estudios iniciales para valorar el efecto de un tratamiento
experimental mediante la comparación de una proporción frente a un valor teórico
el investigador puede estar interesado en llevar a cabo un estudio bietápico.
Todas estas situaciones se engloban aquí en “otros diseños”.
Los detalles generales del razonamiento para calcular el número de sujetos
necesarios para conseguir determinada potencia ya se han comentado en los
capítulos anteriores. En esta sección sólo se incluyen explicaciones sobre los
parámetros nuevos.
∑ w (μ − μ)
2
i i
Δ= i =1
σ2
∑ w (μ − μ ) representa la
2
donde σ es la desviación típica conjunta, y σ = 2
b i i
i =1
j
variabilidad ponderada entre las medias, μ = ∑w μ
i =1
i i es el promedio ponderado
σ b2
Δ=
p (1 − p )
209
donde
J
∑(p − p)
2
i
σ b2 = i =1
J
J
∑p i
p= i =1
J
ρ2
Δ=
1− ρ2
Rk2+h − Rh2
Δ=
1 − Rk2+h
Ejemplos
Se observa que las frecuencias de subtotales por filas y por columnas son
similares
Se calculan las frecuencias relativas por tratamiento (filas)
Poco Fav. Dudoso Favorable Muy Fav. Total
Trat. Experimental 0.167 0.250 0.278 0.306 1.000
Trat. Referencia 0.297 0.297 0.216 0.189 1.000
Se observa que los OR son similares entre sí. Se toma un valor de 2 (or=2).
Además, se desea considerar una prueba bilateral (c =2), fijando la potencia en un
80% (1 – β =0.80) y el nivel de significación en un 5% (α=0.05).
Se necesitará incluir 105 sujetos por grupo de tratamiento (n1=105) en el estudio
para obtener la potencia deseada.
Utilizando Ene 3.0
Otros diseños Æ Dos medianas independientes Æ No igualdad,
variables ordinales
Pestaña: Tamaño de muestra
219
Detalles técnicos:
Basado en la Prueba U de Mann–Whitney para dos muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
mediana de una variable ordinal medida en dos muestras independientes y la
hipótesis experimental es de no igualdad entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
g ≥2 Número de categorías de la variable ordinal. Se asume que el
número total de unidades experimentales en cada categoría de
dicha variable es aproximadamente el mismo
or >0 Odds Ratio. Odds ratio entre grupos para cada categoría. Se
asume que este valor es constante para todas las categorías
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra efectivo del grupo de referencia
nr1 ≥2 Tamaño de la muestra a reclutar del grupo de referencia
(corregido por posibles abandonos)
Fórmula para la potencia:
⎛ ⎛ 1 ⎞n ⎞
1 − β = Φ⎜ log(OR ) ⎜⎜1 − 2 ⎟⎟ 1 − z1−α / c ⎟
⎜ ⎝ g ⎠6 ⎟
⎝ ⎠
n1 =
⎛ 1 ⎞
⎜⎜1 − 2 ⎟⎟(log(OR) )2
⎝ g ⎠
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba
U-Mann-Whitney. En los cálculos se asume que la variable respuesta es ordinal, y
220 Cálculo del tamaño muestral con el programa Ene 3.0
Valores 1 2 3 4 5 Total
Grupo 1 7 6 3 2 2 20
Grupo 2 4 4 6 3 3 20
Total 11 10 9 5 5 40
De este modo se pueden calcular las probabilidades necesarias para los cálculos:
- La probabilidad de seleccionar dos casos uno de cada grupo y que la respuesta
sea estrictamente mayor favorable al grupo experimental es del 52% (px<y=0.52):
P(G1<G2)= P(G1=1 y G2>1) + P(G1=2 y G2>2) + P(G1=3 y G2>3) + P(G1=4 y G2>4)
= (7/20*16/20) + (6/20*12/20) + (3/20*6/20) + (2/20*3/20) =
0.35*0.8 + 0.3*0.6 + 0.15*0.3 + 0.1*0.15 = 0.52
- La probabilidad de que los valores sean iguales es del 20.5% (px=y=0.205):
P(G1=G2)= P(G1=1 y G2=1)+P(G1=2 y G2=2 ) +P(G1=3 y G2=3)+P(G1=4 y G2=4) +P(G1=5 y G2=5)
= (7/20*4/20) + (6/20*4/20) + (3/20*6/20) + (2/20*3/20)+(2/20*3/20)=
0.35*0.2+ 0.3*0.2+ 0.15*0.3+ 0.1*0.15+ 0.1*0.15 =0.205
Se necesitará incluir 88 sujetos por grupo de tratamiento (n1=88, w1=0.5) en el
estudio para obtener un 80% de potencia (pow=1-β=0.80) para detectar
221
diferencias entre los grupos de tratamiento en una prueba bilateral (c=2) con un
nivel de significación del 5% (α=0.05).
Es interesante observar que si no se dispone de la información expresada en forma
de tabla de contingencia, se podría haber llevado a cabo una recodificación de
valores y así obtener una tabla aproximada a partir de la cual se obtendrían los
valores px<y y px=y necesarios para los cálculos.
Detalles técnicos:
Basado en la Prueba U de Mann–Whitney para dos muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
mediana de una variable cuantitaiva medida en dos muestras independientes y
la hipótesis experimental es de no igualdad entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
222 Cálculo del tamaño muestral con el programa Ene 3.0
1 1 (
⎛ n 12w (1 − w )( p + 0.5 p − 0.5)2
1 − β = Φ⎜
1 x< y x= y
⎞
− z1−α / c ⎟
)
⎜ w1 ⎟
⎝ ⎠
n1 =
(12w (1 − w )( p
1 1 x< y + 0.5 p x = y − 0.5)
2
)
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba
U-Mann-Whitney. En los cálculos se asume que la variable respuesta es
cuantitativa.
223
Detalles técnicos:
Basado en la Prueba ANOVA de 1 Factor para muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en más de dos muestras
independientes y la hipótesis experimental es de no igualdad entre todos los
grupos
224 Cálculo del tamaño muestral con el programa Ene 3.0
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
j ≥2 Número de Grupos que se desean comparar
μi Media del grupo i–ésimo
σ >0 Desviación típica conjunta. Este valor se suele obtener de la
bibliografía o de un estudio piloto previo
wi (0,1) Proporción de la muestra en el grupo i–ésimo respecto del
total de la muestra
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra efectivo del grupo 1
nr1 ≥2 Tamaño de la muestra a reclutar del grupo 1 (corregido por
posibles abandonos)
Δ >0 Tamaño del efecto. Tamaño del efecto detectable por la prueba
estadística
Cálculos previos:
j
μ = ∑ wi μi
i =1
j
σ b2 = ∑ wi (μi − μ )
2
i =1
∑ w (μ − μ)
2
i i
Δ= i =1
σ2
Fórmula para la potencia:
dfe = n1 / w1 − j
dfh = j − 1
225
n = n1 w1
(
1 − β = 1 − Fnc F −1 (1 − α , dfh, dfe ), dfh, dfe, nΔ2 )
Fórmulas para el tamaño de muestra del grupo 1 y para el tamaño del efecto:
Se obtienen solucionando de forma numérica las ecuaciones para la potencia. En
los cálculos se utiliza la función de distribución F.
Detalles técnicos:
Basado en la Prueba χ2 para proporciones independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en más de dos muestras
independientes y la hipótesis experimental es de no igualdad entre todos los
grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
j ≥2 Número de Grupos que se desean comparar
pi Proporción de eventos en el grupo i–ésimo
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra efectivo del grupo 1
nr1 ≥2 Tamaño de la muestra a reclutar del grupo 1 (corregido por
posibles abandonos)
227
Cálculos previos:
J
∑p i
p= i =1
J
J
∑(p − p)
2
i
σ b2 = i =1
J
Fórmula para la potencia:
dfh = j − 1
n = n1 w1
⎛ σ b2 ⎞
1 − β = 1 − χ nc ⎜⎜ χ −1 (1 − α , dfh ), dfh, n ⎟
⎝ p (1 − p ) ⎟⎠
Fórmulas para el tamaño de muestra del grupo 1 y para el tamaño del efecto:
Se obtienen solucionando de forma numérica las ecuaciones para la potencia. En
los cálculos se utiliza la función de distribución χ2.
Se asume que la prueba estadística para rechazar la hipótesis nula será una prueba
χ2 para muestras independientes.
Detalles técnicos:
Basado en la Prueba t–Student para un coeficiente de correlación de Pearson
Esta técnica es adecuada cuando el objetivo principal del estudio es contrastar el
coeficiente de un modelo de regresión medido en una única muestra
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
ρ ( – 1,1) Correlación. Coeficiente de correlación de Pearson entre las
dos variables continuas
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
229
⎛ ρ2 ⎞
1 − β = 1 − Fnc ⎜⎜ F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n ⎟⎟
⎝ 1− ρ 2 ⎠
Detalles técnicos:
Basado en la Prueba de Wald para una covariable en un modelo de regresión
logística.
Esta técnica es adecuada cuando el objetivo principal del estudio es contrastar el
coeficiente de un modelo de regresión logística medido en una única muestra
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Probabilidad de ocurrencia del evento cuando la covariable
vale μ (su promedio)
p2 (0,1) Probabilidad de ocurrencia del evento cuando la covariable
vale μ +σ (su promedio más una desviación típica). Este valor
debería representar un incremento relevante en comparación
con p1
ab (0,0.5) Porcentaje esperado de abandonos
231
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
Cálculos previos:
⎛ p (1 − p1 ) ⎞
b = log⎜⎜ 2 ⎟⎟
⎝ p1 (1 − p2 ) ⎠
5b 2
d=
(
1 + 1 + b2 e ) 4
−b 2
1+ e 4
p s = min( p1 ,1 − p1 )
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba t-
Student para el coeficiente de un modelo de regresión logística. Los cálculos son
asimptóticos y proporcionan buenas aproximaciones cuando el Odds Ratio entre
las proporciones p1 y p2 se encuentra entre los valores 0.4 y 2.5.
232 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos:
Basado en la Prueba F para comparar modelos anidados
Esta técnica es adecuada cuando el objetivo principal del estudio es contrastar
uno o varios coeficientes de un modelo de regresión ajustando por otras variables
explicativas obtenidos en una única muestra
233
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
h [0,6] Número de variables iniciales a partir de las cuales se ajustará
el modelo.
R2 h [0,1) Coeficiente de determinación con las variables iniciales
k [1,6] Número de variables añadidas al modelo formado por las
variables iniciales.
R2h+k (R2h,1) Coeficiente de determinación con las variables iniciales y las
variables añadidas
ab (0,0.5) Porcentaje esperado de abandonos
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥h+k+1 Tamaño de la muestra efectivo
nr ≥ h+k+1 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
R2h+k (0,1) Coeficiente de determinación con las variables iniciales y las
variables añadidas
Fórmula para la potencia:
dfe = n − k − h − 1
Rk2+h − Rh2
Δ=
1 − Rk2+h
(
1 − β = 1 − Fnc F −1 (1 − α , k , dfe ), k , dfe, nΔ2 )
Fórmulas para el tamaño de la muestra y para el tamaño del efecto:
Los tamaños muestrales se obtienen solucionando de forma numérica la ecuación
para la potencia. En los cálculos se utiliza la función de distribución F. Se asume
que la distribución de la variable respuesta es Normal y que la prueba estadística
para rechazar la hipótesis nula será una prueba F. Si la variable respuesta no es
Normal, el resultado es asintótico.
234 Cálculo del tamaño muestral con el programa Ene 3.0
Detalles técnicos:
Basado en la Prueba t–Student para un coeficiente de un modelo de regresión
logística
235
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
Cálculos previos:
⎛ p (1 − p1 ) ⎞
b = log⎜⎜ 2 ⎟⎟
⎝ p1 (1 − p2 ) ⎠
5b 2
d=
(
1+ 1+ b e 2
) 4
−b 2
1+ e 4
p s = min( p1 ,1 − p1 )
236 Cálculo del tamaño muestral con el programa Ene 3.0
⎜ (
⎛ nps b 2 1 − Rcov
2
) ⎞
− z1−α / c ⎟
⎜ 1 + 2 ps d ⎟
1 − β = Φ⎜ ⎟
⎛ b ⎞
2
⎜ ⎜− ⎟
⎜ 2 ⎟ ⎟
⎜ e⎝ ⎠ ⎟
⎝ ⎠
Fórmula para el tamaño de muestra:
2
⎛ ⎛ b2 ⎞ ⎞
⎜ ⎜ 2 ⎟ ⎟
⎜− ⎟
n = ⎜ z1−α / c + z1−β e ⎝ ⎠ ⎟
(1 + 2 ps d )
⎜
2
(
⎟ ps b 1 − Rcov
2
)
⎝ ⎠
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba t-
Student para un coeficiente de un modelo de regresión logística ajustado por otras
variables. Los cálculos son asimptóticos y proporcionan buenas aproximaciones
cuando el Odds Ratio entre las proporciones p1 y p2 se encuentra entre los valores
0.4 y 2.5.
Detalles técnicos:
Basado en la Prueba Log–Rank para dos muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
tiempo de supervivencia medido en dos muestras independientes y la hipótesis
experimental es de no igualdad entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Probabilidad de Supervivencia en el instante T en el grupo de
Referencia. T suele ser el período del estudio
p2 (0,1) Probabilidad de Supervivencia en el instante T en el grupo
Experimental. T suele ser el período de estudio. Debe
representar el valor del mínimo efecto relevante
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra en el grupo de referencia
238 Cálculo del tamaño muestral con el programa Ene 3.0
⎛
1 − β = Φ n1 (2 − p1 − p2 )
⎜ (h − 1)
2
− z
⎞
⎟
⎜
⎝ (h + 1)2 1−α / c
⎟
⎠
Fórmula para el tamaño de muestra del grupo de Referencia:
n1 =
(z
1−α / c + z1− β ) (h + 1)
2 2
(2 − p1 − p2 )(h − 1)2
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba
Log-Rank. En esta técnica no es posible llevar a cabo la corrección del tamaño de
muestra por el porcentaje esperado de abandonos ya que tales casos se consideran
datos censurados y se contemplan directamente en los cálculos.
Detalles técnicos:
Basado en la Prueba Log–Rank para dos muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
tiempo de supervivencia medido en dos muestras independientes y la hipótesis
experimental es de no igualdad entre ambos grupos
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
inc >0 Duración del período de inclusión
seg >0 Duración máxima del período de seguimiento
med1 >0 Mediana del tiempo de supervivencia en el grupo de referencia
med2 >0 Mediana del tiempo de supervivencia en el grupo experimental
240 Cálculo del tamaño muestral con el programa Ene 3.0
medab >0 Mediana del tiempo hasta censura. Es decir, abandono por
otras causas no relacionadas con el estudio
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra en el grupo de referencia
ne ≥2 Número total de eventos a observar. Este parámetro
proporciona información adicional para poder valorar si el
estudio es factible
Cálculos previos:
log(2)
λi =
medi
log(2)
λab =
med ab
h = λ2 / λ1
⎛ ⎛λ ⎞ n1 ⎞
1 − β = Φ⎜⎜ log⎜⎜ 2 ⎟⎟ − z1−α / c ⎟⎟
⎝ ⎝ λ1 ⎠ 1 / e1 + 1 / e2 ⎠
Fórmula para el tamaño de muestra del grupo de Referencia:
2
⎛ z1− β + z1−α / c ⎞
n1 = ⎜⎜ ⎟⎟ (1 / e1 + 1 / e2 )
⎝ log (λ 2 ) − log (λ )
1 ⎠
241
2
⎛ z + z1−α / c ⎞
ne = 4⎜⎜ 1− β ⎟⎟
⎝ log(h ) ⎠
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba
Log-Rank. Se asume que las funciones de supervivencia son exponenciales (esta
suposición es restrictiva, y debe ser validada). En esta técnica no es posible llevar
a cabo la corrección del tamaño de muestra por el porcentaje esperado de
abandonos ya que tales casos se consideran datos censurados y se contemplan
directamente en los cálculos al introducir la tasa esperada de censurados.
Detalles técnicos:
Basado en la Prueba Log–Rank para dos muestras independientes
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
tiempo de supervivencia medido en dos muestras independientes y la hipótesis
experimental es de no inferioridad entre ambos grupos
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
inc >0 Duración del período de inclusión
seg >0 Duración máxima del período de seguimiento
med1 >0 Mediana del tiempo de supervivencia en el grupo de referencia
med2 (=med1) Mediana del tiempo de supervivencia en el grupo experimental
243
medab >0 Mediana del tiempo hasta censura. Es decir, abandono por
otras causas no relacionadas con el estudio
hi >0, ≠1 Límite de no-inferioridad respecto el grupo de referencia
expresado como ratio. Este valor suele considerarse igual al
margen de no-inferioridad clínicamente relevante en términos
multiplicativos. Es importante observar que si la variable
tiempo mide eventos negativos (tiempo hasta la mortalidad),
se deseará demostrar que la supervivencia es no-inferior (med2
> med1*hi). De este modo, deberá introducirse un valor < 1. Si
la variable tiempo mide eventos positivos (tiempo hasta
recuperación), se deseará demostrar que la curva de
supervivencia es no-superior (med2 < med1*hi). De este modo,
deberá introducirse un valor > 1
Parámetros respuesta:
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n1 ≥2 Tamaño de la muestra en el grupo de referencia
ne ≥2 Número total de eventos a observar. Este parámetro
proporciona información adicional para poder valorar si el
estudio es factible
Cálculos previos:
log(2)
λi =
medi
log(2)
λab =
med ab
⎛ n1 ⎞
1 − β = Φ⎜⎜ log(hi ) − z1−α ⎟⎟
⎝ 1 / e1 + 1 / e2 ⎠
Fórmula para el tamaño de muestra del grupo de Referencia:
2
⎛z +z ⎞
n1 = ⎜⎜ 1−β 1−α ⎟⎟ (1 / e1 + 1 / e2 )
⎝ log(hi ) ⎠
2
⎛z +z ⎞
ne = 4⎜⎜ 1−β 1−α ⎟⎟
⎝ log(hi ) ⎠
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba
Log-Rank. Se asume que las funciones de supervivencia son exponenciales (esta
suposición es restrictiva, y debe ser validada). En esta técnica no es posible llevar
a cabo la corrección del tamaño de muestra por el porcentaje esperado de
abandonos ya que tales casos se consideran datos censurados y se contemplan
directamente en los cálculos al introducir la tasa esperada de censurados.
Detalles técnicos
Basado en la prueba unilateral binomial exacta para una proporción frente a un
valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
proporción de ocurrencia de cierto evento medido en una única muestra, la
hipótesis experimental es de no igualdad entre el grupo experimental y un valor
teórico y se desea llevar a cabo un estudio secuencial bietápico (método de
Simon). Suele emplearse en ensayos clínicos en Fase II.
Parámetros necesarios:
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
p1 (0,1) Proporción teórica del grupo de Referencia. Proporción de
ocurrencia teórica de referencia
p2 (0,1) Proporción del grupo Experimental. Proporción de ocurrencia
esperada en el grupo experimental
246 Cálculo del tamaño muestral con el programa Ene 3.0
j =0 ⎝ j ⎠
min ( n2 ,r1 + r2 )
⎛ ⎛ n1 ⎞ i r1 + r2 −i
⎛n ⎞ ⎞
PLT 0 = ∑ ⎜ ⎜⎜ ⎟⎟ p1 (1 − p1 )n1 −i ∑ ⎜⎜ 2 ⎟⎟ p1j (1 − p1 )n2 − j ⎟
⎜ i ⎟
i =r1 +1 ⎝⎝ ⎠ j =0 ⎝ j ⎠ ⎠
⎛n ⎞
r1
PET 1 = ∑ ⎜⎜ 1 ⎟⎟ p j (1 − p ) 1
n −j
j =0 ⎝ j ⎠
r1
⎛n ⎞
PET 1 = ∑ ⎜⎜ 1 ⎟⎟ p2j (1 − p2 ) 1
n −j
j =0 ⎝ j ⎠
min ( n2 ,r1 + r2 )
⎛ ⎛ n1 ⎞ i r1 + r2 −i
⎛n ⎞ ⎞
PLT 1 = ∑ ⎜ ⎜⎜ ⎟⎟ p2 (1 − p2 )n1 −i ∑ ⎜⎜ 2 ⎟⎟ p2j (1 − p2 )n2 − j ⎟
⎜ i ⎟
i =r1 +1 ⎝⎝ ⎠ j =0 ⎝ j ⎠ ⎠
EN 0 = n1 + (1 − PET 0 )n2
α = 1 − PET 0 − PLT 0
1 − β = 1 − PET 1 − PLT 1
Donde EN0 es el número total esperado de sujetos incluidos en el estudio bajo la
suposición de igualdad entre grupos.
247
La distribución Normal
La distribución Normal es la distribución teórica más importante debido a sus
excelentes propiedades. Se dice que una variable aleatoria sigue una distribución
Normal si su función de densidad es:
2
1 1 ⎛ x−μ ⎞
f (x ) = e
− ⎜
2⎝ σ ⎠
⎟
2πσ
X+c ~ N(μ+c,σ)
X – μ ~ N(0,σ)
aX ~ N(aμ,aσ)
X
~ N(μ,1)
σ
X −μ
~ N (0,1)
σ
Cuando una variable tiene una distribución Normal con media 0 y
desviación 1 se dice que sigue una distribución Normal Estándar. Esto
implica que es suficiente estudiar las propiedades de la distribución Normal
Estándar para conocer el comportamiento de cualquier variable cuya
distribución sea Normal.
250 Cálculo del tamaño muestral con el programa Ene 3.0
∑=1 X i
σ
X= i
~ N (μ , )
n n
y por lo tanto,
X −μ
~ N (0,1)
σ n
Z γ = Φ −1 (γ ) = c
Por ejemplo,
Z 0.159 = −1
Z 0.975 = 1.96
Z 0.841 = 1
Z 0.025 = −1.96
Z 0.95 = 1.645
Ejemplos de cuantiles de la distribución Normal estándar
Un 95% de los posibles valores son Un 97.5% de los posibles valores son
inferiores a 1.645 ( Z 0.95 = 1.645 ) inferiores a 1.96 ( Z 0.975 = 1.96 )
Intervalo de Confianza
El intervalo de confianza para un parámetro permite reflejar la información
recogida de una muestra mostrando una estimación puntual y un margen de
precisión, proporcionando además un resultado fácilmente interpretable.
sigue aproximadamente una distribución Normal Estándar. Para una variable con
tal distribución, la probabilidad que una observación en particular esté
comprendida entre los valores –1.96 y 1.96 es del 95%:
P (1.96 ≤ Z ≤ 1.96) = 0.95
Por lo tanto:
X −μ
P (1.96 ≤ ≤ 1.96) = 0.95
σ0 n
IC95% (μ ) : μ ∈ X ± 1.96 σ 0 n
o bien,
(
IC95% (μ ) : μ ∈ X − 1.96 σ 0 n , X + 1.96 σ 0 n )
Debido a que μ es en realidad un parámetro y no una variable aleatoria, el
intervalo anterior no es un intervalo de probabilidad, por este motivo recibe el
nombre de intervalo de confianza. En este sentido, se puede esperar que un 95%
de los intervalos construidos del mismo modo a partir de muestras de tamaño n
contengan el valor real del parámetro ( μ ).
El valor 95% recibe el nombre de nivel de confianza. Es habitual fijar este nivel
en 95%, sin embargo, si se desea mayor confianza, puede aumentarse.
Habitualmente los intervalos de confianza son simétricos alrededor de la media
muestral, no obstante, pueden construirse intervalos con el mismo nivel de
confianza pero unilaterales. En el caso unilateral, el intervalo de confianza
256 Cálculo del tamaño muestral con el programa Ene 3.0
Pruebas de hipótesis
Las pruebas de hipótesis permiten realizar contrastes sobre los diferentes
parámetros de la función de distribución de una variable aleatoria. En el caso de
una variable aleatoria con distribución Normal, habitualmente el interés reside en
responder a las preguntas planteadas con respecto al promedio de la población.
No obstante, las pruebas de hipótesis también permiten realizar otros contrastes,
por ejemplo, sobre la distribución misma o sobre otros parámetros, tales como la
desviación estándar o la mediana de la variable.
258 Cálculo del tamaño muestral con el programa Ene 3.0
Z0.95 =1.645
Parámetros indocumentados
Para llevar a cabo el cálculo del tamaño de lustra de un estudio, a menudo el
investigador debe proporcionar valores para parámetros inicialmente
desconocidos. En esta situación es frecuente recurrir a estudios piloto o estudios
previos ya publicados por otros investigadores. A pesar de ello puede ocurrir que
el parámetro particular de interés no se halle reportado, aunque sí se pueda
encontrar otra información complementaria. Esta información aparentemente
inútil no se debe despreciar ya que podría ser de gran utilidad. A continuación se
muestran diversos ejemplos de cómo conseguir un parámetro de interés a partir de
esta información auxiliar.
σ = ee × n
n
σ = Lim − μ
Z1−α
n
σ = (LimSup − LimInf )
2Z1−α / 2
σ 12 n1 + σ 22 n2
σ=
n1 + n2
siendo un promedio ponderado de las desviaciones de cada grupo. Una forma más
conservadora y a veces razonable de estimar la desviación común consiste en
tomar simplemente el valor máximo de las desviaciones de cada grupo.
σ = max(σ 1 ,σ 2 )
σ = σ 12 + σ 22 − 2σ 12
263
σ d = 2 MSE
σ = log(1 + CV 2 )
Muestreo inverso
No se puede corregir el tamaño de muestra por posibles abandonos ya que el
número de efectivos necesarios con evento no contempla los abandonos.
Análisis de supervivencia
No es posible llevar a cabo la corrección del tamaño de muestra por el porcentaje
esperado de abandonos ya que tales casos se consideran datos censurados y se
contemplan directamente en los cálculos al introducir la tasa esperada de
abandonos.
Técnicas direccionales
Cuando el objetivo del estudio es obtener un intervalo de confianza o contrastar
las diferencias entre dos grupos, en general, el investigador puede escoger si
desea aplicar una técnica direccional: unilateral o bilateral. Sin embargo, ciertas
técnicas estadísticas no permiten tal elección y por definición son unilaterales o
bilaterales:
266 Cálculo del tamaño muestral con el programa Ene 3.0
Glosario
Abandonos:
Conjunto de pacientes que no finalizan el estudio. Para garantizar que el tamaño
de muestra del estudio es el correcto, se deberá corregir (aumentar) en función del
porcentaje esperado de abandonos y/o violaciones del protocolo esperados.
Aleatorización:
Proceso que garantiza que la asignación de los tratamientos a los pacientes se ha
realizado de forma aleatoria. Este hecho permite asumir que los grupos de
tratamiento estarán compensados respecto posibles factores de riesgo no
considerados en el diseño del estudio. Si los grupos de tratamiento están
equilibrados, se podrán obtener conclusiones de causalidad.
α:
El error cometido al rechazar la hipótesis nula siendo en realidad cierta.
Análisis de la Varianza:
Análisis basado en la separación de la varianza total de la variable respuesta
medida en un conjunto de observaciones, en diversas partes atribuibles a un factor
particular –por ejemplo el sexo, grupo de tratamiento– o bien a la heterogeneidad
natural entre observaciones. Utilizando el método de comparación de varianzas
del test F, se pueden analizar las diferencias entre las medias de dicha variable
según los niveles del factor considerado.
ANOVA:
Acrónimo para el análisis de la varianza.
Asignación de Neyman:
Método utilizado en el muestreo estratificado para distribuir el tamaño de muestra
del estudio entre los posibles estratos. Este método tiene en cuenta la dispersión
de la variable de interés en cada estrato y por este motivo proporciona resultados
óptimos.
268 Cálculo del tamaño muestral con el programa Ene 3.0
Asignación proporcional:
Método utilizado en el muestreo estratificado para distribuir el tamaño de muestra
del estudio entre los posibles estratos. Este método tiene únicamente en cuenta el
tamaño de cada estrato.
Asignación simple:
Método utilizado en el muestreo estratificado para distribuir el tamaño de muestra
del estudio entre los posibles estratos. Este método divide el tamaño de muestra
total en porciones iguales.
β:
El error cometido al no rechazar la hipótesis nula siendo cierta la hipótesis
experimental.
Coeficiente de variación:
Medida de la relación entre la dispersión y la media para variables cuantitativas
positivas.
269
Colas:
Ver dirección de la prueba estadística.
Conglomerado:
Agrupación de un número no muy elevado de unidades experimentales con
elevada heterogeneidad en la variable de interés, de manera que la observación de
todas las unidades experimentales de un mismo conglomerado proporciona
directamente una "buena" estimación del parámetro de interés. En el muestreo por
conglomerados, el investigador selecciona al azar una serie de conglomerados y
recoge información sobre todas las unidades experimentales que contienen. Es
habitual considerar hospitales, escuelas, bloques de pisos, o unidades censales
como conglomerados.
Contraste bilateral:
Contraste de hipótesis dónde la hipótesis alternativa no es direccional, por
ejemplo que la media de dos muestras no es la misma. Usualmente, si no hay
garantías claras de la unidireccionalidad de la hipótesis alternativa, la hipótesis
experimental será considerada bilateral.
Contraste de equivalencia:
La hipótesis experimental en los tests de equivalencia es la igualdad entre los
grupos de tratamiento. Los análisis estadísticos son muy particulares: se basan en
dos comparaciones unilaterales simultáneas.
Contraste de hipótesis:
Prueba estadística que se realiza con el objetivo de rechazar una determinada
hipótesis experimental. Cuando el objetivo del estudio es el contraste de
determinada hipótesis experimental, el cálculo del tamaño de muestra responderá
a las preguntas: ¿Cuántas unidades experimentales será necesario incluir en el
estudio para garantizar la detección la hipótesis experimental? ¿Qué potencia
tendrá la prueba estadística para detectar la hipótesis experimental si se incluyen
en el estudio n unidades experimentales? ¿Qué magnitud podrá detectar la prueba
estadística si se incluyen en el estudio n unidades experimentales?
Contraste de no–igualdad:
La hipótesis experimental en las pruebas de no–igualdad es que existen
diferencias entre los grupos en estudio.
270 Cálculo del tamaño muestral con el programa Ene 3.0
Contraste de no–inferioridad:
La hipótesis experimental en las pruebas de no–inferioridad es que el grupo
experimental no es peor que el grupo de referencia. En realidad, se demuestra que
el grupo experimental es superior al grupo de referencia menos un determinado
margen.
Contraste de significación:
Ver contratse de hipótesis.
Contraste unilateral:
Contraste de hipótesis dónde la hipótesis alternativa es direccional, por ejemplo
que la media de una muestra es superior a la media de otra muestra.
Covariable:
Variable explicativa cuantitativa.
Cuantil:
Nombre genérico para los estadísticos de orden o medidas de posición: mediana,
cuartil, decil, percentil, etc.
Curva de supervivencia:
Representación gráfica de una variable que mide el tiempo transcurrido hasta un
evento, y calculada como 1 – Función de distribución acumulada de la variable.
Delta:
Ver Tamaño del efecto.
Desviación estándar:
Raíz Cuadrada de la Varianza.
271
Desviación típica:
Ver Desviación estándar.
Diseño balanceado:
Término generalmente usado en diseños experimentales en qué se selecciona el
mismo número de observaciones para cada posible nivel de los factores
experimentales.
Diseño enmascarado:
Diseño en el que se adoptan las medidas necesarias para evitar que los sujetos
incluidos en el estudio y los evaluadores del mismo tengan conocimiento del
grupo de tratamiento al cual han sido asignados los pacientes.
Diseño factorial:
El diseño factorial permite comparar el efecto combinado de dos o más
tratamientos. Los grupos de tratamiento se forman utilizando todas las posibles
combinaciones. Por ejemplo, si se pretende comparar dos tratamientos A y B, los
grupos de tratamiento resultantes serían: ningún tratamiento, sólo el tratamiento
A, sólo el tratamiento B y los tratamientos A y B conjuntamente.
Diseño multicéntrico:
Diseño en el que se incluyen sujetos de diferentes centros. En general, los centros
suelen diferir considerablemente entre sí, por lo que este tipo de estudios podrán
llegar a conclusiones más robustas. Los estudios confirmatorios suelen ser
multicéntricos.
Diseño secuencial:
Diseño en el que se realizan diversos análisis intermedios con el objetivo de
detener la inclusión de pacientes en el estudio antes de su finalización si se
pueden detectar evidencias claras que confirmen las hipótesis experimentales. El
cálculo del tamaño muestral así como la toma de decisiones en este tipo de
estudios son muy complejos y requieren complicados cálculos. Los estudios con
un tamaño de muestra prefijado son los más habituales.
Distribución Binomial:
Distribución estadística empleada en el análisis de una variable dicotómica.
Distribución Exponencial:
Distribución estadística empleada en el análisis de la supervivencia.
273
Distribución F:
Distribución estadística empleada en el análisis de la varianza y en los modelos de
regresión.
Distribución Ji–cuadrado:
Distribución estadística empleada en el análisis de variables categóricas y por lo
tanto en la comparación de proporciones.
Distribución log–Normal:
Distribución estadística empleada en el análisis de medias de variables escala
(positivas, asimétricas y con heterogeniedad).
Distribución Normal:
Distribución estadística empleada en el análisis de medias de variables
cuantitativas cuando la desviación estándar es conocida.
Distribución T–Student:
Distribución estadística empleada en el análisis de medias de variables
cuantitativas cuando la desviación estándar es desconocida.
Error de tipo I:
Ver α.
Estadístico:
Medida cuantitativa obtenida a partir de un conjunto de datos con el objetivo de
estimar o contrastar alguna característica de la muestra.
Estimación de parámetros:
Cuando el objetivo del estudio es la estimación de un parámetro con cierto grado
de precisión, el cálculo del tamaño de muestra responderá a las preguntas:
¿Cuántas unidades experimentales será necesario incluir en el estudio para
garantizar una precisión de w unidades en la estimación de determinado
274 Cálculo del tamaño muestral con el programa Ene 3.0
Estrato:
Conjunto de unidades experimentales en cierto sentido homogéneas respecto la
variable de interés. En el muestreo estratificado es posible estimar el parámetro de
interés con mayor precisión seleccionando un mayor número de unidades de los
estratos con menor homogeneidad. Existen diversos métodos para repartir o
asignar la muestra total entre los diferentes estratos, siendo los más habituales: la
asignación simple (equilibrada entre todos los estratos), la asignación
proporcional al tamaño del estrato y la asignación de Neyman que tiene en cuenta
la variabilidad de la variable de interés en cada estrato. Las variables empleadas
con mayor frecuencia para estratificar una muestra son la edad y el sexo de los
individuos, aunque también se suelen emplear variables territoriales como
provincia o comarca.
Estudio aleatorizado:
Estudio en los que el investigador asigna a los sujetos incluidos de forma aleatoria
a las diferentes ramas o secuencias de tratamiento. Este tipo de estudio
proporciona mayor base para obtener conclusiones de causalidad ya que elimina
en gran medida posibles fuentes de sesgo.
Estudio controlado:
Estudio en el que el investigador compara simultáneamente un factor o
intervención de interés frente a un factor o intervención de referencia o de control.
Estudio de equivalencia:
Estudio que pretende demostrar que dos o más tratamientos tienen efectos
equivalentes o similares. Por este motivo se debe especificar un límite de
equivalencia. Los estudios de equivalencia deben incluir un grupo placebo para
dar validez interna al estudio. Si esto no fuera posible, el límite de equivalencia
debería ser más estricto. El límite entonces es fijado teniendo presente cuál sería
la eficacia esperada del placebo, y al mismo tiempo debe ser razonablemente
estrecho para asegurarse que siendo los tratamientos equivalentes, serán
igualmente eficaces.
275
Estudio de no–igualdad:
Estudio que trata de demostrar que dos o más tratamientos no son iguales. Este
tipo de planteamiento es el más habitual de todos.
Estudio de no–inferioridad:
Estudio que pretende demostrar que un tratamiento no es inferior a otro. Se debe
especificar un límite de no–inferioridad. De modo similar a lo que ocurre en los
estudios de equivalencia, los estudios de no–inferioridad deberían incluir un
grupo placebo para asegurar la validez interna del estudio, y al mismo tiempo,
tener en cuenta la eficacia esperada del placebo para definir el límite de no–
inferioridad.
Estudio confirmatorio:
Estudio que permite llegar a conclusiones casi definitivas, ya que suele basarse en
información ya explorada que se desea confirmar. Los estudios confirmatorios
siguen un protocolo escrito y firmado anteriormente a la realización del análisis
donde se detalla de manera clara los objetivos primarios y secundarios, los
respectivos contrastes de hipótesis y el cálculo del tamaño de muestra necesario
para confirmarlos. Suelen tener criterios de inclusión no restrictivos para poder
alcanzar conclusiones sobre poblaciones más amplias.
Estudio exploratorio:
Estudio diseñado para descubrir relaciones entre variables o generar nuevas
hipótesis. Las conclusiones de un estudio de este tipo ofrecen indicios que
deberían ser contrastados posteriormente a través de un nuevo estudio
confirmatorio. Las hipótesis suelen estar poco especificadas e incluso pueden
depender de los datos observados. No obstante, también es necesaria la
especificación de los objetivos a priori. Si el estudio se lleva a cabo con un
número muy reducido de individuos, también recibe el nombre de estudio piloto.
276 Cálculo del tamaño muestral con el programa Ene 3.0
Estudio mixto:
Estudio confirmatorio donde existe la oportunidad de realizar exploraciones de
otras variables. En el protocolo se debe diferenciar claramente la parte
exploratoria de la confirmatoria.
Estudio observacional:
Estudio en el que no existe una intervención clara del investigador en cuanto a los
grupos que se desea comparar. Son de este tipo los estudios de casos y controles y
los estudios de cohortes.
Grupos:
Número de Tratamientos, ramas o muestras de las que consiste el estudio.
Hipótesis alternativa:
Hipótesis que se desea demostrar contraria a la Hipótesis Nula que se contrastará
en el test de hipótesis. También conocida cómo hipótesis experimental.
Hipótesis experimental:
Ver hipótesis alternativa.
Hipótesis nula:
Hipótesis a contrastar en un test de significación. Excepto en los tests de
equivalencia o no–inferioridad, la hipótesis nula postula que no hay asociación o
que no existen diferencias entre las medidas (normalmente medias o
proporciones) de estudio en contraposición a la hipótesis alternativa que postula
diferencias diferentes de cero o bien asociación entre variables.
Intervalo de confianza:
Rango de valores, calculados a partir de las observaciones muestrales que son
considerados que contienen el valor real del parámetro de interés. Un intervalo de
confianza del 95% (o también con un nivel de confianza del 95%) implica que,
cuando todo el proceso de estimación del parámetro de interés es repetido muchas
veces, un 95% de los intervalos de confianza calculados contendrán el valor
verdadero de dicho parámetro.
277
Límite de equivalencia:
Margen simétrico construido alrededor de un parámetro medido en determinada
muestra que determina los posibles valores para los que no se apreciarían
diferencias de relevancia clínica respecto a ése parámetro. A partir del margen se
obtiene el intervalo de equivalencia. Si se mide el mismo parámetro en otra
muestra y su valor cae dentro del intervalo de equivalencia, a efectos prácticos se
considerarían muestras equivalentes.
Límite de no–inferioridad:
Margen inferior construido en referencia a un parámetro medido en determinada
muestra que determina los posibles valores para los que no se apreciarían
diferencias de relevancia clínica respecto a ése parámetro. A partir del margen se
obtiene el intervalo de no–inferioridad. Si se mide el mismo parámetro en otra
muestra y su valor cae dentro del intervalo de no–inferioridad, a efectos prácticos
se considerarían muestras equivalentes o bien que el nuevo parámetro es no–
inferior al parámetro inicial.
Media:
Medida de localización del valor central de una variable continua. Muy útil
cuando la variable de interés tiene una distribución simétrica y no contiene
outliers. Calculada a partir de la suma de todos los valores dividido por el número
total de casos.
278 Cálculo del tamaño muestral con el programa Ene 3.0
Mediana:
Medida de localización del valor central de una variable continua. Muy útil
cuando la variable de interés tiene una distribución asimétrica o contiene outliers.
Calculada a partir del cuantil asociado al percentil 50.
Muestra representativa:
Propiedad atribuible a una muestra únicamente cuando ésta es válida (obtenida sin
sesgo) y fiable (que proporciona suficiente precisión).
Muestra:
Subconjunto de casos u observaciones de una población.
Muestras apareadas:
Ver muestras relacionadas.
Muestras independientes:
Dos o varias muestras de observaciones con la característica que no hay ningún
tipo de dependencia entre las observaciones de cada muestra. Por ejemplo, las
279
Muestras relacionadas:
Dos o varias muestras de observaciones con la característica que cada elemento de
una de las muestras tiene un y sólo un elemento en cada una de las otras muestras
con el cual se puede aparear. Por ejemplo, los mismos individuos y una variable
de interés medida en diferentes momentos del tiempo.
Muestreo estratificado:
Método de muestreo aplicado cuando la población está estratificada en función de
la variable de interés. Este método consiste en seleccionar determinado número de
unidades de cada uno de los posibles estratos. (Ver estrato).
Muestreo inverso:
Método de muestreo aplicado a variables dicotómicas cuando el interés consiste
en estimar una proporción de eventos presumiblemente baja. Este método consiste
en incluir unidades experimentales hasta conseguir un determinado número de
eventos.
Muestreo sistemático:
Método de muestreo aplicado cuando la población está ordenada según cierto
criterio. El método permite seleccionar sistemáticamente las unidades
experimentales, por ejemplo cada 20 unidades se selecciona la primera.
Nivel de confianza:
Nivel de probabilidad fijado por el investigador y utilizado en los intervalos de
confianza para fijar sus límites. (Ver intervalo de confianza).
Nivel de significación:
Nivel de probabilidad fijado por el investigador a partir del cual se rechazará la
hipótesis nula. Convencionalmente se utiliza el nivel de significación igual a 0.05
Odds ratio:
Medida empleada en los estudios observacionales para comparar el riesgo de
sufrir determinado evento entre dos muestras y calculada a partir de la razón de
las ventajas en cada muestra. Es una medida alternativa al riesgo relativo.
Parámetro:
Valor representativo de una población, por ejemplo media, mediana, proporción,
etc.
Percentil:
Medida de posición obtenida de una muestra que permite identificar el valor que
deja por debajo determinado porcentaje entero de casos. Por ejemplo el percentil
50 es el mismo índice que la mediana.
Periodo de inclusión:
Período de reclutamiento de pacientes al estudio. Este índice es empleado en
diversas técnicas de análisis de supervivencia.
Período de seguimiento:
Duración del estudio desde el momento que los pacientes son reclutados hasta la
finalización del mismo. Este índice es empleado en diversas técnicas de análisis
de supervivencia.
281
Población finita:
Si la población de referencia puede considerarse finita, el intervalo de confianza
para determinado parámetro poblacional puede corregirse para obtener una mayor
precisión con el mismo número de unidades experimentales.
Población:
Conjunto normalmente amplio de individuos (o unidades experimentales) con
unas características comunes de interés para el investigador. Por ejemplo: estado
civil, tratamiento, etc.
Potencia:
Probabilidad de rechazar la hipótesis nula cuando en realidad es cierta. La
potencia da un criterio de comparación para el estudio de diferentes tests para la
misma hipótesis, siendo el test más potente el preferido usualmente. Es también la
base de los procedimientos para la estimación del tamaño de muestra requerido
para detectar un efecto de una magnitud particular (tamaño del efecto). En
general, se escogerá el tamaño de muestra que garantice una potencia de 0.8
(80%) al detectar el tamaño del efecto propuesto en la hipótesis alternativa. Se
define la potencia cómo : 1–β, dónde β es el error de tipo II.
Precisión:
Término utilizado para indicar la distancia entre los límites del intervalo de
confianza y el parámetro de interés.
Proporción:
Medida de descripción de variables dicotómicas. Calculada a partir del número de
casos que cumplen determinada condición dividido por el número total de casos.
Prueba estadística:
Ver contraste de hipótesis.
Prueba F:
Prueba para el contraste de la hipótesis experimental que las medias de una
variable continua medida en diversas muestras independientes son diferentes.
Prueba Log–Rank:
Prueba para el contraste de la hipótesis experimental que el tiempo de
supervivencia hasta la ocurrencia de determinado evento medido en dos muestras
independientes no es igual.
283
Prueba U de Mann–Whitney:
Prueba para el contraste de la hipótesis experimental que las distribuciones de una
variable ordinal medida en dos muestras independientes no son iguales.
Prueba Z:
Prueba para el contraste de la hipótesis experimental que las medias de una
variable continua medida en una muestra independientes es diferente a
determinado valor fijado previamente.
P–Valor:
Probabilidad asociada al test de significación, que mide la probabilidad de obtener
un estadístico más lejano de la hipótesis nula suponiendo cierta la hipótesis nula.
284 Cálculo del tamaño muestral con el programa Ene 3.0
Riesgo relativo:
Medida empleada en los estudios observacionales para comparar el riesgo de
sufrir determinado evento entre dos muestras y calculado a partir de la proporción
de ocurrencia en ambas muestras. Es una medida alternativa al odds ratio.
Riesgos (hazard):
Término empleado en el análisis de la supervivencia para describir el riesgo de
ocurrencia del evento de interés.
Tamaño muestral:
Se designa así el número de individuos seleccionados en una investigación.
Normalmente, si el objetivo del estudio es contrastar una hipótesis experimental,
se escoge un tamaño de muestra de forma que el estudio tenga una determinada
potencia para detectar un cierto tamaño del efecto.
Tasa de abandonos:
Ver abandonos.
Tasa de mortalidad:
Ver riesgo (hazard).
285
Unidad experimental:
Cada uno de los sujetos o individuos que configuran la muestra.
Valor crítico:
Valor o valores con el que el estadístico calculado a partir de la muestra es
comparado con el objetivo de rechazar o aceptar la hipótesis nula. El valor crítico
se escoge a un determinado nivel de significación.
Variable ajustada:
Terminología empleada en los modelos de regresión para referirse a una variable
explicativa que forma parte de un modelo en el que también figuran otras
variables.
Variable categórica:
Variable cuyos valores representan etiquetas para diversas categorías.
Variable continua:
Variable no restringida a valores particulares excepto por la precisión del
instrumento de medida. Por ejemplo: edad, peso, frecuencia cardiaca, ...
Variable cualitativa:
Ver variable categórica.
Variable cuantitativa:
Variable que mide cantidades, por lo tanto puede ser una variable continua,
escala, discreta u ordinal.
Variable dicotómica:
Variable categórica con exclusivamente dos posibles valores.
Variable discreta:
Variable restringida a un número concreto de valores
286 Cálculo del tamaño muestral con el programa Ene 3.0
Variable escala:
Variable continua y positiva.
Variable explicativa
Variable que supuestamente influye en las variables respuesta. Puede o no ser
controlada por el investigador. Por ejemplo, factores de riesgo u otras fuentes de
variabilidad que pueden influir en la variable respuesta principal.
Variable nominal:
Ver variable categórica.
Variable ordinal:
Variable que permite ordenar una muestra de individuos en función de
determinada característica, aunque las diferencias entre diferentes puntos de la
escala no tienen porqué ser equivalentes. Por ejemplo: La ansiedad medida en el
escala: leve, moderada, severa.
Variable respuesta
Variable asociada al objetivo general del estudio y medida en el individuo cuyas
variaciones tratará de explicar el estudio.
Varianza:
Medida de la dispersión de una variable, calculada a partir del promedio de
distancias al cuadrado entre las observaciones de la muestra y su media.
Bibliografía
Cálculos del tamaño muestral y potencia estadística
A comparison of power approximations for Satterthwaite’s test – Commun.
Statist. Simula 24 583–593 (1995).
A simple method of sample size calculation for linear and logistic Regresion –
Hsieh et al. – Statistics in Medicine 17, 1623–1634 (1998).
Applied analysis of variance in the behavioural sciences, New York, Marcel
Dekker. Chapter 8, R. O’Brien, K Muller (1993).
Optimal two–stage designs for phase II clinical trials – R. Simon – Controlled
Clinical Trials 10, 1–10 (1988).
SAS documentation Chapter 56 – The POWER procedure, SAS Institute, Cary,
NC, USA (1999).
Sample size calculation for survival studies using S–Plus: Technical Details of the
n Survival Library – H. Southworth ( 2002).
Sample size calculation for the Wilcoxon–Mann–Whitney test adjusting for ties –
Y. Zhao, D. Rahardja, Y. Qu – Statistics in Medicine (2007)
Sample size determination for comparing several survival curves with unequal
allocations – S. Halabi1, B. Singh – Statistics in Medicine 23, 1793–1815 (2004)
Sample size determinations for r x c comparative trials – JM. Lachin – Biometrics
33, 315–324 (1997) .
Sample size determination for some common nonparametric tests – Gottfried E.
Noether – Journal of the American Statistical Association, 82, 645–647 (1987).
Sample size for clinical studies, 2nd Edition – D. Machin, M. Campbell, P.
Fayers, A. Pinol – Ed. Blackwell Science (1997).
Test for equivalence or noninferiority for paired binary data– Liu et al – Statistics
in Medicine 21, 231–245 (2002).
Muestreo y diseño de experimentos
Diseño razonado de muestras y captación de datos para la investigación sanitaria.
Luis Carlos Silva Ayçaguer ; Ed. Diaz de Santos (2000).
Diseño de Ensayos Clínicos
Clinical Trials, a practical approach – S.J. Pocock – John Wiley & Sons (1983).
Introducción a la Estadística
290 Cálculo del tamaño muestral con el programa Ene 3.0