Manual ENE 30 en Red PDF

Llorenç Badiella Busquets
Alejandro Pedromingo Marino
Cálculo del tamaño muestral

con el programa Ene 3.0
Aplicable a 61 diseños incluyendo:

Estimación de
medias, proporciones, RR, OR, cuantiles
Muestreo
inverso, con población finita
estratificado, por conglomerados,
bietápico con el método de Simon
Comparación de
medias, medias en escala logarítmica,
medianas y proporciones
Tipos de muestras
una muestra, dos muestras relacionadas,
dos muestras independientes,
k muestras independientes
Tipos de comparación
no igualdad, no inferioridad,
equivalencia, superioridad relevante
Diseños para
regresión lineal, regresión Logística
Anova, tablas Kx2, supervivencia
www.e–biometria.com
Autores
Llorenç Badiella Busquets
Servei d’Estadística, Universidad Autónoma de Barcelona, Bellaterra. Barcelona
Alejandro Pedromingo Marino
Departamento de Biometría, GlaxoSmithKline, Tres Cantos. Madrid
Derechos de propiedad del libro
No se permite la reproducción total o parcial de esta publicación, ni su
tratamiento informático, ni la transmisión de ninguna forma o por cualquier
medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos,
ni su préstamo, alquiler o cualquier otra forma de cesión de uso de este libro, sin
el permiso previo y por escrito de los propietarios del mismo.
Edita
GlaxoSmithKline S.A.
Programación Ene 3.0: Albert Teixidó

Contenido
Presentación 1
Conceptos, errores y estrategias en el cálculo del TM 3

Conceptos básicos 3
¿Qué interviene en el TM? 7
Errores básicos en el cálculo del tamaño muestral 14
Estrategias básicas en el cálculo del tamaño muestral 19
Características del programa Ene 3.0 27
Estimación de parámetros 42
Intervalo de Confianza para la media de una variable cuantitativa Normal 42
Intervalo de Confianza para la media de una variable cuantitativa no Normal 45
Intervalo de Confianza para una proporción 45
Intervalo de Confianza para un riesgo relativo (RR) 46
Intervalo de Confianza para un odds ratio (OR) 46
Intervalo de Confianza para un cuantil 47
Técnicas de Muestreo 48
Ejemplos 52
Ejemplo 1. Intervalo de confianza para una media 52
Ejemplo 2. Intervalo de confianza para una proporción 53
Ejemplo 3. Intervalo de confianza para un riesgo relativo (RR) 55
Ejemplo 4. Intervalo de confianza para un odds ratio (OR) 58
Ejemplo 5. Intervalo de confianza para un cuantil 61
Ejemplo 6. Intervalo de confianza para una media en una población finita 62
Ejemplo 7. Intervalo de confianza para una proporción (población finita) 64
Ejemplo 8. Intervalo de confianza para una proporción con muestreo inverso 66
Ejemplo 9. Intervalo de confianza para una media con muestreo estratificado 68
Ejemplo 10. Intervalo de confianza para una proporción con muestreo
estratificado 70
Ejemplo 11. Intervalo de confianza para una media con muestreo por
conglomerados 73
Ejemplo 12. Intervalo de confianza para una proporción con muestreo por
conglomerados 75
Comparación de dos grupos (no igualdad) 78
Introducción 78
Comparación de no igualdad entre la media de una variable Normal frente a un
valor teórico 79
Comparación de no igualdad entre las medias de dos muestras independientes de
variables Normales 85
2
Comparación de no–igualdad entre las medias de dos muestras relacionadas de

variables Normales 86
Comparación de no igualdad entre las medias de dos muestras independientes de
variables Normales con desviaciones distintas 88
Comparaciones de no–igualdad entre dos medias para variables cuantitativas
log–Normales 88
Comparaciones de no–igualdad entre dos medias para variables cuantitativas no
Normales 89
Comparaciones de no–igualdad entre dos proporciones 90
Ejemplos 91
Ejemplo 13. Comparación de no–igualdad entre una media y un valor teórico 91
Ejemplo 14. Comparación de no–igualdad entre las medias de dos muestras
independientes 93
relacionadas 96
independientes con desviaciones diferentes (corrección de Satterthwaite) 98
Ejemplo 17. Comparación de no–igualdad entre una media y un valor teórico en
escala logarítmica 101
independientes en escala logarítmica 104
relacionadas en escala logarítmica 106
Ejemplo 20. Comparación de no–igualdad entre una proporción y un valor
teórico 109
Ejemplo 21. Comparación de no–igualdad entre las proporciones de dos
muestras independientes 111
Ejemplo 22. Comparación de no–igualdad entre las proporciones de dos
muestras relacionadas 113
Comparación de dos grupos (no–inferioridad, superioridad
relevante o equivalencia) 117
Introducción 117
Comparación de no inferioridad entre las medias de dos muestras independientes
de variables Normales 119
Comparación de superioridad relevante entre las medias de dos muestras
independientes de variables Normales 121
Comparación de equivalencia entre las medias de dos muestras independientes
de variables Normales 123
Comparación de no–inferioridad, superioridad relevante o equivalencia entre las
medias de dos muestras independientes de variables log–Normales 127
medias de dos muestras independientes de variables cuantitativas no Normales 128
proporciones de dos muestras independientes 128
Comparaciones de no–inferioridad, superioridad relevante o equivalencia para
una muestra o dos muestra relacionadas 129
Ejemplos 131
Ejemplo 23. Comparación de no–inferioridad entre una media y un valor teórico 131
Ejemplo 24. Comparación de superioridad relevante entre una media y un valor
teórico 134
Ejemplo 25. Comparación de equivalencia entre una media y un valor teórico 137
Ejemplo 26. Comparación de no–inferioridad entre las medias de dos muestras
independientes 139
Ejemplo 27. Comparación de superioridad relevante entre las medias de dos
Ejemplo 28. Comparación de equivalencia entre las medias de dos muestras
independientes 145
relacionadas 148
relacionadas 153
Ejemplo 32. Comparación de no–inferioridad entre una proporción y un valor
teórico 156
Ejemplo 33. Comparación de superioridad relevante entre una proporción y un
valor teórico 158
Ejemplo 34. Comparación de equivalencia entre una proporción y un valor
teórico 161
Ejemplo 35. Comparación de no–inferioridad entre las proporciones de dos
Ejemplo 36. Comparación de superioridad relevante entre las proporciones de
dos muestras independientes 166
Ejemplo 37. Comparación de equivalencia entre las proporciones de dos
Ejemplo 38. Comparación de no–inferioridad entre las proporciones de dos
Ejemplo 39. Comparación de superioridad relevante entre las proporciones de
dos muestras relacionadas 174
Ejemplo 40. Comparación de equivalencia entre las proporciones de dos
Ejemplo 41. Comparación de no–inferioridad entre una media y un valor teórico
en escala logarítmica 179
Ejemplo 42. Comparación de superioridad relevante entre una media y un valor
teórico en escala logarítmica 182
Ejemplo 43. Comparación de equivalencia entre una media y un valor teórico en
escala logarítmica 185
4

muestras independientes en escala logarítmica 190
muestras relacionadas en escala logarítmica 199
Otros Diseños 205
Introducción 205
Comparación de no–igualdad entre dos variables ordinales categóricas 205
Comparación de no–igualdad entre dos medianas de una variable cuantitativa 207
Comparación de no–igualdad entre más de dos medias 207
Comparación de no–igualdad entre más de dos proporciones 208
Contraste de un coeficiente de correlación 209
Contraste de una covariable en regresión logística 210
Regresión Lineal para k covariables ajustadas por h covariables 210
Regresión Logística para una covariable ajustada por h covariables 211
Comparación de no–igualdad entre la supervivencia de dos grupos 211
Comparación de no–igualdad entre la supervivencia de dos grupos contemplando
inclusión y censurados 212
Comparación de no–inferioridad entre la supervivencia de dos grupos
contemplando inclusión y censurados 213
Comparación de no–igualdad entre una proporción frente a un valor teórico
utilizando el método bietápico de Simon 214
Ejemplos 217
Ejemplo 50. Comparación de no–igualdad entre dos variables ordinales 217
Ejemplo 51. Comparación de no–igualdad entre dos medianas de una variable
cuantitativa 220
Ejemplo 52. Comparación de no–igualdad entre más de dos medias 223
Ejemplo 53. Comparación de no–igualdad entre más de dos proporciones 225
Ejemplo 54. Contraste de un coeficiente de correlación 227
Ejemplo 55. Contraste de una covariable en regresión logística 229
Ejemplo 56. Regresión Lineal para K covariables ajustadas por H covariables 232
Ejemplo 57. Regresión Logística para una covariable ajustada por otras
covariables 234
Ejemplo 58. Comparación de no–igualdad entre la supervivencia de dos grupos 236
Ejemplo 59. Comparación de no–igualdad entre la supervivencia de dos grupos +
inclusión + censurados 238
Ejemplo 60. Comparación de no–inferioridad entre la supervivencia de dos
grupos + abandonos + inclusión 241
Ejemplo 61. Comparación de no–igualdad entre una proporción y un valor
teórico, método bietápico de Simon 244
Anexo I. Documentación Complementaria 248
Conceptos básicos de Estadística 248
Consideraciones sobre parámetros y técnicas 261
Glosario 267
Bibliografía 289
1
Presentación
Determinar el tamaño de muestra necesario para llevar a cabo un estudio o ensayo
clínico es una tarea ardua, técnica y complicada. Este libro pretende proporcionar
los conocimientos y las herramientas de soporte para que –empleando el
programa Ene 3.0– se pueda calcular el número óptimo de individuos a reclutar
en el estudio.
Este manual está dirigido principalmente a investigadores del ámbito de las
ciencias de la salud que deseen realizar cualquier tipo de estudio experimental u
observacional y que tengan conocimientos elementales de bioestadística. No
obstante, el libro también es útil para investigadores de otros ámbitos, debido a
que los principios estadísticos en los que se basa el cálculo del tamaño muestral
(TM) son aplicables a cualquier disciplina.
En el primer capítulo “Conceptos, errores y estrategias en el cálculo del TM” se
introducen, sin apenas formulación, aquellas nociones que son importantes para
determinar el tamaño de muestra.
En el siguiente capítulo “Características del programa Ene 3.0” se muestran las
funcionalidades y posibilidades del programa.
En los capítulos siguientes:
Estimación de parámetros
Comparación de dos grupos (no igualdad)
Comparación de dos grupos (no inferioridad, superioridad o equivalencia)
Otros diseños (más de dos grupos, regresión lineal y regresión logística,
análisis de supervivencia)
se explican de forma detallada los conceptos que debe tener en cuenta el usuario
para determinar el número necesario de sujetos de un estudio en cada una de las
distintas situaciones. El capítulo “Estimación de parámetros” comprende aquellos
estudios donde se desea conocer un parámetro poblacional. Los capítulos
“Comparación de dos parámetros” se refieren a estudios en donde se comparan
únicamente dos tratamientos. El capítulo “Otros diseños” incluye otros diseños
más avanzados con diferentes peculiaridades.
En los capítulos de “Ejemplos” se incluyen casos resueltos para cada una de las
técnicas utilizando el programa Ene 3.0. Para los usuarios que deseen conocer los
detalles técnicos de los cálculos, en cada técnica se incluye un apartado con las
fórmulas utilizadas.
El Anexo contiene información complementaria relacionada con el cálculo del
TM. En “Conceptos Básicos de Estadística” se explican algunos aspectos básicos,
de Estadística. Estos detalles pueden ser útiles si el lector desea repasar los
2 Cálculo del tamaño muestral con el programa Ene 3.0
fundamentos de las pruebas estadísticas. En “Consideraciones sobre parámetros

indocumentados” se plantean sencillas estrategias para cuantificar valores
imprescindibles para los cálculos pero que pueden ser desconocidos por el
investigador. En el “Glosario”, se encuentran las definiciones de todos los
términos relativos al cálculo del tamaño de muestra y algunas nociones básicas de
diseño de estudios.
La nueva versión del programa para el cálculo del tamaño de muestra, Ene 3.0
incluye un gran número de técnicas nuevas:
Nuevas técnicas de muestreo para la estimación de parámetros.
Diseños de no–igualdad, no–inferioridad, superioridad y equivalencia para
los diferentes diseños al comparar dos grupos: una muestra frente a un
valor, dos muestras independientes y dos muestras relacionadas.
Técnicas para comparar medias en escala logarítmica
Ampliación de las técnicas de análisis de supervivencia, contemplando tasa
de abandonos y periodo de inclusión de los pacientes.
Nuevos diseños especiales, incluyendo: no–inferioridad en supervivencia,
comparación de medianas de variables cuantitativas, método de Simon
bietápico, estimación de cuantiles, regresión lineal múltiple, regresión
logística múltiple y prueba t-Student para comparar dos grupos con la
corrección de Satterthwaite.
Además incluye nuevas capacidades de asistencia al usuario:
Corrección del TM por abandonos.

Aumento de la precisión en las proporciones
Ampliación de la Ayuda del programa y de cada técnica
Ampliación del glosario de términos estadísticos
3
Conceptos, errores y estrategias en el

cálculo del TM
Conceptos básicos
El problema
El siguiente párrafo es un ejemplo del apartado “Material y métodos” de un artículo
de una publicación científica cualquiera. A primera vista parece totalmente
incomprensible:
“Se eligió una muestra aleatoria de 26 pacientes que permitiera detectar una
diferencia de un 50 % en la proporción de pacientes curados (90% vs. 40%) con un
poder del 80%, a un nivel de significación del 0.05, utilizando un contraste
bilateral”
Para una mente sana, las siguientes dudas son inmediatas:
¿Por qué se eligieron 26 pacientes?
¿Cómo se sabe que se va a producir una diferencia del 50% entre las eficacias
de los tratamientos?
¿Por qué precisamente un 90% frente a un 40% si todavía no ha comenzado
la experimentación?
¿Es un contraste bilateral porque hay dos tratamientos?
¿Es el poder algo relacionado con la eficacia de los tratamientos?
¿De dónde sale y quién decide el nivel de significación?
Incluso pueden aparecer otras dudas:
¿Si tengo disponibilidad de más de 26 pacientes, por qué no aumentar el
tamaño?
¿No sería más fácil tomar un número “redondo “de pacientes como 50, 60 ó
100?
¿Por qué no coger el mismo tamaño que en estudios parecidos?
¿No es el conocimiento sustantivo de la enfermedad y su tratamiento lo que
debería marcar las pautas para el tamaño de la muestra?
¿Por qué la estadística tiene que intervenir en todo esto?
La mayoría de estos problemas desaparecerían si existiesen recomendaciones de
expertos para el tamaño de la muestra dependiendo de lo que se está estudiando.
Como se verá esto no es así, y será conveniente utilizar cálculos matemático–

estadísticos para intentar contestar a las preguntas anteriores.
A continuación se introducen algunos conceptos y elementos esenciales para
entender el problema del cálculo del tamaño muestral (TM).
¿Qué es el tamaño muestral?

El TM representa el número mínimo de elementos que debería tener una muestra
para que proporcione resultados suficientemente fiables. Cuando mayor sea el
tamaño de una muestra, mayor precisión se obtendrá en el análisis. Paralelamente,
por motivos éticos y a veces económicos se requiere que el tamaño de muestra sea
el más pequeño posible. Por lo tanto el TM es el número óptimo de sujetos de
manera que satisface ambas condiciones simultáneamente.
¿Es necesario el uso de la estadística?

La razón fundamental para utilizar métodos estadísticos en el cálculo del tamaño de
la muestra es que normalmente se van a emplear técnicas estadísticas inferenciales
en el análisis de los datos.
Cuando se estima un parámetro, se emplean técnicas estadísticas inferenciales que
proporcionan un intervalo de confianza. Con un tamaño de muestra adecuado, se
obtendrá una precisión razonable.
Cuando se desea verificar una hipótesis a partir de una serie de datos, se emplean
pruebas estadísticas. Una prueba estadística es una herramienta que permite
contrastar una hipótesis experimental de interés a partir de los resultados obtenidos
en una muestra de observaciones. La técnica analiza si las particularidades
observadas en los resultados pueden ser atribuidas al azar o bien a otras causas.
Con un TM adecuado se alcanzará, si corresponde, la significación estadística.
Alcanzada la significación estadística se tiene una garantía aceptable de que los
resultados del estudio no se han producido al azar.
El control y cuantificación del azar es una característica básica del método
científico.
Dos propiedades básicas que debe tener una muestra: validez y

fiabilidad
El estudio de poblaciones es casi siempre inabordable o imposible. En su lugar se
estudian muestras. Se exige que la muestra sea representativa de la población de
donde procede. Esto, aparentemente sencillo, es bastante más complicado de lo que
a primera vista parece, puesto que las muestras, obtenidas sin el control adecuado,
5
tienen una tendencia innata a presentar sesgos, que son desviaciones de sus
características respecto a las de la población de donde proceden.
Esencialmente las muestras deben ser aleatorias y tener el tamaño suficiente. De
este modo se obtendrán muestras representativas con mayor fiabilidad y sus
resultados podrán ser extrapolados a la población de referencia. El tamaño de
muestra permite controlar la precisión de los resultados y hace posible la
generalización de los resultados, es decir, controla su fiabilidad. Las técnicas de
muestreo así como todas las medidas de control de las posibles fuentes de sesgo
(enmascaramiento, asignación aleatoria, empleo de variables objetivas, etc.) otorgan
validez a la muestra. La validez es ser un concepto bastante abstracto porque es
difícil de medir, el investigador únicamente podrá esperar que sus medidas de
control hayan sido efectivas y que la muestra sea razonablemente válida. Una
muestra será representativa únicamente si es válida y fiable, y las muestras que no
cumplan simultáneamente ambas propiedades proporcionarán resultados confusos,
falsos o inútiles.
¿Cuándo es necesario calcular el TM?

Siempre que se desee contrastar una hipótesis experimental o estimar un parámetro
poblacional a través del análisis estadístico de una muestra de casos es útil
determinar con anterioridad el número de pacientes que sería necesario incluir para
llegar con ciertas garantías a las conclusiones deseadas. En algunas circunstancias
esto permitirá:
Confirmar que la dimensión del estudio para comprobar cierta hipótesis es
asequible.
Cuantificar el riesgo de que un estudio con tamaño de muestra fijado de
antemano no pueda alcanzar las conclusiones de interés.
No empezar estudios que están condenados a no proporcionar conclusiones
útiles.
Asumir que un estudio debe ser considerado como exploratorio si no hay
garantías claras de poder detectar un tamaño del efecto de relevancia clínica.
El cálculo del TM está basado en intangibles

El empleo de técnicas estadísticas conlleva una situación paradójica y antinatural en
donde el tamaño de la muestra está normalmente relacionado con intangibles,
experiencias personales y otros componentes subjetivos. A grandes rasgos el TM
está relacionado, entre otros, con:
Las expectativas de resultados
El conocimiento o experiencias previas en el asunto que se va a estudiar
En la aversión al riesgo del investigador

En la precisión deseada
En la confianza que se desea que merezcan los resultados
En la variabilidad del fenómeno o proceso estudiado
En la relevancia científica o clínica de los objetivos
En la posición abierta o dirigida que se quiera dar a los resultados
Sorprendentemente los puntos anteriores pueden concretarse en valores o
alternativas que permiten, a través de las fórmulas, proporcionar un TM.
¿Es objetivo el TM?

En los cálculos del TM intervienen un gran número de factores e implícitamente, el
investigador debe tomar decisiones determinantes sobre la naturaleza del estudio. Si
todas las decisiones son justificadas adecuadamente, los cálculos se podrán
reproducir sin dificultades ya que las fórmulas empleadas en los cálculos son
totalmente objetivas. Por lo tanto, el único elemento a tener en cuenta será la
objetividad del propio investigador en la toma de decisiones respecto al valor de los
parámetros que intervendrán en los cálculos.
Tipos básicos de planteamientos de estudios: estimación o contraste

Los cálculos y las fórmulas empleadas en el cálculo del TM son completamente
diferentes dependiendo del tipo de estudio. En consecuencia variará totalmente el
resultado.
En general, el objetivo de un ensayo clínico puede ser la estimación de cierto
parámetro poblacional o bien el contraste de cierta hipótesis experimental:
Estudios de estimación consistentes en medir, con sus correspondientes
intervalos de confianza, alguna característica (parámetro) de la población.
Estudios de contraste de hipótesis, consistentes en comparar dos
suposiciones. Estas hipótesis están normalmente relacionadas con la eficacia
de dos o más tratamientos. Se trata de comparar y, en último término, decidir.
En definitiva se estiman parámetros o se decide entre hipótesis.
7
¿Qué interviene en el TM?
La variable respuesta condiciona todo el estudio

La elección del tipo de variable respuesta tiene implicaciones importantes en los
objetivos del estudio y en el tamaño de la muestra.
El tamaño muestral depende del tipo de variable respuesta. Simplificando las
variables respuesta pueden agruparse en:
Variables cuantitativas, que a su vez pueden ser normales o no
Variables binarias
Variables ordinales
Variables cualitativas o nominales
La variable tiempo transcurrido hasta un evento
Las variables respuesta ordinales de pocas categorías y las variables cualitativas o
nominales de tres o más categorías no se suelen utilizar como variables respuesta en
la mayoría de los estudios.
Es aceptable considerar las variables ordinales con más de 8 categorías como
variables cuantitativas para el cálculo del TM.
Normalmente los estudios con variables respuesta binarias, donde se estudian
proporciones de sucesos, necesitan mayor tamaño de muestra que si se emplean
variables respuesta cuantitativas, con medias como principal medida resumen.
Cuando la variable de interés es una variable de escala, es decir, exclusivamente
positiva y con mayor dispersión e incertidumbre cuando sus valores son elevados
que cuando son pequeños, es adecuado aplicar la transformación logarítmica a dicha
variable y trabajar con medias en escala logarítmica.
Influencia de la dispersión o variabilidad de la respuesta

En estudios donde están involucradas medias, se requiere una estimación de la
desviación típica de la variable asociada. Como es sabido, la desviación típica, tanto
en estudios de estimación como en estudios de contrastes de medias, está
relacionada con la dispersión o variabilidad de las respuestas. Dispersiones
elevadas, traducidas en desviaciones típicas mayores, traen consigo aumentos del
TM.
¿Por qué no ocurre lo mismo cuando está involucrada la comparación de
proporciones? Sí ocurre lo mismo, lo que sucede es que la dispersión asociada a una
proporción o a una diferencia de proporciones está contenida implícitamente y
unívocamente asociada al valor de la proporción. Por eso no hay que definirla de
forma explícita. Para mayor información, la desviación típica de una proporción p

(expresada en tanto por uno) es p(1 − p) , que frecuentemente se encuentra como
pq . La máxima dispersión está asociada a una proporción del 50%; p=0.5 ;
pq=0.25 nuevamente penalizada en el TM.
Por ejemplo, en un estudio de prevalencias, si la expectativa de resultados es de un
20% (equivalentemente 80%), el tamaño de la muestra será menor que si las
expectativas son de un 35% (o 65%).
Si se utiliza un valor aproximado de la desviación típica, puede haber dudas sobre la
validez de los cálculos.
Tipo de muestreo empleado

En la estimación de parámetros se suele incluir un número relativamente grande de
unidades experimentales. Para mejorar el proceso de selección de la muestra es
habitual emplear técnicas especiales de muestreo tales como el muestreo sin
reposición, el muestreo estratificado, por conglomerados, o el muestreo inverso.
El muestreo sin reposición también recibe el nombre de muestreo en poblaciones
finitas o corrección por población finita. Intuitivamente, el tamaño de una muestra
fiable de una población finita es menor que el que correspondería a una población
infinita. Una muestra de 100 individuos tomada de una población compuesta por
150, contiene mucha más información que si la población está compuesta por
150,000 sujetos. En estas situaciones, es recomendable corregir el TM y tener en
cuenta el tamaño de la población, considerándolo finito, es decir, contemplar en los
cálculos que la muestra se obtiene sin reposición. De forma práctica, la corrección
por poblaciones finitas es apreciable si la muestra representa más de un 5% del total
de la población.
El objetivo del muestreo estratificado, por conglomerados e inverso, no es reducir el
tamaño de muestra total sino el de mejorar las propiedades de validez la muestra
seleccionada.
Intervalos de confianza simétricos o asimétricos

En la estimación de proporciones, medias, sus diferencias u otras funciones,
normalmente se suele pensar que el intervalo de confianza asociado será simétrico
alrededor del estimado puntual. Esta opción está asociada a la construcción bilateral
del intervalo y es la clásica.
Sin embargo es posible hacer que el intervalo esté abierto por un lado y por el otro
esté acotado. El intervalo abierto llega al infinito (o menos infinito) en el caso de las
9
medias y al 100% (o 0%) en el caso de proporciones. Esto corresponde al caso

unilateral o asimétrico del intervalo de confianza.
La construcción de intervalos asimétricos (abiertos por un lado) conlleva menor
tamaño de muestra. Sin embargo tales intervalos son mayores.
Precisión, tamaño del efecto y expectativas de diferencias

Parece claro que si en los estudios de estimación se desea una precisión mayor
(numéricamente más pequeña) asociada a un intervalo de confianza más estrecho, la
muestra debería ser mayor.
El intervalo se interpreta como la región en donde hay garantía o confianza de que
se encuentre el valor buscado. Intervalos menores suponen una mayor precisión y
conllevan un mayor esfuerzo experimental traducido en un mayor TM.
Esto se aplica tanto a proporciones, medias, diferencias de las anteriores y en
general a todo tipo de parámetros.
En los estudios de comparación de grupos, la precisión se mide en términos del
tamaño del efecto. Este parámetro corresponde a la diferencia esperada entre grupos
(expectativas de diferencias) dividida por la desviación estándar.
Por ejemplo, si se está interesado en comparar dos grupos para concluir que uno de
ellos es mejor que el otro se intentará detectar que el tamaño del efecto es superior a
cero. En esta situación, el TM asociado a una expectativa de diferencia de medias
de 10 es mayor que el TM asociado a una diferencia de 20. Parecería que debería
ser al revés, puesto que parece más interesante probar diferencias de 20 que de 10.
Sin embargo, el azar puede enmascarar más fácilmente diferencias pequeñas, por lo
que el tamaño debe ser mayor para garantizar que esta diferencia es real.
Aversión al riesgo del investigador

Las pruebas estadísticas nunca garantizan un 100% de fiabilidad. Pueden ocurrir
dos posibles situaciones:
Que el investigador concluya que existen diferencias cuando encuentra
significación estadística
Que el investigador concluya que no existen diferencias cuando no obtiene
significación estadística
Se debe convivir con el hecho de que existe un riesgo de equivocarse sea cual sea la
conclusión del estudio. Por lo tanto hay dos tipos de riesgos:
Riesgo de que no existan diferencias reales a pesar de encontrar significación
estadística (falso positivo / Error de tipo I o α en terminología Estadística)
Riesgo de que existan diferencias reales pero no encontrar significación

estadística (falso negativo / Error de tipo II o β en terminología Estadística)
Lo que procede es que estos dos riesgos se deben minimizar hasta un nivel
aceptable. Dependiendo del riesgo asumido el TM variará.
El riesgo de decidir que existen diferencias cuando éstas no existen se conoce como
riesgo α. El riesgo de decidir que no existen diferencias cuando éstas sí existen se
conoce como riesgo β. Uno menos β se conoce como poder, potencia o
“sensibilidad” de la prueba. El término potencia es la clave del proceso de cálculo
del TM, ya que representa la capacidad que tendrá el análisis estadístico de detectar
las diferencias esperadas a partir de la muestra obtenida.
Valores menores para los riesgos α o β traen consigo mayores TM.
Los valores científicamente admisibles de los riesgos α y β son relativamente bajos,
sin embargo el investigador debe especificarlos a priori. La tendencia innata sería
intentar minimizarlos hasta valores muy cercanos a cero. El aumento dramático del
TM, normalmente hace reconsiderar al alza los riesgos, sobre todo el error β. La
comunidad científica no suele aceptar riesgos α por encima del 10% (siendo 5% lo
más habitual), ni riesgos β por encima del 20% (una potencia del 80% como
mínimo).
Como regla orientativa, valores de α y β más bajos están asociados normalmente a:
Estudios únicos e irrepetibles en donde, si se encuentra significación,
presumiblemente no va a ser posible llevar a cabo estudios similares.
Estudios con riesgo elevado para los sujetos. La decisión asociada a la
significación trae parejo riesgos para otros sujetos a los que se aplicaría el
nuevo tratamiento. Se debe minimizar el error de considerar superior un
tratamiento de estas características si en realidad no lo es.
Estudios con tratamientos más caros. Por la misma razón que lo anterior.
Posiciones conservadoras en donde el estado actual es suficientemente
aceptable y la motivación al cambio es mínima.
Las administraciones, autoridades sanitarias, instituciones o sujetos
responsables de cualquier cambio, aunque sea para bien, suelen considerar
más aceptables riesgos α bajos, en relación a los beneficiarios primarios e
impulsores del cambio.
El investigador suele estar más preocupado por minimizar el error β, para
evitar así que el estudio llevado a cabo sea ineficaz en el sentido que no
pueda aportar las conclusiones deseadas.
En el extremo con α=0 ó β=0, el TM sería igual al tamaño de la población.

Entonces no hay necesidad de cálculos previos, ni pruebas estadísticas, ni errores
11
probabilísticos, ni imprecisiones. Los resultados presentarían validez y fiabilidad

total y la decisión estaría libre de errores. Estas situaciones ocurren muy raramente.
Como por definición en los estudios de estimación no se toman formalmente
decisiones, uno no debe preocuparse de los riesgos α o β asociados. Es por ello que
no se definen. Sí es necesario especificar el nivel de confianza que tiene un papel
similar al nivel de significación (α).
¿Cuál es el espíritu de la investigación: abierto o dirigido?

Si se desea llevar a cabo un contraste y el objetivo es encontrar diferencias siendo
irrelevante cual es el grupo superior, se tratará de una posición abierta, con
disposición a aceptar que cualquier tratamiento sea el superior. Se utilizarán
pruebas estadísticas bilaterales y esto deberá trasladarse a los cálculos del TM.
Si por el contrario el objetivo está enfocado a encontrar la superioridad de un
determinado grupo de tratamiento sin contemplar la posibilidad de decretar
diferencias en sentido opuesto, la posición del investigador será dirigida y estará
asociada a contrastes unilaterales. Será irrelevante, a efectos de decisión, si el
tratamiento experimental es inferior o igual al comparador.
Los análisis unilaterales requieren un menor TM.
¿Qué se trata de probar: no–igualdad, equivalencia o no–inferioridad?

Normalmente los contrastes se basan en intentar mostrar no igualdad o diferencias
entre dos o más grupos o tratamientos. En este caso la hipótesis alternativa
(hipótesis de interés para el investigador) está asociada a esta situación y, si se
alcanza la significación, se aceptan las diferencias. Esto es lo más frecuente.
Sin embargo hay situaciones donde se requiere probar justo lo contrario, esto es,
que dos opciones o grupos son equivalentes (no se dice iguales puesto que
técnicamente es imposible tanto de que suceda como de probarlo). Se negocia y
acota el tamaño de una región normalmente pequeña, de manera que si las
estimaciones para ambos grupos caen en esta región se decreta la equivalencia.
Alternativamente se puede estar interesado en certificar que un grupo no es inferior
a otro más allá de determinado valor. Se trata de probar la no inferioridad, También
se puede probar una situación de no superioridad mas allá de determinado valor,
siendo una situación muy interesante para garantizar la detección de diferencias no
sólo estadísticamente significativas, sino también de relevancia clínica.
Es difícil dar una regla general de como queda influenciado el TM en relación al
objetivo de no igualdad, equivalencia o no–inferioridad, ya que también depende
del resto de parámetros. En general, el TM asociado a un estudio de no–inferioridad
tendrá un TM menor que si el mismo estudio tiene como objetivo demostrar no–
igualdad. Del mismo modo, el TM necesario si el estudio se diseña como estudio de
superioridad será aún mayor. Los estudios planteados en términos de equivalencia
tienen un TM mayor que planteados como de no–inferioridad. A pesar de estas
variaciones en cuanto a la magnitud del TM, cada uno de los diseños anteriores es
aplicable a situaciones experimentales totalmente diferentes, por lo que no deberían
confundirse nunca. El objetivo del estudio debería fijar, previamente al cálculo del
TM, la situación a considerar.
Equilibrio en el tamaño de los grupos de tratamiento

Los contrastes de hipótesis incluyen normalmente dos o más parámetros medidos en
dos o más grupos de sujetos. Cuando el número de sujetos de cada grupo o muestra
que se desea comparar es la misma se dice que el estudio es equilibrado en función
de la variable explicativa principal (normalmente el tratamiento).
Inicialmente se piensa que si se compara dos o más grupos, estos deberán tener el
mismo número de efectivos. Esta es una restricción innecesaria y no tiene por que
ser obligatoriamente así, si bien es verdad que es la situación en la que el total de
efectivos necesarios es menor.
La utilización de grupos de tamaño diferente se justifica en situaciones en donde
uno de los tratamientos es más caro, más agresivo o menos disponible. Se necesitan
más efectivos en estudios no equilibrados y, adicionalmente, el tamaño total es
diferente si el desequilibrio está a favor o en contra del tratamiento comparativo.
¿Cuál es el objetivo del estudio: exploratorio o confirmatorio?

En los estudios confirmatorios, el investigador tiene un conocimiento más o menos
profundo sobre cómo se comportarán los grupos de tratamiento y dispone de
estimaciones más o menos fiables sobre los resultados a esperar. En tal caso, puede
llevar a cabo los cálculos del TM de manera natural empleando las estimaciones
previas. Por el contrario, en estudios exploratorios, el investigador suele desconocer
la magnitud de las diferencias entre grupos. Debe fijar un margen para las
diferencias que represente la magnitud de relevancia clínica mínima a observar y
utilizar esta cantidad en los cálculos del TM. Así, en los estudios exploratorios es
común hablar del tamaño del efecto detectable por la prueba.
Requerimientos generales en los estudios de estimación de

parámetros utilizando Ene 3.0
Cuando el objetivo del estudio es la estimación de un parámetro con cierto grado de
precisión, en el cálculo del tamaño muestral habrá que considerar:
13
El tipo de parámetro a estimar: medias, proporciones, RR u OR, cuantiles, etc

La precisión “ω”en la estimación de determinado parámetro
El nivel de confianza, normalmente del 95%
La simetría del intervalo, 1=unilateral/asimétrico; 2=bilateral/simétrico
Si la población de origen es finita o infinita
El método de muestreo empleado: por conglomerados, por estratos o inverso.
No es aplicable la previsión de errores α o β
Requerimientos generales en los estudios de Contraste de Hipótesis

utilizando Ene 3.0
Cuando el objetivo del estudio es el contraste de determinada hipótesis
experimental, el cálculo del TM habrá de considerar, además de qué variables y qué
población:
Qué potencia (sensibilidad) tendrá la prueba estadística para detectar la
hipótesis experimental
Qué nivel de significación se utilizará en los análisis
Cuál es el mejor estimado o previsión de los resultados experimentales
Qué tipo de comparación se desea emplear
Comparación de no–igualdad
Comparación de no–inferioridad
Comparación de superioridad
Comparación de equivalencia
Qué parámetros se van a comparar
Contraste de medias
Contraste de un ratio de medias (medias en escala logarítmica)
Contraste de proporciones
Contraste de una correlación
Contraste de una covariable en un modelo de regresión logística
Qué tipo de variable es la variable respuesta
Una variable cuantitativa (continua, Normal)
Una variable cuantitativa en escala logarítmica
Una variable cualitativa binaria
Una variable ordinal
Un tiempo de supervivencia
Número de grupos que se comparan
Una muestra frente a un valor teórico
Dos muestras independientes
Dos muestras relacionadas
Más de dos muestras independientes
Este libro incluye solamente los escenarios más habituales, con combinación de las
diferentes posibilidades.
¿Qué puede ocurrir si se toma un TM arbitrario?

El número total de unidades experimentales incluidas en el estudio debería ser
suficiente para garantizar cierto grado de precisión o para alcanzar la significación
estadística si los resultados son los previstos. De hecho, al aumentar el número de
unidades experimentales, también aumentará la precisión de los resultados así como
la sensibilidad (o potencia) de la prueba estadística. Sin embargo, por motivos
éticos, prácticos o económicos siempre se requiere que el número de unidades sea el
calculado.
Si el número de sujetos real es menor al calculado, el estudio tendrá más
imprecisión o no podrá aportar evidencia suficiente.
Si el número de sujetos es mayor al calculado se estará poniendo en situación
de riesgo a un número de sujetos mayor que lo imprescindible y/o se estará
consumiendo recursos de forma innecesaria.
Si no hay restricciones éticas, prácticas ni económicas, el TM calculado debe
entenderse como el tamaño mínimo necesario.
Errores básicos en el cálculo del tamaño muestral
El mito de la fracción poblacional

Error: El tamaño de muestra adecuado es el 5% del total de la población.
El concepto de fracción poblacional está arraigado y es atractivo. Se basa en el
razonamiento de que poblaciones mayores necesitarán mayores tamaños de
muestra, en una cuantía que debe ser proporcional e inalterable a lo largo de
estudios similares. Es la fracción poblacional. Valores de fracciones poblacionales
del 1, 2 ó 5 por mil y del 1, 2 ó 5 por ciento en poblaciones más pequeñas tienen
gran aceptación, pero no tienen ninguna justificación científica y simplemente
conducen a un TM inadecuado.
15
Enfermos vs. semillas

Error: Si las unidades son escasas o tienen poca entidad, como por ejemplo
muestras nucleares, pacientes o, los tratamientos son caros o destructivos, se
pueden emplear tamaños de muestra reducidos. Por el contrario, si las unidades
experimentales son abundantes y no consumen recursos, como por ejemplo,
semillas o sujetos encuestados con pocas preguntas, son necesarios tamaños más
elevados que pueden llegar a millares.
Desafortunadamente, los métodos estadísticos para el cálculo del TM no tienen en
cuenta la naturaleza de las muestras ni distinguen o consideran cuestiones de ámbito
humano.
El TM a medida
Error: Aumentando los riesgos α y β se reduce el TM. Aumentando las expectativas
de resultados también.
El admitir mayores riesgos, aumentando los posibles errores en la decisión, o el
aumentar las expectativas de resultados para disminuir el TM, suele producir
estudios con resultados más frustrantes que la situación inicial.
Muchos estudios no se hacen y otros tantos no se deberían hacer por estas razones.
El no comenzar un estudio sin garantías es tan meritorio como comenzar uno con
ellas.
Tesis vs. tesinas y publicaciones

Error: Dependiendo de la importancia del trabajo y, sobre todo, del fin utilitario
del mismo, el TM tendrá que estar en consonancia. No es lo mismo una tesis que
una tesina, que un original para una publicación regional. Por lo que a mayor
trascendencia del objetivo, mayor tamaño muestral.
Es duro aceptar que todo lo anterior puede ser falso. Los métodos para el cálculo del
TM no tienen en cuenta el destino final del trabajo.
Intervalos, errores y decimales exóticos

Error: Los tamaños de muestra se adaptan a las circunstancias.
El tamaño de muestra se basa en criterios objetivos. En ocasiones pueden detectarse
aquellos tamaños de muestra hechos a medida.
Necesidades de intervalos de confianza tales como el 93 o el 97%, por no
mencionar el 82.5 o el 91.04%, inducen a pensar que el tamaño de la muestra ha
sido previamente establecido por criterios de conveniencia. Lo mismo puede decirse

de niveles α y potencias diferentes a los convencionales.
También aplica para las expectativas de resultados. Valores con decimales, números
impares y, en general, estimados de más de dos cifras significativas suelen ser
sospechosos de ajustes.
Diferencias de medias tales como 17.3 o estimaciones de prevalencias tales como
50.4 podrían indicar, aparte de un exceso de celo, una “sobre utilización” de las
fórmulas.
Excepto en casos muy documentados en donde es conveniente incluir las
referencias, lo más aconsejable es utilizar números redondeados puesto que, al fin y
al cabo, son estimaciones.
Números mágicos
Error: Al realizar una encuesta, un tamaño de muestra de 100 individuos garantiza
siempre una muestra válida y fiable.
Por razones no documentadas pero justificables, determinados tamaños muestrales
ejercen un gran poder de atracción y una capacidad de anular razonamientos
alternativos. Entre ellos destacan los números 17, 24, 30, y 100. En menor medida
algunos de sus múltiplos como 34, 120, 200, 400, 500, 1000, o 3000. Estos TM
suelen producir efectos balsámicos en experimentados investigadores, revisores y
lectores. Aunque en determinadas circunstancias estos tamaños sí son adecuados, el
uso por defecto de tales cantidades no puede ir desvinculado de su justificación.
Por otro lado, en ocasiones se suele redondear el TM al alza, hecho que podría
explicar porqué bastantes tamaños de muestra finales son múltiplos de 10. La mejor
estrategia consiste en la documentación de las asunciones empleadas para el cálculo
del TM, de tal manera que pueda ser reproducible por terceros.
Ventajismo basado en la biodiversidad

Error: Consultando suficiente bibliografía se podrá justificar cualquier suposición.
La estadística existe porque existe la variabilidad muestral. Una consecuencia de
ello es que no se producen resultados iguales en estudios iguales. Pequeñas
variaciones en diseño u objetivos dan lugar a resultados diferentes y, en ocasiones,
sorprendentemente diferentes. La recopilación bibliográfica sobre un mismo tema
refleja lo anterior. Es por tanto frecuente encontrarse con diferentes estimados sobre
un mismo fenómeno. Las razones para elegir uno u otro no deberían basarse en TM
convenientes, sino en una argumentación soportada en aspectos sustantivos del
estudio.
17
En estudios con gran soporte bibliográfico, prácticamente cualquier TM es

defendible. La dificultad estriba en la elección del estimado más adecuado.
Relevancias irrelevantes
Error: Dado que se buscan diferencias, cualquier diferencia es relevante.
En la comparación de grupos, el factor determinante en el TM suele ser la diferencia
esperada. La teoría dice que si en la realidad existe esta diferencia, con el TM
calculado se alcanzará la significación estadística con garantías. Pero una diferencia
estadística no tiene valor si al mismo tiempo no es una diferencia relevante.
La diferencia esperada utilizada en el cálculo del TM debe ser relevante.
Diferencias muy pequeñas, paradójicamente asociadas a TM más elevados, no son
admisibles si son irrelevantes. Si, como ocurre cuando se comparan tratamientos
similares, el TM es elevado o muy elevado, lo recomendable es no comenzar por un
doble motivo: mucho para nada.
Múltiples tamaños muestrales

Error: El tamaño de muestra calculado para un objetivo sirve para todos los demás
objetivos del estudio.
No es raro encontrar diseños de estudios en donde se establecen dos objetivos
principales y /o varios secundarios. En teoría, cada objetivo principal está asociado
a su propio TM. Elegir el menor de los TM garantiza una pérdida de potencia. En
teoría se debe elegir el mayor de los TM de los objetivos principales. En caso
contrario, los objetivos principales sin suficiente TM, pasarían automáticamente a
ser objetivos secundarios u objetivos simplemente exploratorios.
Confundir el error estándar con la desviación típica

Error: Consultando bibliografía, el efecto esperado fue de 10 +/– 4, esto indica que
el efecto promedio fue de 10 unidades y la ¿varianza? ¿desviación típica? ¿error
estándar? fue de 4 unidades.
Aunque son conceptos matemáticamente relacionados, el error estándar y la
desviación típica se refieren a entidades diferentes. Básicamente, el error estándar se
asocia con la variación de un estadístico (generalmente la media o las diferencias de
medias) en una estructura poblacional, y la desviación típica se asocia a la variación
de los casos en la muestra. Lo importante es que el primero suele ser mucho menor
que el segundo y que en las publicaciones hay que cerciorarse de lo que se está
hablando, pues es común el confundirlas o que no aparezcan claramente
identificadas. Las consecuencias de tomar la una por la otra suelen ser graves. En
las fórmulas del TM siempre se solicita la desviación típica generalmente denotada

por dt, ds o sd. El tomar en su lugar el error estándar, normalmente denotado por ee,
se o sem, disminuye artificialmente el TM, dando como consecuencia diseños de
menor potencia.
Escala logarítmica o escala natural

Error: Transformando los datos a escala logarítmica, el TM será menor
La transformación de los datos a escala logarítmica se emplea cuando la variable de
interés es una variable de escala, es decir, positiva y con mayor heterogeneidad a
medida que los valores aumentan. En esta situación, la transformación logarítmica
no sólo es necesaria, sino que sería incorrecto no realizarla. El TM se calculará
partiendo de la variabilidad de la variable transformada, aparentemente menor, pero
las diferencias a consignar también serán automáticamente menores. De este modo,
la decisión sobre la escala de trabajo escogida debe realizarse y justificarse con
anterioridad a cualquier cálculo del TM.
No–inferioridad, no–igualdad o superioridad

Error: Los estudios de no–inferioridad requieren menor TM que los estudios de no–
igualdad, y éstos, menor TM que los estudios de superioridad.
Si bien es cierto que los estudios de superioridad relevante pueden necesitar un TM
mayor a los de no–igualdad y éstos mayor también a los de no–inferioridad,
también es cierto que los objetivos no tienen nada que ver unos con otros. Los
estudios de no–inferioridad suelen ser empleados para comparar tratamientos
similares y los de superioridad suelen utilizarse cuando uno de los tratamientos es
un placebo. Es totalmente inadmisible modificar el tipo de comparación para
ahorrar TM.
La justificación a posteriori del TM o el estadístico bombero

Error: Un experto estadístico puede justificar cualquier tamaño de muestra.
No es raro el caso de que, una vez comprometidos los recursos y convenientemente
fijado el TM, se intente recurrir a un estadístico para justificarlo. Los parámetros
obtenidos para cuadrar las cifras pueden producir la sensación de solidez pero, con
toda seguridad, algo fallará, normalmente las previsiones de resultados. Como
consecuencia, en este tipo de estudios armados a posteriori, o bien faltan casos (no
tienen potencia suficiente) o bien, menos grave, se han desperdiciado los recursos.
19
Estrategias básicas en el cálculo del tamaño muestral
Un estudio, varios investigadores

Si varios investigadores participan en un estudio es deseable que el ejercicio del
cálculo del TM se realice independientemente y por cada uno de ellos, por lo menos
la definición de las asunciones y los estimados. Es sorprendente como se manifiesta
la dispersión inter–investigador dando, generalmente, lugar a un amplio abanico de
experiencias, posturas y supuestos y consecuentemente de TM. La puesta en común
debería ser sobre los supuestos y, obviamente, no sobre el consenso del resultado
más favorable. En cualquier caso, es irrastreable determinar si el camino ha ido del
TM a los supuestos o al revés, que es como sería deseable.
Seguir o no seguir: Tablas o gráficos de potencia

Salvo excepciones, el TM influye considerablemente en la decisión de llevar o no a
cabo un estudio. Es corriente presentar en formato de tabla o gráficos diferentes TM
asociados a diferentes potencias, manteniendo invariantes el resto de asunciones y
parámetros. Estas tablas de potencia permiten, en determinados casos, decidir si se
asume un cierto riesgo adicional en el caso de continuar con el estudio aún con un
TM inferior.
Asimismo, las tablas permiten simular escenarios de potencia final en aquellos
casos en donde es posible una finalización prematura del estudio con diferentes TM.
Qué hacer en caso de desinformación total en estudios de estimación

de parámetros
El desconocimiento total o casi total de los posibles resultados suele darse en
estadíos muy iniciales. Sin embargo esta situación, por regla general, está
penalizada con un mayor TM que las situaciones con información.
En cuanto a la precisión que debería proporcionar la muestra, o mejor dicho,
imprecisión, es necesario diferenciar entre estudios piloto o estudios exploratorios.
En estudios piloto, el TM suele ser muy reducido y se suelen considerar precisiones
del 10% o incluso del 20%. En estudios exploratorios, la precisión clásica es del 5%
cuando las proporciones esperadas son próximas al 50%, del 3% para valores
esperados superiores al 70% o inferiores al 30% y una precisión del 1% para las
proporciones esperadas más extremas, del 10% o 90%. Estas cantidades para la
precisión deben de tomarse como muy orientativas ya que en función de la robustez
que se quiera dar a los resultados, el TM será distinto.
En cuanto al nivel de confianza del intervalo, el valor clásico es del 95% y se suelen
considerar intervalos bidireccionales.
Qué hacer en caso de desinformación total de medias y desviaciones

estándar
Se puede observar, mediante la aplicación práctica de las fórmulas, que el estimado
bruto de la media no influye en el TM, sino que el parámetro clave es la magnitud
de la diferencia esperada. Por el contrario, influye y mucho el valor de las
desviaciones estándar, aunque de hecho, únicamente es necesario conocer el tamaño
del efecto. Si normalmente hay problemas para estimar a priori los posibles
resultados de una media, en el caso de la desviación estándar ni se intenta.
Frente a la desinformación total, la información difusa es una opción
sorprendentemente útil en bastantes ocasiones.
En el apartado “consideraciones sobre parámetros desconocidos” del anexo, se
detallan algunos métodos muy simples y muy útiles para obtener estimaciones
razonables de la desviación típica (y otros parámetros).
Desconocimiento total de las diferencias relevantes

Las diferencias esperadas entre grupos deben ser realistas y además relevantes. De
nada sirve que solo tenga una de las dos propiedades. Como se ha comentado
anteriormente, el TM ofrecerá garantías razonables de que se alcance la
significación estadística, si las expectativas se cumplen. Es necesario recordar que
considerar relevantes pequeñas diferencias implica tamaños de muestra muy
elevados.
Las siguientes orientaciones, que deben considerarse con mucha cautela, pueden ser
de ayuda.
En el caso de proporciones:
Para proporciones, suele considerarse como diferencia relevante un cambio de un
10% o incluso del 15%. Cuando las proporciones son próximas a los extremos, la
diferencia relevante suele reducirse hasta el 5%. Por ejemplo: Eficacia con el
tratamiento de referencia: 40%, diferencia a consignar 15%. Valor esperado del
nuevo tratamiento: 55%, es decir, mejorar la eficacia del tratamiento de referencia
pasando de un 40% a un 55% es relevante, pero, por ejemplo, pasar de un 40% a un
43% probablemente no, excepto en casos especiales cómo que el tratamiento
experimental fuera mucho más económico o más seguro.
21
En el caso de medias:
En el supuesto de máximo desconocimiento, en muchos casos se puede optar por
una diferencia entre grupos de al menos 1/3 de la desviación estándar. En ocasiones
se baraja el consignar una diferencia mayor pero, aunque esta diferencia suele ser
relevante, normalmente es poco realista.
Sólo en fases muy iniciales se admite un desconocimiento de la magnitud del
fenómeno estudiado y estas soluciones son un último recurso desesperado para
intentar desbloquear la situación.
Para índices estadísticos diferentes a medias y proporciones:
La mayoría de los estadísticos suelen derivarse de proporciones o medias por lo
tanto puede ser orientativo calcular las diferencias relevantes a partir de éstas.
Desconocimiento de la prevalencia u otras proporciones

Lo aceptable es posicionarse en la situación más desfavorable en términos de
información, que corresponde a un estimado del 50% y a un máximo TM. Sin
embargo conviene intentar afinar el estimado aumentándolo o disminuyéndolo. Este
ejercicio compensa.
Desconocimiento del tamaño poblacional

Como se ha comentado, el tamaño poblacional sólo tiene influencia en el TM si la
muestra representa un porcentaje elevado del total de la población. En caso de
desconocimiento, considerar la población infinita.
Desconocimiento total de casi todo: Fases y Estudios piloto

Situación bastante más frecuente de lo previsto. La estrategia consiste en comenzar
un estudio con una fase piloto involucrando un número muy reducido de efectivos.
Tal vez 15 o 20 en el caso de un estudio de prevalencias o de 12 (número mágico)
por grupo en estudios comparativos.
Analizar la descriptiva y obtener todos los estimados necesarios. Esta es una de las
mejores estrategias que se pueden implementar, puesto que los condicionantes
ambientales del estudio piloto (incluidos los investigadores, fuente de reconocida
variabilidad) serán los mismos que los del estudio definitivo.
No obstante algunos comentarios:
La utilización de esta estrategia sólo es recomendable en aquellos estudios de
corta resolución.
No analizar inferencialmente los datos. Está formalmente contraindicado

analizar estadísticamente los datos en cuanto a la obtención de los p–valores.
La estrategia, utilización de la fase piloto y su justificación debería
incorporarse al protocolo del estudio.
También puede considerarse la posibilidad de realizarse un estudio piloto inicial
simplificado y muy básico, a partir del cual se pueda estimar el TM definitivo.
¿Por qué en estudios de mercado y encuestas se utiliza casi siempre

un TM de 400, 1110 o 2500?
Se elige una variable dicotómica como variable principal y se asume un
desconocimiento total de la respuesta, por lo que el estimado inicial de p es 0.5. Se
elige un nivel de confianza del 0.95 bilateral y se redondea su valor Z asociado de
1.96 a 2.0. Para imprecisiones máximas admisibles del 5, 3 y 2% los TM son 400,
1100 y 2500 respectivamente.
Corrección del tamaño muestral por abandonos o desviaciones del

protocolo
El TM se refiere a la mínima cantidad de sujetos válidos para análisis. Si el estudio
es de larga duración, el cumplimiento estricto del protocolo es complicado, o los
criterios de inclusión son deficientes, entonces es esperable que un porcentaje
elevado de sujetos abandone el estudio o violen el protocolo y, por lo tanto, no sean
estrictamente evaluables.
Aunque es trivial, los datos perdidos en la experimentación y los datos no válidos
no se incluyen en el análisis principal. Por este motivo, una vez que se ha realizado
el cálculo del tamaño muestral, es habitual corregirlo para contemplar que un
porcentaje determinado de los pacientes abandonará el estudio o incumplirá algún
requisito del protocolo.
Para estimar el porcentaje de pacientes excluidos del análisis es necesario examinar
bibliografía previa, observando qué porcentaje se obtuvo en estudios similares, con
los mismos criterios de seguimiento y la misma duración. Este porcentaje suele
estar entre un 5% y un 20%. Una vez fijado el porcentaje previsto de abandonos
(ab), el TM final puede obtenerse realizando el cálculo:
nr = n/(1–ab)
Valores de datos no válidos superiores al 20% podrían indicar criterios de
inclusión/exclusión muy deficientes y, por lo tanto, sesgos en las muestras.
23
Alternativas de análisis con datos perdidos

En el supuesto caso de haber previsto un porcentaje de abandonos menor que el
porcentaje real, el tamaño muestral sería insuficiente. Existen métodos estadísticos
específicos para poder incluir en el análisis sujetos con información incompleta.
También sería posible llevar a cabo técnicas de imputación de valores para estimar
la información faltante.
En general, el análisis estadístico diferencia dos tipos de poblaciones ligeramente
distintas dentro del mismo estudio. El análisis principal de eficacia se realiza en la
población llamada "por protocolo" (población PP). Esta población está constituida
por todos los individuos que no han incumplido el protocolo y han finalizado
correctamente el estudio. El análisis de seguridad se realiza en la población llamada
"por intención de tratar" (población ITT). Esta población está constituida por todos
aquellos individuos a los que se les asignó uno de los posibles tratamientos. El
análisis secundario de eficacia puede realizarse en ambas poblaciones dependiendo
de otros criterios.
Diseños complicados inabordables

Medidas repetidas, triple cruzados, clustering o anidamientos, censuras bilaterales,
respuestas multivariantes, factores de confusión e interacciones, son sólo algunas de
las sofisticaciones que pueden aparecer en el diseño de un estudio. Aunque existen
fórmulas apropiadas para algunos de estos diseños, suelen ser intratables. La
recomendación práctica es calcular un TM aproximado con el diseño sencillo más
parecido. Un diseño sencillo no tiene necesariamente a priori un TM mayor o menor
que uno similar más complicado. El TM exacto se puede calcular mediante técnicas
de simulación.
Simulación
En algunas ocasiones el diseño o las características de los estudios son
suficientemente complicados como para no encontrar un procedimiento fiable del
cálculo del TM y lo suficientemente fáciles de analizar como para que por técnicas
de simulación se pueda calcular el TM adecuado. Esto exige técnicas
computacionales potentes y recursos de programación normalmente fuera de lo
estándar. Otra dificultad añadida a estas técnicas es la necesidad de realizar diversas
suposiciones sobre los datos que no son contrastables a priori.
Qué ocurre si no se acierta con las expectativas

Un investigador desea realizar un estudio para detectar diferencias entre dos grupos
de tratamiento. Todas las previsiones se han realizado de acuerdo a la información
disponible y calculado el TM, pero ¿qué ocurriría si los resultados finales no

concuerdan con lo esperado?
Pueden producirse dos tipos de situaciones, una claramente más favorable que la
otra:
Situaciones tipo a)
Que las diferencias encontradas entre grupos sean mayores a las previstas
Proporciones más cercanas a 0 ó a 100%
Desviaciones estándar menores a las previstas
En estos casos:
La significación estadística del contraste o p–valor es menor
El intervalo de confianza y, por consiguiente, la imprecisión de la estimación
es menor
Situaciones tipo b)
Que las diferencias encontradas entre grupos sean menores a las previstas
Proporciones más cercanas a 50%
Desviaciones estándar mayores a las previstas
En estos casos:
La significación estadística del contraste no se alcanza
El intervalo de confianza y, por consiguiente, la imprecisión de la estimación
es mayor
Como se ha comentado, la situación ideal es que las expectativas se cumplan
evitando que se empleen más recursos de los necesarios y alcanzándose la
significación estadística mínima exigida.
Asunción de normalidad
La mayoría de los supuestos y diseños asumen normalidad en las respuestas
cuantitativas. Las fórmulas empleadas son robustas y producen resultados del TM
fiables aun si el supuesto de normalidad no está totalmente garantizado. Aunque no
está suficientemente documentado, se suele aceptar que si se van a emplear pruebas
no paramétricas en el análisis y el TM es reducido, éste se aumente en un 10%.
Cálculo del TM en regresión múltiple

Aunque se puede encontrar publicaciones con cálculos específicos y adaptados a
diseños de regresión múltiple (ya sea regresión lineal, logística o de otro tipo), se
deben tener en cuenta los siguientes comentarios:
25
Los diseños, en donde se emplean modelos y técnicas multivariables con más de 3 ó

4 factores suelen ser observacionales. En estos casos, las relaciones de causalidad
no son tan fuertes como en diseños experimentales, siendo menos críticas las
consecuencias de encontrar o no la significación de un factor.
Además la significación de los factores está en relación a la distribución de los
valores de las variables explicativas que normalmente no son controladas a priori.
En la versión 3.0 del programa Ene, ya se encuentran disponibles las técnicas de
regresión múltiple más habituales. La información que se pide es difícil de
conseguir por lo que el investigador deberá estar totalmente seguro de los
parámetros que emplea en los cálculos y no dejarse llevar por la facilidad de uso del
programa.
Estudios bietápicos
En la nueva versión 3.0 del programa Ene, es posible realizar los cálculos para el
TM en estudios bietápicos para una proporción aplicando el método bietápico de
Simon.
Documentar siempre
Como el título indica, es recomendable documentar siempre los supuestos sobre los
que se calcula el TM, incluyendo explícitamente las razones del desconocimiento o
la falta de información si ésta se produce, así como incluir las fuentes y referencias
de valores documentables y las argumentaciones sobre valores subjetivos y
modificaciones.
También se debe mencionar qué técnica estadística será empleada en el análisis de
la variable respuesta principal, y qué suposiciones relativas a la técnica se han de
asumir. De este modo, terceros podrían ser capaces de reproducir los cálculos.
Optimización del TM mediante cambios en el diseño del estudio

Mediante cambios a veces sutiles, a veces drásticos en el diseño se puede disminuir
el valor del TM o bien optimizar el valor experimental de la muestra. Algunas
estrategias son las siguientes:
Variar los criterios de selección. Incluir sujetos con un estado clínico más severo. Si
el tratamiento experimental es realmente más efectivo que el tratamiento de
referencia, en el caso de analizar pacientes más graves, las diferencias observadas
deberían ser mayores.
Selección de cumplidores. Eliminar anticipadamente posibles sujetos incumplidores
del protocolo. Puede ser recomendable realizar una fase previa de evaluación de los
pacientes, de manera que se podrá detectar cuáles tienen más posibilidades de

abandonar. Estos pacientes no se incluirían en el estudio, dando lugar a un estudio
más completo.
Escoger adecuadamente la variable respuesta principal. A menudo se decide escoger
como variable respuesta una variable cualitativa binaria del tipo (Eficaz/No eficaz).
El estudio de variables binarias requiere generalmente tamaños de muestra
elevados. Por este motivo, suele ser aconsejable escoger una variable respuesta
principal que permita obtener mayor información del efecto de los tratamientos.
Realizar el estudio con grupos no compensados puede ser útil si el seguimiento de
los pacientes de uno de los dos grupos es más costoso que en el otro grupo. Los
estudios con grupos descompensados tendrán un TM bruto siempre mayor al TM
correspondiente en los estudios equilibrados, sin embargo, una correcta
descompensación puede ahorrar un gran número de recursos.
Si el investigador conoce las características distribucionales de la muestra, puede
llevar a cabo una selección de los participantes del estudio de manera estratificada o
por conglomerados. Dado que los estratos y también los conglomerados
proporcionan cierta información añadida, la muestra resultante de un estudio con
este tipo de muestreos será una muestra con mejores propiedades. Los estratos
representan subgrupos de sujetos homogéneos en cierto criterio de interés (por
ejemplo estratos según nivel de ejercicio físico). Los conglomerados son
agrupaciones de sujetos totalmente heterogéneas en cierto criterio de interés (por
ejemplo Área de Salud).
Realizar análisis intermedios. En estudios exploratorios muy costosos (ya sea por
criterios de gravedad de los pacientes o por criterios económicos), es posible
contemplar la realización de análisis intermedios. Estos análisis son llevados a cabo
cuando el estudio no ha terminado todavía y se cuenta únicamente con la
información disponible. Si estos análisis ya permiten concluir que existen
diferencias entre tratamientos, no es necesario proseguir con el ensayo y éste puede
declararse finalizado. El cálculo del TM cuando está previsto realizar análisis
intermedios es muy complejo, por lo que es necesario contactar con un estadístico
cualificado.
Estudios concurrentes. Otra posible forma de optimizar el tamaño muestral de un
estudio consiste en aprovechar el mismo estudio para explorar nuevas asociaciones
entre los factores de riesgo, el tratamiento experimental y las variables respuesta.
Esto convertiría un estudio confirmatorio en un estudio mixto, ya que se estaría
incluyendo una parte exploratoria.
27
Características del programa Ene 3.0

Ene 3.0 es un programa para el cálculo del tamaño de muestra (TM). Permite
resolver los casos más generales tanto para la estimación de parámetros como
para la comparación de grupos mediante un conjunto de técnicas muy diversas.
El Servei d’Estadística de la Universidad Autónoma de Barcelona y el
Departamento de Biometría de GlaxoSmithKline han desarrollado conjuntamente
este programa.
Ene 3.0 es un programa que se instala en Windows©. Está diseñado para que el
usuario pueda realizar de una forma rápida y fácil, cálculos estadísticos del TM
con resultados tanto gráficos como numéricos. Para el manejo del programa no es
necesario tener amplios conocimientos estadísticos. El programa se maneja por
menús y no requiere programación.
Lo que no contiene el programa Ene 3.0

No se encuentran implementados en el programa Ene 3.0 los cálculos asociados a:
Diseños multivariantes complejos
Diseños para estudios con datos longitudinales o medidas repetidas
Diseños secuenciales o multietápicos con más de dos etapas.
Técnicas de simulación
Lo que contiene el programa Ene 3.0

Cálculo del TM aplicable a estudios de:
Estimación
Una media: muestreo aleatorio simple, poblaciones finitas, conglomerados,
estratos.
Una proporción: muestreo aleatorio simple, poblaciones finitas,
conglomerados, estratos, muestreo inverso.
Un Riesgo relativo (RR)
Un Odds Ratio (OR)
Un cuantil
Comparación de dos proporciones

(no–igualdad, no–inferioridad, superioridad, equivalencia)
Una proporción frente a un valor teórico
Dos proporciones
Dos proporciones relacionadas
Comparación de dos medias

Una media frente a un valor teórico
Dos medias
Dos medias relacionadas
Comparación de dos medias en escala logarítmica

Una media en escala logarítmica frente a un valor teórico
Dos medias en escala logarítmica
Dos medias en escala logarítmica relacionadas
Otros estudios
Dos medianas (variable ordinal, variable cuantitativa)
Dos medias con desviaciones diferentes (corrección de Satterthwaite)
Más de dos medias
Más de dos proporciones
Una correlación
Modelo de regresión lineal múltiple
Una covariable en regresión logística
Una covariable en regresión logística ajustada por otras covariables
La supervivencia de dos grupos
La supervivencia de dos grupos con inclusión, seguimiento y tasa de
abandonos
La supervivencia de dos grupos con inclusión, seguimiento y tasa de
abandonos – no–inferioridad
Comparación de una proporción frente a un valor teórico método bietápico
Se calculan los TM y cuando es aplicable se calcula la precisión, la potencia, el

gráfico de potencia y/o el tamaño del efecto a partir de los anteriores.
Requerimientos del equipo

Los requisitos mínimos recomendados para que Ene 3.0 funcione de forma
satisfactoria son:
Sistema operativo Windows XP o superior / GNU-Linux / Mac OS X 10.4
o superior
29
512MB memoria RAM

Procesador de 1GHz o superior
JRE 1.5 o superior
100 MB de espacio libre en disco duro
Lector de CD
Pantalla VGA (1024 x 768) con 256 colores de resolución
Impresora configurada
Acceso a Internet
Instalación
Seguir las instrucciones contenidas en el propio CD o, alternativamente, consultar
la información actualizada en: www.e–biometria.com
Técnicas implementadas
En estimación de parámetros
TECNICA
VARIABLE ESTADISTICA
OBJETIVO RESPUESTA MUESTRAS ASOCIADA
Intervalo de Confianza
Estimación Continua Una muestra
para una Media
Una muestra /
Estimación Continua para una Media
población finita
(Población Finita)
Una muestra /
Estimación Continua para una Media muestra
Conglomerados
con conglomerados
Una muestra /
Estimación Continua para una Media muestra
Estratos
estratificada
Estimación Proporción Una muestra
para una Proporción
Una muestra /
Estimación Proporción para una Proporción
población finita
(Población Finita)
Estimación Proporción Una muestra / Intervalo de Confianza
Inversa para una Proporción

(Muestreo Inverso)
Una muestra / para una Proporción
Estimación Proporción
Conglomerados muestra con
conglomerados
Una muestra /
Estimación Proporción para una Proporción
Estratos
muestra estratificada
Dos muestras Intervalo de Confianza
Estimación Riesgo Relativo
independientes para log(RR)
Dos muestras Intervalo de Confianza
Estimación Odds Ratio
independientes para log(OR)
Continua Intervalo de Confianza
Estimación Una muestra
(cuantil) para un Cuantil
En contrastes de hipótesis
TECNICA
VARIABLE ESTADISTICA
OBJETIVO RESPUESTA MUESTRAS ASOCIADA
Prueba t–Student para una
No Igualdad Continua Una muestra
muestra
No Prueba t–Student para una
Continua Una muestra
Inferioridad muestra
Superioridad Continua Una muestra
muestra
Equivalencia Continua Una muestra
muestra
Dos muestras Prueba t–Student para dos
No Igualdad Continua
independientes muestras independientes
Dos muestras Prueba t–Student
independientes (Satterthwaite) para dos
– Varianzas muestras independientes
diferentes con varianzas diferentes
31
No Dos muestras Prueba t–Student para dos

Continua
Inferioridad independientes muestras independientes
Superioridad Continua
Equivalencia Continua
relacionadas muestras relacionadas
No Dos muestras Prueba t–Student para dos
Continua
Inferioridad relacionadas muestras relacionadas
Superioridad Continua
Equivalencia Continua
Escala Prueba t–Student para una
No Igualdad Una muestra
logarítmica muestra escala logarítmica
No Escala Prueba t–Student para una
Una muestra
Inferioridad logarítmica muestra escala logarítmica
Superioridad Una muestra
Equivalencia Una muestra
Prueba t–Student para dos
Escala Dos muestras
No Igualdad muestras independientes
logarítmica independientes
escala logarítmica
No Escala Dos muestras
muestras independientes
Inferioridad logarítmica independientes
escala logarítmica
Escala Dos muestras
Superioridad muestras independientes
escala logarítmica
Escala Dos muestras
Equivalencia muestras independientes
escala logarítmica

Escala Dos muestras
No Igualdad muestras relacionadas
logarítmica relacionadas
escala logarítmica
No Escala Dos muestras
muestras relacionadas
Inferioridad logarítmica relacionadas
escala logarítmica
Escala Dos muestras
Superioridad muestras relacionadas
escala logarítmica
Escala Dos muestras
Equivalencia muestras relacionadas
escala logarítmica
No
Proporción Una muestra Prueba χ2 para una muestra
Inferioridad
No–Igualdad Proporción Una muestra Prueba χ2 para una muestra
Superioridad Proporción Una muestra Prueba χ2 para una muestra
Equivalencia Proporción Una muestra Prueba χ2 para una muestra
No Dos muestras Prueba χ2 para dos
Proporción
Inferioridad independientes muestras independientes
Dos muestras Prueba χ2 para dos
No–Igualdad Proporción
Superioridad Proporción
Equivalencia Proporción
No Dos muestras Prueba χ2 para dos
Proporción
Inferioridad relacionadas muestras relacionadas
Prueba χ2 para dos
Dos muestras
No–Igualdad Proporción muestras relacionadas
relacionadas
(McNemar)
Superioridad Proporción
Equivalencia Proporción
33
Prueba U de Mann–
Continua Dos muestras
No–Igualdad Whitney para dos
(medianas) independientes
Cuantitativas
Prueba U de Mann–
Ordinal Dos muestras
No–Igualdad Whitney para dos
(medianas) independientes
Ordinales
Más de dos
ANOVA de 1 Factor para
No–Igualdad Continua muestras
K muestras independientes
independientes
Más de dos
Prueba χ2 para k muestras
No–Igualdad Proporción muestras
independientes
independientes
Contraste para el
No–Igualdad Continua Una muestra Coeficiente de Correlación
de Pearson
K covariables Regresión Lineal para k
ajustadas por H covariables ajustadas por h
No–Igualdad Continua
covariables en covariables en regresión
regresión lineal lineal
Prueba de Wald para una
No–Igualdad Proporción Una muestra covariable en regresión
logística
Prueba de Wald para una
covariable ajustada por
No–Igualdad Proporción Una muestra
otras covariables en
regresión logística
Tiempo de Dos muestras
No–Igualdad Test Log Rank
supervivencia independientes
Test Log Rank
Tiempo de Dos muestras
No–Igualdad (Exponencial) Inclusión +
supervivencia independientes
Censurados
Test Log Rank
No Tiempo de Dos muestras
(Exponencial) Inclusión +
Inferioridad supervivencia independientes
Censurados
Prueba Binomial Exacta

Una muestra –
No–Igualdad Proporción para una muestra Método
Bietápico
Bietápico de Simon
Ventana de trabajo
El usuario puede seleccionar la técnica que desee emplear a través del desplegable
que aparece tras pulsar el menú Estudio. También puede abrir una técnica a partir
de los desplegables que aparecen en el apartado Técnicas disponibles.
Una vez abierto el estudio, aparecerá el cuadro de trabajo, donde el investigador
deberá rellenar los campos que solicite el programa. Pulsando finalmente el botón
Calcular, para que aparezca el resultado.
Algunos parámetros facilitan un pequeño desplegable con las opciones posibles.
El resto de parámetros disponen de filtros inteligentes que controlan y evitan la
introducción de valores incorrectos o incoherentes con el resto de parámetros.
El programa incluye diversas capacidades de asistencia al usuario:

35
Visor de Técnicas
El ususario dispone de una ventana con un visor para consultar cualquier de las
técnicas abiertas o abrir técnicas nuevas.
Ayudas
El programa contiene una ayuda general donde el usuario puede explorar todas las
técnicas así como un glosario de términos utilizados:
Ayuda específica
Cada técnica tiene una pestaña con la ayuda explicativa de la técnica que se está
utilizando
Asistencia al usuario dentro de la técnica:

Botón ejemplo: El usuario tiene la posibilidad de incorporar automáticamente en
la ventana de parámetros los valores relativos a un ejemplo asociado a la técnica y
explicado en la ayuda.
Redactado: De manera automática el programa proporciona ayuda en la redacción
de los resultados obtenidos, a veces complicados debido a la terminología
estadística.
37
Botón Imprimir: Finalmente es posible enviar a la impresora los cálculos

efectuados.
Corrección por abandonos

El programa contiene un parámetro correspondiente al porcentaje esperado de
abandonos. De esta forma, el usuario puede realizar los cálculos para el tamaño de
muestra a reclutar a partir del tamaño de muestra efectivo contemplando los
posibles abandonos de manera directa.
39
Filtros inteligentes
Cuando el valor de algún parámetro es incorrecto o incoherente, en la línea
inferior de la pantalla aparecerá un mensaje advirtiendo al usuario y especificando
qué tipo de error está cometiendo. Los filtros inteligentes controlan el valor de
cada parámetro asegurándose que está dentro de los valores permitidos así como
si existe alguna incoherencia entre dos o más parámetros. En el caso de que
aparezca algún mensaje, el botón Calcular permanecerá desactivado.
Gráficos
Excepto en las ventanas de estimación de parámetros, el usuario dispone de una
pestaña que proporciona los gráficos de potencia. En ellos se puede apreciar como
varía la potencia en función de diferentes tamaños de muestra, dejando la
posibilidad al usuario de que introduzca y personalice el resto de parámetros que
intervienen en los cálculos.
Además, el gráfico que representa la potencia en función del TM se puede

exportar en formato “png” compatible con procesadores de texto y programas de
edición estándares.
Funcionamiento general del programa

Ene 3.0 trabaja internamente con una precisión de 10e–8.
Los valores introducidos y presentados contemplan 2 dígitos decimales y 4
decimales para las proporciones.
En el programa, los valores para las variables que representan porcentajes, deben
introducirse multiplicados por 100.
El tamaño de muestra presentado por Ene 3.0 es redondeado al entero superior
más próximo. Por ejemplo, si el resultado del cálculo es n=17.316, el programa
mostrará n=18.
La potencia presentada por Ene 3.0 es redondeada al valor centesimal inferior más
próximo. Por ejemplo, si el resultado del cálculo para la potencia es 1 – β =80.796
el programa mostrará 1 – β =80.79
En las técnicas en que interviene dos o más grupos, Ene 3.0 realiza los cálculos
del tamaño de muestra para el primer grupo, obteniendo el valor n1. A partir del
porcentaje de casos asignados a los diferentes grupos, Ene 3.0 calcula el tamaño
de muestra asociado a cada uno de ellos:
ni=(wi n1) /w1
siendo ni el tamaño de muestra resultante para el grupo i–ésimo.
Para corregir el tamaño muestral en función del porcentaje esperado de abandonos
en las técnicas que es aplicable (ver anexo), Ene 3.0 emplea la siguiente fórmula:
nr = n / (1 – ab)
siendo ab el porcentaje esperado de abandonos y nr el tamaño de muestra
corregido.
Mejoras en la funcionalidad en la versión Ene 3.0

La nueva versión Ene 3.0 proporciona 61 técnicas diferentes (por lo tanto
incorpora 39 nuevas técnicas a las 22 incluidas en Ene 2.0) ofreciendo soluciones
para la gran mayoría de estudios, variables respuesta y tipos de muestreo.
Además, también incluye una serie de mejoras funcionales:
Se ha ampliado el rango de posibles valores para el nivel de significación
α así cómo para el nivel de confianza γ.
Se ha aumentado la precisión en los porcentajes. Todos los porcentajes son
introducidos por el usuario con dos dígitos y dos decimales (en tanto por
100 y con dos decimales).
41
Las ayudas particulares para cada una de las técnicas se han incluido en la
misma pantalla de introducción de valores de cada técnica.
Se ha incluido un nuevo parámetro en todas las técnicas prospectivas:
porcentaje esperado de abandonos.
La ayuda incorpora conceptos prácticos sobre cómo determinar valores
aproximados para los parámetros de interés a partir de información
incompleta.
El glosario del programa ha pasado de 84 a 143 entradas.
Estimación de parámetros
Introducción
El objetivo de determinados estudios es la obtención de información de un
parámetro que resuma la variable respuesta principal del estudio. Por ejemplo,
estudios observacionales donde se desea conocer la prevalencia de cierta
enfermedad, o donde se desea conocer la media del colesterol de una población
infantil. En estas situaciones, se está interesado en obtener una estimación de un
parámetro poblacional (generalmente proporciones o medias) con determinado
nivel de precisión.
Entonces, el objetivo del estudio puede responderse mediante el intervalo de
confianza del parámetro de interés. Es decir, un intervalo basado en una
estimación puntual que proporcione un margen suficientemente conciso y que
contenga de forma razonable el valor verdadero del parámetro objetivo.
En la fase de diseño del estudio se trata de responder a alguna de las siguientes
preguntas:
¿Cuántos individuos será necesario incluir en el estudio para conseguir un
intervalo con una precisión ω ?
¿Qué precisión se obtendrá si en el estudio se han incluido n sujetos?
¿Hasta qué punto el intervalo de confianza contendrá de forma razonable el
valor verdadero del parámetro? ¿Cuál es la confianza del intervalo?
Intervalo de Confianza para la media de una variable

cuantitativa Normal
Cuando la variable respuesta principal tiene una distribución Normal, el
parámetro que mejor resume la variable es la media (μ). El intervalo de confianza
es de la forma:
( )
μ ∈ X − ω , X + ω : intervalo bilateral
μ > X − ω : intervalo unilateral derecho
μ < X + ω : intervalo unilateral izquierdo
El promedio de la variable (μ) se encuentra entre los valores X − ω y X + ω ,

donde “ω” representa el grado de precisión de la estimación.
43
A partir de las propiedades de la distribución Normal se construye el intervalo de

confianza:
⎛ Z 1−α / 2σ 0 Z 1−α / 2σ 0 ⎞
En el caso bilateral: IC1−α (μ ) : μ ∈ ⎜⎜ X − ,X + ⎟
⎟
⎝ n n ⎠
Z1−α σ 0
En el caso unilateral derecho: IC1−α (μ ) : μ > X −
n
Z1−α σ 0
En el caso unilateral izquierdo: IC1−α (μ ) : μ < X +
n
El nivel de confianza se denota habitualmente por γ , siendo igual a 1 – α, donde
α sería el nivel de significación fijado por el investigador.
Por lo tanto se pueden contestar las preguntas formuladas en el diseño del estudio:
Z1−α / cσ 0
ω= y despejando:
n
2
⎛ σ ⎞
n = ⎜ Z1−α / c 0 ⎟
⎝ ω⎠
donde c corresponde al número de colas (2 bilateral, 1 unilateral)
Estas fórmulas permiten determinar el tamaño muestral o bien la precisión a partir
del nivel de confianza (γ = 1 – α), si se trata de un intervalo bilateral o unilateral y
la desviación estándar. Por lo tanto, al calcular un intervalo de confianza para la
media de una variable continua se asume que la desviación estándar es conocida
(σ 0).
La última pregunta formulada: “¿Hasta qué punto el intervalo de confianza
contendrá de forma razonable el valor verdadero del parámetro?” la debe fijar a
priori el investigador mediante el parámetro γ, el nivel de confianza, que se
expresa en las fórmulas como 1 – α, siendo α el nivel de significación. Se puede
esperar que un 100γ % de los intervalos construidos a partir de muestras del
mismo tamaño n contengan el valor real del parámetro ( μ ).
A continuación se comentan los factores que determinan y en qué grado influyen

tanto en el número de sujetos que se deben incluir en el estudio como en el grado
de precisión que se obtendrá al calcular el intervalo de confianza.
Precisión y Tamaño de muestra
Si se desea una estimación con elevada precisión, será necesario incluir un
número elevado de individuos. Y, de forma similar, si el investigador incluye
pocos individuos, obtendrá una precisión pequeña. De hecho, ya que en la

fórmula para el tamaño de muestra la precisión se encuentra elevada al cuadrado,
conseguir el doble de precisión (reducir ω a la mitad) implica multiplicar por
cuatro el tamaño de muestra.
Variabilidad (Desviación estándar)
Para estudiar la media de una variable con una desviación estándar elevada será
necesario incluir un mayor número de sujetos, de lo contrario sería más difícil
conseguir la precisión deseada. Por lo tanto, si los sujetos son relativamente
homogéneos, se obtendrá fácilmente un grado mayor de precisión.
La desviación estándar es un parámetro propio de la población que debe ser
anticipado antes de llevar a cabo el estudio. De hecho, las fórmulas para esta
técnica suponen que es un valor conocido. Este parámetro puede ser obtenido a
través de un estudio piloto o utilizando información de otros estudios parecidos.
Si la información disponible sólo permite obtener un valor aproximado de la
desviación estándar, los cálculos serán igualmente válidos aunque el valor final
no será el valor exacto, sino una aproximación. En tal caso, es recomendable usar
en las fórmulas un valor ligeramente superior al valor aproximado. De este modo,
los cálculos representarán una cota superior y se actuará de forma conservadora.
De manera similar, si se ha fijado el tamaño de muestra, la precisión obtenida al
proceder de esta manera será ligeramente inferior, hecho que permitirá conocer la
precisión mínima que conseguirá el investigador.
Nivel de confianza
Cuando se desea obtener un intervalo con un nivel de confianza elevado (y por lo
tanto un nivel de significación pequeño) deberá incluir más individuos en el
estudio. Si el TM ya está fijado, aumentar el nivel de confianza implicaría un
intervalo con menor precisión. Es habitual considerar un nivel de confianza igual
a 0.95.
Bilateral / Unilateral
En el caso unilateral, el número de sujetos necesarios para conseguir determinada
precisión será menor. Por otro lado, el caso bilateral proporciona información más
válida para el estudio de parámetros desconocidos. El caso unilateral debe
aplicarse únicamente cuando se desea un margen de seguridad para el parámetro,
por ejemplo en estudios de eliminación de residuos.
45
Intervalo de Confianza para la media de una variable

cuantitativa no Normal
Si la variable respuesta principal es cuantitativa pero no sigue una distribución
Normal, entonces la media muestral de esta variable tiene una distribución
asintóticamente Normal. Por lo tanto, las fórmulas relativas al intervalo de
confianza, al tamaño muestral y a la precisión serán también asintóticas, es decir,
serán aproximaciones que mejorarán conforme el TM sea elevado. Si además, la
desviación estándar de la variable respuesta es desconocida, será deseable que el
TM sea grande (>30) para que las fórmulas proporcionen buenas aproximaciones.
En este caso, la corrección por poblaciones finitas tiene el mismo efecto.
Intervalo de Confianza para una proporción

Si la variable respuesta principal es cualitativa binaria, entonces la proporción
muestral del evento de interés es asintóticamente Normal. Por lo tanto las
fórmulas relativas al intervalo de confianza, al tamaño muestral y a la precisión
continúan siendo asintóticas.
La corrección por poblaciones finitas tiene el mismo efecto reductor del tamaño
de muestra.
La particularidad del estudio de variables respuesta binarias, es que la desviación
estándar es una función del propio parámetro de interés,
σ p = p (1 − p )
No será necesario utilizar σp en los cálculos, sino que directamente se utiliza la

proporción esperada p.
En caso de dudas sobre cuál es la proporción a anticipar es recomendable utilizar
un valor para la proporción esperada más próximo a 0.5 que en el valor reportado
en los estudios anteriores. La idea subyacente de esta consideración es que de este
modo, se estará empleando una desviación estándar ligeramente superior. De esta
manera el TM calculado garantiza la precisión deseada y, similarmente, fijando el
tamaño muestral, la precisión obtenida de los cálculos será la precisión mínima
que se obtendrá al realizar el estudio.
Como se ha comentado anteriormente, si se desconoce totalmente la proporción
esperada entonces es recomendable utilizar p=0.5, o situación de “supuesto de
indeterminación total”. Tal suposición garantiza que sea cual sea la proporción de
eventos, la variabilidad utilizada en los cálculos será superior y, por lo tanto, al
realizar el estudio se obtendrá como mínimo la precisión deseada.
La suposición de indeterminación total es excesivamente conservadora si la

proporción esperada se aleja mucho del valor 0.5 (próxima a 0 ó bien próxima a
1), porque se aumenta innecesariamente el TM.
Intervalo de Confianza para un riesgo relativo (RR)

El efecto de una variable cualitativa binaria (variable explicativa o factor de
riesgo) sobre otra también binaria (variable respuesta) puede expresarse mediante
el riesgo relativo.
Esta medida suele ser útil cuando el objetivo de un estudio es la comparación del
riesgo de ocurrencia de cierto evento entre dos grupos.
p2
RR =
p1
Siendo p1 la proporción de ocurrencia en el grupo 1 y p2 la del grupo 2.

El logaritmo del riesgo relativo es una variable asintóticamente Normal, por lo
tanto pueden aplicarse las fórmulas anteriores. Sin embargo, de forma similar a lo
que ocurre al trabajar con variables binarias, la desviación estándar que se emplea
en los cálculos es una función de las proporciones:
(1 − p1 ) (1 − p 2 )
σ RR = +
w1 p1 w2 p 2
Por lo tanto, para realizar los cálculos es necesario anticipar las proporciones
esperadas p1 y p2. En esta fórmula intervienen los parámetros w1 y w2 que
corresponden a la proporción de individuos en los grupos 1 y 2 respecto del total
de individuos de la muestra.
Intervalo de Confianza para un odds ratio (OR)

Otra forma de expresar la relación entre dos variables cualitativas binarias es el
odds ratio. Esta medida responde al mismo objetivo que el riesgo relativo, aunque
tiene una interpretación ligeramente distinta.
p 2 (1 − p1 )
OR =
p1 (1 − p 2 )
Siendo p1 la proporción de ocurrencia en el grupo 1 y p2 la del grupo 2.

47
En esta situación, el intervalo de confianza para el logaritmo del odds ratio

también es una variable asintóticamente Normal y pueden aplicarse las fórmulas
anteriores bajo las mismas consideraciones. La correspondiente desviación
estándar es igualmente una función de las proporciones:
1 1 1 1
σ OR = + + +
w1 p1 w1 (1 − p1 ) w2 p 2 w2 (1 − p 2 )
Por lo tanto, para realizar los cálculos es necesario anticipar las proporciones
esperadas p1 y p2. En esta fórmula también intervienen los parámetros w1 y w2,
que corresponden a la proporción de individuos en los grupos 1 y 2 respecto del
total de individuos de la muestra.
Intervalo de Confianza para un cuantil

En algunos estudios, el parámetro de interés es el valor correspondiente a
un percentil determinado. Habitualmente los percentiles de interés son 90, 95 o
99. Los estudios de eliminación de residuos son un ejemplo de utilización de esta
técnica. Por ejemplo, cuando se desea establecer un margen de seguridad para el
tiempo transcurrido hasta la eliminación de los residuos en sangre tras la toma de
cierto medicamento. El objetivo es determinar el valor correspondiente al
percentil 95 (por ejemplo) con cierta fiabilidad, y para ello será necesario
proporcionar un margen de precisión: el límite superior del intervalo de
confianza.
Cuantil
correspondiente al
percentil 95 de la
distribución
Para calcular el tamaño de muestra, es necesario emplear la distribución F no

centrada. Dado que normalmente el interés del investigador es el margen superior
del intervalo de confianza, Ene 3.0 calcula directamente el intervalo unilateral
derecho.
Técnicas de Muestreo
En general, cuando la población de estudio es grande, se asume que el muestreo
realizado es simple y con reposición. Si no existen otras fuentes de sesgo, y todos
los elementos de la población tienen la misma probabilidad de ser seleccionados,
la muestra tiene la propiedad de ser probabilística. Esta es la situación más
habitual cuando se desea calcular el intervalo de confianza para un parámetro de
interés. Sin embargo existen otras situaciones en las que puede ser conveniente no
emplear muestras probabilísticas. Ene 3.0 permite emplear técnicas de muestreo
alternativas en el cálculo de intervalos de confianza para medias y para
proporciones.
Muestreo sin reposición: Corrección para poblaciones finitas

En ocasiones, puede darse el caso de que la población estudiada sea relativamente
pequeña y por lo tanto la muestra podría representar una proporción elevada de la
población total. En esta situación es más eficaz contemplar un muestreo sin
reposición. Entonces es razonable pensar que el TM debe ser corregido. La
variabilidad de la estimación es menor que si se considera una población mucho
mayor. En este sentido, el tamaño muestral necesario para obtener cierta precisión
en una población pequeña es inferior al número necesario si la población es muy
grande. No obstante, a nivel práctico la corrección sólo es apreciable cuando la
muestra representa más del 5% del total de la población. Similarmente, fijando el
tamaño de la muestra, la precisión obtenida será menor si se realiza la corrección.
El intervalo de confianza se calcula del mismo modo, sólo es necesario corregir la
variabilidad de la variable respuesta:
N −n
σN = σ0
N
donde N representa el tamaño total de la población, n el tamaño de la muestra y σ0

la desviación estándar poblacional.
La corrección asume que la muestra se obtiene sin reemplazo, es decir, un mismo
individuo sólo puede ser seleccionado en una ocasión.
49
Muestreo estratificado
Los estratos son segmentos de unidades experimentales en cierto sentido
homogéneas respecto la variable de interés. De esta manera, es posible estimar el
parámetro de interés con mayor precisión seleccionando un mayor número de
unidades de los estratos con menor homogeneidad, y equivalentemente, un
número menor en los estratos con mayor homogeneidad.
Las variables empleadas con mayor frecuencia para estratificar una muestra son la
edad y el sexo de los individuos, aunque también se suelen emplear variables
territoriales como provincia o comarca.
Existen diversos métodos para repartir o asignar la muestra total entre los
diferentes estratos, siendo los más habituales las asignaciones siguientes:
Asignación simple: equilibrada entre todos los estratos
1
wi =
S
Donde wi es la fracción de la muestra total correspondiente al estrato i-ésimo y S
es el número de estratos considerados.
Asignación proporcional: asignación proporcional al tamaño del estrato.
Ni
wi =
N
Donde Ni es el tamaño total del estrato i-ésimo y N es el tamaño total de la
población.
Asignación de Neyman: tiene en cuenta la variabilidad de la variable de interés en
cada estrato. También recibe el nombre de asignación óptima, ya que proporciona
estimaciones con mayor precisión que empleando otras asignaciones.
N iσ i
wi = S
∑N σ
k =1
k k
considerando que el tamaño de cada estrato es el mismo, la fórmula anterior

puede simplificarse:
σi
wi = S
∑σ
k =1
k
Cuando el objetivo es la estimación de proporciones, la variabilidad se expresa en

términos de las proporciones esperadas del evento de interés.
σ i = pi (1 − pi )
Finalmente, el tamaño de muestra asignado al estrato i-ésimo será:
ni = n × wi
Muestreo por conglomerados

Los conglomerados son agrupaciones de un número no muy elevado de unidades
experimentales con elevada heterogeneidad en la variable de interés, de manera
que la observación de todas las unidades experimentales de un mismo
conglomerado proporciona directamente una "buena" estimación del parámetro de
interés. En el muestreo por conglomerados, el investigador selecciona al azar una
serie de conglomerados y recoge información sobre todas las unidades
experimentales que contienen. Es habitual considerar hospitales, escuelas, bloques
de pisos, o incluso unidades censales como conglomerados. Dado que el tamaño
de muestra en esta técnica se refiere al número de conglomerados a incluir,
conglomerados, Ene 3.0 no considera la posibilidad de llevar a cabo corrección
por abandonos, ya que ésta se debería tener en cuenta cuando el investigador
determine el tamaño promedio de los conglomerados del estudio.
Muestreo inverso para proporciones

Se utiliza cuando se trabaja con expectativas de proporciones extremadamente
pequeñas, incluyendo valores menores de 1%, como por ejemplo, en estudios de
seguridad en donde se desea conocer el porcentaje de efectos adversos (EA) que
produce un fármaco. Los resultados de los cálculos suelen proporcionarse como
número de individuos que hay que conseguir con el evento de interés observado
(EA), en lugar del número de individuos total.
La particularidad de considerar el muestreo inverso, consiste en que el
investigador que realice el estudio deberá incluir individuos hasta conseguir nmi
individuos con el evento de interés observado. Por lo tanto, el tamaño muestral
total final no está fijado a priori.
El número de individuos con el evento de interés observado necesario para
conseguir la precisión deseada se calcula como:
n mi = np
51
Siendo p la proporción de eventos esperada y n el número total de individuos que

se deberían incluir con el procedimiento estándar.
De este modo, los cálculos son equivalentes al caso anterior y las
recomendaciones al especificar la proporción esperada continúan siendo válidas.
Ejemplos
Ejemplo 1. Intervalo de confianza para una media

Se desea obtener una estimación de los niveles de hemoglobina (g/l) en los
individuos de una determinada área de salud cuyo tamaño poblacional es muy
elevado. Consultando un estudio previo, se sabe que la desviación estándar de
dicha variable es de 10 g/l (σ=10). Finalmente, se desea obtener una estimación
con un error de +/- 1 g/l (ω=1) con un nivel de confianza del 95% (γ=0.95)
bilateral (c=2). Para poder llevar a cabo este experimento, será necesario incluir
un mínimo de 385 (n=385) sujetos en el estudio.
Utilizando Ene 3.0

Estimación Æ La media de una variable continua Æ
Poblaciones infinitas
Pestaña: Tamaño de muestra
Detalles técnicos
Basado en el Intervalo de confianza para una variable Normal
53
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar la

media de una variable de naturaleza continua medida en una única muestra
Parámetros necesarios:
γ (0,1)* Nivel de confianza: Gamma, 1–α, (valor recomendado: 0.95)
c 1,2 ** Unilateral / Bilateral (valor recomendado: 2 Bilateral)
σ >0 Desviación típica
ab (0,0.5) Porcentaje esperado de abandonos
*Cualquier valor entre los valores del paréntesis excluyendo los límites
** Solo es posible elegir uno de los dos valores
Parámetros respuesta:
n ≥2 Tamaño de la muestra
nr ≥2 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
ω >0 Precisión
Fórmula para la precisión:
σ
ω = z1−α / c
n
Fórmula para el tamaño de muestra:

2
⎛ σ⎞
n = ⎜ z1−α / c ⎟
⎝ ω⎠
Las fórmulas utilizadas se basan en la suposición de que la variable de interés

sigue una distribución Normal. Por este motivo si la variable no cumple este
requisito, las fórmulas son aproximaciones asintóticas, generalmente aceptables
con tamaños muestrales >30.
Ejemplo 2. Intervalo de confianza para una proporción

Se desea obtener una estimación del porcentaje de efectos adversos que produce
un determinado fármaco en la población en general. Consultando un estudio
previo, se sabe que dicho porcentaje es aproximadamente un 3% (p1=0.03).
Finalmente, se desea obtener una estimación con un error de +/- 1 % (ω=0.01)
con un nivel de confianza del 95% (γ=0.95) bilateral (c=2). Para poder llevar a
cabo este experimento, será necesario incluir un mínimo de 1118 (n=1118)
sujetos en el estudio.
Utilizando Ene 3.0

Estimación Æ La proporción de ocurrencia de determinado
evento Æ Poblaciones infinitas
Detalles técnicos
Basado en el Intervalo de confianza asintótico para una variable Normal
proporción de ocurrencia de cierto evento medido en una única muestra
γ (0,1) Nivel de confianza: Gamma, 1–α, (valor recomendado: 0.95)
c 1,2 Unilateral / Bilateral (valor recomendado: 2)
p1 (0,1) Proporción esperada
abandonos)
ω (0,0.5) Precisión. Valores superiores a 0.5 (50%) no tienen sentido.
55

p1 (1 − p1 )
ω = z1−α / c
n

2
⎛z ⎞
n = ⎜ 1−α / c ⎟ p1 (1 − p1 )
⎝ ω ⎠
Las fórmulas se basan en el intervalo de confianza asintótico Normal y son

asintóticas debido a que la variable respuesta sigue una distribución binomial.
Ejemplo 3. Intervalo de confianza para un riesgo

relativo (RR)
Se desea obtener una estimación del riesgo relativo de padecer un episodio
cerebro-cardio vascular en cierta población, en función de los antecedentes
familiares de los pacientes. Consultando bibliografía previa, se sabe que el
porcentaje de ECCV (en un determinado período de tiempo) en los individuos sin
antecedentes familiares es aproximadamente del 30% (p1=0.30), y de un 55%
(p2=0.55) en los individuos con antecedentes. Si se dispone de recursos para
incluir 500 (n1=250) pacientes en el estudio (la mitad con antecedentes y la mitad
sin) (w1=0.5), se podrá obtener una estimación del logaritmo del riesgo relativo
entre éstas dos muestras con una precisión de +/- 0.22 unidades (ω=0.22) con un
nivel de confianza del 95% (γ=0.95) bilateral (c=2).
En base a los porcentajes de ocurrencia de ECCV anticipados para ambas
poblaciones, el riesgo relativo que se obtendría es 1.83 (rr=1.83).
De este modo, la precisión para el riesgo relativo será: (RR e-0.22, RR e+0.22) =
(RR·0.803, RR·1.246), es decir, aproximadamente entre un 80% y un 125% del
valor del riesgo relativo que se observe al llevar a cabo el estudio, esto es (1.47 ;
2.28).
Utilizando Ene 3.0

Estimación Æ Otros Æ Un riesgo relativo
Pestaña: Precisión
Detalles técnicos
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar el
Riesgo Relativo de la ocurrencia de determinado evento medido en dos muestras
independientes
p1 (0,1) Proporción grupo de Referencia
p2 (0,1) Proporción grupo Experimental
w1 (0,1) Proporción de la muestra en el grupo de Referencia.
Porcentaje de unidades experimentales que pertenecen al
grupo de referencia respecto del total de unidades
experimentales del estudio. Si el estudio es balanceado, este
valor es 0.5
RR = p2 / p1 Riesgo relativo esperado
log RR = log (RR) Logaritmo del riesgo relativo esperado
57
n1 ≥2 Tamaño de la muestra en el grupo de Referencia
nr1 ≥2 Tamaño de la muestra a reclutar en el grupo de Referencia
(corregido por posibles abandonos)
ω >0 Precisión para el logaritmo del riesgo relativo
1 ⎛ 1 − p1 w1 (1 − p 2 ) ⎞
ω = z1−α / c ⎜⎜ + ⎟
n1 ⎝ p1 (1 − w1 ) p 2 ⎟⎠
Fórmula para el tamaño de muestra del grupo de Referencia:

2
⎛z ⎞ ⎛ 1 − p1 w1 (1 − p 2 ) ⎞
n1 = ⎜ 1−α / c ⎟ ⎜⎜ + ⎟
⎝ ω ⎠ ⎝ p1 (1 − w1 ) p 2 ⎟⎠
Las fórmulas utilizadas por esta técnica son asintóticas y permiten obtener buenas
aproximaciones si el tamaño de muestra es suficientemente grande (>30).
La precisión ω, es relativa al logaritmo del riesgo relativo:
log RR +/– ω
Para interpretarla a partir del propio riesgo relativo es necesario transformar la
expresión anterior:
e log RR +/– ω = ( RR e – ω ; RR e +ω)
Cuando el usuario escoja un intervalo de confianza unilateral, el programa
continuará mostrando los valores correspondientes al límite superior del intervalo
de confianza y al límite inferior, siendo aplicable sólo uno de ellos en función del
objetivo del investigador. Si el usuario desea un intervalo unilateral izquierdo el
intervalo tendrá cómo límites los valores 0 y el límite superior. Si el usuario desea
un intervalo unilateral derecho el intervalo tendrá cómo límites los valores límite
inferior e infinito.
Ejemplo 4. Intervalo de confianza para un odds ratio

(OR)
Se desea obtener una estimación del odds ratio de padecer un episodio cerebro-
cardio vascular en cierta población, en función de los antecedentes familiares de
los pacientes. Consultando bibliografía previa, se sabe que el porcentaje de ECCV
(en un determinado período de tiempo) en los individuos sin antecedentes
familiares es aproximadamente del 30% (p1=0.30), y de un 55% (p2=0.55) en los
individuos con antecedentes. Si se dispone de recursos para incluir 500 pacientes
(n1=250) en el estudio (la mitad con antecedentes y la mitad sin) (w1=0.5), se
podrá obtener una estimación del logaritmo del odds ratio entre éstas dos
muestras con una precisión de +/- 0.37 unidades (ω=0.37) con un nivel de
confianza del 95% (γ=0.95) bilateral (c=2).
Teniendo en cuenta los porcentajes especificados, el odds ratio que se obtendría

es 2.85 (OR=2.85).
De este modo, la precisión para OR será: (OR·e-0.368 ; OR·e+0.367) = (OR·0.692 ;

OR·1.44), es decir, aproximadamente entre un 70% y un 144% del valor del odds
ratio que se observe al llevar a cabo el estudio, esto es (1.97 ; 4.12).
Utilizando Ene 3.0

Estimación Æ Otros Æ Un odds ratio
Pestaña: Precisión
Adicionalmente se considera que la inclusión de pacientes controles es más fácil y

económica que la inclusión de pacientes con antecedentes. Se decide que el grupo
de pacientes control representará un 77% del total de pacientes (w1=0.77). De este
59
modo, se desea conocer cual sería el tamaño de muestra necesario en cada uno de
los grupos para conseguir una precisión de 0.368 (w=0.368) unidades en la
estimación del odds ratio.
Utilizando Ene 3.0
Estimación Æ Otros Æ Un odds ratio
Pestaña: Tamaño de Muestra
Serán necesarios 519 controles (n1=519) y 155 sujetos en el grupo de pacientes

con antecedentes (n2=159) para conseguir la misma precisión que si se incluyeran
250 sujetos por grupo. El tamaño de muestra total será superior, 674 sujetos en
lugar de 500.
Detalles técnicos
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar el
Odds Ratio de la ocurrencia de determinado evento medido en dos muestras
independientes
p1 (0,1) Proporción grupo de Referencia.
p2 (0,1) Proporción grupo Experimental

w1 (0,1) Proporción de la muestra en el grupo de Referencia Si el
estudio es balanceado, este valor es 0.5
OR p2 (1 − p1 ) Odds ratio esperado

(1 − p2 ) p1
logOR log (OR) Logaritmo del odds ratio esperado
n1 ≥2 Tamaño de la muestra en el grupo de Referencia
nr1 ≥2 Tamaño de la muestra a reclutar en el grupo de Referencia
ω >0 Precisión para el logaritmo del odds ratio
1⎛ 1 1 w1 w1 ⎞
ω = z1−α / c ⎜⎜ + + + ⎟
n1 ⎝ p1 (1 − p1 ) (1 − w1 ) p2 (1 − w1 )(1 − p2 ) ⎟⎠

2
⎛z ⎞ ⎛ 1 1 w1 w1 ⎞
n1 = ⎜ 1−α / c ⎟ ⎜⎜ + + + ⎟⎟
⎝ ω p
⎠ ⎝ 1 (1 − p1 ) (1 − w1 ) p 2 (1 − w1 ) (1 − p )
2 ⎠
Las fórmulas utilizadas por esta técnica son asintóticas y permiten obtener buenas
aproximaciones si el tamaño de muestra es suficientemente grande (>30).
La precisión ω que proporciona los cálculos es relativa al logaritmo del odds
ratio:
log OR +/- ω
Para interpretarla a partir del propio riesgo relativo, es necesario transformar la
expresión anterior:
e log OR +/- ω = ( OR e -ω , OR e +ω )
Cuando el usuario escoja un intervalo de confianza unilateral, el programa
continuará mostrando el valor correspondiente al límite superior del intervalo de
confianza y al límite inferior, siendo aplicable sólo uno de ellos en función del
objetivo del investigador. Si el usuario desea un intervalo unilateral izquierdo el
61
intervalo tendrá cómo límites los valores 0 y el límite superior. Si el usuario desea
un intervalo unilateral derecho el intervalo tendrá cómo límites los valores límite
inferior e infinito.
Ejemplo 5. Intervalo de confianza para un cuantil

Se desea obtener una estimación del cuantil correspondiente al percentil 95%
(pc=0.95) del tiempo transcurrido hasta la eliminación de los residuos de un
tratamiento que tiene sustancias dopantes. Consultando estudios previos, se sabe
que la desviación estándar de la variable de interés es de 5 días (σ=5) . Se desea
obtener una estimación con una precisión de +1 día (ω=1) mediante un intervalo
de confianza del 95% (γ=0.95) unilateral para dicho cuantil. Para poder llevar a
cabo el estudio, se necesitará incluir 187 pacientes (n=187).
Utilizando Ene 3.0
Estimación Æ Otros Æ Un cuantil
Detalles técnicos
Esta técnica es adecuada cuando el objetivo principal del estudio es estimar
determinado Cuantil de una variable de naturaleza continua medida en una única
muestra
γ (0,1) Nivel de confianza: Gamma, 1 – α, (valor recomendado: 0.95)
pc (0,1) Percentil de interés.
abandonos)
ω >0 Precisión
Δ = Z pc
σ
ω = F −1 (1 − α ,1, n − 1, nΔ2 ) − σZ pc
n
La fórmula para el tamaño de muestra se obtiene invirtiendo la fórmula para la
precisión.

Ejemplo 6. Intervalo de confianza para una media en

una población finita
En el ejemplo 1 se estaba interesado en realizar un estudio para obtener una
estimación de los niveles de hemoglobina (g/l) en los individuos de determinada
área de salud. Se había decidido llevar a cabo un estudio que permitiría obtener
una precisión de 1 g/l, en el que era necesario incluir 385 sujetos. Ahora el
problema es otro, se requiere recalcular la precisión del intervalo de confianza
63
teniendo además en cuenta que el tamaño total de población del área de salud que
se está estudiando es de 1000 individuos (N=1000). La corrección en los cálculos
para poblaciones finitas puede mejorar los resultados, ya que la muestra
representaría casi un 40% del total de la población (385 vs 1000). Inicialmente el
investigador había considerado utilizar una desviación estándar de 10 g/l (σ=10),
así como un intervalo de confianza al 95% (γ=0.95) bilateral (c=2).
Aplicando los nuevos cálculos, el investigador deberá incluir 278 pacientes
(n=278)
Utilizando Ene 3.0
Poblaciones finitas
Detalles técnicos
media de una variable de naturaleza continua medida en una única muestra
considerando que la población de referencia es de tamaño finito

N >5 Tamaño total de la población en estudio
n [2,N]* Tamaño de la muestra
nr [2,N] Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
ω >0 Precisión
*Cualquier valor entre los valores del claudátor incluyendo los límites
N −n
ω = z1−α / cσ
Nn

N (z1−α / c σ )
2
n=
Nω 2 + (z1−α / c σ )
2

Es recomendable emplear esta técnica cuando la población de referencia es finita,
y el tamaño de muestra representa una parte importante del total de la población.

(población finita)
En el ejemplo 2 se estaba interesado en estimar, con una precisión elevada, el
porcentaje de individuos de una determinada área geográfica con un factor de
riesgo. Según los cálculos iniciales, el tamaño de muestra requerido para el
objetivo es de 1118 sujetos. Sin embargo, se decide evaluar de nuevo el resultado
teniendo en cuenta que la población objetivo del estudio tiene sólo 800 habitantes
(N=800). De este modo, la muestra sin corrección representaría el total
65
poblacional. Para los cálculos, se partirá de que la proporción esperada es como

mucho del 3% (p1=0.03) (resultado del estudio piloto). Se decide fijar el nivel de
confianza en el 95% (γ=0.95) y construir un intervalo bilateral (c=2) para obtener
una precisión del 1% (w=0.01). Para poder llevar a cabo el estudio, el
investigador necesitará incluir 467 sujetos (n=467).
Utilizando Ene 3.0
evento Æ Poblaciones finitas
Detalles técnicos
proporción de ocurrencia de cierto evento medido en una única muestra
considerando que la población de referencia es de tamaño finito
N >5 Tamaño total de la población en estudio

n [2,N] Tamaño de la muestra
nr [2,N] Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
ω (0,0.5) Precisión. Valores superiores a 0.5 no tienen sentido real
ω = z1−α / c
(N − n ) p (1 − p )
1 1
Nn

Np1 (1 − p1 )(z1−α / c )
2
n=
Nω 2 + p1 (1 − p1 )(z1−α / c )
2
Las fórmulas se basan en el intervalo de confianza asintótico Normal con la

corrección por poblaciones finitas.
Es recomendable emplear esta técnica cuando la población de referencia es finita,
y el tamaño de muestra representa una parte importante del total de la población.

con muestreo inverso
Se desea obtener una estimación del porcentaje de efectos adversos graves que
produce un determinado fármaco en la población en general. Consultando un
estudio previo, se sabe que dicho porcentaje es aproximadamente un 2%
(p1=0.02). Finalmente, se desea obtener una estimación con un error de +/- 1 %
(ω=0.01) con un nivel de confianza del 95% (γ=0.95) bilateral (c=2). Para poder
llevar a cabo este experimento, será necesario observar un mínimo de 16 (n
eventos=16) acontecimientos adversos.
Se deberán incluir pacientes hasta haber observado 16 eventos (EA). De este
modo, teniendo en cuenta que la proporción esperada es del 2%, se obtendrá una
precisión de +/-1%.
67
Utilizando Ene 3.0

evento Æ Muestreo Inverso
Detalles técnicos
Basado en Intervalo de confianza asintótico para una variable Normal
proporción de ocurrencia de cierto evento medido en una única muestra y se
desea realizar un muestreo inverso
ne ≥2 Número de efectivos necesarios con evento.
ω (0, 0.5) Precisión. Valores superiores a p1 no tienen sentido. Una
precisión razonable en muestreos inversos es 0.01 (1%)

p1 (1− p1 )
ω = z1−α / c
ne
Fórmula para el tamaño de muestra (número de efectivos con evento observado):

2
⎛z ⎞ 2
ne = ⎜ 1−α / c ⎟ p1 (1 − p1 )
⎝ ω ⎠
Las fórmulas utilizadas por esta técnica son las mismas que las utilizadas para
calcular el intervalo de confianza para una proporción. Únicamente es necesario
tener en cuenta que el tamaño de muestra se calcula en relación al número de
sujetos con evento observado en lugar del número total de sujetos en la muestra.
El número de eventos esperado es: neventos = np1.
En ésta técnica no se puede corregir el tamaño de muestra por posibles abandonos
ya que el número de efectivos necesarios con evento no contempla los abandonos.
Ejemplo 9. Intervalo de confianza para una media con

muestreo estratificado
Se desea obtener una estimación del gasto médico por familia en determinada área
de salud. Dado que el gasto está altamente relacionado con el nivel de ingresos, se
decide llevar a cabo una estimación estratificada a partir de ésta última variable,
considerando 3 estratos diferentes: nivel de ingresos elevado, medio y bajo.
Consultando estudios previos, se sabe que la desviación estándar de la variable
objetivo en cada uno de los estratos es de 50, 20 y 130 € (σ1=100, σ2=80, σ3=120)
respectivamente. Se considera conveniente repartir la muestra de forma
inversamente proporcional a las desviaciones para optimizar el tamaño de muestra
final, por lo tanto se considera oportuno que la proporción de casos en cada uno
de los estratos sea 0.25, 0.1 y 0.65 € (w1=0.25, w2=0.1, w3=0.65)respectivamente.
Finalmente, se desea obtener una estimación con una precisión de +/-10 € (ω=10)
mediante un intervalo de confianza del 95% (γ=0.95) bilateral (c=2). Para poder
llevar a cabo este estudio, será necesario incluir un mínimo de 112 (n1=112)
sujetos pertenecientes al estrato "nivel de ingresos alto", y un total de 449 sujetos
(n=449).
Utilizando Ene 3.0
Estimación Æ La media de una variable continua Æ Estratos
69
Detalles técnicos
Basado en Intervalo de confianza para una variable Normal
media de una variable de naturaleza continua medida en una única muestra y se
desea realizar un muestreo estratificado.
homogéneas respecto la variable de interés.
c 1,2 Unilateral / Bilateral (valor recomendado: 2 Bilateral)
j [1,6] Número de estratos que se desean estudiar
σi >0 Desviación típica de la variable respuesta en el estrato i–ésimo
wi (0,1) Porcentaje de unidades experimentales que pertenecen al
estrato i–ésimo respecto del total de unidades experimentales
del estudio. Si el estudio es balanceado, este valor es 1 / j.
ni ≥2 Tamaño de la muestra en el estrato i–ésimo
nri ≥2 Tamaño de la muestra a reclutar en el estrato i–ésimo
ω >0 Precisión que se desea para el intervalo de confianza
σE
ω = z1−α / c
n
Fórmula para el tamaño de muestra en el estrato 1:
j
σ E 2 = ∑ wiσ i 2
i =1
2
⎛ σ ⎞
n1 = w1 ⎜ z1−α / c E ⎟
⎝ ω ⎠

con tamaños de muestra >30.
Ejemplo 10. Intervalo de confianza para una

proporción con muestreo estratificado
Se desea obtener una estimación del porcentaje de pacientes con problemas
cardíacos que realizan deporte con regularidad. Dado que dicho porcentaje está
altamente relacionado con la edad, decide llevar a cabo una estimación
estratificada a partir de los grupos: pacientes menores de 65 años, entre 65 y 75
años, entre 75 y 85 años y pacientes mayores de 85 años. Consultando estudios
previos, se sabe que la proporción esperada en cada uno de los estratos es de 30%,
20%, 15% y 10% (p1=0.30, p2=0.20, p3=0.15, p4=0.10) respectivamente. Se
considera conveniente repartir la muestra de forma equilibrada
(w1=w2=w3=w4=0.25). Finalmente, se desea obtener una estimación con una
precisión de +/-10% (ω=0.05) mediante un intervalo de confianza del 95%
(γ=0.95) bilateral (c=2). Para poder llevar a cabo este estudio, será necesario
71
incluir un mínimo de 57 (n1=57) sujetos en cada estrato, totalizando 228 sujetos

(n=228).
Utilizando Ene 3.0
evento Æ Estratos
Detalles técnicos
desea realizar un muestreo estratificado.
homogéneas respecto la variable de interés.

j [1,6] Número de estratos que se desean estudiar
pi >0 Proporción de ocurrencia esperada del evento de interés en el
estrato i–ésimo
wi (0,1) Porcentaje de unidades experimentales que pertenecen al
estrato i–ésimo respecto del total de unidades experimentales
del estudio. Si el estudio es balanceado, este valor es 1 / j
ni ≥2 Tamaño de la muestra en el estrato i–ésimo necesario para
obtener determinada precisión
nri ≥2 Tamaño de la muestra a reclutar en el estrato i–ésimo
necesario para obtener determinada precisión contemplando
posibles abandonos
ω >0 Precisión que se desea para el intervalo de confianza. Valores
superiores a 0.5 (50%) no tienen sentido
σE
ω = z1−α / c
n −1
Fórmula para el tamaño de muestra del estrato 1:
j
σ E 2 = ∑ wi pi (1 − pi )
i =1
⎛⎛ σE ⎞
2
⎞
⎜
n1 = w1 ⎜ z1−α / c ⎟ + 1⎟
⎜⎝ ω ⎠ ⎟
⎝ ⎠

73
Ejemplo 11. Intervalo de confianza para una media

con muestreo por conglomerados
Se desea obtener una estimación del gasto médico por familia en determinada área
de salud mediante encuestas personalizadas. Dadas las dificultades para conseguir
una muestra fiable, se decide llevar a cabo un estudio por conglomerados,
considerando los bloques de pisos como factor de agrupación. Consultando
estudios previos, se sabe que la desviación estándar de la variable objetivo es de
80 € (σ=80) y que el tamaño promedio de cada conglomerado es de 20 familias
(M=20). Finalmente, se desea obtener una estimación con una precisión de +/-10
€ (ω=10) mediante un intervalo de confianza del 95% (γ=0.95) bilateral (c=2).
Para poder llevar a cabo este estudio, será necesario incluir un mínimo de 13
conglomerados en el estudio (n=13).
Utilizando Ene 3.0
Conglomerados
Detalles técnicos
Basado en Intervalo de confianza para una variable Normal

media de una variable de naturaleza continua medida en una única muestra y se
desea realizar un muestreo por conglomerados
interés.
σ >0 Desviación típica de la población
Μ ≥1 Número medio de unidades experimentales en cada
conglomerado
n ≥2 Tamaño de la muestra (número de conglomerados)
nt ≥2 Tamaño de muestra total esperado (número de unidades
experimentales), calculado cómo nt = n × M
ω >0 Precisión
σ
ω = z1−α / c
n×M
2
⎛ σ M ⎞
n = ⎜⎜ z1−α / c ⎟⎟
⎝ ω ⎠

75
En esta técnica no se aplica la corrección por abandonos debido a que el tamaño

de muestra se refiere a conglomerados, y los abandonos deberían ser tenidos en
cuenta al especificar el tamaño promedio de los conglomerados.
Ejemplo 12. Intervalo de confianza para una

proporción con muestreo por conglomerados
Se desea obtener una estimación del porcentaje de pacientes con problemas
cardíacos que realizan deporte con regularidad. Se decide llevar a cabo un estudio
por conglomerados considerando como los centros de atención primaria como
factor de agrupación. Consultando estudios previos, se sabe que la proporción
esperada de pacientes con problemas cardíacos que realizan deporte es del 20%
(p1=0.20) y que el tamaño promedio de cada conglomerado es de 200 pacientes
(M=200). Finalmente, se desea obtener una estimación con una precisión de +/-
2% (ω=0.02) mediante un intervalo de confianza del 95% (γ=0.95) bilateral (c=2).
Para poder llevar a cabo este estudio, será necesario incluir un mínimo de 8
conglomerados en el estudio (n=8).
Utilizando Ene 3.0
evento Æ Conglomerados
Detalles técnicos
desea realizar un muestreo por conglomerados
interés.
p1 (0,1) Proporción de ocurrencia esperada del evento de interés en
cada conglomerado
Μ ≥1 Número medio de unidades experimentales en cada
conglomerado
n ≥2 Tamaño de la muestra (número de conglomerados)
nt ≥2 Tamaño de muestra total esperado (número de unidades
experimentales), calculado cómo nt = n × M
ω (0,0.5) Precisión. Valores superiores a 0.5 (50%) no tienen sentido.

p1 (1 − p1 )
ω = z1−α / c
n× M
⎞ p (1 − p1 )
2
⎛z
n = ⎜ 1−α / c ⎟ 1
⎝ ω ⎠ M
77

En esta técnica no se aplica la corrección por abandonos debido a que el tamaño

de muestra se refiere a conglomerados, y los abandonos deberían ser tenidos en
cuenta al especificar el tamaño promedio de los conglomerados.
Comparación de dos grupos (no igualdad)
Introducción
El objetivo de estos estudios es la comparación de dos grupos o tratamientos
distintos o de un mismo grupo de sujetos bajo dos circunstancias diferentes. La
comparación se basa en el estudio de la variable respuesta principal, íntimamente
ligada al objetivo del estudio. En particular, se desea comparar un parámetro
(generalmente proporciones o medias) que resuma la variable respuesta principal
del estudio. El ejemplo clásico es la comparación de la eficacia de un tratamiento
experimental frente a la eficacia de un tratamiento de referencia para establecer
que el nuevo tratamiento es superior al tratamiento habitual.
Estos estudios donde se intenta mostrar que la variable respuesta es diferente en
los dos grupos estudiados, reciben el nombre de estudios de no–igualdad.
El objetivo del estudio se puede concretar definiendo las hipótesis nula y
alternativa.
H0: La eficacia de ambos grupos es igual
HA: La eficacia de ambos grupos no es igual
o bien,
H0: La eficacia de ambos grupos es igual
HA: El grupo experimental es superior al de referencia
Se está interesado en realizar una prueba estadística para rechazar la hipótesis
nula y confirmar la hipótesis alternativa. Es deseable utilizar una prueba
estadística que sea potente y pueda detectar con ciertas garantías aquellas
diferencias mínimas que sean relevantes.
Es necesario recordar que la prueba estadística se diseña para poder confirmar la
hipótesis alternativa. Por ejemplo, si una prueba estadística de no–igualdad no
puede rechazar la hipótesis nula, no se puede concluir que los tratamientos sean
equivalentes o iguales. Para contrastar estos objetivos experimentales se
emplearían pruebas específicas (pruebas de no–inferioridad o pruebas de
equivalencia). De manera similar, si una prueba de no–igualdad consigue
rechazar la hipótesis nula, el investigador únicamente puede concluir que las
diferencias no son 0. En caso de querer detectar unas diferencias relevantes desde
un punto de vista experimental, debería emplear pruebas de superioridad
relevante.
De nuevo, en la fase de diseño del estudio, se tratará de responder a las siguientes
preguntas:
79
¿Cuántos individuos serán necesarios para conseguir detectar diferencias de

una magnitud δ y garantizar la confirmación de la hipótesis alternativa?
¿Qué magnitud podrá detectar la prueba estadística incluyendo n sujetos?
¿Qué potencia tendrá la prueba estadística para detectar la hipótesis
experimental si se incluyen en el estudio n sujetos?
Comparación de no igualdad entre la media de una

variable Normal frente a un valor teórico
Cuando la variable respuesta principal tiene una distribución Normal, el
parámetro que mejor resume la variable es la media (μ). Se desea comparar la
media de una muestra (μE) frente a un valor teórico (μR). Es decir, únicamente se
obtiene una muestra y se desea comparar estos resultados con resultados teóricos.
Las hipótesis de trabajo cuando se desea establecer no–igualdad son:
No Igualdad Bilateral H0: μE =μR
HA: μE ≠μR
No Igualdad Unilateral H0: μE =μR
HA: μE >μR
HA: μE <μR
Bajo la suposición de que la variable respuesta sigue una distribución Normal y

que la desviación estándar es conocida, el investigador puede construir la prueba
Z.
Suponiendo cierta H0, el promedio esperado para la muestra es μR
X − μR
Z=
σ0 n
El estadístico de la prueba Z sigue una distribución Normal estándar con media 0

y desviación 1. La prueba estadística mide si el valor obtenido para el estadístico
Z es extraño o no cuando se supone cierta la hipótesis nula.
α/2
α/2
Ζα/2 Ζ1−α/2
Distribución teórica de Z bajo H0

El gráfico representa la distribución del estadístico Z bajo la hipótesis nula en una
prueba Z bilateral. Si se lleva a cabo una prueba bilateral, la prueba estadística
rechazará la hipótesis nula si el valor del estadístico Z es superior al valor crítico
Z1–α/2 o si es inferior a Zα/2. α representa la probabilidad de que la prueba rechace
H0 siendo cierta, y recibe el nombre de nivel de significación.
De todos modos, suponiendo que en realidad es cierta la hipótesis alternativa y
asumiendo que las diferencias reales entre tratamientos son d ( d = μE – μR ), el
promedio esperado para la muestra es μE = d+μR. Por lo tanto, bajo HA, Z no
sigue una distribución Normal estándar con media 0 y desviación 1. Utilizando las
propiedades de las variables Normales se puede ver que Z sigue una distribución
d
Normal con media y desviación 1.
σ0 n
β d
Ζ1−α/2 σ0 n
Distribución teórica de Z bajo HA
El gráfico representa la distribución del estadístico Z bajo la hipótesis alternativa

de que las diferencias son d en una prueba Z bilateral. Ahora se observa que la
probabilidad de rechazar la hipótesis nula es mucho mayor. La probabilidad de no
poder rechazar la hipótesis nula es β. Por lo tanto, la potencia de la prueba es 1 –
β.
81
Combinando ambos gráficos se puede observar el proceso de decisión de la

prueba.
Distribución Distribución
teórica de Z teórica de Z
α/2 1–α 1–β bbajo HA
bajo H0 d
Z1−α/2 σ0 n
β α/2
El gráfico muestra las distribuciones teóricas del estadístico bajo la hipótesis nula
y bajo la hipótesis alternativa. Si el estadístico de la prueba es superior a Z1–α/2,
entonces se rechazará la hipótesis nula.
Si tanto el tamaño de muestra como las diferencias esperadas entre tratamientos
son fijados a partir de un nivel de significación dado, automáticamente se puede
determinar la potencia de la prueba calculando el valor de 1 – β.
Sin embargo, si a priori se fijan los valores de α y β y se conoce d, entonces se
podrá determinar un tamaño de muestra que cumpla los requisitos especificados.
Ahora se puede intentar responder a la pregunta clave: ¿Cuántos sujetos son
necesarios para rechazar mediante una prueba Z bilateral con un nivel de
significación α, la hipótesis nula de igualdad entre tratamientos fijando una
potencia de 1 – β, y cuando en realidad, las diferencias esperadas son del orden de
d unidades?
Para rechazar la hipótesis nula con un nivel de significación α en una prueba
bilateral, es necesario que el estadístico calculado bajo H0 sea superior al cuantil 1
– α/2 (Z1 – α/2) de la distribución Normal estándar:
X − μR
Z= > Z1−α / 2 es decir,
σ0 n
P ( Z > Z1−α / 2 | H 0 ) = α / 2
donde P (·| H 0 ) significa la probabilidad bajo la hipótesis nula.
De igual modo, si las diferencias que se esperan entre tratamientos son de signo
negativo, los cálculos se harían utilizando “< Zα/2”.
Ahora bien, si realmente es cierta la hipótesis alternativa y se desea que la prueba

tenga una potencia de 1 – β, será necesario que:
P ( Z > Z1−α / 2 | H A ) = 1 − β
Bajo la hipótesis alternativa, la distribución del estadístico de contraste es:

d
Z ~ N( ,1)
σ0 n
Por lo tanto, la variable

d
ZA = Z – ~ N(0,1)
σ0 n
Ahora se puede trabajar la expresión anterior:

d d
P ( Z > Z1−α / 2 | H A ) = P ( Z − > Z1−α / 2 − | HA)
σ0 n σ0 n
d
= P( Z A > Z1−α / 2 − | H A) = 1− β
σ0 n
Por otro lado, es claro que si ZA es una variable con distribución Normal estándar,
entonces:
P( Z A > Z β | H A ) = 1 − β
Ahora, igualando los términos de ambas expresiones se obtiene:

d
Z β = Z1−α / 2 −
σ0 n
simplificando un poco la expresión y expresándola en función de n, se obtiene:

(
n = Z1−α / 2 − Z β σ 0 / d 2 ) 2 2
La notación habitual es algo distinta:

Dado que − Z β = Z1−β y denotando Δ = d / σ 0 , se obtiene finalmente la expresión:
n=
(Z 1−α / 2 + Z1−β )
2
Δ2
Δ es el tamaño del efecto y representa la diferencia estandarizada, que se espera
observar entre tratamientos. La estandarización se consigue dividiendo por la
desviación estándar. De este modo, dados dos experimentos distintos, se podrán
comparar sus tamaños del efecto. De forma más formal, se define como:
83
μE − μR
Δ=
σ0
La misma fórmula anterior puede expresarse en función de 1 – β o de Δ:

(Z 1−α + Z 1− β )
Δ=
n
(
1 − β = Φ Δ n − Z1−α )
Una vez halladas las expresiones para determinar n, Δ y 1 – β, se puede
comprobar qué factores determinan y en qué grado influyen tanto en el número de
sujetos como en el tamaño del efecto que la prueba puede detectar.
Tamaño del efecto y Tamaño de muestra

Si el investigador desea poder detectar un tamaño del efecto pequeño, será
necesario incluir un número elevado de individuos en el estudio. De forma
similar, si el investigador incluye pocos individuos, sólo podrá detectar un tamaño
del efecto elevado. En la fórmula para el tamaño de muestra, el parámetro Δ se
encuentra elevado al cuadrado, por lo tanto para reducir el tamaño del efecto
esperado Δ a la mitad, es necesario multiplicar por cuatro el tamaño de muestra.
Variabilidad (Desviación estándar)

La desviación estándar es un parámetro que forma parte del tamaño del efecto. Si
la desviación estándar es grande, el tamaño del efecto será pequeño, y por lo tanto
será necesario incluir un número elevado de sujetos en el estudio para detectar las
diferencias deseadas.
En los cálculos precedentes, se asume que la desviación estándar es un parámetro
propio de la población y por lo tanto debe ser anticipado. De hecho, las fórmulas
anteriores suponen que es un valor conocido. Este parámetro puede ser obtenido a
través de un estudio piloto, o bien utilizando información de otros estudios.
De forma similar a la construcción del intervalo de confianza, si sólo se puede
conseguir un valor aproximado de la desviación estándar, los cálculos son
igualmente válidos, aunque obviamente el resultado será un resultado
aproximado. En este caso, es recomendable que el valor utilizado para la
desviación estándar sea ligeramente superior al valor aproximado del que se
dispone. Así, los cálculos representarán una cota superior y se actuará de forma
conservadora. Procediendo de este modo, se obtendrá un TM superior, hecho que
dará mayores garantías de que el estudio conseguirá detectar las diferencias
deseadas.
Diferencia esperada
Si la diferencia esperada entre tratamientos es elevada, entonces el estudio
requerirá pocos sujetos para conseguir detectar diferencias. Al diseñar un estudio,
se debe especificar los promedios esperados para cada grupo. En ocasiones, si se
trata de un estudio inicial, tal cantidad es desconocida. El investigador puede
llevar a cabo los cálculos del TM que le permitirían detectar la hipótesis
experimental a partir de las diferencias mínimas clínicamente relevantes, es decir,
especificando unas diferencias esperadas iguales a la mínima magnitud de
relevancia clínica.
Potencia
La potencia de la prueba está relacionada con la capacidad de detectar la hipótesis
alternativa. En este sentido, si se desea una potencia elevada, será necesario un
número elevado de sujetos. Habitualmente se fija la potencia en el 80 – 90%.
No obstante pueden diseñarse estudios cuya potencia sea del 95% si se considera
que será muy difícil reproducirlo. De este modo prácticamente se asegura la
detección de la hipótesis alternativa si es cierta. Nunca puede utilizarse una
potencia superior a 1 – α, ya que sería contradictorio con el carácter conservador
de la prueba estadística.
Nivel de significación
Si el investigador desea realizar una prueba con un nivel de significación pequeño
deberá incluir más individuos en el estudio. Reducir el nivel de significación
implica una actitud más conservadora para rechazar la hipótesis nula. Sólo se
rechazaría si las evidencias son clarísimas. Es habitual considerar un nivel de
significación igual a 0.05.
Bilateral / Unilateral
En el caso de utilizar una prueba unilateral, el número de sujetos necesarios para
conseguir determinada potencia será menor. No obstante el caso bilateral
proporciona información más válida. El caso unilateral debe aplicarse únicamente
cuando las diferencias en la dirección opuesta no tienen ningún sentido.
Prueba T
Finalmente, es importante notar que las fórmulas implementadas en el programa
Ene 3.0 para la comparación de medias están ajustadas en relación a las descritas
anteriormente. La diferencia básica consiste en que las fórmulas del programa Ene
3.0 contemplan que se realizará la prueba t–Student en lugar de la prueba Z.
85
Aunque la desviación estándar debe ser anticipada en ambos casos para calcular el
tamaño de muestra, al llevar a cabo la prueba estadística, la prueba t – Student
utilizará la desviación muestral (S) calculada a partir de los propios datos de la
muestra en lugar de la desviación teórica. Esta corrección implica que las
fórmulas resultantes son mucho más complejas. No obstante, las fórmulas
descritas anteriormente son aproximaciones válidas y aceptadas que permiten
ejemplificar todo el proceso llevado a cabo.
Por ejemplo, la fórmula resultante para el cómputo de la potencia en una prueba
de no igualdad entre la media de una muestra y un valor teórico es la siguiente:
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, nΔ2 )
siendo dfe = n − 1 , F –1 la función IDF de una variable con distribución F y Fnc la
función CDF de una variable con distribución F – no centrada.
Comparación de no igualdad entre las medias de dos

muestras independientes de variables Normales
En esta situación, se desea comparar dos grupos, pero ahora se dispone de sujetos
divididos en dos muestras o grupos independientes. Las hipótesis de trabajo son
las mismas que en la situación anterior:
No Igualdad Bilateral H0: μE =μR
HA: μE ≠μR
HA: μE >μR
HA: μE <μR
La principal diferencia consiste en que el estadístico de la prueba es ligeramente

distinto. Aunque los factores que influyen en el resultado final son los mismos.
También es necesario remarcar que se asume que la desviación estándar es la
misma en ambos grupos (σ 0). En los cálculos se especifica mediante la
desviación estándar conjunta.
Utilizando la prueba Z para dos muestras independientes, el estadístico de
contraste bajo la hipótesis nula de igualdad es:
XE − XR XE − XR
Z= =
σ 0 nE + σ 0 nR
2 2
σ 0 (1 nwE + 1 nwR )
2
Siendo nR, el tamaño de muestra para el grupo de referencia y nE el tamaño de

muestra para el grupo experimental. Si n es el número total (n=nR+nE), entonces
nR=n wR. Donde wR es la proporción del total de la muestra en el grupo de
referencia. Además, wR=1 – wE.
Bajo la hipótesis alternativa, la distribución del estadístico Z es:
⎛ ⎞
⎜ d ⎟
Z ~ N⎜ ,1⎟
⎜ σ 2 (1 nw + 1 nw ) ⎟
⎝ 0 E R ⎠
Siendo d = μE – μR la diferencia esperada entre tratamientos.

El TM necesario para que la prueba Z bilateral o unilateral con un nivel de
significación α tenga una potencia determinada, se obtendría procediendo del
modo anteriormente comentado.
Al analizar dos grupos distintos de individuos aparece un nuevo parámetro en los
cálculos, el porcentaje de individuos de un grupo particular respecto del total (wE ;
wR). Si los grupos están equilibrados, dicho porcentaje es 0.5. Si el investigador lo
considera conveniente, se puede modificar el porcentaje de individuos asignados a
cada grupo de forma que el tamaño de uno de los grupos sea mayor que el otro.
Porcentajes de asignación a los grupos diferentes a 0.5 representan un incremento
en el número total de sujetos respecto al diseño balanceado, pero puede
representar un ahorro de recursos si la inclusión de pacientes de uno de los dos
grupos es mucho más asequible.
Comparación de no–igualdad entre las medias de dos

muestras relacionadas de variables Normales
Se desea comparar dos grupos, pero ahora se dispone de una única muestra de
individuos que son analizados en dos situaciones o con dos tratamientos distintos.
Esta situación también es aplicable cuando se dispone de dos muestras pero los
sujetos de una y de otra no son independientes (sino que son parejas de
individuos). Las hipótesis de trabajo son:
No Igualdad Bilateral H0: d =0 (μE =μR)
HA: d ≠0 (μE ≠μR)
No Igualdad Unilateral H0: d =0 (μE =μR)
HA: d >0 (μE >μR )
No Igualdad Unilateral H0: d =0 (μE =μR)
HA: d <0 (μE <μR )
87
De hecho, las mismas que en los casos anteriores pero expresadas directamente en
función de las diferencias entre parejas. El estadístico de la prueba vuelve a ser el
mismo que en la comparación de una muestra frente a un valor teórico. De hecho,
si se calcula la variable diferencia para cada pareja, tenemos una única muestra,
cuyo promedio se desea comparar con el valor teórico 0.
En este caso, existe una nueva particularidad que afecta al parámetro desviación
estándar y que es importante tener en cuenta. La desviación estándar debe ser de
la variable diferencia. Si X es la variable correspondiente a la primera muestra e Y
es la variable correspondiente a la segunda muestra, entonces se define la variable
D = X – Y.
Suponiendo que la desviación estándar de X es σ X y que la desviación estándar de
Y es σ Y, entonces se puede comprobar que la desviación estándar de D es:
σ D = σ X 2 + σ Y 2 − 2 cov( X , Y )
Donde cov(X,Y) es la covarianza entre las dos muestras. Si son muestras

independientes, este valor es 0. En caso contrario, es un valor que mide la
variabilidad compartida y es positivo cuando existe una asociación directa.
Utilizando la prueba Z para dos muestras relacionadas, el estadístico de contraste
bajo la hipótesis nula de igualdad es:
D
Z=
σD np
Siendo np el tamaño de muestra, es decir, el número de parejas.

Bajo la hipótesis alternativa la distribución del estadístico Z es:
⎛ d ⎞
Z ~ N⎜ ,1⎟
⎜σ np ⎟
⎝ D ⎠
Siendo d = μE – μR la diferencia esperada entre tratamientos.
Comparación de no igualdad entre las medias de dos

muestras independientes de variables Normales con
desviaciones distintas
Al comparar dos grupos independientes, generalmente se asume que la desviación
típica de la variable de interés es la misma para ambos grupos. Si ello no fuera
cierto, es posible llevar a cabo las correcciones necesarias en la técnica para
obtener el resultado correcto. Éstas correcciones consisten en contemplar un
promedio ponderado de ambas desviaciones y modificar el cómputo del número
de grados de libertad empleados en la prueba T. La prueba estadística resultante
recibe el nombre de prueba t con la corrección de Satterthwaite.
Comparaciones de no–igualdad entre dos medias

para variables cuantitativas log–Normales
En algunos casos especiales, el investigador está interesado en comparar las
medias de dos muestras de una variable cuya distribución es log–Normal. Las
variables con tal distribución tienen la propiedad de que su logaritmo sigue una
distribución Normal. Las variables continuas que únicamente pueden adoptar
valores positivos y que muestran una desviación elevada cuando toman valores
elevados pueden aproximarse a partir de la distribución log–Normal. Por ejemplo,
tendrían esta propiedad las variables farmacocinéticas, de biodisponibilidad,
económicas y en general, las variables cuyas variaciones se miden en términos
multiplicativos en lugar de aditivos. En tal circunstancia, se suelen comparar
ambas medias a través de su cociente en lugar de emplear su diferencia. De esta
manera la hipótesis nula inicial bilateral es:
H0: μE =μR
HA: μE ≠μR
puede expresarse en términos del cociente entre medias:

H0: μE /μR =1
HA: μE /μR ≠ 1
y finalmente, transformando logarítmicamente la variable de interés:

H0: log(μE ) – log(μR ) = 0
HA: log(μE ) – log(μR ) ≠ 0
89
que corresponde a:
H0: log(μE ) = log(μR )
HA: log(μE ) ≠ log(μR )
El mismo desarrollo se aplicaría para la hipótesis experimental unilateral.

En esta última forma de expresar la hipótesis original, la variable transformada
mediante el logaritmo, debería tener una distribución Normal, por lo tanto sería
posible emplear la técnica estándar para comparar las medias de dos muestras de
una variable con distribución Normal.
Para aplicar las fórmulas para determinar el tamaño de muestra existe una
dificultad añadida ya que se requiere que el investigador conozca o disponga de
una estimación válida de la desviación típica de la variable transformada
logarítmicamente. Si únicamente se dispone de información sobre la variable en
la escala original (natural o sin transformar) se puede llevar a cabo una simple
pero eficaz aproximación a partir de su coeficiente de variación.
σ log( y ) = log(1 + CV y2 )
Comparaciones de no–igualdad entre dos medias

para variables cuantitativas no Normales
Los cálculos descritos para variables Normales en los casos anteriores:
comparación de una muestra frente a un valor teórico, comparación de dos
muestras independientes y comparación de dos muestras relacionadas, son
aproximaciones válidas cuando la variable respuesta del estudio es en realidad
una variable cuantitativa cualquiera no normal. Las aproximaciones son
asintóticas, de forma que para tamaños de muestra elevados (>30), los resultados
serán más exactos. Las consideraciones sobre la desviación estándar son
igualmente aplicables en esta situación.
Si la variable respuesta principal es una variable categórica ordinal o cuantitativa
discreta, entonces los cálculos también son aplicables bajo las mismas
circunstancias, siempre y cuando se desee comparar las medias. Si se desea
comparar las distribuciones mediante una prueba no–paramétrica (a través de la
prueba de Mann–Whitney), entonces esta opción no es la más adecuada ya que
existe la posibilidad de realizar cálculos apropiados alternativos.
Comparaciones de no–igualdad entre dos

proporciones
Cuando la variable respuesta principal es cualitativa binaria, el objetivo es
comparar las dos proporciones, ya sea la proporción de una muestra frente a un
valor teórico, dos proporciones de muestras independientes o dos proporciones de
muestras relacionadas. Los cálculos descritos para variables Normales reflejan los
principios básicos del proceso y son también aproximaciones válidas. Las
aproximaciones son asintóticas de forma que para tamaños de muestra elevados,
los resultados serán más exactos.
Los cálculos realizados para determinar el tamaño de muestra se basan en la
aproximación asintótica Normal para proporciones, y asumen que las pruebas
estadísticas que se realizarán para comparar las proporciones de los dos grupos
son la prueba χ2 para una única muestra, la prueba χ2 para dos muestras
independientes y la prueba de McNemar para dos muestras relacionadas.
Cuando se trabaja con proporciones, la desviación estándar se expresa mediante
las proporciones esperadas, por lo que no es necesario introducir ningún valor
para el parámetro desviación.
En el caso de dos muestras independientes, las fórmulas deben incorporar una
corrección para contemplar que la variabilidad en los dos grupos es distinta (ya
que se espera que las proporciones sean distintas).
En el caso de dos muestras relacionadas, no se calcula la desviación de la variable
diferencia, sino que tan solo es necesario proporcionar el porcentaje total de
cambios esperados. Es decir, el porcentaje de individuos (parejas) cuyo valor en
la primera muestra se espera que sea diferente al valor en la segunda muestra.
91
Ejemplos
Ejemplo 13. Comparación de no–igualdad entre una

media y un valor teórico
Se desea realizar un estudio para comprobar que la cantidad de ingesta diaria de
fibra en una determinada población es inferior a la cantidad habitualmente
recomendada de 20 g diarios (μ1=20). Se sabe que la desviación estándar de dicha
variable es aproximadamente de 10 g (σ=10) y que la ingesta en esta población es
aproximadamente de 15 g (μ2=15). Se necesitará incluir un mínimo de 34
individuos (n=34) en el estudio para asegurar una potencia del 80% (pow=1-
β=0.80) para detectar las diferencias deseadas con una prueba bilateral (c=2) y un
nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Comparación de dos medias Æ Una muestra frente a un valor
teórico Æ No igualdad
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para la media de una muestra
frente a un valor teórico
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar la
media de una variable de naturaleza continua medida en una única muestra y la
hipótesis experimental es de no igualdad entre el grupo experimental y un valor
teórico
α (0,1) Alfa o Nivel de Significación (valor recomendado: 0.05)
μ1 Media teórica de Referencia
μ2 Media del grupo Experimental. Este valor es obtenido de un
estudio previo o fijado por el investigador, de forma que
represente la magnitud que produce la mínima diferencia
clínicamente relevante
σ >0 Desviación típica. Este valor se suele obtener de la
bibliografía o de un estudio piloto previo
1–β (0.5,1) Potencia de la prueba estadística para detectar las diferencias
deseadas. Valores inferiores a 0.5 no tienen sentido. Es poco
correcto considerar valores superiores a 1 – α
n ≥2 Tamaño de la muestra efectivo
abandonos)
Δ >0 Tamaño del efecto. Tamaño del efecto detectable por la prueba
estadística
Fórmula para la potencia:
μ 2 − μ1
Δ=
σ
dfe = n − 1
(
93
Siendo F–1 la función IDF de una variable con distribución F y Fnc la función
CDF de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra y para el tamaño del efecto:
Los TM se obtienen por solución numérica de la ecuación para la potencia. En los
cálculos se utiliza la función de distribución F, una generalización de la función
t–Student.
Se asume que la distribución de la variable respuesta es Normal y que la prueba
estadística para rechazar la hipótesis nula será la prueba t–Student para una
muestra. Si la variable respuesta no cumple el requisito de Normalidad, es
necesario que el tamaño de muestra sea suficientemente grande para que los
resultados sean buenas aproximaciones.
Ejemplo 14. Comparación de no–igualdad entre las

medias de dos muestras independientes
Se desea llevar a cabo un ensayo para comparar la eficacia de dos tratamientos
para el dolor crónico. La eficacia del tratamiento se medirá a través de una escala
validada de Calidad de Vida, que puede asumirse como medida cuantitativa
continua. Mediante estudios previos, se ha podido observar que los pacientes que
han tomado el fármaco convencional tienen una puntuación media de 6 unidades
(μ1=6), mientras que la desviación estándar de esta variable es de
aproximadamente 2 unidades (σ=2). Se considera que una mejora en una unidad,
por lo tanto hasta alcanzar en promedio 7 puntos, representa la mínima mejora
clínicamente relevante (μ2=7). Se dispone de los recursos necesarios para incluir
100 pacientes en el estudio, 50 sujetos asignados a cada rama de tratamiento
(w1=0.5, n1=50). Por lo tanto, se desea decidir si la prueba estadística tendrá la
potencia suficiente para detectar las diferencias deseadas con 50+50 sujetos. Se
utiliza una prueba bilateral (c=2) y un nivel de significación del 5% (α=0.05).
La potencia de la prueba resultante es del 69% (pow=1-β=0.69)
Se considera que es una potencia insuficiente ya que no garantiza que la prueba
detectará las diferencias especificadas. Debe modificarse el diseño del estudio
como se verá en el siguiente ejemplo.
Utilizando Ene 3.0

Comparación de dos medias Æ Dos muestras independientes Æ
No igualdad
Pestaña: Potencia
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para las medias de dos muestras
independientes
media de una variable de naturaleza continua medida en dos muestras
independientes y la hipótesis experimental es de no igualdad entre ambos
grupos
μ1 Media del grupo de Referencia. Este valor es fijado por el
investigador o bien obtenido de la bibliografía
estudio previo o fijado por el investigador de forma que
relevante
σ >0 Desviación típica conjunta. Este valor se suele obtener de la
w1 (0,1) Proporción de la muestra en el Grupo de referencia respecto
del total de la muestra
95

n1 ≥2 Tamaño de la muestra efectivo del grupo de referencia
nr1 ≥2 Tamaño de la muestra a reclutar del grupo de referencia
estadística
μ 2 − μ1
Δ=
σ
dfe = n1 / w1 − 2
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
siendo F–1 la función IDF de una variable con distribución F y Fnc la función CDF
de una variable con distribución F–no centrada.
Fórmula para el tamaño de muestra en el grupo de referencia y para el tamaño
del efecto:
t–Student.

estadística para rechazar la hipótesis nula será la prueba t–Student para dos
muestras independientes. Si la variable respuesta no cumple el requisito de
Normalidad, es necesario que el tamaño de muestra sea suficientemente grande
para que los resultados sean buenas aproximaciones.

medias de dos muestras relacionadas
En el estudio considerado anteriormente para comparar la eficacia de dos
tratamientos para el dolor crónico mediante dos muestras independientes, se
estableció que su diseño no proporciona suficientes garantías de éxito si incluye a
50 pacientes por tratamiento. Para dar un nuevo enfoque al estudio, se plantea la
posibilidad de realizar un estudio cruzado. Es decir, cada paciente recibirá ambos
tratamientos tras un período de adaptación donde no serán evaluados. Dado que se
trata de una enfermedad crónica, se considera que este proceso es válido. En lugar
de analizar 50 pacientes por tratamiento se analizarán 50 pacientes en dos
ocasiones, de este modo mantiene el número total de evaluaciones (n=50). Igual
que en el estudio diseñado anteriormente, se asume que la eficacia esperada del
fármaco convencional es de 6 unidades (μ1=6), con una desviación de 2 unidades.
Se considera que un aumento en una unidad de la escala es la mínima mejora
clínicamente relevante (μ2=7). Se decide igualmente utilizar una prueba bilateral
(c=2) con un nivel de significación del 5% (α=0.05). Sin embargo, para proseguir
con los cálculos, ahora se debe especificar la desviación estándar de la diferencia
de los valores de eficacia de los dos tratamientos “dentro” de cada individuo, en
lugar de la desviación común. Así, después de consultar de nuevo con estudios
previos, se considera que la desviación estándar para la variable diferencia será de
2.5 unidades (σ=2.5). La potencia de la prueba resultante es ahora del 79%.
(pow=1 – β =0.79). Se considera que es una potencia admisible, cercana a 80%,
para llevar a cabo el estudio.
Utilizando Ene 3.0

Comparación de dos medias Æ Dos muestras relacionadas Æ No
igualdad
Pestaña: Potencia
97
Detalles técnicos
relacionadas
relacionadas y la hipótesis experimental es de no igualdad entre ambos grupos
relevante
σ >0 Desviación típica de la diferencia. Este valor se suele obtener
de la bibliografía o de un estudio piloto previo
n ≥2 Tamaño de la muestra efectivo. Número de parejas
nr ≥2 Tamaño de la muestra a reclutar. Número de parejas
μ 2 − μ1
Δ=
σ
dfe = n p − 1
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n p Δ2 )
Fórmula para el tamaño de muestra (número de parejas) y para el tamaño del
efecto:
t–Student.

muestras relacionadas. Las consideraciones sobre la falta de Normalidad de la
variable respuesta son igualmente aplicables.

medias de dos muestras independientes con
desviaciones diferentes (corrección de Satterthwaite)
Se desea comparar la eficacia de dos tratamientos para la conciliación del sueño.
La eficacia será medida a partir del grado de satisfacción de los pacientes en una
escala validada (que puede asumirse como variable continua). Mediante estudios
previos, se ha podido observar que los pacientes que han tomado el fármaco
99
convencional tienen una puntuación media de 6 unidades (μ1=6) y presentan una

desviación típica de 3 unidades (σ1=3), mientras los pacientes que toman el
tratamiento experimental tienen una puntuación de 8 unidades (μ2=8) y una
desviación de 1 (σ2=1).se necesitará incluir un mínimo de 22 individuos por grupo
(w1=0.5, n1=22) para asegurarse una potencia del 80% (pow=1-β=0.80) para
detectar las diferencias deseadas con una prueba bilateral (c=2) y un nivel de
significación del 5% (α=0.05).
Utilizando Ene 3.0
No igualdad, varianzas diferentes
Detalles técnicos
independientes con la corrección de Satterthwaite
independientes, la hipótesis experimental es de no igualdad entre ambos grupos
y las desviaciones estándar para cada grupo no son iguales

relevante
σ1 >0 Desviación típica del grupo de Referencia. Este valor se suele
obtener de la bibliografía o de un estudio piloto previo
σ2 >0 Desviación típica del grupo Experimental. Este valor se suele
1–β (0.5, 1) Potencia de la prueba estadística para detectar las diferencias
μ 2 − μ1
Δ=
σ / w1 + σ 22 /(1 − w1 )
2
1
dfe1 = e1 / e2
dfe2 = u1 / u 2
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe1 ),1, dfe2 , nΔ2 )
donde
c1 = σ 12 /( n12 − n1 )
c2 = σ 22 /(n22 − n2 )
101
e1 = c12 (n1 − 1)(n1 + 1) + 2c1 (n1 − 1)c2 (n2 − 1) + c22 (n2 − 1)(n2 + 1)
e2 = c12 (n1 + 1) + c22 (n2 + 1)
u1 = (σ 12 w1 / n + σ 22 (1 − w1 ) / n )
2
( )2
( )
u 2 = σ 12 w1 / n / (n1 − 1) + σ 22 (1 − w1 ) / n / (n2 − 1)
2
Fórmula para el tamaño de muestra en el grupo de referencia:
t–Student.
Se asume que la distribución de la variable respuesta es Normal, que las

desviaciones típicas para las dos muestras son diferentes y que la prueba
muestras independientes con la corrección de Satterthwaite. Si la variable
respuesta no cumple el requisito de Normalidad, es necesario que el tamaño de
muestra sea suficientemente grande para que los resultados sean buenas
aproximaciones.

media y un valor teórico en escala logarítmica
Se desea comprobar que la cantidad de ingesta diaria de fibra en una determinada
población es inferior a la cantidad habitualmente recomendada de 20 g diarios
(μ1=20). Se considera que una ingesta inferior en 5 g a la cantidad recomendada
(μ2=15) es clínicamente relevante, lo que supondría una cantidad del 25% menor a
la cantidad recomendada. Se considera adecuado trabajar con la variable
transformada mediante el logaritmo, y se sabe que el coeficiente de variación de
la variable original es de 0.5, por lo que la desviación estándar de la variable
transformada es de 0.472 (σ=0.472). Se necesitará incluir un mínimo de 24
individuos (n=24) en el estudio para asegurarse una potencia del 80% (pow=1-
β=0.80) para detectar las diferencias deseadas con una prueba bilateral (c=2) y un
Utilizando Ene 3.0

Comparación de dos medias (escala logarítimica) Æ Una
muestra frente a un valor teórico Æ No igualdad
Detalles técnicos
Basado en la Prueba t–Student de no–igualdad para la media de una muestra
frente a un valor teórico en escala logarítmica
Esta técnica es adecuada cuando el objetivo principal del estudio es comparar el
logaritmo de la media de una variable escala medida en una única muestra y la
teórico
μ1 >0 Media teórica de Referencia en escala natural
μ2 >0 Media del grupo Experimental en escala natural. Este valor es
obtenido de un estudio previo o fijado por el investigador, de
forma que represente la magnitud que produce la mínima
diferencia clínicamente relevante
103
σ >0 Desviación típica en escala logarítmica. Este valor se suele

abandonos)
estadística
log(μ 2 / μ1 )
Δ=
σ
dfe = n − 1
(
t–Student.
Se asume que la distribución de la variable respuesta es log–Normal y que la

prueba estadística para rechazar la hipótesis nula será la prueba t–Student para
una muestra en escala logarítmica.

medias de dos muestras independientes en escala
logarítmica
Se desea comparar la eficacia de un nuevo fármaco para el tratamiento de la
depresión respecto del fármaco convencional. La eficacia del tratamiento se
medirá a través de una escala validada de la Calidad de Vida que puede asumirse
como variable continua y se considera adecuado trabajar con la variable
transformada a logaritmos. Mediante estudios previos, se ha podido observar que
los pacientes que han tomado el fármaco convencional tienen una puntuación
media de 6 unidades en la escala original (μ1=6), y se considera que si el nuevo
tratamiento ofrece una mejora en una unidad (μ2=7), clínicamente sería muy
relevante. La variable transformada tiene una desviación estándar de 0.3 (σ=0.3).
Se necesitará incluir un mínimo de 61 individuos por grupo (w1=0.5, n1=61) para
asegurarse una potencia del 80% (pow=1-β=0.80) para detectar las diferencias
deseadas con una prueba bilateral (c=2) y un nivel de significación del 5 %
(α=0.05).
Utilizando Ene 3.0

Comparación de dos medias (escala logarítimica) Æ Dos
muestras independientes Æ No igualdad
105
Detalles técnicos
independientes en escala logarítmica
logaritmo de la media de una variable escala medida en dos muestras
independientes y la hipótesis experimental es de no igualdad entre ambos
grupos
μ1 >0 Media del grupo de Referencia en escala natural. Este valor es
fijado por el investigador o bien obtenido de la bibliografía
obtenido de un estudio previo o fijado por el investigador de
diferencia relevante
σ >0 Desviación típica conjunta en escala logarítmica. Este valor se
suele obtener de la bibliografía o de un estudio piloto previo
estadística

log(μ 2 / μ1 )
Δ=
σ
dfe = n1 / w1 − 2
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
Fórmula para el tamaño de muestra en el grupo de referencia y para el tamaño
del efecto:
t–Student. Se asume que la distribución de la variable respuesta es log–Normal y
que la prueba estadística para rechazar la hipótesis nula será la prueba t–Student
para dos muestras independientes en escala logarítmica.

medias de dos muestras relacionadas en escala
logarítmica
Se desea comparar dos productos para la reducción de los niveles de colesterol.
Se decide llevar a cabo un estudio con muestras relacionadas para incluir un
número menor de individuos. En una primera fase, los pacientes recibirán uno de
los tratamientos, mientras que en un segundo periodo recibirán el otro
tratamiento. Se decide trabajar con la variable transformada a logaritmos. Se
considera que un aumento del 20% es clínicamente relevante (μ1=1, μ2=1.2). A
partir de un estudio piloto, se sabe que la desviación estándar de la variable
"diferencia de valores transformados logarítmicamente" es de 0.6 (σ=0.6).
Finalmente, será necesario incluir un mínimo de 87 individuos o parejas de
unidades experimentales (n=87) analizados en dos periodos para obtener una
potencia del 80% (pow=1-β=0.80) para detectar las diferencias deseadas con una
prueba bilateral (c=2) y un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0

muestras relacionadas Æ No igualdad
107
Detalles técnicos
relacionadas en escala logarítmica
fijado por el investigador o bien obtenido de la bibliografía
obtenido de un estudio previo o fijado por el investigador de
diferencia relevante
σ >0 Desviación típica del cociente en escala logarítmica. Este valor

se suele obtener de la bibliografía o de un estudio piloto
previo
np ≥2 Tamaño de la muestra efectivo. Número de parejas
nrp ≥2 Tamaño de la muestra a reclutar. Número de parejas
log(μ 2 / μ1 )
Δ=
σ
dfe = n p − 1
(
1 − β = 1 − Fnc F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n p Δ2 )
efecto:
t–Student.
Se asume que la distribución de la variable respuesta es log–Normal y que la

prueba estadística para rechazar la hipótesis nula será la prueba t–Student para dos
muestras relacionadas en escala logarítmica.
109

proporción y un valor teórico
Se desea realizar un estudio para comparar la eficacia de la unidad de cuidados
intensivos en donde se han introducido importantes mejoras técnicas, respecto a la
eficacia estándar. La eficacia de la unidad de cuidados intensivos se define como
el porcentaje de pacientes recuperados satisfactoriamente según determinados
criterios clínicos validados. Se sabe que habitualmente el porcentaje de
recuperación es aproximadamente del 75% (p1=0.75), porcentaje que se toma
como referencia y se considera que una mejora en un 15% sería clínicamente
relevante (p2=0.9). Se decide fijar un nivel de significación del 5% (α=0.05), una
potencia del 80% (pow=1 – β =0.80) y considerar una prueba bilateral (c=2). Se
necesitará incluir un mínimo de 54 sujetos en el estudio (n=54) para obtener la
potencia deseada para detectar diferencias entre ambos valores.
Utilizando Ene 3.0
Comparación de dos proporciones Æ Una muestra frente a un
valor teórico Æ No igualdad
En el curso de la preparación del estudio surgen algunas consideraciones y

opiniones contradictorias que reducen el valor de la mejora clínicamente relevante
y las posibilidades de mejora de la unidad hasta un 10% (p2=0.85). Por lo tanto,
se rehacen los cálculos. Ahora el estudio, que podrá detectar unas diferencias
menores, necesitará incluir al menos 133 sujetos en el estudio (n=133).
Detalles técnicos
Basado en la prueba χ2 para una proporción frente a un valor teórico
proporción de ocurrencia de cierto evento medido en una única muestra y la
teórico
p1 (0,1) Proporción teórica del grupo de Referencia. Proporción de
ocurrencia teórica de referencia
p2 (0,1) Proporción del grupo Experimental. Proporción de ocurrencia
esperada en el grupo experimental
111

abandonos)
⎛ n p2 − p1 − Z1−α / c p1 (1 − p1 ) ⎞
1 − β = Φ⎜ ⎟
⎜
⎝ p 2 (1 − p 2 ) ⎟
⎠

2
⎛Z p (1 − p1 ) + Z1− β p2 (1 − p2 ) ⎞⎟
n = ⎜ 1−α / c 1
⎜ p2 − p1 ⎟
⎝ ⎠
Las fórmulas se basan en la aproximación asintótica Normal para proporciones.

Para obtener buenas aproximaciones es necesario que el tamaño de muestra sea
relativamente elevado.

proporciones de dos muestras independientes
Para que el estudio del ejemplo anterior tenga mayor relevancia, en lugar de
comparar el porcentaje de eficacia frente a un valor de referencia teórico, se
decide llevar a cabo la comparación frente al porcentaje de eficacia de un hospital
considerado de referencia. El porcentaje de eficacia de la unidad de cuidados
intensivos del hospital de referencia es igualmente del 75% (p1=0.75). En los
postulados anteriores, se asumía que un incremento de un 10% en este porcentaje
representa una mejoría clínica (p2=0.85). Se decide mantener un nivel de
significación del 5% (α=0.05), una potencia del 80% (pow=1 – β =0.80) y
considerar la prueba bilateral (c=2). Se trabajará con dos muestras independientes.
Para realizar el estudio en las condiciones previstas, se deberán incluir 250
pacientes por hospital (n1=250, w1=0.5).
De hecho, cuando anteriormente se deseaba comparar la muestra con un valor
teórico, se necesitaban 133 sujetos. Al cambiar por dos muestras independientes,
se requiere un número total que es prácticamente 4 veces más (al menos se
necesitarán 500 pacientes).
Utilizando Ene 3.0:

Comparación de dos proporciones Æ Dos muestras
independientes Æ No igualdad
Detalles técnicos
Basado en la Prueba χ2 para dos proporciones de muestras independientes
proporción de ocurrencia de cierto evento medido en dos muestras
independientes y la hipótesis experimental es de no igualdad entre el grupo
experimental y un valor teórico
p1 (0,1) Proporción del grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia.
esperada del evento de interés en el grupo experimental
113

Cálculos previos:
1 − w1 p + ϕp2
ϕ= , p= 1
w1 1+ϕ

⎛ | p − p | ϕn − Z
1 − β = Φ⎜⎜ 2 1 1 (
⎞
1−α / c (1 + ϕ ) p 1 − p ⎟ )
⎜ ϕp1 (1 − p1 ) + p2 (1 − p2 ) ⎟⎟
⎝ ⎠
Fórmula para el tamaño de muestra en el grupo de referencia:
(1 + ϕ ) p(1 − p ) + Z1−β
2
⎛⎜ Z ϕp1 (1 − p1 ) + p2 (1 − p2 ) ⎞⎟
1−α / c
n1 = ⎝ ⎠
ϕ | p2 − p1 |2


proporciones de dos muestras relacionadas
Se proyecta realizar un ensayo para estudiar la posible eficacia de un tratamiento
para la reducción del dolor dental después de una determinada intervención. Se
decide medir la presencia o ausencia de dolor en dos momentos: al inicio de
recibir el tratamiento y al cabo de media hora. Las expectativas del investigador
se basan en el siguiente estudio piloto:
Después del Tratamiento
Antes del Tratamiento Dolor No dolor Subtotal

Dolor 13% 17% 30%
No dolor 7% 63% 70%
Subtotal 20% 80% 100%
De este modo, el porcentaje de pacientes con dolor al inicio será

aproximadamente del 30% (p1=0.30). Se estima que el fármaco ofrecerá una
reducción del 10% absoluto en la presencia de dolor, es decir, el porcentaje final
de pacientes con dolor será del 20% (p2=0.20). Así mismo, se considera que
alrededor de un 24% de pacientes cambia de resultado (pd=0.24). El porcentaje
esperado de pacientes que pasan de Dolor a No–Dolor es del 17% y el porcentaje
de pacientes que pasa de No–Dolor a Dolor es del 7%. Su suma es del 24% que es
el porcentaje de pacientes que cambia de categoría. Se decide fijar la potencia en
un 80% (pow=1 – β =0.80) y realizar una prueba bilateral (c =2) con un nivel de
El investigador necesitará incluir 186 sujetos o parejas (n=186) para tener un 80%
de potencia para detectar las diferencias esperadas.
Utilizando Ene 3.0
Comparación de dos proporciones Æ Dos muestras relacionadas
Æ No igualdad
115
Detalles técnicos
Basado en la Prueba de McNemar para dos proporciones de muestras relacionadas
p1 (0,1) Proporción del grupo de Referencia. Proporción de
ocurrencias esperada del evento de interés en el grupo o
periodo de referencia
p2 (0,1) Proporción del grupo Experimental. Proporción de ocurrencias
esperada del evento de interés en el grupo o periodo
experimental
pd |p2 – p1|<pd<1 Proporción de parejas que cambiarán de valor (parejas
discordantes)
np ≥2 Tamaño de la muestra efectivo. Número de parejas
nrp ≥2 Tamaño de la muestra a reclutar. Número de parejas
⎛ ⎞
⎜ n p2 − p1 − Z1−α / c pd ⎟
1 − β = Φ⎜ ⎟
⎜ p − p − p
2
⎟
⎝ d 2 1 ⎠
Fórmula para el tamaño de muestra (número de parejas):

2
⎛⎜ Z pd + Z1− β pd − p2 − p1 ⎞⎟
2
1−α / c
np = ⎝ 2
⎠
p2 − p1

117
Comparación de dos grupos (no–

inferioridad, superioridad relevante o
equivalencia)
Introducción
El objetivo habitual de algunos ensayos es la demostración de la superioridad (o
no–igualdad) del tratamiento experimental frente a un tratamiento de referencia (o
bien frente a un placebo). Estos casos se han tratado en los apartados anteriores.
En ocasiones el interés del estudio consiste en demostrar que dos tratamientos son
equivalentes dentro de un determinado rango, demostrar que el tratamiento
experimental es no–inferior a determinado límite o bien demostrar que las
diferencias son clínicamente relevantes.
Los estudios de equivalencia o de no–inferioridad son interesantes cuando el
tratamiento experimental ofrece las mismas garantías en cuanto a la eficacia
requerida, sin ser mejor, pero que puede proporcionar otras ventajas (facilidad de
administración, menor coste, menos efectos adversos, etc.). También suelen
emplearse cuando ambos tratamientos ofrecen una eficacia muy elevada, de
manera que puede ser difícil o poco realista intentar demostrar la superioridad del
tratamiento experimental.
Los estudios de superioridad relevante permiten detectar no únicamente que los
tratamientos son diferentes (hecho que correspondería a los estudios de no–
igualdad) sino que además pretenden demostrar que las diferencias son superiores
a cierto margen de relevancia experimental.
El objetivo del estudio se puede concretar definiendo las hipótesis nula y
alternativa.
Estudios de Equivalencia
H0: La eficacia de ambos grupos no es equivalente
HA: La eficacia de ambos grupos es equivalente
Estudios de no–inferioridad
H0: El grupo experimental es inferior al grupo de referencia
HA: El grupo experimental no es inferior al grupo de referencia
Estudios de superioridad relevante

H0: El grupo experimental no es superior al margen de equivalencia del grupo de

referencia
HA: El grupo experimental es superior al margen de equivalencia del grupo de
referencia
En los estudios de equivalencia, de no–inferioridad o de superioridad relevante, se
debe fijar un margen o límite de equivalencia que se denota usualmente como L o
como ε. El límite de equivalencia, se fija en función de la eficacia mínima que se
puede considerar clínicamente equivalente a la eficacia del tratamiento de
referencia. Por ejemplo, en los estudios de bioequivalencia, suele ser aceptable
considerar que este margen es entre un 20% y un 30% menor que la eficacia de
referencia. El valor escogido dependerá de criterios puntuales, como puede ser la
eficacia esperada del placebo. La elección del límite de equivalencia debe estar
plenamente justificada. En los estudios de no inferioridad o superioridad
relevante, el margen puede llamarse también margen de no inferioridad o margen
de superioridad relevante respectivamente.
En la fase de diseño del estudio, se tratará de responder a alguna de las preguntas
relacionadas con el tamaño de muestra:
¿Cuántos individuos será necesario incluir en el estudio para conseguir
detectar que son equivalentes y garantizar la confirmación de la hipótesis
alternativa?
¿Qué margen de equivalencia (o tamaño del efecto) podrá detectar la
prueba estadística si se incluyen en el estudio n sujetos?
¿Qué potencia tendrá la prueba estadística para detectar la hipótesis
experimental si se incluyen en el estudio n sujetos?
Prueba T
Tal y como se ha comentado para las técnicas de no–igualdad, en las técnicas de
no–inferioridad, superioridad relevante y equivalencia, el programa Ene 3.0
contempla que se realizará la prueba t–Student en lugar de la prueba Z,
empleando fórmulas mucho más complejas que las descritas a continuación. No
obstante, las fórmulas presentadas en los siguientes apartados son aproximaciones
válidas y aceptadas que permiten ejemplificar todo el proceso llevado a cabo.
119
Comparación de no inferioridad entre las medias de

dos muestras independientes de variables Normales
La comparación de no–inferioridad entre las medias de dos muestras
independientes permite comparar las medias de dos grupos cuando se desea
concluir que un grupo no es inferior al otro.
Las hipótesis de trabajo, suponiendo que la eficacia se mide en términos
positivos, son:
H0: μE =μR – ε (no–inferioridad)
HA: μE > μR – ε
Por tanto, para demostrar no–inferioridad, siempre se utiliza una prueba
unilateral.
En estudios de no–inferioridad, esta sería una representación visual del objetivo
del estudio:
Eficacia
μE
μR−ε μR μR +ε
Demostrando que la eficacia del tratamiento experimental es superior a μR – ε, se

concluirá que no es inferior al tratamiento de referencia.
Bajo la suposición de que la variable respuesta sigue una distribución Normal, y
que la desviación estándar es conocida y común en los dos grupos, se puede
utilizar la prueba Z de no–inferioridad.
Asumiendo que la eficacia se mide en términos positivos, y suponiendo cierta H0,
el promedio esperado para la muestra es μR – ε. Utilizando la prueba Z de no–
inferioridad para dos muestras independientes, el estadístico de contraste bajo la
hipótesis nula sería:
XE − XR +ε
Z=
σ 0 (1 nwE + 1 nwR )
2
que sigue una distribución Normal estándar.

wR es la proporción de sujetos de la muestra total que pertenecen al grupo de
referencia y wE la proporción que pertenecen al grupo experimental.

⎛ ⎞
⎜ ε +d ⎟
Z ~ N⎜ ,1⎟
⎜ σ (1 nw + 1 nw ) ⎟
2
⎝ 0 E R ⎠
Siendo d=μE – μR la diferencia esperada entre tratamientos y ε el límite de

equivalencia o de no–inferioridad.
Por lo tanto, procediendo de forma similar al caso de no–igualdad, se encontraría
la fórmula para el TM para demostrar no–inferioridad mediante una prueba Z
unilateral.
Así, se observa que el tamaño del efecto en estudios de no–inferioridad se puede
escribir como:
|ε +d |
Δ=
σ0
En el programa Ene 3.0, el usuario deberá tener en cuenta los siguientes aspectos:
Si la eficacia se mide en términos positivos, deberá introducir un límite de
no–inferioridad negativo. Este límite se mide respecto al grupo de
referencia.
Si la eficacia se mide en términos negativos, se deberá introducir un límite
de no–inferioridad positivo. Este límite se mide respecto al grupo de
referencia.
El valor de la diferencia esperada siempre se mide como la diferencia entre
el tratamiento experimental menos el grupo de referencia.
Ahora se puede observar como influyen los factores que intervienen en el cálculo
del TM para estudios de no–inferioridad.
La potencia, el número de sujetos, la variabilidad, la proporción de sujetos en
cada grupo respecto al total y el nivel de significación, influyen del mismo modo
que en los estudios de no–igualdad. En esta prueba sólo se considera el caso
unilateral. El tamaño del efecto se define a partir de la diferencia esperada y del
límite de no–inferioridad, por lo tanto es necesario observar como influyen ambos
parámetros en el resultado final.
La diferencia esperada
La diferencia esperada siempre debe estar comprendida entre +/– ε. Sin embargo,
considerando la eficacia en términos positivos, si la diferencia esperada d = μE –
μR, es negativa (se estaría asumiendo que el tratamiento experimental es algo peor
que el de referencia), entonces será necesario incluir un número mayor de sujetos
121
en el estudio. Si en cambio, es positiva, se podrá detectar no–inferioridad con

mayor facilidad; o bien se tendrá una potencia elevada o bien se requerirán menor
número de pacientes.
Límite de no–inferioridad
Si se considera un límite amplio, hará falta un menor número de sujetos para
confirmar la no–inferioridad habiendo fijado la potencia de la prueba. Si se desea
un límite muy sensible y por lo tanto estrecho, la prueba estadística tendrá menor
potencia o, equivalentemente, será necesario incluir un mayor número de
individuos en el estudio. No obstante, límites amplios pueden incluir el efecto del
grupo placebo, hecho que conduciría a una situación paradójica (asumiendo que
el placebo es inferior) de aceptar la equivalencia del placebo con los demás
tratamientos.
Al utilizar Ene 3.0, en los estudios de no inferioridad, cuando la eficacia se mide
en términos positivos, se deberá introducir un valor menor que 0 (mayor que 0 si
la eficacia se mide en términos negativos).
Comparación de superioridad relevante entre las

medias de dos muestras independientes de variables
Normales
La comparación de superioridad relevante entre las medias de dos muestras
independientes permite comparar las medias de dos grupos cuando se desea
concluir que un grupo es superior al otro y que dicha diferencia es además
relevante.
Las hipótesis de trabajo, suponiendo que la eficacia se mide en términos
positivos, son:
H0: μE =μR + ε (superioridad relevante)
HA: μE > μR + ε
Por tanto, para demostrar superioridad relevante, también se utiliza una prueba
unilateral.
En estudios de superioridad relevante, esta sería una representación visual del
objetivo del estudio:
Eficacia
μE
Demostrando que la eficacia del tratamiento experimental es superior a μR + ε, se

concluirá que es superior a μR y que las diferencias son al menos de una
magnitud mayor que ε.
Bajo la suposición de que la variable respuesta sigue una distribución Normal, y
que la desviación estándar es conocida y común en los dos grupos, se puede
utilizar la prueba Z de superioridad relevante.
Ahora, el estadístico de contraste bajo la hipótesis nula sería:
XE − XR −ε
Z=
σ 0 (1 nwE + 1 nwR )
2
que sigue una distribución Normal estándar.

⎛ d −ε ⎞
Z ~ N⎜ ,1⎟
⎜ σ 2 (1 nw + 1 nw ) ⎟
⎝ 0 E R ⎠
Siendo de nuevo d=μE – μR la diferencia esperada entre tratamientos y ε el límite
de equivalencia.
Por lo tanto, procediendo de forma similar al caso de no–igualdad, se encontraría
la fórmula para el TM para demostrar superioridad relevante mediante una prueba
Z unilateral.
El tamaño del efecto en estudios de superioridad relevante se puede escribir
como:
| d −ε |
Δ=
σ0
123
En el programa Ene 3.0, el usuario deberá tener en cuenta los siguientes aspectos:
Si la eficacia se mide en términos positivos, deberá introducir un límite de
superioridad relevante positivo. Este límite se mide respecto al grupo de
referencia.
Si la eficacia se mide en términos negativos, se deberá introducir un límite
de superioridad relevante negativo. Este límite se mide respecto al grupo de
referencia.
El valor de la diferencia esperada siempre se mide como la diferencia entre
el tratamiento experimental menos el grupo de referencia.
Los factores que intervienen en el cálculo del TM para estudios de superioridad
relevante son los mismos que en los estudios de no–inferioridad sin embargo,
exicten pequeñas diferencias en la interpretación de los siguientes parámetros:
La diferencia esperada
La diferencia esperada siempre no puede estar comprendida entre +/– ε. Cuanto
mayor sea la diferencia esperada, menor será el tamaño de muestra requerido.
Límite de superioridad relevante

Si se considera un límite amplio, hará falta un mayor número de sujetos para
confirmar la superioridad relevante habiendo fijado la potencia de la prueba. Si se
desea un límite estrecho que proporcione poca relevancia, la prueba estadística
tendrá mayor potencia o, equivalentemente, será necesario incluir un menor
número de individuos en el estudio.
Al utilizar Ene 3.0, en los estudios de superioridad relevante, cuando la eficacia se
mide en términos positivos, se deberá introducir un valor mayor que 0 (menor que
0 si la eficacia se mide en términos negativos).
Comparación de equivalencia entre las medias de dos

muestras independientes de variables Normales
La comparación de equivalencia entre las medias de dos muestras independientes
de variables Normales permite comparar las medias de dos grupos cuando se
desea concluir que ambos grupos son equivalentes.
Utilizando la notación habitual, el promedio de eficacia del grupo de referencia es
μR y el promedio del grupo experimental es μE. Las diferencias esperadas son d =
μE – μR. Es necesario decir que d no puede ser mayor que ε ni menor que –ε. El
estudio no tendría sentido, pues se partiría del supuesto de que el tratamiento

experimental ya es inferior, superior o, en definitiva, no equivalente.
Eficacia
μE
Demostrando que la eficacia del tratamiento experimental es superior a μR – ε y

simultáneamente inferior a μR+ε , se concluirá que es equivalente al grupo de
referencia.
Se trabaja simultáneamente con dos hipótesis nulas distintas, denotadas H01 y H02,
cuya intersección dará lugar a las conclusiones deseadas:
H01: μE =μR – ε H02: μE =μR + ε
HA1: μE >μR – ε HA2: μE <μR + ε
Para demostrar equivalencia ambas pruebas son unilaterales. De hecho consisten
en dos pruebas de no–inferioridad (una de ellas en sentido contrario a la otra).
Cada una de las dos pruebas se realiza con el mismo nivel de significación. Dado
que son pruebas simétricas, los cálculos son idénticos si se considera que la
eficacia se mide en sentido positivo o negativo.
Distribución Distribución
Distribución
teórica de Z teórica de Z
teórica de Z
bajo H01 bajo HA bajo H02
1–α 1–α
1–β
β/2 β/2
α
125
El gráfico muestra las distribuciones teóricas del estadístico bajo la hipótesis nula
y bajo la hipótesis alternativa.
De hecho se trata de dos pruebas de no–igualdad unilaterales y no centradas entre
dos medias de muestras independientes. El estadístico de contraste para ambas
pruebas es similar al utilizado en las pruebas de no–igualdad.
En la primera prueba se tiene que el estadístico de contraste es:
XE − XR +ε
Z= ~ N(0,1) bajo la hipótesis nula.
σ 0 (1 nwE + 1 nwR )
2
Para simplificar la expresión,
SE = σ 0 (1 nwE + 1 nwR )
2
siendo este término el error estándar de la diferencia. Este término es invariante y

no depende de si se trata de la primera o la segunda prueba.
De este modo,
XE − XR +ε
SE
Así, para rechazar la primera prueba, bajo la primera hipótesis nula (H01), sería
necesario que Z > Z1 – α dado que se trata de una prueba unilateral. Es decir,
P ( Z > Z1−α | H 01 ) = α
y entonces sustituyendo Z por su expresión,

XE − XR ε
P( > Z1−α − | H 01 ) = α
SE SE
Para la segunda prueba se tiene que el estadístico de contraste es:
XE − XR −ε
SE
Para rechazar la segunda prueba, bajo la correspondiente hipótesis nula (H02),
sería necesario que Z < Zα. Es decir,
P ( Z < Z α | H 02 ) = α
y entonces sustituyendo Z por su expresión,

XE − XR ε
P( < Zα + | H 02 ) = α
SE SE
Por lo tanto, para rechazar simultáneamente ambas hipótesis es necesario que
ε XE − XR ε
Z1−α − < < Zα +
SE SE SE
Para obtener una potencia de 1 – β sería necesario que bajo la hipótesis alternativa
ε XE − XR ε
P( Z1−α − < < Zα + | H A) = 1− β
SE SE SE
Bajo la hipótesis alternativa, el término
XE − XR d
ZA = ~ N ( ,1)
SE SE
donde d=μE – μR. Sin embargo, debido a que se está intentando demostrar
equivalencia, la suposición natural sería d=0. La suposición d≠0 implica una
pérdida de la simetría y requiere nuevos métodos numéricos para determinar el
TM.
De este modo, se asume que d=0 para proseguir con los detalles técnicos:
XE − XR
ZA = ~ N (0,1)
SE
ε XE − XR ε
P ( Z1−α − < < Zα + | H A ) = 1− β ,
SE SE SE
Ahora,
ε ε
P ( Z1−α − < Z A < Zα + | H A) = 1− β
SE SE
y utilizando las propiedades de los cuantiles y agrupando términos,
ε ε
P ( Z1−α − < Z A < −( Z1−α − ) | H A ) = 1− β
SE SE
Debido a que ZA es una variable Normal estándar centrada, se puede buscar un
intervalo de forma que:
P(− Z1− β / 2 < Z A < Z1− β / 2 | H A ) = 1 − β
Finalmente, igualando los términos se obtiene la ecuación:

ε
Z1− β / 2 = −( Z1−α − )
SE
y simplificando la expresión,
SE ( Z1− β / 2 + Z1−α ) = ε
127
donde SE = σ 0 2 (1 nwE + 1 nwR )
Esta expresión se puede escribir en función del parámetro n, β o Δ deseado.

Los factores que influyen en el resultado final son los mismos que en el caso de
no–inferioridad, excepto para las diferencias esperadas.
En los estudios de equivalencia, al tener que especificar la eficacia esperada de
ambos tratamientos, es corriente asumir que las diferencias esperadas son
pequeñas y siempre inferiores al margen de equivalencia o de no–inferioridad. El
caso más habitual y recomendable es asumir que las diferencias esperadas entre
tratamientos son nulas.
En las pruebas de equivalencia, el programa Ene 3.0 incorpora por defecto la
suposición que d=0 y no importa si el valor introducido para el límite de
equivalencia es positivo o negativo. Siempre se realizan los cálculos con |ε|.
Es frecuente en estudios de equivalencia que se incluya un tercer grupo placebo
para garantizar su validez interna. De este modo se podrá demostrar que los
tratamientos activos son equivalentes entre sí y, simultáneamente, superiores al
grupo placebo (mediante las correspondientes pruebas de no–igualdad). Si por
motivos éticos o prácticos no es posible incluir el grupo placebo en el estudio, es
aconsejable reconsiderar un margen de equivalencia menor que no incluya de
ninguna manera el efecto esperado del placebo.
Comparación de no–inferioridad, superioridad

relevante o equivalencia entre las medias de dos
muestras independientes de variables log–Normales
Las consideraciones realizadas en las pruebas de no–igualdad para variables con
distribución log–Normal son igualmente aplicables en este tipo de estudios.
Los límites de equivalencia se expresan en términos multiplicativos en lugar de
aditivos, por este motivo, en lugar de definir los límites a partir de +/– ε, se
definen a partir de L y 1/L:
El margen de equivalencia en estudios de no–inferioridad, superioridad relevante
o equivalencia se define cómo:
1 μ2
< <L
L μ1
y tomando logaritmos se obtiene:
− log L < log(μ 2 ) − log(μ1 ) < log L

que tiene ahora el aspecto habitual tomando +/– log L en lugar de +/– ε.
Al utilizar Ene 3.0, en los estudios de no inferioridad, cuando la eficacia se mide
en términos positivos, se deberá introducir un valor menor que 1 (mayor que 1 si
la eficacia se mide en términos negativos). De forma similar, en los estudios de
superioridad relevante, cuando la eficacia se mide en términos positivos, se
deberá introducir un valor mayor que 1 (menor que 1 si la eficacia se mide en
términos negativos).
Es habitual considerar valores de 1/L igual a 0.7 o 0.8, o respectivamente, valores
de L igual a 1.25 o 1.43. Estos valores permiten establecer márgenes del 20% y
del 30% respectivamente.
Dado que la variable de interés tiene una distribución log–Normal, es posible
emplear la técnica estándar para comparar las medias, por lo que es necesario
aplicar la transformación logarítmica.

relevante o equivalencia entre las medias de dos
muestras independientes de variables cuantitativas
no Normales
Los cálculos anteriores asumen que la variable respuesta tiene una distribución
Normal. Tanto en el caso de no–inferioridad como de equivalencia, son
aproximaciones válidas cuando las variables estudiadas son en realidad variables
cuantitativas no Normales. Las aproximaciones son asintóticas, de forma que para
tamaños de muestra elevados, los resultados serán más exactos.

relevante o equivalencia entre las proporciones de
dos muestras independientes
Cuando la variable respuesta principal es cualitativa binaria y se desea comparar
las proporciones entre dos grupos mediante una prueba de no–inferioridad o de
equivalencia, los cálculos descritos para variables Normales reflejan los
principios básicos del proceso y son aproximaciones válidas. Las aproximaciones
129
son asintóticas, de forma que para tamaños de muestra elevados, los resultados
serán más fiables.
Sin embargo, habitualmente, se utilizan las fórmulas corregidas para contemplar
que la desviación estándar del estadístico bajo la hipótesis nula y alternativa no es
la misma.
El resto de consideraciones realizadas en las pruebas de no–igualdad para
variables cuantitativas binarias son igualmente aplicables en este tipo de estudios.
Comparaciones de no–inferioridad, superioridad

relevante o equivalencia para una muestra o dos
muestra relacionadas
Los cálculos anteriores asumían que las muestras eran independientes. Si se
tratara de un estudio para comparar una muestra frente a un valor teórico o dos
muestras relacionadas, los cálculos se basan en el estadístico apropiado y se
realizan de forma análoga aplicando las consideraciones oportunas comentadas en
el apartado de no–igualdad.
131
Ejemplos
Ejemplo 23. Comparación de no–inferioridad entre

una media y un valor teórico
Se desea comprobar que un tratamiento para la prevención de accidentes
cardiovasculares no hace disminuir la temperatura corporal de los pacientes. La
variable de interés es el incremento de temperatura tras la administración del
tratamiento. A partir de un estudio previo, se sabe que la desviación estándar de la
variable incremento de temperatura es de 0.5 ºC (σ=0.5). Inicialmente, se espera
que el tratamiento no altere la temperatura (μ1=0, μ2=0), y se decide fijar un límite
de no-inferioridad de -0.2 ºC (ε=-0.2). Si se decide realizar el estudio con 40
pacientes (n=40), se obtendrá una potencia del 80% (pow=1-β=0.80) para poder
concluir no-inferioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0

teórico Æ No inferioridad
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para la media de una muestra
frente a un valor teórico
hipótesis experimental es de no inferioridad entre el grupo experimental y un
valor teórico
Si la eficacia se mide en términos negativos, la hipótesis experimental puede ser
referida también como hipótesis de no-superioridad. Los cálculos para los
objetivos de no-inferioridad y no-superioridad se basan en las mismas fórmulas y
pueden realizarse desde la técnica de no-inferioridad.
133

estudio previo o fijado por el investigador. Es habitual
considerar ambas medias iguales.
ε |ε|>|μ2 – μ1| Límite de no-inferioridad respecto del grupo de referencia.
Este valor suele considerarse igual al margen de no-
inferioridad clínicamente relevante. Es importante observar
que si la eficacia se mide en términos positivos, se deseará
demostrar que μE > μR - ε. De este modo, deberá introducirse el
valor - ε. Si la eficacia se mide en términos negativos (por lo
tanto se trata de un estudio de no-superioridad), se deseará
demostrar que μE < μR + ε y el valor introducido deberá ser + ε
abandonos)
estadística
μ 2 − μ1 − ε
Δ=
σ
dfe = n − 1
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )

t–Student.

estadística para rechazar la hipótesis nula será la prueba t–Student unilateral de
no–inferioridad para una muestra. Si la variable respuesta no cumple el requisito
de Normalidad, es necesario que el tamaño de muestra sea suficientemente grande
Ejemplo 24. Comparación de superioridad relevante

entre una media y un valor teórico
Se desea comprobar a partir de un estudio exploratorio que determinada
intervención en los pacientes ingresados en la unidad de cuidados intensivos en el
propio hospital, aumenta considerablemente su satisfacción. La satisfacción será
medida a través de un cuestionario validado, que proporciona un índice entre 0
(nada satisfecho) y 10 (totalmente satisfecho). A partir de estudios previos, se
sabe que la satisfacción promedio de este tipo particular de pacientes en su
hospital es de 6 (μ1=6) y su desviación estándar es de 2 (σ=2). Las expectativas
para la intervención son que la satisfacción aumentará en 2 unidades (μ2=8). Se
decide fijar un límite de Superioridad relevante de +1 (ε=+1). Se necesitará incluir
un mínimo de 27 pacientes (n=27) en el estudio para asegurarse una potencia del
80% (pow=1-β=0.80) para poder concluir superioridad relevante con un nivel de
Utilizando Ene 3.0
teórico Æ Superioridad relevante
135
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para la media de una
muestra frente a un valor teórico
hipótesis experimental es de superioridad relevante entre el grupo experimental
y un valor teórico
referida también como hipótesis de inferioridad relevante. Los cálculos para los
objetivos de superioridad relevante e inferioridad relevante se basan en las
mismas fórmulas y pueden realizarse desde la técnica de superioridad relevante.
μ1 Media teórica de Referencia.
estudio previo o fijado por el investigador.
ε |ε|<|μ2 – μ1| Límite de superioridad relevante respecto del grupo de

referencia. Este valor suele considerarse igual al margen de
superioridad clínicamente relevante. Es importante observar
demostrar que μE > μR + ε. De este modo, deberá introducirse
el valor + ε. Si la eficacia se mide en términos negativos (por
lo tanto se trata de un estudio de inferioridad relevante), se
deseará demostrar que μE < μR - ε y el valor introducido deberá
ser - ε
abandonos)
estadística
μ 2 − μ1 − ε
Δ=
σ
dfe = n − 1
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
t–Student.
137

superioridad relevante para una muestra. Si la variable respuesta no cumple el
requisito de Normalidad, es necesario que el tamaño de muestra sea
suficientemente grande para que los resultados sean buenas aproximaciones.
Ejemplo 25. Comparación de equivalencia entre una

media y un valor teórico
cardiovasculares no hace variar la temperatura corporal de los pacientes. La
tratamiento. A partir de un estudio previo, se sabe que la desviación estándar de la
variable aumento de temperatura es de 0.5 ºC (σ=0.5). Inicialmente, se espera que
el tratamiento no altere la temperatura (μ1=0, μ2=0), y se decide fijar un límite de
equivalencia de +/-0.2 ºC (ε=0.2). Si se decide realizar el estudio con 40 pacientes
(n=40), se obtendrá una potencia del 60% (pow=1-β=0.60) para poder concluir
equivalencia con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
teórico Æ Equivalencia
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para la media de
una muestra frente a un valor teórico
hipótesis experimental es de equivalencia entre el grupo experimental y un valor
teórico
ε |ε|>|μ2 – μ1| Límite de equivalencia respecto del grupo de referencia.
Este valor suele considerarse igual al margen de equivalencia
clínicamente relevante.
abandonos)
estadística
| ε | − | μ 2 − μ1 |
Δ=
σ0
dfe = n − 1
139
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
t–Student.

estadística para rechazar la hipótesis nula será la prueba t–Student unilateral doble
de equivalencia para una muestra. Si la variable respuesta no cumple el requisito
de Normalidad, es necesario que el tamaño de muestra sea suficientemente grande
Ejemplo 26. Comparación de no–inferioridad entre las

Se desea demostrar que la biodisponibilidad (medida como concentración
máxima) de una nueva formulación para el tratamiento de la hipercolesterolemia
no es inferior a la formulación clásica. El valor esperado para el grupo de
referencia es de 20 mg (μ1=20). La diferencia esperada entre ambas formulaciones
es de -1 (μ2=19). Se decide fijar el límite de no-inferioridad en -3 mg (ε=-3).
Consultando bibliografía, se sabe que la desviación estándar de dicha variable es
de 5 mg (σ=5). Se necesitará incluir un mínimo de 78 individuos por grupo
(w1=0.5, n1=78) para asegurarse una potencia del 80% (pow=1-β=0.80) para poder
concluir No-Inferioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
No inferioridad
Detalles técnicos
Basado en la Prueba t–Student unilateral de no–inferioridad para las medias dos
muestras independientes
independientes y la hipótesis experimental es de no inferioridad entre ambos
grupos
investigador o bien obtenido de la bibliografía.
141

estadística
μ 2 − μ1 − ε
Δ=
σ
dfe = n1 / w1 − 2
1 − β = 1 − Fnc (F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )

Fórmula para el tamaño de muestra del grupo de Referencia y para el tamaño del
efecto:
Se obtienen solucionando de forma numérica la ecuación para la potencia. En los
t–Student.

estadística para rechazar la hipótesis nula será una prueba t–Student unilateral de
no–inferioridad para dos muestras independientes. Si la variable respuesta no es
Normal, el resultado es asintótico.

entre las medias de dos muestras independientes
Se desea demostrar que un tratamiento experimental para la disminución del dolor
de garganta es superior al placebo. La eficacia será medida a partir de la
disminución de dolor, siendo éste obtenido mediante una escala visual analógica.
A partir de un estudio previo, se sabe que la variable de interés tiene una
desviación estándar de 5 unidades (σ=5), que el valor esperado para el tratamiento
placebo es de 10 unidades (μ1=10) y para el tratamiento experimental se espera
una reducción de 20 unidades (μ2=20). Se decide fijar un límite de Superioridad
relevante de +5 unidades (ε=+5). Se necesitará incluir un mínimo de 14 pacientes
(n1=14, w1=0.5) por grupo de tratamiento en el estudio para asegurarse una
potencia del 80% (pow=1-β=0.80) para poder concluir superioridad relevante con
un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Superioridad relevante
143
Detalles técnicos
Basado en la Prueba t–Student unilateral de superioridad relevante para las
independientes y la hipótesis experimental es de superioridad relevante entre
ambos grupos

deseará demostrar que μE < μR - ε y el valor introducido deberá
ser - ε
estadística
μ 2 − μ1 − ε
Δ=
σ
dfe = n1 / w1 − 2
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
145
efecto:
t–Student.

superioridad relevante para dos muestras independientes. Si la variable respuesta
no es Normal, el resultado es asintótico.
Ejemplo 28. Comparación de equivalencia entre las

Se desea demostrar que la biodisponibilidad de dos formulaciones diferentes para
el tratamiento de la diabetes es equivalente. La biodisponibilidad será medida con
la variable "concentración máxima", siendo 11 mg el valor esperado para el grupo
de referencia (μ1=11). La diferencia esperada entre ambas formulaciones es de 1
mg (μ2=12), no obstante, se decide fijar el límite de equivalencia en +/- 3 mg
(ε=3). Consultando bibliografía, se sabe que la desviación estándar de dicha
variable es de 5 mg (σ=5). Se necesitará incluir un mínimo de 108 individuos por
grupo (w1=0.5, n1=108) para asegurarse una potencia del 80% (pow=1-β=0.80)
para poder concluir Equivalencia con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Equivalencia
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para las medias de
dos muestras independientes
independientes y la hipótesis experimental es de equivalencia entre ambos
grupos
147

del total de la muestra.
estadística
| ε | − | μ 2 − μ1 |
Δ=
σ0
dfe = n1 / w1 − 2
1 − β = 1 − 2 Fnc (F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )

Fórmulas para el tamaño de muestra del grupo de Referencia y para el tamaño
del efecto:
t–Student.

estadística para rechazar la hipótesis nula será una prueba t–Student unilateral
doble de equivalencia para dos muestras independientes. Si la variable respuesta
no es Normal, el resultado es asintótico.

máxima) de una nueva formulación para la reducción de la presión arterial no es
inferior a la formulación convencional. Se decide llevar a cabo un estudio
cruzado, contemplando una fase de lavado y asumiendo que no hay efecto del
período. El valor esperado para el grupo de referencia es de 10 mg (μ1=10). La
diferencia esperada entre ambas formulaciones es de -0.5 (μ2=9.5). Se decide fijar
el límite de no-inferioridad en -2 mg (ε=-2). Consultando bibliografía, se sabe que
la desviación estándar de dicha variable es de 5 mg (σ=5). Se necesitará incluir un
mínimo de 71 individuos (n=71) o parejas de unidades experimentales para
asegurarse una potencia del 80% (pow=1-β=0.80) para poder concluir No-
Inferioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Comparación de dos medias Æ Dos muestras relacionadas Æ No
inferioridad
149
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para las medias de dos muestras
relacionadas
relacionadas y la hipótesis experimental es de no inferioridad entre ambos
grupos
σ >0 Desviación típica de la variable diferencia. Este valor se suele

estadística
μ 2 − μ1 − ε
Δ=
σ
dfe = n − 1
1 − β = 1 − Fnc (F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )

efecto:
t–Student.

no–inferioridad para dos muestras relacionadas. Si la variable respuesta no
cumple el requisito de Normalidad, es necesario que el tamaño de muestra sea

entre las medias de dos muestras relacionadas
máxima) de una nueva formulación para el dolor de muelas es efectivamente
superior a la formulación convencional. Se decide llevar a cabo un estudio
período. El valor esperado para el grupo de referencia es de 10 mg (μ1=10). La
diferencia esperada entre ambas formulaciones es de 5 mg (μ2=15). Se decide fijar
el límite de superioridad relevante en 2 mg (ε=+2). Consultando bibliografía, se
sabe que la desviación estándar de dicha variable es de 4 mg (σ=4). Se necesitará
151
incluir un mínimo de 13 individuos (n=13) o parejas de unidades experimentales

para asegurarse una potencia del 80% (pow=1-β=0.80) para poder concluir No-
Inferioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Comparación de dos medias Æ Dos muestras relacionadas Æ
Superioridad relevante
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para las medias de dos
muestras relacionadas
relacionadas y la hipótesis experimental es de superioridad relevante entre
ambos grupos
deseará demostrar que μ E < μR - ε y el valor introducido
deberá ser - ε
estadística
μ 2 − μ1 − ε
Δ=
σ
dfe = n − 1
1 − β = 1 − Fnc (F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )

153
efecto:
t–Student.

superioridad relevante para dos muestras relacionadas. Si la variable respuesta no

máxima) de una nueva formulación para el tratamiento de la enfermedad de
Alzheimer es equivalente a la formulación convencional. Dado que se trata de una
enfermedad crónica, se decide llevar a cabo un estudio cruzado, contemplando
una fase de lavado y asumiendo que no hay efecto del período. El valor esperado
para el grupo de referencia es de 8 mg (μ1=8). La diferencia esperada entre ambas
formulaciones es nula (μ2=8). Se decide fijar el límite de equivalencia en +/- 1 mg
(ε=1). Consultando bibliografía, se sabe que la desviación estándar de dicha
variable es de 2 mg (σ=2). Se necesitará incluir un mínimo de 36 individuos
(n=36) o parejas de unidades experimentales para asegurarse una potencia del
80% (pow=1-β=0.80) para poder concluir Equivalencia con un nivel de
Utilizando Ene 3.0
Comparación de dos medias Æ Dos muestras relacionadas Æ
Equivalencia
Detalles técnicos
dos muestras relacionadas
relacionadas y la hipótesis experimental es de equivalencia entre ambos grupos
155

estadística
| ε | − | μ 2 − μ1 |
Δ=
σ0
dfe = n − 1
1 − β = 1 − 2 Fnc (F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )

efecto:
t–Student.

de equivalencia para dos muestras relacionadas. Si la variable respuesta no

una proporción y un valor teórico
Se desea demostrar que la seguridad de una nueva formulación para el alivio de
dolor en pacientes con artritis no es inferior al 90% (p1=0.90), valor considerado
como admisible. La seguridad será medida con la variable "porcentaje de
pacientes sin efectos adversos". Se decide fijar el límite de no-inferioridad en -2%
(ε=-0.02). Consultando bibliografía, se sabe que la proporción de efectos adversos
de la nueva formulación es del 7% (p2=0.93). Se necesitará incluir un mínimo de
225 (n=225) pacientes en el estudio para asegurarse una potencia del 80%
(pow=1-β=0.80) para poder concluir no-inferioridad con un nivel de significación
del 5% (α=0.05).
Utilizando Ene 3.0
valor teórico Æ No inferioridad
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de no–inferioridad para una
proporción frente a un valor teórico
157

valor teórico
p2 (0,1) Proporción grupo Experimental. Proporción de ocurrencia
esperada del evento de interés en el grupo experimental. Es
habitual considerarlo exactamente igual al porcentaje del
grupo de Referencia
ε |ε|>|p2 – p1|Límite de no-inferioridad respecto del grupo de referencia.
inferioridad clínicamente relevante. Si la eficacia se mide en
términos positivos, el investigador deseará demostrar que pE >
pR - ε. De este modo, deberá introducir el valor - ε. Si la
eficacia se mide en términos negativos (por lo tanto se trata de
un estudio de no-superioridad), deseará demostrar que pE < pR
+ ε. El valor introducido deberá ser + ε
abandonos)

⎛ n p2 − ( p1 + ε ) − Z1−α ( p1 + ε )(1 − ( p1 + ε )) ⎞
1 − β = Φ⎜ ⎟
⎜
⎝ p 2 (1 − p 2 ) ⎟
⎠
( p1 + ε )(1 − ( p1 + ε )) + Z1−β p2 (1 − p2 ) ⎞
2
⎛Z
n = ⎜ 1−α ⎟
⎜
⎝ p2 − ( p1 + ε ) ⎟
⎠


entre una proporción y un valor teórico
Se desea demostrar que un tratamiento experimental para el tratamiento de los
síntomas del estrés es claramente superior al valor de referencia del 50% (p1=0.5).
La eficacia será medida a partir de la variable "el paciente presenta síntomas Sí /
No". Consultando estudios previos, se sabe que la eficacia esperada del
tratamiento experimental puede situarse en el 90% (p2=0.9). Se decide fijar el
límite de superioridad en el +20% (ε=0.20). Se necesitará incluir un mínimo de 26
pacientes (n=26) en el estudio para asegurarse una potencia del 80% (pow=1-
β=0.80) para poder concluir superioridad con un nivel de significación del 5%
(α=0.05).
Utilizando Ene 3.0
valor teórico Æ Superioridad relevante
159
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de superioridad relevante para
una proporción frente a un valor teórico
y un valor teórico

esperada del evento de interés en el grupo experimental.
ε |ε|<|p2 – p1|Límite de superioridad relevante respecto del grupo de
superioridad clínicamente relevante. Si la eficacia se mide en
pR + ε. De este modo, deberá introducir el valor + ε. Si la
un estudio de inferioridad relevante), deseará demostrar que pE
< pR -ε. El valor introducido deberá ser - ε
abandonos)
⎛ n p2 − ( p1 + ε ) − Z1−α ( p1 + ε )(1 − ( p1 + ε )) ⎞
1 − β = Φ⎜ ⎟
⎜
⎝ p 2 (1 − p 2 ) ⎟
⎠
( p1 + ε )(1 − ( p1 + ε )) + Z1−β p2 (1 − p2 ) ⎞
2
⎛Z
n = ⎜ 1−α ⎟
⎜
⎝ p2 − ( p1 + ε ) ⎟
⎠
161

proporción y un valor teórico
Se desea demostrar que una nueva formulación para el tratamiento preventivo del
infarto de miocardio con elevada seguridad proporciona una eficacia equivalente
al 40% (p1=0.40, p2=0.40), la eficacia de referencia atribuible a los tratamientos
convencionales. Se decide fijar un límite de equivalencia del 10% (ε=+0.10). Se
necesitará incluir un mínimo de 211 pacientes (n=211) en el estudio para
asegurarse una potencia del 80% (pow=1-β=0.80) para poder concluir
equivalencia con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
valor teórico Æ Equivalencia
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral doble de equivalencia para una
proporción frente a un valor teórico
teórico
grupo de Referencia
ε |ε|>|p2 – p1|Límite de equivalencia respecto del grupo de referencia. Este
valor suele considerarse igual al margen de equivalencia
abandonos)
Cálculos previos:
Si p2>p1, entonces ε =|ε| ; sino, ε = – |ε|

⎛ n p2 − ( p1 + ε ) − Z1−α ( p1 + ε )(1 − ( p1 + ε )) ⎞
1 − β = 2Φ⎜ ⎟ −1
⎜
⎝ p2 (1 − p2 ) ⎟
⎠
( p1 + ε )(1 − ( p1 + ε )) + Z (1+β ) / 2 p2 (1 − p2 ) ⎞
2
⎛Z
n = ⎜ 1−α ⎟
⎜
⎝ p2 − ( p1 + ε ) ⎟
⎠
163


Se desea demostrar que la seguridad de una nueva formulación para el tratamiento
preventivo de enfermedades cardiovasculares no es inferior a la seguridad de la
formulación clásica. La seguridad será medida con la variable "porcentaje de
individuos sin complicaciones". Consultando bibliografía, se sabe que la
proporción de individuos sin complicaciones con la formulación clásica es del
90% (p1=0.90), mientras que dicha proporción para el tratamiento experimental es
del 85% (p2=0.85). Finalmente, se decide fijar el límite de no-inferioridad en -
10% (ε=-0.1). Dado que el coste de inclusión de sujetos asignados a la
formulación clásica, se decide emplear un diseño no balanceado, incluyendo un
60% de sujetos asignados al tratamiento clásico y un 40% asignados al
tratamiento experimental (w1=0.6).Se necesitará incluir un mínimo de 696
individuos en el grupo de referencia y 464 en el grupo experimental (n1=696,
n2=464) para asegurarse una potencia del 80% (pow=1-β=0.80) para poder
concluir No-Inferioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0

independientes Æ No inferioridad
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de no–inferioridad para dos
proporciones de muestras independientes
grupos
p1 (0,1) Proporción grupo de Referencia. Proporción de ocurrencia
esperada del evento de interés en el grupo de referencia
165

grupo de Referencia
ε |ε|>|p2 – p1| Límite de no-inferioridad respecto del grupo de referencia.
Cálculos previos:
ϕ = 1 / w1 − 1
⎛ n1ϕ ( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
⎝ ⎠
n1 =
(z1−α + z1− β ) ( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
2
ϕ ( p2 − p1 − ε )
2


entre las proporciones de dos muestras
independientes
Se desea demostrar que la eficacia de un tratamiento experimental para mejorar la
capacidad de concentración es superior al placebo, medida a partir de la
satisfacción del paciente con el tratamiento (Sí/No). Se decide llevar a cabo un
estudio ciego con dos grupos en paralelo y equilibrado (w1=0.5). Consultando
bibliografía, se sabe que la eficacia del grupo placebo pude considerarse del 20%
(p1=0.20), mientras que la eficacia del tratamiento experimental es del 50%
(p2=0.50). Se decide fijar un límite de superioridad del 10% (ε=+0.10). Se
necesitará incluir un mínimo de 64 pacientes (n1=64) por grupo en el estudio para
superioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
independientes Æ Superioridad relevante
167
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de superioridad para dos
ambos grupos

ε |ε|<|p2 – p1| Límite de superioridad relevante respecto del grupo de
< pR - ε. El valor introducido deberá ser - ε
Cálculos previos:
ϕ = 1 / w1 − 1
⎛ n1ϕ ( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
⎝ ⎠
n1 =
(z1−α + z1−β ) ( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
2
ϕ ( p2 − p1 − ε )
2
169


Se desea demostrar que la seguridad de dos formulaciones diferentes para el
tratamiento del asma es equivalente. La seguridad será medida con la variable
"porcentaje de pacientes sin efectos adversos". La diferencia esperada entre
ambas formulaciones es nula (p1=p2), no obstante, se decide fijar el límite de
equivalencia en +/- 2% (ε=0.02). Consultando bibliografía, se sabe que la
proporción de efectos adversos con la formulación clásica es del 5% (p1=0.95,
p2=0.95). Se necesitará incluir un mínimo de 2034 individuos (w1=0.5, n1=2034)
por grupo para asegurarse una potencia del 80% (pow=1-β=0.80) para poder
concluir Equivalencia con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
independientes Æ Equivalencia
Detalles técnicos
Basado en la prueba asintótica Normal unilateral doble de equivalencia para dos
grupos
esperada del evento de interés en el grupo de referencia.
grupo de Referencia
clínicamente relevante
del de la muestra
correcto considerar valores superiores a 1 – α.
Cálculos previos:
ϕ = 1 / w1 − 1
171
⎛ n1ϕ ( p2 − p1 − ε ) ⎞
2
1 − β = 2Φ⎜⎜ − z1−α ⎟⎟ − 1
( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
⎝ ⎠
n1 =
(z
1−α + z (1+ β ) / 2 ) ( p1 (1 − p1 )ϕ + p2 (1 − p2 ))
2
ϕ ( p2 − p1 − ε )
2


Se desea demostrar que la seguridad de una nueva formulación para el tratamiento
de la migraña proporciona una eficacia no-inferior a la eficacia de la formulación
convencional. La eficacia se medirá a partir del éxito o fracaso del tratamiento.
Debido a que se trata de una enfermedad crónica, se decide llevar a cabo un
estudio cruzado, contemplando una fase de lavado y asumiendo que no hay efecto
del período. Consultando un estudio previo, se sabe que la eficacia de la
formulación de referencia es del 30% (p1=0.30), y que la eficacia esperada de la
nueva formulación es del 28% (p2=0.28). Se considera que el porcentaje de
pacientes que cambiarán de criterio de eficacia es del 15% (pd=0.15). Se decide
fijar el límite de no-inferioridad en el -10% (ε=-0.10). Se necesitará incluir un
mínimo de 145 pacientes (n=145) o parejas de unidades experimentales en el
estudio para asegurarse una potencia del 80% (pow=1-β=0.80) para poder
concluir no-inferioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Æ No inferioridad
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de no–inferioridad para dos
proporciones de muestras relacionadas
grupos
173

grupo de Referencia
pd: (0,1) Proporción de pares discordantes. Proporción de parejas que
cambiarán de valor entre una muestra y la otra. Este valor se
suele obtener de la bibliografía o de un estudio piloto previo.
ε |ε|>|p2 – p1| Límite de no-inferioridad respecto del grupo de referencia.
⎛ n( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
⎝
(p d − ( p2 − p1 )
2
) ⎠
n=
(z 1−α
2
(
+ z1− β ) pd − ( p2 − p1 )
2
)
(p 2 − p1 − ε )
2


entre las proporciones de dos muestras relacionadas
Se desea demostrar la superioridad de un tratamiento experimental altamente
eficaz para la reducción de los niveles de glucosa frente a un tratamiento de
referencia en pacientes con diabetes tipo II. La eficacia se medirá a partir del éxito
o fracaso del tratamiento. Debido a que se trata de una enfermedad crónica, se
decide llevar a cabo un estudio cruzado, contemplando una fase de lavado y
asumiendo que no hay efecto del período. Consultando un estudio previo, se sabe
que la eficacia del tratamiento de referencia es del 60% (p1=0.60), y que la
eficacia esperada de la nueva formulación es del 90% (p2=0.90). Se considera que
el porcentaje de pacientes que cambiarán de criterio de eficacia es del 35%
(pd=0.35). Se decide fijar el límite de superioridad en el 20% (ε=0.20). Se
necesitará incluir un mínimo de 161 pacientes (n=161) o parejas de unidades
experimentales en el estudio para asegurarse una potencia del 80% (pow=1-
(α=0.05).
Utilizando Ene 3.0

Æ Superioridad relevante
175
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral de superioridad relevante para
dos proporciones de muestras relacionadas
ambos grupos

ε |ε|<|p2 – p1| Límite de superioridad relevante respecto del grupo de
< pR - ε. El valor introducido deberá ser - ε
⎛ n( p2 − p1 − ε ) ⎞
2
1 − β = Φ⎜⎜ − z1−α ⎟⎟
⎝
(p d − ( p2 − p1 )
2
) ⎠
n=
(z 1−α
2
(
+ z1− β ) pd − ( p2 − p1 )
2
)
(p 2 − p1 − ε )
2

177

Se desea demostrar que la eficacia de una nueva formulación para la reducción de
los niveles de colesterol en pacientes con hipercolesterolemia es similar a la
eficacia de la formulación convencional. La eficacia se medirá a partir del éxito o
fracaso del tratamiento. Debido a que se trata de una enfermedad crónica, se
decide llevar a cabo un estudio cruzado, contemplando una fase de lavado y
asumiendo que no hay efecto del período. Consultando un estudio previo, se sabe
que la eficacia de la formulación convencional es del 40% (p1=0.40), y que la
eficacia esperada de la nueva formulación es la misma (p2=0.40). Se considera
que el porcentaje de pacientes que cambiarán de criterio de eficacia es del 15%
(pd=0.15). Se decide fijar el límite de equivalencia en el 10% (ε=0.10). Se
necesitará incluir un mínimo de 129 pacientes (n=129) o parejas de unidades
experimentales en el estudio para asegurarse una potencia del 80% (pow=1-
(α=0.05).
Utilizando Ene 3.0

Æ Equivalencia
Detalles técnicos
Basado en la Prueba asintótica Normal unilateral doble de equivalencia para dos
proporciones de muestras relacionadas
grupo de Referencia
⎛ n( p2 − p1 − ε ) ⎞
2
1 − β = 2Φ⎜⎜ − z1−α ⎟⎟ − 1
⎝
(p d − ( p2 − p1 )
2
) ⎠
179
n=
(z 1−α
2
(
+ z(1+ β ) / 2 ) pd − ( p2 − p1 )
2
)
(p 2 − p1 − ε )
2


una media y un valor teórico en escala logarítmica
cardiovasculares no hace disminuir la temperatura corporal de los pacientes. La
tratamiento. Se considera adecuado trabajar con la variable expresada en
porcentaje de forma que la variación se exprese en porcentaje respecto al inicio y
decide emplear el logaritmo de la medida obtenida. Se sabe a partir de un estudio
previo, que la desviación estándar de la variable transformada (con el logaritmo)
es de 0.3 (σ=0.3). Inicialmente, se espera que el tratamiento no altere la
temperatura (μ1=1 (=100%), μ2=1 (=100%)), y se decide fijar un límite de no-
inferioridad expresado en términos multiplicativos respecto el tratamiento de
referencia de 0.8 (L=0.8), es decir, un límite de no-inferioridad de -20%. Si se
decide realizar el estudio con 20 pacientes (n=20), se obtendrá una potencia del
94.1% (pow=1-β=0.941) para poder concluir no-inferioridad con un nivel de
Utilizando Ene 3.0
muestra frente a un valor teórico Æ No inferioridad
Pestaña: Potencia
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para la media de una muestra
en escala logarítmica
valor teórico
181

obtenido de un estudio previo o fijado por el investigador. Es
habitual considerar ambas medias iguales.
L |log(L)|>|log(μ2/μ1)| Límite de no-inferioridad expresado como ratio
respecto del grupo de referencia. Este valor suele considerarse
igual al margen de no-inferioridad clínicamente relevante. Es
importante observar que si la eficacia se mide en términos
positivos, se deseará demostrar que μE > μR * L. De este modo,
deberá introducirse un valor < 1. Si la eficacia se mide en
términos negativos (por lo tanto se trata de un estudio de no-
superioridad), se deseará demostrar que μE < μR * L y el valor
introducido deberá ser >1
abandonos)
estadística
log(μ 2 ) − log(μ1 ) − log(L )
Δ=
σ
dfe = n − 1
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )

t–Student.

no–inferioridad para una muestra en escala logarítmica.

entre una media y un valor teórico en escala
logarítmica
Se desea comprobar a partir de un estudio exploratorio que determinada
intervención en los pacientes ingresados en la unidad de cuidados intensivos en el
propio hospital, aumenta considerablemente su satisfacción. La satisfacción será
medida a través de un cuestionario validado, que proporciona un índice entre 0
(nada satisfecho) y 10 (totalmente satisfecho). A partir de estudios previos, se
sabe que la satisfacción promedio de este tipo particular de pacientes en su
hospital es de 6 (μ1=6) y su coeficiente de variación es de 0.5. Se decide trabajar
con la variable transformada a logaritmos por lo que la desviación estándar de
dicha variable es de 0.472 (σ=0.472). Las expectativas para la intervención son
que la satisfacción se verá aumentada en un 33% (μ2=8). Se decide fijar un límite
de Superioridad relevante expresado en términos multiplicativos respecto el valor
de referencia de 1.15 (L=1.15). Se necesitará incluir un mínimo de 65 pacientes
(n=65) en el estudio para asegurarse una potencia del 80% (pow=1-β=0.80) para
poder concluir superioridad relevante con un nivel de significación del 5%
(α=0.05).
Utilizando Ene 3.0
muestra frente a un valor teórico Æ Superioridad relevante
183
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para la media de una
muestra en escala logarítmica
y un valor teórico
μ1 >0 Media teórica de Referencia en escala natural.

obtenido de un estudio previo o fijado por el investigador.
L |log(L)|<|log(μ2/μ1)| Límite de superioridad relevante expresado como
ratio respecto del grupo de referencia. Este valor suele
considerarse igual al margen de superioridad clínicamente
relevante. Es importante observar que si la eficacia se mide en
términos positivos, se deseará demostrar que μE > μR * L. De
este modo, deberá introducirse un valor > 1. Si la eficacia se
mide en términos negativos (por lo tanto se trata de un estudio
de inferioridad relevante), se deseará demostrar que μE < μR *
L y el valor introducido deberá ser <1
abandonos)
estadística
Δ=
σ
dfe = n − 1
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
185

t–Student.

superioridad relevante para una muestra en escala logarítmica.

media y un valor teórico en escala logarítmica
Se desea comprobar que un tratamiento para los síntomas del resfriado no hace
aumentar la temperatura corporal de los pacientes. La variable de interés es el
aumento de temperatura tras la administración del tratamiento. Se considera
adecuado trabajar con la variable expresada en porcentaje de forma que la
variación se exprese en porcentaje respecto al inicio y se decide emplear el
logaritmo de la medida obtenida.Se sabe a partir de un estudio previo, que la
desviación estándar de la variable transformada (con el logaritmo) es de 0.3
(σ=0.3). Inicialmente, el se espera que el tratamiento no altere la temperatura
(μ1=1 (=100%), μ2=1 (=100%)), y se decide fijar un límite de equivalencia
expresado en términos multiplicativos respecto el tratamiento de referencia de
(0.8, 1.25) (L=1.25 o equivalentemente L=0.8). Si se decide realizar el estudio con
20 pacientes (n=20), se obtendrá una potencia del 88.1% (pow=1-β=0.881) para
poder concluir no-inferioridad con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
muestra frente a un valor teórico Æ Equivalencia
Detalles técnicos
Basado en la Prueba t–Student unilateral doble de equivalencia para la media de
una muestra en escala logarítmica
teórico
L |log(L)|>|log(μ2/μ1)| Límite de equivalencia expresado como ratio
igual al margen de equivalencia clínicamente relevante.
187

abandonos)
estadística
| log(L ) | − | log(μ 2 ) − log(μ1 ) |
Δ=
σ0
dfe = n − 1
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
t–Student.

de equivalencia para una muestra en escala logarítmica.

logarítmica
máxima) de una nueva formulación para el tratamiento de la hipercolesterolemia
no es inferior a la formulación clásica. El valor esperado para el grupo de
referencia es de 20 mg (μ1=20). La diferencia esperada entre ambas formulaciones
es de -1 mg (μ2=19). Se decide trabajar con la variable transformada a logaritmos
y fijar el límite de no-inferioridad en 0.85 expresado en términos multiplicativos
(L=0.85). Consultando bibliografía, se sabe que la desviación estándar de la
variable transformada es de 0.25 (σ=0.25). Se necesitará incluir un mínimo de 64
individuos por grupo (w1=0.5, n1=64) para asegurarse una potencia del 80%
(pow=1-β=0.80) para poder concluir No-Inferioridad con un nivel de significación
del 5% (α=0.05).
Utilizando Ene 3.0
muestras independientes Æ No inferioridad
189
Detalles técnicos
Basado en la Prueba t–Student unilateral de no–inferioridad para las medias de
dos muestras independientes en escala logarítmica
grupos
fijado por el investigador o bien obtenido de la bibliografía.
estadística
Δ=
σ
dfe = n1 / w1 − 2
(
efecto:
t–Student.

no–inferioridad para dos muestras independientes en escala logarítmica.

entre las medias de dos muestras independientes en
escala logarítmica
Se desea demostrar que un tratamiento experimental para la disminución del dolor
de garganta es superior al placebo. La eficacia será medida a partir de la
191
disminución de dolor, siendo éste obtenido a partir de una escala visual analógica.
Se decide trabajar con la variable transformada mediante el logaritmo. A partir de
un estudio previo, se sabe que la variable de interés tiene un coeficiente de
variación de 0.5, por lo que aproximadamente, la variable transformada a
logaritmos tiene una desviación estándar de 0.472 (σ=0.472). También se sabe
que la disminución de dolor esperada para el tratamiento placebo es de 10
unidades en la escala original (μ1=10) y para el tratamiento experimental es de 20
unidades (μ2=20). Se decide fijar un límite de Superioridad relevante expresado
como ratio respecto el tratamiento de referencia de 1.33 (L=1.33). Se necesitará
incluir un mínimo de 18 pacientes (n1=18, w1=0.5) por grupo de tratamiento en el
estudio para asegurarse una potencia de l 80% (pow=1-β=0.80) para poder
concluir superioridad relevante con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
muestras independientes Æ Superioridad relevante
Detalles técnicos
Basado en la Prueba t–Student unilateral de superioridad relevante para las
medias de dos muestras independientes en escala logarítmica

ambos grupos
L |log(L)|<|log(μ2/μ1)| Límite de superioridad relevante expresado como
ratio respecto del grupo de referencia. Este valor suele
considerarse igual al margen de superioridad clínicamente
relevante. Es importante observar que si la eficacia se mide en
términos positivos, se deseará demostrar que μE > μR * L. De
este modo, deberá introducirse un valor > 1. Si la eficacia se
mide en términos negativos (por lo tanto se trata de un estudio
de inferioridad relevante), se deseará demostrar que μE < μR *
L y el valor introducido deberá ser <1
193

estadística
Δ=
σ
dfe = n1 / w1 − 2
(
efecto:
t–Student.

superioridad relevante para dos muestras independientes en escala logarítmica.

logarítmica
Se desea demostrar que la biodisponibilidad de dos formulaciones diferentes para
el tratamiento de la diabetes es equivalente. La biodisponibilidad será medida con
la variable "concentración máxima", siendo 12 mg el valor esperado para el grupo
de referencia (μ1=12). La diferencia esperada entre ambas formulaciones es de -1
mg (μ2=11). Se decide analizar la variable de interés aplicando una
transformación logarítmica y se decide fijar el límite de equivalencia en (0.7,
1.43) (L=1.43 o equivalentemente L=0.7). Consultando bibliografía, se sabe que
la desviación estándar de la variable transformada a logaritmos es de 0.4 (σ=0.4).
Se necesitará incluir un mínimo de 39 individuos por grupo (w1=0.5, n1=39) para

Equivalencia con un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
muestras independientes Æ Equivalencia
Detalles técnicos
dos muestras independientes en escala logarítmica
grupos
195

estadística
| log(L ) | − | log(μ 2 ) − log(μ1 ) |
Δ=
σ0
dfe = n1 / w1 − 2
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, n1 (1 − w1 )Δ2 )
Fórmulas para el tamaño de muestra del grupo de Referencia y para el tamaño
del efecto:
t–Student.

estadística para rechazar la hipótesis nula será una prueba t–Student unilateral
doble de equivalencia para dos muestras independientes en escala logarítmica.

logarítmica
máxima) de una nueva formulación para la reducción de la presión arterial no es
inferior a la formulación convencional. Se decide llevar a cabo un estudio
período. Se decide trabajar con la variable transformada a logaritmos. El valor
esperado para el grupo de referencia es de 10 mg en la escala original (μ1=10). La
diferencia esperada entre ambas formulaciones es de -0.5 mg (μ2=9.5). Se decide
fijar el límite de no-inferioridad expresado en forma de ratio respecto la
formulación convencional en 0.8 (L=0.8). A partir de un estudio piloto, se sabe
que la desviación estándar de la variable "diferencia de valores transformados
logarítmicamente" es de 1 (σ=1). Se necesitará incluir un mínimo de 211
individuos (n=211) o parejas de unidades experimentales para asegurarse una
potencia del 80% (pow=1-β=0.80) para poder concluir No-Inferioridad con un
Utilizando Ene 3.0
muestras relacionadas Æ No inferioridad
197
Detalles técnicos
Basado en la Prueba t–Student de no–inferioridad para las medias de dos muestras
relacionadas en escala logarítmica
grupos

σ >0 Desviación típica de la variable cociente en escala logarítmica.
Este valor se suele obtener de la bibliografía o de un estudio
piloto previo
estadística
Δ=
σ
dfe = n − 1
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
199

efecto:
t–Student.

no–inferioridad para dos muestras relacionadas en escala logarítmica.

entre las medias de dos muestras relacionadas en
escala logarítmica
máxima) de una nueva formulación para el dolor de muelas es efectivamente
superior a la formulación convencional. Se decide llevar a cabo un estudio
período. Se decide trabajar con la variable transformada a logaritmos. La
diferencia esperada entre grupos es del 50% (μ1=1, μ2=1.5). Se decide fijar el
límite de superioridad relevante en 1.2 (L=1.2) expresado como ratio respecto la
formulación convencional. A partir de un estudio piloto, sabe que la desviación
estándar de la variable "diferencia de valores transformados logarítmicamente" es
de 0.8 (σ=0.8). Se necesitará incluir un mínimo de 81 individuos (n=81) o parejas
de unidades experimentales para asegurarse una potencia del 80% (pow=1-
β=0.80) para poder concluir No-Inferioridad con un nivel de significación del 5%
(α=0.05).
Utilizando Ene 3.0
muestras relacionadas Æ Superioridad
Detalles técnicos
Basado en la Prueba t–Student de superioridad relevante para las medias de dos
muestras relacionadas en escala logarítmica
ambos grupos
201

L |log(L)|<|log(μ2/μ1)|Límite de superioridad relevante expresado como ratio
igual al margen de superioridad clínicamente relevante. Es
deberá introducirse un valor > 1. Si la eficacia se mide en
términos negativos (por lo tanto se trata de un estudio de
inferioridad relevante), se deseará demostrar que μE < μR * L y
el valor introducido deberá ser <1
piloto previo
estadística
Δ=
σ
dfe = n − 1
(
1 − β = 1 − Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )

efecto:
t–Student.

superioridad relevante para dos muestras relacionadas en escala logarítmica.

logarítmica
máxima) de una nueva formulación para el tratamiento de la enfermedad de
Alzheimer es equivalente a la formulación convencional. Dado que se trata de una
enfermedad crónica, se decide llevar a cabo un estudio cruzado, contemplando
una fase de lavado y asumiendo que no hay efecto del período. Se decide trabajar
con la variable transformada a logaritmos. El valor esperado para el grupo de
referencia es de 8 mg en la escala original (μ1=8). La diferencia esperada entre
ambas formulaciones es nula (μ2=8).Se decide fijar el margen de equivalencia en
(0.8,1.25) expresado como ratio respecto la formulación convencional (L=0.8 o
equivalentemente L=1.25). A partir de un estudio piloto, se sabe que la desviación
estándar de la variable "diferencia de valores transformados logarítmicamente" es
de 0.6 (σ=0.6). Se necesitará incluir un mínimo de 64 individuos (n=64) o parejas
de unidad es experimentales para asegurarse una potencia del 80% (pow=1-
β=0.80) para poder concluir Equivalencia con un nivel de significación del 5%
(α=0.05).
Utilizando Ene 3.0
muestras relacionadas Æ Equivalencia
203
Detalles técnicos
dos muestras relacionadas en escala logarítmica
piloto previo

estadística
| log(L ) | − | log(μ 2 ) − log(μ1 ) |
Δ=
σ0
dfe = n − 1
(
1 − β = 1 − 2 Fnc F −1 (1 − 2α ,1, dfe ),1, dfe, nΔ2 )
efecto:
t–Student.

de equivalencia para dos muestras relacionadas en escala logarítmica.
205
Otros Diseños
Introducción
En general, el objetivo de muchos estudios suele ser la comparación de no–
igualdad, no–inferioridad, superioridad relevante o equivalencia de una variable
medida en dos grupos. Habitualmente la respuesta principal se puede resumir
mediante diferencias de medias, proporciones o medias expresadas en escala
logarítmica. Estas situaciones han sido tratadas anteriormente.
Sin embargo, puede ocurrir que la variable respuesta sea una variable cualitativa
ordinal o bien un tiempo de supervivencia.
También puede suceder que en lugar de comparar dos grupos, se esté interesado
en comparar tres o más grupos.
También sería posible que el objetivo fuera medir el efecto de una variable
continúa en la variable respuesta, en lugar de medir el efecto de los distintos
grupos. En esta situación, se puede diferenciar además entre una variable
respuesta continua o una variable respuesta cualitativa binaria (proporción) y si el
modelo está ajustado por otras variables o no.
En algunos estudios iniciales para valorar el efecto de un tratamiento
experimental mediante la comparación de una proporción frente a un valor teórico
el investigador puede estar interesado en llevar a cabo un estudio bietápico.
Todas estas situaciones se engloban aquí en “otros diseños”.
Los detalles generales del razonamiento para calcular el número de sujetos
necesarios para conseguir determinada potencia ya se han comentado en los
capítulos anteriores. En esta sección sólo se incluyen explicaciones sobre los
parámetros nuevos.
Comparación de no–igualdad entre dos variables

ordinales categóricas
Cuando la variable respuesta es una variable ordinal, el objetivo del estudio es la
comparación de la distribución de los valores entre los dos grupos en lugar de la
comparación de las medias.
El objetivo del estudio se concreta en las distribuciones, definiendo las hipótesis

nula y alternativa:
H0: La distribución de la variable respuesta en ambos grupos es igual
HA: La distribución de la variable respuesta en ambos grupos no es igual
Si la variable respuesta ordinal tiene dos categorías, entonces la prueba se reduce
a la comparación de proporciones.
Se supone que la variable ordinal tiene k>2 categorías. Se asume que los grupos
están balanceados, es decir, está previsto incluir el mismo número de sujetos en
cada grupo.
También se debe cumplir que, sumando ambos grupos, el número esperado de
individuos en cada categoría será similar.
Para el tratamiento de referencia, el investigador debe conocer cuáles son los
porcentajes esperados de sujetos que caerían en cada una de las categorías (1, 2 ,
3, ... , k).
Estos porcentajes se pueden denotar como:
pR1, pR2, pR3, ...., pRk
Y se denotan los porcentajes acumulados como:
PAR1, PAR2, PAR3, ..., PARk
de modo que,
PAR1 = pR1, PAR2 = pR1+ pR2 , ... , PARk=1
De forma similar se definirían los porcentajes acumulados para el tratamiento
experimental
PAE1, PAE2, PAE3, ..., PAEk
Ahora se define el odds ratio para la categoría i entre tratamientos como:
ORi= PARi(1 – PAEi)/(PAEi(1 – PARi))
Los cálculos realizados para determinar el número necesario de sujetos en el
estudio para detectar diferencias en las distribuciones de los dos grupos, asume
que los odds ratio para las distintas categorías son constantes, es decir,
OR1=...=ORk – 1. Esta suposición implica que la prueba U de Mann–Whitney para
contrastar la hipótesis nula, es adecuada. La prueba se diseña para conseguir
detectar diferencias del orden dado por el odds ratio.
Debido al requerimiento de especificar el odds ratio, siendo una medida difícil de
estimar, una alternativa extrema a esta prueba consistiría en la agrupación de
categorías hasta contemplar únicamente dos posibilidades y aplicar entonces las
técnicas para comparar proporciones.
207
Comparación de no–igualdad entre dos medianas de

una variable cuantitativa
Similarmente al caso anterior, a pesar de que la variable de interés sea
cuantitativa, puede ocurrir que el objetivo del estudio sea la comparación de la
distribución de los valores entre los dos grupos, hecho que en cierto sentido
correspondería a la comparación de medianas.
El objetivo del estudio se concreta en las distribuciones, definiendo las hipótesis
nula y alternativa:
H0: La mediana de la variable respuesta en ambos grupos es igual
HA: La mediana de la variable respuesta en ambos grupos no es igual
En este tipo de técnica, el usuario deberá especificar las diferencias esperadas
entre ambos grupos a través de dos términos:
Probabilidad de que dos observaciones una de cada grupo cualesquiera
tengan exactamente el mismo valor. Esta probabilidad puede ser 0 si la
variable es continua.
Probabilidad de que una observación escogida al azar del grupo 1 sea
inferior a otra observación del grupo 2.
Comparación de no–igualdad entre más de dos medias

En algunos estudios, el investigador puede estar interesado en comparar diversos
grupos o tratamientos de forma simultánea. Si la variable respuesta es continua, el
objetivo se reduce a la comparación de las medias de los diferentes grupos.
El objetivo de este tipo de estudios se concreta definiendo las hipótesis nula y
alternativa:
H0: Las medias de los K grupos son iguales
HA: Las medias de los K grupos no son iguales
La prueba estadística asociada a este tipo de estudios es la prueba ANOVA de un
factor. Esta prueba siempre es bilateral.
Para llevar a cabo los cálculos del número de sujetos necesarios será
imprescindible especificar el promedio esperado para cada uno de los grupos.
El tamaño del efecto en la comparación de más de dos medias se mide como:
∑ w (μ − μ)
2
i i
Δ= i =1
σ2
∑ w (μ − μ ) representa la
2
donde σ es la desviación típica conjunta, y σ = 2
b i i
i =1
j
variabilidad ponderada entre las medias, μ = ∑w μ
i =1
i i es el promedio ponderado
de las medias y j es el número de grupos.
Comparación de no–igualdad entre más de dos

proporciones
De forma similar al caso anterior, el investigador puede estar interesado en
comparar diversos grupos o tratamientos de forma simultánea a través de la
comparación de diferentes proporciones.
El objetivo de este tipo de estudios se concreta definiendo las hipótesis nula y
alternativa:
H0: Las proporciones de los K grupos son iguales
HA: Las proporciones de los K grupos no son iguales
La prueba estadística asociada a este tipo de estudios es la prueba χ2. Esta prueba
siempre es bilateral.
Para llevar a cabo los cálculos del número de sujetos necesarios será
imprescindible especificar la proporción esperada para cada uno de los grupos. La
proporción de la muestra asignada a cada uno de los grupos debe ser la misma en
todos ellos, es decir, se asume que los grupos están compensados.
El tamaño del efecto en la comparación de más de dos proporciones se mide
como:
σ b2
Δ=
p (1 − p )
209
donde
J
∑(p − p)
2
i
σ b2 = i =1
J
J
∑p i
p= i =1
J
Contraste de un coeficiente de correlación

Se desea estudiar si existe un efecto de una variable explicativa cuantitativa sobre
una variable respuesta también cuantitativa. La técnica estadística apropiada para
medir su asociación sería el contraste del coeficiente de correlación.
Las hipótesis nula y alternativa en este tipo de estudios son:
H0: El coeficiente de correlación = 0
HA: El coeficiente de correlación ≠ 0
Es necesario recordar que el coeficiente de correlación es una medida de la
asociación lineal entre ambas variables, y si se presupone que la asociación no es
de esta naturaleza, sería necesario realizar alguna transformación en las variables
para linealizar su dependencia.
Además, se asume que la distribución de ambas variables es Normal, de modo
que si las variables son en realidad cuantitativas con una distribución cualquiera,
entonces los resultados son aproximaciones asintóticas.
Para realizar los cálculos será necesario especificar la correlación esperada o la
mínima correlación relevante.
El tamaño del efecto en el contraste de un coeficiente de correlación es:
ρ2
Δ=
1− ρ2
y se expresa directamente en función de la propia correlación.

Contraste de una covariable en regresión logística

En determinados estudios, la variable explicativa suele ser cuantitativa
(covariable) y la variable respuesta una variable cualitativa binaria (curación/no
curación, si/no, etc.). En tal situación, la prueba estadística apropiada para medir
su asociación sería el contraste del factor de riesgo (covariable) mediante un
modelo de regresión logística. En los modelos de regresión se calcula para cada
factor o variable explicativa un coeficiente que mide su efecto. La prueba para
realizar el contraste de estos coeficientes sería la prueba de Wald.
Las hipótesis nulas y alternativa en este tipo de estudios son:
H0: El coeficiente de la covariable en el modelo de regresión logística = 0
HA: El coeficiente de la covariable en el modelo de regresión logística ≠ 0
Para realizar los cálculos será necesario especificar la probabilidad de ocurrencia
del evento de interés de la variable respuesta cuando la covariable vale
exactamente su promedio. También será necesario especificar la probabilidad de
ocurrencia cuando la covariable vale exactamente su promedio más una
desviación estándar. Mediante estos dos parámetros, se podrá decidir el nivel de
relevancia clínica, es decir, qué presunta relación entre ambas variables sería
Regresión Lineal para k covariables ajustadas por h

covariables
Se desea estudiar si existe un efecto de un grupo formado por k variables
explicativas cuantitativas de interés sobre una variable respuesta también
cuantitativa. La variable respuesta puede estar (o no) previamente ajustada por
otro grupo de h variables explicativas iniciales. La técnica estadística apropiada
para medir la aportación de las k variables nuevas sería la prueba F, asociada al
coeficiente de determinación R2 del modelo.
De manera más general, esta técnica permite comparar un modelo inicial formado
por ninguna (modelo nulo) o h variables iniciales, frente al modelo resultante tras
añadir las k variables de interés.
H0: R2k+h = R2h
HA: R2k+h > R2h
211
Donde R2h denota el coeficiente de determinación del modelo inicial, y R2k+h

denota el coeficiente de determinación del modelo final, tras añadir las k variables
de interés.
El tamaño del efecto en esta técnica es:
Rk2+h − Rh2
Δ=
1 − Rk2+h
Regresión Logística para una covariable ajustada por

h covariables
Se desea estudiar si existe un efecto de una variable explicativa cuantitativa de
interés sobre una variable respuesta binaria. La variable respuesta puede estar (o
no) previamente ajustada por otro grupo de h variables explicativas iniciales. La
técnica estadística apropiada para medir la aportación de la nueva variable sería la
prueba de Wald.
H0: Coeficiente de la covariable en el modelo ajustado = 0
HA: Coeficiente de la covariable en el modelo ajustado ≠ 0
Esta técnica es una ampliación de la técnica para el contraste de una covariable en
regresión logística, por lo que los parámetros que debe introducir el usuario son
los mismos, excepto que además, se debe especificar la correlación entre la
variable explicativa de interés y las variables explicativas iniciales de ajuste del
modelo.
Comparación de no–igualdad entre la supervivencia

de dos grupos
El tiempo de supervivencia es una variable que mide el tiempo transcurrido hasta
cierto evento. Cuando se desea comparar la supervivencia entre dos muestras o
grupos independientes, aun tratándose de una variable respuesta cuantitativa, no
es correcto comparar las medias. En estudios de supervivencia pueden existir
datos censurados, esto es, sujetos que han sobrevivido a lo largo de todo el
estudio (o han abandonado) y por lo tanto no se conoce su tiempo exacto de

supervivencia. Existen pruebas estadísticas apropiadas que pueden tener en cuenta
la información aportada por los datos censurados.
H0: La supervivencia en ambos grupos es igual
HA: La supervivencia en ambos grupos no es igual
La prueba estadística más habitual para comparar la supervivencia entre dos
muestras independientes es la prueba Log–Rank. Esta prueba asume que las
funciones de riesgo en ambos grupos son proporcionales.
Se asume también que los grupos están balanceados, es decir, está previsto incluir
el mismo número de sujetos en cada grupo.
Para llevar a cabo los cálculos relativos al tamaño de muestra o a la potencia, es
necesario especificar la probabilidad de supervivencia en un instante dado en el
grupo de referencia y en el grupo experimental. Estas probabilidades miden la
relevancia clínica. Es recomendable que el instante elegido sea igual a la duración
del estudio.
Como dato de validación, el programa proporciona el número total de eventos que
es necesario observar.
En esta técnica no es posible llevar a cabo la corrección del tamaño de muestra
por el porcentaje esperado de abandonos ya que tales casos se consideran datos
censurados y se contemplan directamente en los cálculos al introducir la tasa
esperada de abandonos.
Comparación de no–igualdad entre la supervivencia

de dos grupos contemplando inclusión y censurados
La técnica anterior puede ser mejorada teniendo en cuenta la tasa temporal de
censurados (abandonos) así como contemplar la duración del período de inclusión
y la duración máxima del período de seguimiento para considerar que el tiempo
de seguimiento puede no ser el mismo para todos los sujetos que no experimenten
el evento de interés.
Estas nuevas consideraciones se pueden tener en cuenta en el cálculo del tamaño
de muestra bajo la hipótesis de que la función de supervivencia y la función de
distribución de los abandonos son ambas exponenciales. De este modo, el usuario
deberá especificar las tasas de mortalidad por período de tiempo en ambos grupos.
213
H0: La supervivencia en ambos grupos es igual

HA: La supervivencia en ambos grupos no es igual
muestras independientes es la prueba Log–Rank. Esta prueba asume que las
funciones de riesgo en ambos grupos son proporcionales.
Comparación de no–inferioridad entre la

supervivencia de dos grupos contemplando inclusión
y censurados
En algunos estudios en los que se desea compara dos funciones de supervivencia,
el objetivo pude ser el de declara la no–inferioridad del tratamiento experimental
frente al grupo de referencia. La técnica para determinar el tamaño de muestra en
este tipo de estudios también permite tener en cuenta la tasa de censurados
(abandonos) y el periodo de inclusión bajo las mismas suposiciones que en el caso
anterior.
H0: La supervivencia del grupo experimental es inferior a la
supervivencia del grupo de referencia
HA: La supervivencia del grupo experimental es no–inferior a la
supervivencia del grupo de referencia
El límite de no–inferioridad se define a partir del cociente entre riesgos, tasas de
mortalidad o medianas del tiempo de supervivencia, por lo que dicho margen
corresponde al ratio respecto al grupo de referencia y se denota como hi.
muestras independientes es la prueba Log–Rank de no–inferioridad. Esta prueba
asume que las funciones de riesgo en ambos grupos son proporcionales.

Comparación de no–igualdad entre una proporción

frente a un valor teórico utilizando el método
bietápico de Simon
El método bietápico de Simon suele emplearse en estudios piloto o exploratorios
en los que se desea valorar la eficacia de un tratamiento experimental frente a una
eficacia de referencia. La valoración se lleva a cabo a través del porcentaje de
éxitos (proporción). La idea del método consiste en llevar a cabo un análisis
intermedio de los resultados para detener el estudio si no hay indicios del éxito
del tratamiento experimental. El método tiene dos fases. En una primera etapa, la
técnica permite determinar un umbral de éxitos a superar. Si no se consigue
sobrepasar el umbral, el estudio finaliza y el investigador puede concluir que el
tratamiento experimental no ofrece las expectativas de éxito previstas y declararlo
en cierto modo inútil. Si se consigue sobrepasar el primer umbral, el estudio
continua y el método proporciona un nuevo umbral a superar. Si el estudio supera
el segundo umbral de éxitos, el investigador puede declarar que el tratamiento
mejora la proporción de referencia o valor teórico. Este tipo de ensayos reciben el
nombre de estudios secuenciales, ya que en este caso particular se lleva a cabo un
análisis intermedio con el objetivo de detenerlo en caso de futilidad del
tratamiento experimental. El método de Simon pretende optimizar el TM para que
sea el menor posible bajo la suposición de que no existen diferencias entre
tratamientos, es decir, parte de una posición conservadora.
En general, los estudios secuenciales requieren un tamaño de muestra inferior a
los estudios directos.
H0: Las proporciones de éxito en ambos tratamientos son iguales
HA: La proporción de éxitos en el grupo experimental es superior a la
proporción de éxitos del grupo de referencia
por el porcentaje esperado de abandonos ya que se trata de un estudio secuencial
donde el tamaño de muestra no está fijado a priori, depende de si se superan las
distintas etapas del estudio.
215
En esta técnica, no es habitual el interés de calcular la potencia a partir del tamaño

de muestra, ya que en primer lugar, el tamaño de muestra está constituido por 4
valores y en segundo lugar, si se desea conocer la potencia, el nivel de
significación no puede ser fijado inicialmente. Por este mismo motivo el gráfico
de potencia y tamaño de muestra no se puede realizar.
217
Ejemplos
Ejemplo 50. Comparación de no–igualdad entre dos

variables ordinales
Se diseña un estudio para comparar la eficacia de dos fármacos en enfermos con
úlcera gástrica o duodenal recién diagnosticada. La variable respuesta será el
pronóstico de evolución recogido en una escala ordinal con 4 categorías (g=4)
(Poco Favorable, Dudoso, Favorable o muy Favorable). Mediante bibliografía, en
un estudio similar se han encontrado los siguientes resultados extrapolables a este
estudio:
Frecuencias por tratamientos
Poco Fav. Dudoso Favorable Muy Fav. Total
Trat. Experimental 12 18 20 22 72
Trat. Referencia 22 22 16 14 74
Se observa que las frecuencias de subtotales por filas y por columnas son
similares
Se calculan las frecuencias relativas por tratamiento (filas)
Trat. Experimental 0.167 0.250 0.278 0.306 1.000
Trat. Referencia 0.297 0.297 0.216 0.189 1.000
Se calculan las frecuencias acumuladas por tratamiento

Trat. Referencia 0.297 0.595 0.811 1.000 0.297
Se calculan las frecuencias acumuladas complementarias


Trat. Referencia 0.703 0.405 0.189 0.000 0.703
Se calculan los odds ratio; Ej. (0.833*0.297)/(0.703*0.167)=2.115

Poco Fav. Dudoso Favorable Muy Fav.
OR 2.115 2.053 1.885 N.A
Se observa que los OR son similares entre sí. Se toma un valor de 2 (or=2).
Además, se desea considerar una prueba bilateral (c =2), fijando la potencia en un
80% (1 – β =0.80) y el nivel de significación en un 5% (α=0.05).
Se necesitará incluir 105 sujetos por grupo de tratamiento (n1=105) en el estudio
para obtener la potencia deseada.
Utilizando Ene 3.0
Otros diseños Æ Dos medianas independientes Æ No igualdad,
variables ordinales
219
Detalles técnicos:
Basado en la Prueba U de Mann–Whitney para dos muestras independientes
mediana de una variable ordinal medida en dos muestras independientes y la
hipótesis experimental es de no igualdad entre ambos grupos
g ≥2 Número de categorías de la variable ordinal. Se asume que el
número total de unidades experimentales en cada categoría de
dicha variable es aproximadamente el mismo
or >0 Odds Ratio. Odds ratio entre grupos para cada categoría. Se
asume que este valor es constante para todas las categorías
⎛ ⎛ 1 ⎞n ⎞
1 − β = Φ⎜ log(OR ) ⎜⎜1 − 2 ⎟⎟ 1 − z1−α / c ⎟
⎜ ⎝ g ⎠6 ⎟
⎝ ⎠

6(z1−α / c + z1− β )
2
n1 =
⎛ 1 ⎞
⎜⎜1 − 2 ⎟⎟(log(OR) )2
⎝ g ⎠
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba
U-Mann-Whitney. En los cálculos se asume que la variable respuesta es ordinal, y
que el Odds Ratio entre las proporciones de categorías adyacentes es constante,

así como que el número total de unidades experimentales en cada categoría de la
variable explicativa es aproximadamente el mismo.
Ejemplo 51. Comparación de no–igualdad entre dos

medianas de una variable cuantitativa
Se desea llevar a cabo un estudio para comprobar la eficacia de un tratamiento
para la reducción del dolor intestinal frente a un tratamiento de referencia. La
eficacia será valorada a partir de la opinión del paciente en una escala discreta de
1 a 5, siendo 1 = nada satisfecho y 5 = muy satisfecho. Mediante un estudio
previo, se dispone de la siguiente información:
Valores 1 2 3 4 5 Total
Grupo 1 7 6 3 2 2 20
Grupo 2 4 4 6 3 3 20
Total 11 10 9 5 5 40
De este modo se pueden calcular las probabilidades necesarias para los cálculos:
- La probabilidad de seleccionar dos casos uno de cada grupo y que la respuesta
sea estrictamente mayor favorable al grupo experimental es del 52% (px<y=0.52):
P(G1<G2)= P(G1=1 y G2>1) + P(G1=2 y G2>2) + P(G1=3 y G2>3) + P(G1=4 y G2>4)
= (7/20*16/20) + (6/20*12/20) + (3/20*6/20) + (2/20*3/20) =
0.35*0.8 + 0.3*0.6 + 0.15*0.3 + 0.1*0.15 = 0.52
- La probabilidad de que los valores sean iguales es del 20.5% (px=y=0.205):
P(G1=G2)= P(G1=1 y G2=1)+P(G1=2 y G2=2 ) +P(G1=3 y G2=3)+P(G1=4 y G2=4) +P(G1=5 y G2=5)
= (7/20*4/20) + (6/20*4/20) + (3/20*6/20) + (2/20*3/20)+(2/20*3/20)=
0.35*0.2+ 0.3*0.2+ 0.15*0.3+ 0.1*0.15+ 0.1*0.15 =0.205
Se necesitará incluir 88 sujetos por grupo de tratamiento (n1=88, w1=0.5) en el
estudio para obtener un 80% de potencia (pow=1-β=0.80) para detectar
221
diferencias entre los grupos de tratamiento en una prueba bilateral (c=2) con un
Es interesante observar que si no se dispone de la información expresada en forma
de tabla de contingencia, se podría haber llevado a cabo una recodificación de
valores y así obtener una tabla aproximada a partir de la cual se obtendrían los
valores px<y y px=y necesarios para los cálculos.
Utilizando Ene 3.0

Otros diseños Æ Dos medianas independientes Æ No igualdad,
variables cuantitativas
Detalles técnicos:
Basado en la Prueba U de Mann–Whitney para dos muestras independientes
mediana de una variable cuantitaiva medida en dos muestras independientes y
la hipótesis experimental es de no igualdad entre ambos grupos
px=y >0 Probabilidad de que dos observaciones una del grupo de

referencia y otra del grupo experimental cualesquiera tengan
exactamente el mismo valor. Esta probabilidad puede ser 0 si
la variable es continua.
px<y >0 Probabilidad de que una observación escogida al azar del
grupo de referencia sea inferior a otra observación del grupo
experimental.
w1 (0,1) Proporción de la muestra en el grupo de referencia respecto
1 1 (
⎛ n 12w (1 − w )( p + 0.5 p − 0.5)2
1 − β = Φ⎜
1 x< y x= y
⎞
− z1−α / c ⎟
)
⎜ w1 ⎟
⎝ ⎠

w1 (z1−α / c + z1− β )
2
n1 =
(12w (1 − w )( p
1 1 x< y + 0.5 p x = y − 0.5)
2
)
U-Mann-Whitney. En los cálculos se asume que la variable respuesta es
cuantitativa.
223
Ejemplo 52. Comparación de no–igualdad entre más

de dos medias
Se desea comparar cuatro tratamientos experimentales para la pérdida de peso en
pacientes obesos. Después de realizar un estudio piloto, se obtuvieron las
reducciones promedio para cada uno de los 4 tratamientos (j=4) de 10 Kg, 15 Kg,
18 Kg y 20 Kg (μ1=10, μ2=15, μ3=18, μ4=20). La desviación estándar de la
variable reducción de peso fue estimada en 20 Kg (σ=20). Se necesitará incluir 78
pacientes por grupo de tratamiento (w1=0.25, w2=0.25, w3=0.25, w4=0.25, n1=78)
para poder detectar las diferencias deseadas con una potencia del 80% (pow=1-
β=0.80) y un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Otros diseños Æ Más de dos grupos Æ Más de dos medias
Detalles técnicos:
Basado en la Prueba ANOVA de 1 Factor para muestras independientes
media de una variable de naturaleza continua medida en más de dos muestras
independientes y la hipótesis experimental es de no igualdad entre todos los
grupos
j ≥2 Número de Grupos que se desean comparar
μi Media del grupo i–ésimo
wi (0,1) Proporción de la muestra en el grupo i–ésimo respecto del
total de la muestra
n1 ≥2 Tamaño de la muestra efectivo del grupo 1
nr1 ≥2 Tamaño de la muestra a reclutar del grupo 1 (corregido por
posibles abandonos)
estadística
Cálculos previos:
j
μ = ∑ wi μi
i =1
j
σ b2 = ∑ wi (μi − μ )
2
i =1
∑ w (μ − μ)
2
i i
Δ= i =1
σ2
dfe = n1 / w1 − j
dfh = j − 1
225
n = n1 w1
(
1 − β = 1 − Fnc F −1 (1 − α , dfh, dfe ), dfh, dfe, nΔ2 )
Fórmulas para el tamaño de muestra del grupo 1 y para el tamaño del efecto:
Se obtienen solucionando de forma numérica las ecuaciones para la potencia. En
los cálculos se utiliza la función de distribución F.

estadística para rechazar la hipótesis nula será una prueba ANOVA de un factor
para muestras independientes. Si la variable respuesta no es Normal, el resultado
es asintótico.
Ejemplo 53. Comparación de no–igualdad entre más

de dos proporciones
Se desea comparar la prevalencia de la obesidad en 5 áreas de salud distintas
(g=5). Consultando bibliografía de años anteriores, se sabe que las prevalencias
en cada una de las regiones son aproximadamente 20% (p1=0.20), 25% (p2=0.25),
25% (p3=0.25), 30% (p4=0.30) y 33% (p5=0.33). Se necesitará incluir 231 sujetos
(n1=231) de cada área para obtener un 80% de potencia (pow=1-β=0.80) para
detectar diferencias de esta magnitud con un nivel de significación del 5%
(α=0.05).
Utilizando Ene 3.0
Otros diseños Æ Más de dos grupos Æ Más de dos
proporciones
Detalles técnicos:
Basado en la Prueba χ2 para proporciones independientes
proporción de ocurrencia de cierto evento medido en más de dos muestras
independientes y la hipótesis experimental es de no igualdad entre todos los
grupos
j ≥2 Número de Grupos que se desean comparar
pi Proporción de eventos en el grupo i–ésimo
n1 ≥2 Tamaño de la muestra efectivo del grupo 1
nr1 ≥2 Tamaño de la muestra a reclutar del grupo 1 (corregido por
posibles abandonos)
227
Cálculos previos:
J
∑p i
p= i =1
J
J
∑(p − p)
2
i
σ b2 = i =1
J
dfh = j − 1
n = n1 w1
⎛ σ b2 ⎞
1 − β = 1 − χ nc ⎜⎜ χ −1 (1 − α , dfh ), dfh, n ⎟
⎝ p (1 − p ) ⎟⎠
Fórmulas para el tamaño de muestra del grupo 1 y para el tamaño del efecto:
Se obtienen solucionando de forma numérica las ecuaciones para la potencia. En
los cálculos se utiliza la función de distribución χ2.
Se asume que la prueba estadística para rechazar la hipótesis nula será una prueba
χ2 para muestras independientes.
Ejemplo 54. Contraste de un coeficiente de correlación

Se desea contrastar si existe correlación entre la talla de recién nacidos y la edad
de gestación. Se considera que una correlación de 0.25 (ρ=0.25) sería suficiente
para confirmar que existe relación entre ambas variables. Se necesitará incluir un
mínimo de 120 sujetos (n=120) para asegurarse una potencia del 80% (pow=1-
β=0.80) para poder detectar una correlación de esta magnitud con una prueba
bilateral (c=2) y un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Otros diseños Æ Regresión Æ Una correlación
Detalles técnicos:
Basado en la Prueba t–Student para un coeficiente de correlación de Pearson
Esta técnica es adecuada cuando el objetivo principal del estudio es contrastar el
coeficiente de un modelo de regresión medido en una única muestra
ρ ( – 1,1) Correlación. Coeficiente de correlación de Pearson entre las
dos variables continuas
abandonos)
229
ρ ( – 1,1) Tamaño del efecto. En esta prueba, el tamaño del efecto se

mide directamente en términos de la correlación. Tamaño del
efecto detectable por la prueba estadística
dfe = n − 1
⎛ ρ2 ⎞
1 − β = 1 − Fnc ⎜⎜ F −1 (1 − α (3 − c ),1, dfe ),1, dfe, n ⎟⎟
⎝ 1− ρ 2 ⎠
Fórmulas para el tamaño de la muestra y para el tamaño del efecto

(correlación):
Los tamaños muestrales se obtienen solucionando de forma numérica la ecuación
para la potencia. En los cálculos se utiliza la función de distribución F.

estadística para rechazar la hipótesis nula será una prueba t–Student para un
coeficiente de correlación. Si la variable respuesta no es Normal, el resultado es
asintótico.
Ejemplo 55. Contraste de una covariable en regresión

logística
Se desea estudiar si existe relación entre el índice de masa corporal y sufrir algún
accidente cardiovascular, en una determinada población. Consultando
bibliografía, se sabe que en otra población de referencia, un 10% de los
individuos con IMC igual a 25 (p1=0.10) habían sufrido algún accidente
cardiovascular (IMC promedio de la población) y que un 20% de los individuos
con IMC igual a 28 (p2=0.20) lo habían sufrido (IMC promedio más una
desviación estándar). Se necesitará incluir al menos 165 sujetos (n=165) en el
estudio para detectar diferencias de la misma magnitud con una potencia del 80%
(pow=1-β=0.80) mediante una prueba bilateral (c=2) y un nivel de significación
del 5% (α=0.05).
Utilizando Ene 3.0
Otros diseños Æ Regresión Æ Regresión logística: una
covariable
Detalles técnicos:
Basado en la Prueba de Wald para una covariable en un modelo de regresión
logística.
Esta técnica es adecuada cuando el objetivo principal del estudio es contrastar el
coeficiente de un modelo de regresión logística medido en una única muestra
p1 (0,1) Probabilidad de ocurrencia del evento cuando la covariable
vale μ (su promedio)
vale μ +σ (su promedio más una desviación típica). Este valor
debería representar un incremento relevante en comparación
con p1
231
abandonos)
Cálculos previos:
⎛ p (1 − p1 ) ⎞
b = log⎜⎜ 2 ⎟⎟
⎝ p1 (1 − p2 ) ⎠
5b 2
d=
(
1 + 1 + b2 e ) 4
−b 2
1+ e 4
p s = min( p1 ,1 − p1 )

⎛ np b 2 ⎞
⎜ s
− z1−α / c ⎟
⎜ 1 + 2 ps d ⎟
1 − β = Φ⎜ ⎟
⎜ ⎛ b2 ⎞
⎜− ⎟ ⎟
⎜ ⎜ 2 ⎟ ⎟
⎝ e⎝ ⎠ ⎠

2
⎛ ⎛ b2 ⎞ ⎞
⎜ ⎜− ⎟
⎜ 2 ⎟ ⎟ (1 + 2 p d )
n = ⎜ z1−α / c + z1− β e ⎝ ⎠ ⎟ s
⎜ ⎟ ps b 2
⎜ ⎟
⎝ ⎠
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba t-
Student para el coeficiente de un modelo de regresión logística. Los cálculos son
asimptóticos y proporcionan buenas aproximaciones cuando el Odds Ratio entre
las proporciones p1 y p2 se encuentra entre los valores 0.4 y 2.5.
Ejemplo 56. Regresión Lineal para K covariables

ajustadas por H covariables
Se desea contrastar si existe relación entre la talla de recién nacidos y la edad de
gestación (k=1), teniendo en cuenta la edad de la madre y si ésta fumaba o no
durante el embarazo (h=2). A partir de un estudio piloto, se sabe que las variables
explicativas iniciales (edad de la madre y fumar) explican un 40% de la respuesta
(R2h=0.40). Se considera que con la variable edad de gestación, el modelo podría
explicar hasta un 60% de la respuesta (R2h+k=60%). Se necesitará incluir un
mínimo de 19 individuos (n=19) en el estudio para asegurarse una potencia del
80% (pow=1-β=0.80) para detectar las diferencias deseadas con un nivel de
Utilizando Ene 3.0
Otros diseños Æ Regresión Æ Regresión lineal: K
covariables ajustadas por H covariables
Detalles técnicos:
Basado en la Prueba F para comparar modelos anidados
Esta técnica es adecuada cuando el objetivo principal del estudio es contrastar
uno o varios coeficientes de un modelo de regresión ajustando por otras variables
explicativas obtenidos en una única muestra
233
h [0,6] Número de variables iniciales a partir de las cuales se ajustará
el modelo.
R2 h [0,1) Coeficiente de determinación con las variables iniciales
k [1,6] Número de variables añadidas al modelo formado por las
variables iniciales.
R2h+k (R2h,1) Coeficiente de determinación con las variables iniciales y las
variables añadidas
n ≥h+k+1 Tamaño de la muestra efectivo
nr ≥ h+k+1 Tamaño de la muestra a reclutar (corregido por posibles
abandonos)
R2h+k (0,1) Coeficiente de determinación con las variables iniciales y las
variables añadidas
dfe = n − k − h − 1
Rk2+h − Rh2
Δ=
1 − Rk2+h
(
1 − β = 1 − Fnc F −1 (1 − α , k , dfe ), k , dfe, nΔ2 )
Fórmulas para el tamaño de la muestra y para el tamaño del efecto:
Los tamaños muestrales se obtienen solucionando de forma numérica la ecuación
para la potencia. En los cálculos se utiliza la función de distribución F. Se asume
que la distribución de la variable respuesta es Normal y que la prueba estadística
para rechazar la hipótesis nula será una prueba F. Si la variable respuesta no es
Normal, el resultado es asintótico.
Ejemplo 57. Regresión Logística para una covariable

ajustada por otras covariables
Se desea estudiar si los valores de IMC están relacionados con el riesgo de sufrir
un accidente cardiovascular. Se decide también recoger información sobre el
grado de ejercicio físico que realizan los pacientes. Consultando bibliografía, se
sabe que en otra población de referencia, un 10% de los individuos con IMC igual
a 25 (p1=0.10) habían sufrido algún accidente cardiovascular (IMC promedio de
la población) y que un 20% de los individuos con IMC igual a 28 (p2=0.20) lo
habían sufrido (IMC promedio más una desviación estándar). También se sabe
que la correlación entre el IMC y el grado de ejercicio físico es de -0.5
(R2cov=0.25). Se necesitará incluir al menos 220 sujetos (n=220) en el estudio para
detectar diferencias de la misma magnitud con una potencia del 80% (pow=1-
β=0.80) mediante una prueba bilateral (c=2) y un nivel de significación del 5%
(α=0.05).
Utilizando Ene 3.0
Otros diseños Æ Regresión Æ Regresión logística: una
covariable ajustada por otras covariables
Detalles técnicos:
Basado en la Prueba t–Student para un coeficiente de un modelo de regresión
logística
235
Esta técnica es adecuada cuando el objetivo principal del estudio es contrastar un

coeficiente de un modelo de regresión logística ajustando por otras variables
explicativas obtenido en una única muestra
vale μ (su promedio)
vale μ +σ (su promedio más una desviación típica). Este valor
debería representar un incremento relevante en comparación
con p1
R2cov [0,1) R2 entre variables explicativas. Coeficiente de determinación
de un modelo de regresión lineal entre la covariable de interés
(ahora dependiente) y las demás covariables (ahora
independientes)
abandonos)
Cálculos previos:
⎛ p (1 − p1 ) ⎞
b = log⎜⎜ 2 ⎟⎟
⎝ p1 (1 − p2 ) ⎠
5b 2
d=
(
1+ 1+ b e 2
) 4
−b 2
1+ e 4
p s = min( p1 ,1 − p1 )
⎜ (
⎛ nps b 2 1 − Rcov
2
) ⎞
− z1−α / c ⎟
⎜ 1 + 2 ps d ⎟
1 − β = Φ⎜ ⎟
⎛ b ⎞
2
⎜ ⎜− ⎟
⎜ 2 ⎟ ⎟
⎜ e⎝ ⎠ ⎟
⎝ ⎠
2
⎛ ⎛ b2 ⎞ ⎞
⎜ ⎜ 2 ⎟ ⎟
⎜− ⎟
n = ⎜ z1−α / c + z1−β e ⎝ ⎠ ⎟
(1 + 2 ps d )
⎜
2
(
⎟ ps b 1 − Rcov
2
)
⎝ ⎠
Se asume que la prueba estadística para rechazar la hipótesis nula será la Prueba t-
Student para un coeficiente de un modelo de regresión logística ajustado por otras
variables. Los cálculos son asimptóticos y proporcionan buenas aproximaciones
cuando el Odds Ratio entre las proporciones p1 y p2 se encuentra entre los valores
0.4 y 2.5.
Ejemplo 58. Comparación de no–igualdad entre la

supervivencia de dos grupos
Se desea comparar un tratamiento experimental para la enfermedad del SIDA
respecto de un tratamiento de referencia. Consultando bibliografía, se sabe que de
los pacientes que toman el tratamiento de referencia, un 70% (p1=0.70)
sobreviven al menos un año. Teniendo en cuenta que un porcentaje de
supervivencia al cabo de un año del 85% (p2=0.85) sería clínicamente muy
relevante, se necesitará incluir un mínimo 125 pacientes por grupo de tratamiento
(n1=125) para asegurarse una potencia del 80% (pow=1-β=0.80) para poder
detectar unas diferencias en las curvas de supervivencia de tal magnitud con una
prueba bilateral (c=2) y un nivel de significación del 5% (α=0.05).
Utilizando Ene 3.0
Otros diseños Æ Dos tiempos de supervivencia Æ No igualdad
237
Detalles técnicos:
Basado en la Prueba Log–Rank para dos muestras independientes
tiempo de supervivencia medido en dos muestras independientes y la hipótesis
experimental es de no igualdad entre ambos grupos
p1 (0,1) Probabilidad de Supervivencia en el instante T en el grupo de
Referencia. T suele ser el período del estudio
p2 (0,1) Probabilidad de Supervivencia en el instante T en el grupo
Experimental. T suele ser el período de estudio. Debe
representar el valor del mínimo efecto relevante
n1 ≥2 Tamaño de la muestra en el grupo de referencia
ne ≥2 Número total de eventos a observar. Este parámetro

proporciona información adicional para poder valorar si el
estudio es factible
Cálculos previos:
h = log( p 2 ) / log( p1 )
⎛
1 − β = Φ n1 (2 − p1 − p2 )
⎜ (h − 1)
2
− z
⎞
⎟
⎜
⎝ (h + 1)2 1−α / c
⎟
⎠
n1 =
(z
1−α / c + z1− β ) (h + 1)
2 2
(2 − p1 − p2 )(h − 1)2
Log-Rank. En esta técnica no es posible llevar a cabo la corrección del tamaño de
muestra por el porcentaje esperado de abandonos ya que tales casos se consideran
datos censurados y se contemplan directamente en los cálculos.
Ejemplo 59. Comparación de no–igualdad entre la

supervivencia de dos grupos + inclusión +
censurados
Se desea comparar un tratamiento experimental para la enfermedad del SIDA
respecto de un tratamiento de referencia. Decide realizar un estudio con un
periodo de inclusión de 12 meses (inc=12) y con un seguimiento máximo de 36
meses (seg=36). Consultando bibliografía, se sabe que la mediana del tiempo de
supervivencia de los pacientes que toman el tratamiento de referencia, es de 30
(med1=30) y que la mediana del tiempo de supervivencia de los pacientes en el
grupo experimental es de 40 (med2=40). También se asume que la mediana del
tiempo hasta abandono por otras causas no relacionadas con el estudio será de 70
(medab=70). Se necesitará incluir un mínimo 485 pacientes por grupo de
tratamiento (n1=485) para asegurarse una potencia del 80% (pow=1-β=0.80) para
poder detectar unas diferencias en las curvas de supervivencia de tal magnitud con
una prueba bilateral (c=2) y un nivel de significación del 5% (α=0.05).
239
Utilizando Ene 3.0

Otros diseños Æ Dos tiempos de supervivencia Æ No
igualdad, inclusión y censurados
Detalles técnicos:
experimental es de no igualdad entre ambos grupos
inc >0 Duración del período de inclusión
seg >0 Duración máxima del período de seguimiento
med1 >0 Mediana del tiempo de supervivencia en el grupo de referencia
med2 >0 Mediana del tiempo de supervivencia en el grupo experimental
medab >0 Mediana del tiempo hasta censura. Es decir, abandono por
otras causas no relacionadas con el estudio
estudio es factible
Cálculos previos:
log(2)
λi =
medi
log(2)
λab =
med ab
h = λ2 / λ1
λ1 ⎛ exp((λ1 + tab )(inc − seg )) − exp(− (λ1 + tab )seg ) ⎞

e1 = ⎜1 − ⎟⎟
λ1 + tab ⎜⎝ (λ1 + tab )inc ⎠
λ2 ⎛ exp((λ2 + tab )(inc − seg )) − exp(− (λ2 + tab )seg ) ⎞

e2 = ⎜1 − ⎟⎟
λ2 + tab ⎜⎝ (λ2 + tab )inc ⎠
⎛ ⎛λ ⎞ n1 ⎞
1 − β = Φ⎜⎜ log⎜⎜ 2 ⎟⎟ − z1−α / c ⎟⎟
⎝ ⎝ λ1 ⎠ 1 / e1 + 1 / e2 ⎠
2
⎛ z1− β + z1−α / c ⎞
n1 = ⎜⎜ ⎟⎟ (1 / e1 + 1 / e2 )
⎝ log (λ 2 ) − log (λ )
1 ⎠
241
2
⎛ z + z1−α / c ⎞
ne = 4⎜⎜ 1− β ⎟⎟
⎝ log(h ) ⎠
Log-Rank. Se asume que las funciones de supervivencia son exponenciales (esta
suposición es restrictiva, y debe ser validada). En esta técnica no es posible llevar
a cabo la corrección del tamaño de muestra por el porcentaje esperado de
abandonos ya que tales casos se consideran datos censurados y se contemplan
directamente en los cálculos al introducir la tasa esperada de censurados.
Ejemplo 60. Comparación de no–inferioridad entre la

supervivencia de dos grupos + abandonos + inclusión
Se desea comprobar que un tratamiento experimental para la enfermedad del
SIDA no es inferior al tratamiento de referencia. Se decide realizar un estudio con
un periodo de inclusión de 12 meses (inc=12) y con un seguimiento máximo de
36 meses (seg=36). Consultando bibliografía, se sabe que la mediana de
supervivencia de los pacientes que toman el tratamiento de referencia, es de 30
(med1=30) y que la mediana de supervivencia de los pacientes en el grupo
experimental es la misma (med2=30). Se considera adecuado fijar un límite de no-
inferioridad de 0.66 unidades en términos multiplicativos respecto el tratamiento
de referencia (hi=0.66). Es decir, se intentará demostrar que el tratamiento
experimental proporciona al menos una mediana de supervivencia no inferior a
20. También se asume que la mediana del tiempo hasta abandono por otras causas
no relacionadas con el estudio será de 70 (medab=70). Se necesitará incluir un
mínimo 164 pacientes por grupo de tratamiento (n1=164) para asegurarse una
potencia del 80% (pow=1-β=0.80) para poder detectar unas diferencias en las
curvas de supervivencia de tal magnitud con un nivel de significación del 5%
(α=0.05).
Utilizando Ene 3.0

Otros diseños Æ Dos tiempos de supervivencia Æ No
inferioridad, inclusión y censurados
Detalles técnicos:
experimental es de no inferioridad entre ambos grupos
inc >0 Duración del período de inclusión
seg >0 Duración máxima del período de seguimiento
med1 >0 Mediana del tiempo de supervivencia en el grupo de referencia
med2 (=med1) Mediana del tiempo de supervivencia en el grupo experimental
243
medab >0 Mediana del tiempo hasta censura. Es decir, abandono por
otras causas no relacionadas con el estudio
hi >0, ≠1 Límite de no-inferioridad respecto el grupo de referencia
expresado como ratio. Este valor suele considerarse igual al
margen de no-inferioridad clínicamente relevante en términos
multiplicativos. Es importante observar que si la variable
tiempo mide eventos negativos (tiempo hasta la mortalidad),
se deseará demostrar que la supervivencia es no-inferior (med2
> med1*hi). De este modo, deberá introducirse un valor < 1. Si
la variable tiempo mide eventos positivos (tiempo hasta
recuperación), se deseará demostrar que la curva de
supervivencia es no-superior (med2 < med1*hi). De este modo,
deberá introducirse un valor > 1
estudio es factible
Cálculos previos:
log(2)
λi =
medi
log(2)
λab =
med ab
λ1 ⎛ exp((λ1 + λab )(inc − seg )) − exp(− (λ1 + λab )seg ) ⎞

e1 = ⎜1 − ⎟⎟
λ1 + λab ⎜⎝ (λ1 + λab )inc ⎠
λ2 ⎛ exp((λ2 + λab )(inc − seg )) − exp(− (λ2 + λab )seg ) ⎞

e2 = ⎜1 − ⎟⎟
λ2 + λab ⎜⎝ (λ2 + λab )inc ⎠
⎛ n1 ⎞
1 − β = Φ⎜⎜ log(hi ) − z1−α ⎟⎟
⎝ 1 / e1 + 1 / e2 ⎠
2
⎛z +z ⎞
n1 = ⎜⎜ 1−β 1−α ⎟⎟ (1 / e1 + 1 / e2 )
⎝ log(hi ) ⎠
2
⎛z +z ⎞
ne = 4⎜⎜ 1−β 1−α ⎟⎟
⎝ log(hi ) ⎠
Log-Rank. Se asume que las funciones de supervivencia son exponenciales (esta
suposición es restrictiva, y debe ser validada). En esta técnica no es posible llevar
a cabo la corrección del tamaño de muestra por el porcentaje esperado de
abandonos ya que tales casos se consideran datos censurados y se contemplan
directamente en los cálculos al introducir la tasa esperada de censurados.

proporción y un valor teórico, método bietápico de
Simon
Se desea llevar a cabo un estudio bietápico en fase II para evaluar la eficacia de
un nuevo tratamiento experimental en pacientes con determinado tipo de tumor.
Se considera que el tratamiento experimental ofrecerá una eficacia del 35%
(p2=0.35), por otro lado se sitúa la eficacia de referencia en el 20% (p1=0.20).
Para obtener un 90% de potencia (pow=1-β=0.90) para declarar efectivo el
tratamiento mediante una prueba unilateral con un nivel de significación del 10%
(α=0.10), se deberá seguir el siguiente criterio en la toma de decisiones: rechazar
la eficacia del tratamiento experimental si en la primera fase incluyendo 27
pacientes (ns1=27) no se observan más de 5 éxitos (rs1=5), en caso contrario se
proseguirá con la segunda fase y se concluirá que el tratamiento es eficaz si en el
total de 63 pacientes (ns=63), se han observado más de 16 éxitos (rs=16).
Utilizando Ene 3.0
245

valor teórico Æ No igualdad, Simon bietápico
Detalles técnicos
Basado en la prueba unilateral binomial exacta para una proporción frente a un
valor teórico
proporción de ocurrencia de cierto evento medido en una única muestra, la
teórico y se desea llevar a cabo un estudio secuencial bietápico (método de
Simon). Suele emplearse en ensayos clínicos en Fase II.
esperada en el grupo experimental

rs1 ≥0 Eventos observables en la fase I para refutar la hipótesis
experimental.
ns1 >rs1 Tamaño de la muestra en la fase I para refutar la hipótesis
experimental.
rs >rs1 Eventos observables en el conjunto del estudio para refutar la
hipótesis experimental.
ns >rs Tamaño de la muestra en el conjunto del estudio para refutar la
hipótesis experimental.
Fórmula para la potencia y el nivel de significación:
r1
⎛n ⎞
PET 0 = ∑ ⎜⎜ 1 ⎟⎟ p1j (1 − p1 ) 1
n −j
j =0 ⎝ j ⎠
min ( n2 ,r1 + r2 )
⎛ ⎛ n1 ⎞ i r1 + r2 −i
⎛n ⎞ ⎞
PLT 0 = ∑ ⎜ ⎜⎜ ⎟⎟ p1 (1 − p1 )n1 −i ∑ ⎜⎜ 2 ⎟⎟ p1j (1 − p1 )n2 − j ⎟
⎜ i ⎟
i =r1 +1 ⎝⎝ ⎠ j =0 ⎝ j ⎠ ⎠
⎛n ⎞
r1
PET 1 = ∑ ⎜⎜ 1 ⎟⎟ p j (1 − p ) 1
n −j
j =0 ⎝ j ⎠
r1
⎛n ⎞
PET 1 = ∑ ⎜⎜ 1 ⎟⎟ p2j (1 − p2 ) 1
n −j
j =0 ⎝ j ⎠
min ( n2 ,r1 + r2 )
⎛ ⎛ n1 ⎞ i r1 + r2 −i
⎛n ⎞ ⎞
PLT 1 = ∑ ⎜ ⎜⎜ ⎟⎟ p2 (1 − p2 )n1 −i ∑ ⎜⎜ 2 ⎟⎟ p2j (1 − p2 )n2 − j ⎟
⎜ i ⎟
i =r1 +1 ⎝⎝ ⎠ j =0 ⎝ j ⎠ ⎠
EN 0 = n1 + (1 − PET 0 )n2
α = 1 − PET 0 − PLT 0
1 − β = 1 − PET 1 − PLT 1
Donde EN0 es el número total esperado de sujetos incluidos en el estudio bajo la
suposición de igualdad entre grupos.
247
Fórmula para el tamaño de muestra en la fase inicial y para el conjunto del

estudio:
Las fórmulas implementadas se basan en la prueba binomial exacta y permiten
hallar los valores óptimos mediante un algoritmo de búsqueda.

por el porcentaje esperado de abandonos ya que se trata de un estudio secuencial
donde el tamaño de muestra no está fijado a priori, depende de si se superan las
distintas etapas del estudio.
Anexo I. Documentación Complementaria
Conceptos básicos de Estadística
La distribución Normal
La distribución Normal es la distribución teórica más importante debido a sus
excelentes propiedades. Se dice que una variable aleatoria sigue una distribución
Normal si su función de densidad es:
2
1 1 ⎛ x−μ ⎞
f (x ) = e
− ⎜
2⎝ σ ⎠
⎟
2πσ
μ es un parámetro de centralidad y representa la media de la variable.

σ es un parámetro de escala que representa la desviación estándar.
La notación empleada para decir que X es una variable con distribución Normal
cuyos parámetros son μ y σ, es: X ~ N (μ,σ)
Función de densidad para diversas variables con distribución Normal.

Se puede observar que muchas medidas naturales (peso, altura, presión sanguínea,
nivel de glucosa en sangre, etc.) siguen de forma aproximada una distribución
Normal. Es decir, el correspondiente histograma se asemeja a una campana, es
simétrico y unimodal. En este sentido, aunque sería prácticamente imposible
demostrar que la distribución de tales variables es realmente Normal, sería
249
totalmente razonable asumirlo. Por lo tanto, se pueden estudiar estas variables

utilizando las propiedades de la distribución Normal.
Histograma del peso de 189 recién nacidos. Se observa que la

distribución es aproximadamente normal.
La distribución Normal es simétrica alrededor de la media y unimodal (tiene un
único pico).
Como propiedades remarcables se puede mencionar que:
La media y la desviación determinan de forma única esta distribución.
Si X es una variable aleatoria con distribución Normal con parámetros μ y
σ , X ~ N(μ,σ), entonces:
X+c ~ N(μ+c,σ)
X – μ ~ N(0,σ)
aX ~ N(aμ,aσ)
X
~ N(μ,1)
σ
X −μ
~ N (0,1)
σ
Cuando una variable tiene una distribución Normal con media 0 y
desviación 1 se dice que sigue una distribución Normal Estándar. Esto
implica que es suficiente estudiar las propiedades de la distribución Normal
Estándar para conocer el comportamiento de cualquier variable cuya
distribución sea Normal.
La variable definida como suma de dos variables aleatorias con distribución

Normal es una nueva variable cuya distribución también es normal.
X 1 ~ N ( μ1 , σ 1 )
X 2 ~ N (μ2 , σ 2 )
X 1 + X 2 ~ N ( μ1 + μ 2 , σ 1 + σ 2 )
2 2
La suma y la media de n observaciones independientes, todas ellas con la

misma distribución Normal también siguen una nueva distribución Normal.
Si X1, ... , Xn ~ N (μ,σ), entonces:
n
S = ∑ Xi ~ N (nμ , nσ )
i =1
∑=1 X i
σ
X= i
~ N (μ , )
n n
y por lo tanto,
X −μ
~ N (0,1)
σ n
Estudiando la función de densidad de una variable con distribución Normal

Estándar, se puede comprobar que una observación en particular tomará valores
comprendidos entre –1 y 1 en el 68.2% de los casos. Esto implica que en el 15.9%
de los casos será inferior a –1 y superior a 1 en idéntico porcentaje. Similarmente,
se puede comprobar que en un 95% de los casos sus valores no superarán el valor
1.645. Por otro lado, entre los valores –1.96 y 1.96 se hallarán el 95% de las
observaciones.
Para calcular qué porcentaje de observaciones de una distribución Normal
estándar (Z) están por debajo de determinado valor, se utiliza la función de
distribución cumulativa (CDF) de la Normal estándar, denotada como Φ(c):
P ( Z ≤ c ) = Φ (c ) = γ
Por ejemplo:
Φ (−1) = 0.159
Φ(1) = 0.841
Φ (−1.96) = 0.025
Φ (1.645) = 0.95
251
De forma similar, se utiliza la función de distribución cumulativa inversa (IDF) de

una Normal estándar para determinar hasta qué valor se encuentra un determinado
porcentaje de las observaciones. Esta función se denota como Φ – 1(γ) o Zγ .
Si P ( Z ≤ c) = Φ (c) = γ , entonces
Z γ = Φ −1 (γ ) = c
En general, Z γ recibe el nombre de cuantil γ de la distribución Normal estándar

y se puede calcular a partir del área bajo la curva de la función de densidad de la
distribución Normal estándar entre − ∞ y γ .
Algunas propiedades de los cuantiles de la distribución Normal estándar son:
Z 0 = −∞
Z 0.5 = 0
Z γ = − Z1−γ
Por ejemplo,
Z 0.159 = −1
Z 0.975 = 1.96
Z 0.841 = 1
Z 0.025 = −1.96
Z 0.95 = 1.645
Ejemplos de cuantiles de la distribución Normal estándar
Un 5% de los posibles valores son Un 2.5% de los posibles valores son

inferiores a –1.645 ( Z 0.05 = −1.645 ) inferiores a –1.96 ( Z 0.025 = −1.96 )
Un 95% de los posibles valores son Un 97.5% de los posibles valores son
inferiores a 1.645 ( Z 0.95 = 1.645 ) inferiores a 1.96 ( Z 0.975 = 1.96 )
Un 90% de los posibles valores se Un 95% de los posibles valores se

encuentran entre –1.645 y 1.645 encuentran entre –1.96 y 1.96
Utilizando las propiedades anteriores, si X es una distribución Normal con media

3 y desviación estándar 2 (μ = 3, σ = 2), entonces la probabilidad de que una
X −3
observación de la variable Z = (cuya distribución es ahora una distribución
2
Normal Estándar) se encuentre entre –1.96 y 1.96 será del 95%.
Para obtener información sobre la variable original X, es necesario resolver:
X −3
1.96 = ,obteniendo: X = 3 + 2 *1.96 = 6.92 y similarmente,
2
X −3
− 1.96 = , obteniendo: X = 3 − 2 *1.96 = −0.92
2
Por lo tanto, una observación de la variable X se encontrará entre los valores –
0.92 y 6.92 en el 95% de los casos.
Aproximación asintótica a la distribución Normal

Mediante el Teorema Central del Límite se demuestra que el promedio (o la
suma) de un “elevado” número de observaciones independientes de una misma
variable sigue aproximadamente una determinada distribución Normal. A medida
que el número de observaciones sea mayor, la aproximación será mejor. En este
253
caso, se dice que sigue asintóticamente una distribución Normal. La notoriedad

del Teorema reside en que esta propiedad es cierta a pesar de que las
observaciones originales no provengan de una distribución Normal. Por ejemplo,
el promedio del número de eventos cardiovasculares medidos en cierta población
de riesgo, la proporción de pacientes satisfechos con determinado tratamiento y el
dolor post–operatorio promedio medido en diferentes pacientes intervenidos
quirúrgicamente se podrán aproximar mediante una distribución Normal.
Considerando una muestra de observaciones de una misma variable, las
propiedades de la nueva variable “media muestral” son:
El valor promedio esperado de la “media muestral” continúa siendo la
media de la población.
La desviación estándar de la media muestral es σ n , siendo σ la
desviación estándar de la población y n el tamaño de la muestra.
σ n recibe el nombre de Error Estándar de la media.
Si se denota a la “media muestral” como X , y n es suficientemente grande
X −μ
entonces la variable aleatoria Z = sigue aproximadamente una
σ n
distribución Normal Estándar.
Estas características permiten utilizar la distribución Normal para estimaciones e
inferencias sobre el promedio de una variable. No obstante, si la distribución
original de la variable es bien conocida, se utilizan las técnicas apropiadas que no
necesitan realizar tal aproximación.
Histograma del experimento: Número de Caras obtenidas al lanzar

simultáneamente 5 monedas. En este caso, el tamaño de muestra es de 5
observaciones. Para analizar su distribución, se representan 100 repeticiones.

simultáneamente 10 monedas. Al aumentar el número de lanzamientos que
configuran cada observación, la distribución de los datos experimentales se
asemeja más a la distribución Normal.

simultáneamente 30 monedas. La distribución es prácticamente como la
distribución Normal.
El intervalo de confianza para un parámetro permite reflejar la información
recogida de una muestra mostrando una estimación puntual y un margen de
precisión, proporcionando además un resultado fácilmente interpretable.
Gracias a las propiedades anteriores, si el parámetro de interés es un promedio (o

proporción) y la muestra es suficientemente grande, se puede obtener un intervalo
de confianza aproximado asumiendo que la distribución del promedio muestral es
Normal.
255
Para construir un intervalo de confianza para el promedio μ de cierta variable

cuya desviación estándar es conocida ( σ 0 ) y asumiendo que el TM es
suficientemente grande (de tamaño n), la variable
X −μ
Z=
σ0 n
sigue aproximadamente una distribución Normal Estándar. Para una variable con
tal distribución, la probabilidad que una observación en particular esté
comprendida entre los valores –1.96 y 1.96 es del 95%:
P (1.96 ≤ Z ≤ 1.96) = 0.95
Por lo tanto:
X −μ
P (1.96 ≤ ≤ 1.96) = 0.95
σ0 n
Esta expresión proporciona un intervalo de probabilidad para X . No obstante, se

está interesado en el parámetro μ . A partir de la muestra, se puede calcular X ,
obteniéndose,
P ( X − 1.96 σ 0 n ≤ μ ≤ X + 1.96 σ 0 n ) = 0.95

Que puede escribirse como:
IC95% (μ ) : μ ∈ X ± 1.96 σ 0 n
o bien,
(
IC95% (μ ) : μ ∈ X − 1.96 σ 0 n , X + 1.96 σ 0 n )
Debido a que μ es en realidad un parámetro y no una variable aleatoria, el
intervalo anterior no es un intervalo de probabilidad, por este motivo recibe el
nombre de intervalo de confianza. En este sentido, se puede esperar que un 95%
de los intervalos construidos del mismo modo a partir de muestras de tamaño n
contengan el valor real del parámetro ( μ ).
El valor 95% recibe el nombre de nivel de confianza. Es habitual fijar este nivel
en 95%, sin embargo, si se desea mayor confianza, puede aumentarse.
Habitualmente los intervalos de confianza son simétricos alrededor de la media
muestral, no obstante, pueden construirse intervalos con el mismo nivel de
confianza pero unilaterales. En el caso unilateral, el intervalo de confianza
proporciona un único valor, que representa el margen superior (o inferior) del

parámetro estudiado. También puede referirse a los intervalos de confianza
unilaterales o bilaterales como intervalos de una cola o de dos colas
respectivamente.
A menudo el nivel de confianza se expresa como 1 menos el nivel de
significación (α). De este modo, un intervalo de confianza para un determinado
nivel de confianza (1 – α) se escribe como:
⎛ Z 1−α / 2σ 0 Z 1−α / 2σ 0 ⎞
IC bilateral: IC1−α (μ ) : μ ∈ ⎜⎜ X − ,X + ⎟
⎟
⎝ n n ⎠
Z1−α σ 0
IC unilateral izquierdo: IC1−α (μ ) : μ < X +
n
Z1−α σ 0
IC unilateral derecho: IC1−α (μ ) : μ > X −
n
Las tres expresiones corresponden a intervalos de confianza con el mismo nivel
de confianza (1–α). Z γ representa el cuantil γ de la función de distribución
Normal estándar.
El porcentaje esperado de intervalos que no contendrán el valor verdadero viene
determinado por el nivel de confianza a partir del cual son construidos.
257
El gráfico representa una serie de intervalos de confianza bilaterales, cuyo valor

central esperado es μ. Algunos intervalos no contienen el valor verdadero de μ.
Cuando la desviación estándar es desconocida, ésta puede estimarse a partir de la
propia muestra mediante la “desviación muestral” (S), obteniendo que la variable
aleatoria
X − μ0
t=
S n
tiene ahora una función de distribución t–Student con n – 1 grados de libertad.

Para obtener el Intervalo de Confianza en esta situación, se podría proceder de
forma similar utilizando las propiedades de la función de distribución t–Student.
Pruebas de hipótesis
Las pruebas de hipótesis permiten realizar contrastes sobre los diferentes
parámetros de la función de distribución de una variable aleatoria. En el caso de
una variable aleatoria con distribución Normal, habitualmente el interés reside en
responder a las preguntas planteadas con respecto al promedio de la población.
No obstante, las pruebas de hipótesis también permiten realizar otros contrastes,
por ejemplo, sobre la distribución misma o sobre otros parámetros, tales como la
desviación estándar o la mediana de la variable.
La conclusión de interés para el investigador recibe el nombre de hipótesis

experimental o hipótesis alternativa (HA). La hipótesis complementaria recibe el
nombre de hipótesis nula (H0). Es fundamental especificar a priori y de forma
clara la hipótesis alternativa para proceder a su contraste. En función de cómo se
especifica la hipótesis alternativa, los contrastes de hipótesis, tienen variaciones
importantes.
Una prueba de hipótesis consiste en el siguiente razonamiento:
Inicialmente se asume que la hipótesis nula es cierta.

Se calcula el estadístico de la prueba a partir de la muestra. La distribución
de este estadístico es una variable aleatoria. El estadístico proporciona un
valor que permite reunir la información sobre el resultado observado y cuyo
resultado esperado bajo la hipótesis nula puede estudiarse fácilmente.
Finalmente se determina, mediante tablas de probabilidad, si las diferencias
obtenidas entre el resultado esperado y el observado son razonablemente
atribuibles al azar o no. En este último caso, se diría que no es posible
aceptar como verdadera la hipótesis nula y por lo tanto se rechaza.
Situación que conduce a confirmar la hipótesis alternativa.
Este proceso pretende demostrar la hipótesis alternativa a partir de la obtención de
evidencias de que la hipótesis nula es falsa. Cuando no existen dudas razonables
que conduzcan al rechazo de la hipótesis nula, no se obtiene conclusión alguna.
De ningún modo la conclusión puede ser que la hipótesis nula es cierta. Por estos
motivos, la prueba de hipótesis tiene un carácter conservador, se necesitan
evidencias claras para poder confirmar la hipótesis alternativa.
Por ejemplo, se podría estar interesado en comprobar que el nivel de colesterol
promedio en determinada población es superior a 6 mmol/L. Se sabe que la
desviación estándar de esta medida es de 5. Para contrastar la hipótesis alternativa
se dispone de una muestra constituida por 25 individuos. Una vez medida la
muestra, se obtiene una “media muestral” de 8.5 mmol/L.
La hipótesis nula es: H0: Nivel de colesterol medio = 6
La hipótesis alternativa es: HA: Nivel de colesterol medio > 6
A continuación se desarrollan los cálculos que conducen al rechazo o no de la
hipótesis nula planteada por el investigador. Para ello, es importante constatar que
se asume que la desviación estándar es un valor conocido.
Suponiendo que la hipótesis nula es verdadera, la variable:
X −μ
Z=
σ0 n
259
sigue aproximadamente una distribución Normal Estándar, donde μ es el valor

esperado de X bajo H0, es decir, 6 unidades.
Bajo la hipótesis nula, se podría esperar que la variable Z no tome valores
superiores a 1.645: sólo el 5% de los valores de una variable con tal distribución
estarían por encima de esta cifra. El valor 5%, recibe el nombre de nivel de
significación, y representa el error asumido de la prueba estadística. Ésta sería una
visión unilateral de la prueba.
Hay que tener en cuenta que des de un punto de vista bilateral, se emplearían
valores distintos: el 5% de valores más alejados del centro de la distribución
serían los que se encuentran más allá del valor 1.96 y simétricamente del valor –
1.96.
Una vez obtenida la muestra, se dispone en efecto de una realización de la
variable aleatoria anterior: Z es el estadístico de la prueba de hipótesis.
8.5 − 6
Z= = 2.5
5 25
El valor 2.5 (resultado observado) está alejado del valor 1.645.
Distribución Estadístico Z =2.5

teórica de Z
bajo H0 5%
Z0.95 =1.645
El gráfico anterior representa la distribución del estadístico Z bajo la hipótesis

nula en una prueba Z unilateral.
Ahora se puede cuantificar la probabilidad de que, siendo realmente cierta la
hipótesis nula, una variable con distribución Normal Estándar, tome al menos el
valor 2.5 el valor del estadístico. Esta probabilidad es aproximadamente 0.006, un
valor realmente bajo para producirse simplemente por azar.
La probabilidad 0.006 obtenida, que representa la probabilidad de haber obtenido
un estadístico mayor al estadístico observado, recibe el nombre de p–valor. En
conclusión, puesto que el p–valor obtenido es inferior al nivel de significación
asumido, se rechaza la hipótesis nula y se acepta la hipótesis alternativa: el nivel

de colesterol promedio es superior a 6.
La prueba estadística anterior recibe el nombre de prueba Z unilateral, ya que se
basa en el estadístico Z y sólo contempla una dirección. La particularidad de esta
prueba consiste en que se asume que la distribución de la variable respuesta es
Normal y que se conoce la desviación estándar.
Si se hubiese deseado emplear una visión bilateral de la prueba, se hubiera
trabajado con el estadístico en valor absoluto, y el p–valor se vería multiplicado
por 2 (los programas estadísticos proporcionan la versión bilateral de las pruebas
estadísticas por defecto).
Bajo distintas suposiciones la prueba estadística a emplear suele ser diferente, no
obstante, el razonamiento que conduce al rechazo o no de la hipótesis nula es
similar. Cada prueba estadística distinta utiliza un estadístico distinto. Por
ejemplo, en el caso de desconocer la desviación estándar y necesitar estimarla
directamente de la muestra, se hubiese utilizado un estadístico basado en la
distribución t–Student, dando lugar a la prueba t–Test o prueba t–Student.
Error de tipo I y error de tipo II

El error de tipo I es el error cometido por el investigador que al realizar una
prueba de hipótesis rechaza la hipótesis nula cuando en realidad ésta es cierta.
Este error corresponde a un falso positivo. El nivel de significación se define
como la probabilidad de cometer un error de tipo I y se denota como α. Es
habitual fijar a 0.05 (5%) el error de tipo I.
Por ejemplo, se realiza un contraste de hipótesis utilizando un nivel de
significación del 5%. Se rechazará la hipótesis nula cuando el resultado obtenido
de la muestra sea “suficientemente improbable”, como lo sería el 5% de los
resultados más extremos posibles, suponiendo cierta la hipótesis nula.
El error de Tipo II es el error que se comete cuando al realizar una prueba de
hipótesis no se obtienen suficientes evidencias para rechazar la hipótesis nula
cuando en realidad es falsa. Este error corresponde a un falso negativo. La
probabilidad de cometer un error de tipo II se denota como β y la probabilidad de
no cometer este error se conoce como potencia. Es habitual realizar experimentos
que tengan una potencia de al menos 0.80 (80%).
Puede darse el caso de que, aún siendo cierta la hipótesis alternativa, si el
experimento consta de un tamaño muestral reducido, tendrá poca potencia para
diferenciar ambas hipótesis, por lo tanto no se podrán obtener las evidencias
necesarias para concluir la hipótesis alternativa.
261
Consideraciones sobre parámetros y técnicas
Parámetros indocumentados
Para llevar a cabo el cálculo del tamaño de lustra de un estudio, a menudo el
investigador debe proporcionar valores para parámetros inicialmente
desconocidos. En esta situación es frecuente recurrir a estudios piloto o estudios
previos ya publicados por otros investigadores. A pesar de ello puede ocurrir que
el parámetro particular de interés no se halle reportado, aunque sí se pueda
encontrar otra información complementaria. Esta información aparentemente
inútil no se debe despreciar ya que podría ser de gran utilidad. A continuación se
muestran diversos ejemplos de cómo conseguir un parámetro de interés a partir de
esta información auxiliar.
Desviación típica a partir del Error Estándar

A partir del error estándar de la media, se obtiene una estimación de la desviación
estándar de manera simple:
σ = ee × n
Desviación típica a partir del Coeficiente de Variación

A partir del coeficiente de variación, se debería aplicar la siguiente fórmula:
σ = μ × CV
Desviación típica a partir del Rango de valores

Un resultado teórico para variables con distribución Normal indica que el
intervalo de más/menos dos desviaciones típicas cubre aproximadamente la
totalidad de los casos (el 95%). Cuando el investigador disponga del rango de
valores (mínimo y máximo) de una muestra mediana (entre 100 y 500 casos)
puede emplear la siguiente estimación:
σ = (max− min) / 4
Si la muestra es de aproximadamente 1000 casos, puede mejorar la estimación
aumentando el denominador:
σ = (max− min) / 6
Desviación típica a partir del Rango Intercuartílico

Cuando el investigador disponga del rango intercuartílico (Q1 y Q3) de una
muestra puede emplear la siguiente estimación:
σ = (Q3 − Q1) / 1.35
Si el rango intercuartílico se ha obtenido a partir de una muestra pequeña, es
recomendable disminuir un poco el coeficiente, por ejemplo a 1.25 o incluso a 1.
Desviación típica a partir del límite del intervalo de confianza unilateral

La desviación común se calcularía cómo:
n
σ = Lim − μ
Z1−α
Desviación típica a partir de los límites del intervalo de confianza bilateral

n
σ = (LimSup − LimInf )
2Z1−α / 2
Desviación común a partir de las desviaciones de dos grupos

σ 12 n1 + σ 22 n2
σ=
n1 + n2
siendo un promedio ponderado de las desviaciones de cada grupo. Una forma más
conservadora y a veces razonable de estimar la desviación común consiste en
tomar simplemente el valor máximo de las desviaciones de cada grupo.
σ = max(σ 1 ,σ 2 )
Desviación para la variable diferencia entre dos muestras relacionadas

La desviación para la variable diferencia cuando se están comparando dos
muestras relacionadas se calcula cómo:
σ = σ 12 + σ 22 − 2σ 12
263
siendo σ 12 la covarianza entre las muestras 1 y 2. Una aproximación bastante

conservadora pero efectiva cuando no se conoce la covarianza, consiste en asumir
que no existe asociación entre muestras y tomar:
σ = max(σ 1 ,σ 2 )
Desviación para la variable diferencia entre dos muestras relacionadas a

partir de MSE
Si el investigador dispone de los resultados proporcionados por un paquete
estadístico de la prueba estadística empleada para comparar dos grupos mediante
muestras relacionadas de un estudio previo, puede emplear la siguiente propiedad:
σ d = 2 MSE
Desviación típica para la variable en escala logarítmica

Si se desconoce la desviación típica de la variable en escala logarítmica, es
adecuado emplear el coeficiente de variación para la variable en escala natural:
σ = log(1 + CV 2 )
Límite de Equivalencia, No–inferioridad, Superioridad para comparar

medias
Los márgenes de equivalencia se pueden fijar a partir del tamaño del efecto,
siendo recomendable emplear los siguientes valores:
Entre 0.15 × Δ y 0.33 × Δ para estudios confirmatorios
0.5 × Δ para estudios exploratorios
Δ para estudios piloto
Límite de Equivalencia, No–inferioridad, Superioridad para comparar

proporciones
Los márgenes de equivalencia se fijan directamente a partir de las proporciones,
siendo recomendable emplear límites situados entre 10% y 25% dependiendo del
tipo de estudio. Cuando las proporciones son próximas a los extremos, los límites
suelen reducirse hasta el 5%.
Límite de Equivalencia, No–inferioridad, Superioridad para comparar log–

medias
Los márgenes de equivalencia se fijan expresándolos a partir del cociente entre
medias en la escala natural, pero calculados a partir del cambio porcentual, siendo
lo más habitual considerar cambios (reducciones) del 20% y del 30% .
Para márgenes del 20% los límites expresados en escala natural son: 0.8 y
1.25
Para márgenes del 30% los límites expresados en escala natural son: 0.7 y
1.43
Tamaño del efecto a partir del CV de dos grupos

El Coeficiente de Variación se calcula cómo la desviación típica dividida entre la
media. De esta manera, si se conoce el CV para cada grupo de tratamiento,
entonces el tamaño del efecto para comparar ambos grupos será aproximadamente
igual a:
1 1
Δ= −
CV1 CV2
Hazard Ratio a partir de diferentes parámetros de la función de

supervivencia
Cuando las funciones de supervivencia son exponenciales y por lo tanto la
función de riesgo es constante, se tiene la siguiente propiedad:
log( p2 ) λ2 mediana1
h= = =
log( p1 ) λ1 mediana2
siendo pi la proporción de eventos a tiempo T, λi el parámetro de supervivencia de
la función exponencial, y medianai la mediana del tiempo de supervivencia para
cada uno de los grupos.
Proporción de eventos a tiempo T a partir de diferentes parámetros de la

función de supervivencia
Cuando las funciones de supervivencia son exponenciales y por lo tanto la
función de riesgo es constante, se tiene la siguiente propiedad:
pT = e −Tλ = 2e −T / mediana
siendo λ el parámetro de supervivencia de la función exponencial, y mediana la
mediana del tiempo de supervivencia.
265
Técnicas sin corrección por abandonos

Las técnicas en las que el programa Ene 3.0 no permite llevar a cabo la corrección
en los cálculos teniendo en cuenta el porcentaje esperado de abandonos son las
siguientes:
Muestreo inverso
No se puede corregir el tamaño de muestra por posibles abandonos ya que el
número de efectivos necesarios con evento no contempla los abandonos.
Muestreo por conglomerados

No se aplica la corrección por abandonos debido a que el tamaño de muestra se
refiere a conglomerados, y los abandonos deberían ser tenidos en cuenta al
especificar el tamaño promedio de los conglomerados.
Análisis de supervivencia
No es posible llevar a cabo la corrección del tamaño de muestra por el porcentaje
esperado de abandonos ya que tales casos se consideran datos censurados y se
contemplan directamente en los cálculos al introducir la tasa esperada de
abandonos.
Muestreo mediante el método bietápico de Simon

No es posible llevar a cabo la corrección del tamaño de muestra por el porcentaje
esperado de abandonos ya que se trata de un estudio secuencial donde el tamaño
de muestra no está fijado a priori, depende de si se superan las distintas etapas del
estudio.
Técnicas direccionales
Cuando el objetivo del estudio es obtener un intervalo de confianza o contrastar
las diferencias entre dos grupos, en general, el investigador puede escoger si
desea aplicar una técnica direccional: unilateral o bilateral. Sin embargo, ciertas
técnicas estadísticas no permiten tal elección y por definición son unilaterales o
bilaterales:
Comparación de k grupos: bilateral

En la comparación de k grupos no tiene sentido una comparación unilateral ya
que se comparan simultáneamente un número elevado de grupos. La hipótesis
experimental es que al menos uno de los grupos difiere del resto.
Comparación de no inferioridad: unilateral

La hipótesis experimental es que el grupo de interés no es inferior al grupo de
referencia, por lo que se trata de una prueba unilateral.
Comparación de superioridad relevante: unilateral

La hipótesis experimental es que el grupo de interés muestra una superioridad
relevante frente al grupo de referencia, por lo que se trata de una prueba
unilateral.
Comparación de equivalencia: unilateral doble

La hipótesis experimental es que el grupo de interés es equivalente al grupo de
referencia, siendo contrastada esta hipótesis a partir de dos pruebas simulténeas
de no inferioridad. De este modo, la direccionalidad de esta prueba es unilateral
doble.
Intervalo para un cuantil: unilateral

Dado que normalmente el interés del investigador es el margen superior del
intervalo de confianza, Ene 3.0 calcula directamente el intervalo unilateral
derecho.
267
Glosario
Abandonos:
Conjunto de pacientes que no finalizan el estudio. Para garantizar que el tamaño
de muestra del estudio es el correcto, se deberá corregir (aumentar) en función del
porcentaje esperado de abandonos y/o violaciones del protocolo esperados.
Aleatorización:
Proceso que garantiza que la asignación de los tratamientos a los pacientes se ha
realizado de forma aleatoria. Este hecho permite asumir que los grupos de
tratamiento estarán compensados respecto posibles factores de riesgo no
considerados en el diseño del estudio. Si los grupos de tratamiento están
equilibrados, se podrán obtener conclusiones de causalidad.
α:
El error cometido al rechazar la hipótesis nula siendo en realidad cierta.
Análisis de la Varianza:
Análisis basado en la separación de la varianza total de la variable respuesta
medida en un conjunto de observaciones, en diversas partes atribuibles a un factor
particular –por ejemplo el sexo, grupo de tratamiento– o bien a la heterogeneidad
natural entre observaciones. Utilizando el método de comparación de varianzas
del test F, se pueden analizar las diferencias entre las medias de dicha variable
según los niveles del factor considerado.
ANOVA:
Acrónimo para el análisis de la varianza.
Asignación de Neyman:
Método utilizado en el muestreo estratificado para distribuir el tamaño de muestra
del estudio entre los posibles estratos. Este método tiene en cuenta la dispersión
de la variable de interés en cada estrato y por este motivo proporciona resultados
óptimos.
Asignación proporcional:
del estudio entre los posibles estratos. Este método tiene únicamente en cuenta el
tamaño de cada estrato.
Asignación simple:
del estudio entre los posibles estratos. Este método divide el tamaño de muestra
total en porciones iguales.
β:
El error cometido al no rechazar la hipótesis nula siendo cierta la hipótesis
experimental.
Cálculo del tamaño de muestra:

Conjunto de cálculos que permiten determinar el número de unidades
experimentales óptimo para llevar a cabo el contraste de una hipótesis
experimental o la estimación de un parámetro poblacional con determinada
precisión.
Coeficiente de Correlación de Pearson:

Medida del grado de asociación lineal entre dos variables cuantitativas. Este
índice puede tomar valores entre –1 y 1, siendo el valor 0 indicativo de falta de
asociación, mientras que valores positivos identifican una relación de
proporcionalidad directa.
Coeficiente de determinación R2:

Coeficiente de correlación al cuadrado entre la predicción de un modelo de
regresión lineal y la variable respuesta. Es una medida del grado de ajuste del
modelo y toma valores en el intervalo [0,1].
Coeficiente de variación:
Medida de la relación entre la dispersión y la media para variables cuantitativas
positivas.
269
Colas:
Ver dirección de la prueba estadística.
Conglomerado:
Agrupación de un número no muy elevado de unidades experimentales con
elevada heterogeneidad en la variable de interés, de manera que la observación de
todas las unidades experimentales de un mismo conglomerado proporciona
directamente una "buena" estimación del parámetro de interés. En el muestreo por
conglomerados, el investigador selecciona al azar una serie de conglomerados y
recoge información sobre todas las unidades experimentales que contienen. Es
habitual considerar hospitales, escuelas, bloques de pisos, o unidades censales
como conglomerados.
Contraste bilateral:
Contraste de hipótesis dónde la hipótesis alternativa no es direccional, por
ejemplo que la media de dos muestras no es la misma. Usualmente, si no hay
garantías claras de la unidireccionalidad de la hipótesis alternativa, la hipótesis
experimental será considerada bilateral.
Contraste de equivalencia:
La hipótesis experimental en los tests de equivalencia es la igualdad entre los
grupos de tratamiento. Los análisis estadísticos son muy particulares: se basan en
dos comparaciones unilaterales simultáneas.
Contraste de hipótesis:
Prueba estadística que se realiza con el objetivo de rechazar una determinada
hipótesis experimental. Cuando el objetivo del estudio es el contraste de
determinada hipótesis experimental, el cálculo del tamaño de muestra responderá
a las preguntas: ¿Cuántas unidades experimentales será necesario incluir en el
estudio para garantizar la detección la hipótesis experimental? ¿Qué potencia
tendrá la prueba estadística para detectar la hipótesis experimental si se incluyen
en el estudio n unidades experimentales? ¿Qué magnitud podrá detectar la prueba
estadística si se incluyen en el estudio n unidades experimentales?
Contraste de no–igualdad:
La hipótesis experimental en las pruebas de no–igualdad es que existen
diferencias entre los grupos en estudio.
Contraste de no–inferioridad:
La hipótesis experimental en las pruebas de no–inferioridad es que el grupo
experimental no es peor que el grupo de referencia. En realidad, se demuestra que
el grupo experimental es superior al grupo de referencia menos un determinado
margen.
Contraste de superioridad (relevante):

La hipótesis experimental en las pruebas de superioridad es que el grupo
experimental es superior al grupo de referencia. En realidad, se demuestra que el
grupo experimental es superior al grupo de referencia más un determinado
margen.
Contraste de significación:
Ver contratse de hipótesis.
Contraste unilateral:
Contraste de hipótesis dónde la hipótesis alternativa es direccional, por ejemplo
que la media de una muestra es superior a la media de otra muestra.
Covariable:
Variable explicativa cuantitativa.
Cuantil:
Nombre genérico para los estadísticos de orden o medidas de posición: mediana,
cuartil, decil, percentil, etc.
Curva de supervivencia:
Representación gráfica de una variable que mide el tiempo transcurrido hasta un
evento, y calculada como 1 – Función de distribución acumulada de la variable.
Delta:
Ver Tamaño del efecto.
Desviación estándar:
Raíz Cuadrada de la Varianza.
271
Desviación típica:
Ver Desviación estándar.
Desviación típica conjunta:

Desviación calculada a partir de dos grupos de medidas de una misma variable,
para la cual se asume que tiene una variabilidad parecida en ambos grupos.
Desviación típica en escala logarítmica:

Desviación típica cuando la variable de interés ha sido transformada previamente
a escala logarítmica.
Dirección de la prueba estadística:

Referencia utilizada para indicar si la hipótesis experimental se realizará mediante
un contraste unilateral (1 cola) (izquierda / derecha) o bien un contraste bilateral
(2 colas).
Dirección del intervalo de confianza:

Referencia utilizada para indicar si el intervalo de confianza se calculará mediante
un intervalo unilateral (1 cola) (izquierda / derecha) o bien un intervalo bilateral
(2 colas).
Diseño balanceado:
Término generalmente usado en diseños experimentales en qué se selecciona el
mismo número de observaciones para cada posible nivel de los factores
experimentales.
Diseño en grupos cruzados:

Diseños dónde se asigna en primera instancia uno de los tratamientos a cada
paciente y posteriormente, después de un periodo de lavado se les asigna otro
tratamiento distinto. De este modo, se puede analizar con más precisión el efecto
propio del individuo requiriendo menor tamaño de muestra para llegar a las
conclusiones deseadas. Proporciona muestras relacionadas ya que un mismo
individuo pertenece a ambas muestras. Para evitar efectos solapados entre
tratamientos (carry over) se suele dejar un periodo de limpieza (washout) entre las
distintas administraciones de los tratamientos.
Diseño en grupos paralelos:

Diseño utilizado para analizar 2 o más grupos de tratamiento aplicados a
pacientes diferentes durante un mismo período de tiempo. Proporciona muestras
independientes para cada grupo de tratamiento.
Diseño enmascarado:
Diseño en el que se adoptan las medidas necesarias para evitar que los sujetos
incluidos en el estudio y los evaluadores del mismo tengan conocimiento del
grupo de tratamiento al cual han sido asignados los pacientes.
Diseño factorial:
El diseño factorial permite comparar el efecto combinado de dos o más
tratamientos. Los grupos de tratamiento se forman utilizando todas las posibles
combinaciones. Por ejemplo, si se pretende comparar dos tratamientos A y B, los
grupos de tratamiento resultantes serían: ningún tratamiento, sólo el tratamiento
A, sólo el tratamiento B y los tratamientos A y B conjuntamente.
Diseño multicéntrico:
Diseño en el que se incluyen sujetos de diferentes centros. En general, los centros
suelen diferir considerablemente entre sí, por lo que este tipo de estudios podrán
llegar a conclusiones más robustas. Los estudios confirmatorios suelen ser
multicéntricos.
Diseño secuencial:
Diseño en el que se realizan diversos análisis intermedios con el objetivo de
detener la inclusión de pacientes en el estudio antes de su finalización si se
pueden detectar evidencias claras que confirmen las hipótesis experimentales. El
cálculo del tamaño muestral así como la toma de decisiones en este tipo de
estudios son muy complejos y requieren complicados cálculos. Los estudios con
un tamaño de muestra prefijado son los más habituales.
Distribución Binomial:
Distribución estadística empleada en el análisis de una variable dicotómica.
Distribución Exponencial:
Distribución estadística empleada en el análisis de la supervivencia.
273
Distribución F:
Distribución estadística empleada en el análisis de la varianza y en los modelos de
regresión.
Distribución Ji–cuadrado:
Distribución estadística empleada en el análisis de variables categóricas y por lo
tanto en la comparación de proporciones.
Distribución log–Normal:
Distribución estadística empleada en el análisis de medias de variables escala
(positivas, asimétricas y con heterogeniedad).
Distribución Normal:
Distribución estadística empleada en el análisis de medias de variables
cuantitativas cuando la desviación estándar es conocida.
Distribución T–Student:
Distribución estadística empleada en el análisis de medias de variables
cuantitativas cuando la desviación estándar es desconocida.
Error de tipo I:
Ver α.
Error de tipo II:

Ver β.
Estadístico:
Medida cuantitativa obtenida a partir de un conjunto de datos con el objetivo de
estimar o contrastar alguna característica de la muestra.
Estimación de parámetros:
Cuando el objetivo del estudio es la estimación de un parámetro con cierto grado
de precisión, el cálculo del tamaño de muestra responderá a las preguntas:
¿Cuántas unidades experimentales será necesario incluir en el estudio para
garantizar una precisión de w unidades en la estimación de determinado
parámetro? ¿Qué precisión se obtendrá al estimar determinado parámetro a partir

de una muestra de n unidades experimentales?
Estrato:
Conjunto de unidades experimentales en cierto sentido homogéneas respecto la
variable de interés. En el muestreo estratificado es posible estimar el parámetro de
interés con mayor precisión seleccionando un mayor número de unidades de los
estratos con menor homogeneidad. Existen diversos métodos para repartir o
asignar la muestra total entre los diferentes estratos, siendo los más habituales: la
asignación simple (equilibrada entre todos los estratos), la asignación
proporcional al tamaño del estrato y la asignación de Neyman que tiene en cuenta
la variabilidad de la variable de interés en cada estrato. Las variables empleadas
con mayor frecuencia para estratificar una muestra son la edad y el sexo de los
individuos, aunque también se suelen emplear variables territoriales como
provincia o comarca.
Estudio aleatorizado:
Estudio en los que el investigador asigna a los sujetos incluidos de forma aleatoria
a las diferentes ramas o secuencias de tratamiento. Este tipo de estudio
proporciona mayor base para obtener conclusiones de causalidad ya que elimina
en gran medida posibles fuentes de sesgo.
Estudio controlado:
Estudio en el que el investigador compara simultáneamente un factor o
intervención de interés frente a un factor o intervención de referencia o de control.
Estudio de equivalencia:
Estudio que pretende demostrar que dos o más tratamientos tienen efectos
equivalentes o similares. Por este motivo se debe especificar un límite de
equivalencia. Los estudios de equivalencia deben incluir un grupo placebo para
dar validez interna al estudio. Si esto no fuera posible, el límite de equivalencia
debería ser más estricto. El límite entonces es fijado teniendo presente cuál sería
la eficacia esperada del placebo, y al mismo tiempo debe ser razonablemente
estrecho para asegurarse que siendo los tratamientos equivalentes, serán
igualmente eficaces.
275
Estudio de no–igualdad:
Estudio que trata de demostrar que dos o más tratamientos no son iguales. Este
tipo de planteamiento es el más habitual de todos.
Estudio de no–inferioridad:
Estudio que pretende demostrar que un tratamiento no es inferior a otro. Se debe
especificar un límite de no–inferioridad. De modo similar a lo que ocurre en los
estudios de equivalencia, los estudios de no–inferioridad deberían incluir un
grupo placebo para asegurar la validez interna del estudio, y al mismo tiempo,
tener en cuenta la eficacia esperada del placebo para definir el límite de no–
inferioridad.
Estudio de superioridad (relevante):

Estudio que intenta demostrar que un tratamiento es superior a otro en cierta
magnitud de relevancia clínica. Estos estudios no se conforman con demostrar
que los tratamientos no son iguales sino que pretenden demostrar que son incluso
superiores teniendo en cuenta un margen de superioridad.
Estudio confirmatorio:
Estudio que permite llegar a conclusiones casi definitivas, ya que suele basarse en
información ya explorada que se desea confirmar. Los estudios confirmatorios
siguen un protocolo escrito y firmado anteriormente a la realización del análisis
donde se detalla de manera clara los objetivos primarios y secundarios, los
respectivos contrastes de hipótesis y el cálculo del tamaño de muestra necesario
para confirmarlos. Suelen tener criterios de inclusión no restrictivos para poder
alcanzar conclusiones sobre poblaciones más amplias.
Estudio exploratorio:
Estudio diseñado para descubrir relaciones entre variables o generar nuevas
hipótesis. Las conclusiones de un estudio de este tipo ofrecen indicios que
deberían ser contrastados posteriormente a través de un nuevo estudio
confirmatorio. Las hipótesis suelen estar poco especificadas e incluso pueden
depender de los datos observados. No obstante, también es necesaria la
especificación de los objetivos a priori. Si el estudio se lleva a cabo con un
número muy reducido de individuos, también recibe el nombre de estudio piloto.
Estudio mixto:
Estudio confirmatorio donde existe la oportunidad de realizar exploraciones de
otras variables. En el protocolo se debe diferenciar claramente la parte
exploratoria de la confirmatoria.
Estudio observacional:
Estudio en el que no existe una intervención clara del investigador en cuanto a los
grupos que se desea comparar. Son de este tipo los estudios de casos y controles y
los estudios de cohortes.
Grupos:
Número de Tratamientos, ramas o muestras de las que consiste el estudio.
Hipótesis alternativa:
Hipótesis que se desea demostrar contraria a la Hipótesis Nula que se contrastará
en el test de hipótesis. También conocida cómo hipótesis experimental.
Hipótesis experimental:
Ver hipótesis alternativa.
Hipótesis nula:
Hipótesis a contrastar en un test de significación. Excepto en los tests de
equivalencia o no–inferioridad, la hipótesis nula postula que no hay asociación o
que no existen diferencias entre las medidas (normalmente medias o
proporciones) de estudio en contraposición a la hipótesis alternativa que postula
diferencias diferentes de cero o bien asociación entre variables.
Intervalo de confianza:
Rango de valores, calculados a partir de las observaciones muestrales que son
considerados que contienen el valor real del parámetro de interés. Un intervalo de
confianza del 95% (o también con un nivel de confianza del 95%) implica que,
cuando todo el proceso de estimación del parámetro de interés es repetido muchas
veces, un 95% de los intervalos de confianza calculados contendrán el valor
verdadero de dicho parámetro.
277
Intervalo confianza asintótico:

Intervalo de confianza calculado a partir de un método que proporciona buenas
aproximaciones cuando el tamaño de muestra es relativamente grande.
Límite de equivalencia:
Margen simétrico construido alrededor de un parámetro medido en determinada
muestra que determina los posibles valores para los que no se apreciarían
diferencias de relevancia clínica respecto a ése parámetro. A partir del margen se
obtiene el intervalo de equivalencia. Si se mide el mismo parámetro en otra
muestra y su valor cae dentro del intervalo de equivalencia, a efectos prácticos se
considerarían muestras equivalentes.
Límite de no–inferioridad:
Margen inferior construido en referencia a un parámetro medido en determinada
obtiene el intervalo de no–inferioridad. Si se mide el mismo parámetro en otra
muestra y su valor cae dentro del intervalo de no–inferioridad, a efectos prácticos
se considerarían muestras equivalentes o bien que el nuevo parámetro es no–
inferior al parámetro inicial.
Límite de superioridad (relevante):

Margen superior construido en referencia a un parámetro medido en determinada
obtiene el intervalo de superioridad. Si se mide el mismo parámetro en otra
muestra y su valor cae dentro del intervalo de superioridad, a efectos prácticos se
consideraría el nuevo parámetro es superior al parámetro inicial.
Media en escala logarítmica:

Media calculada en una variable en la que previamente se ha aplicado la
transformación logarítmica.
Media:
Medida de localización del valor central de una variable continua. Muy útil
cuando la variable de interés tiene una distribución simétrica y no contiene
outliers. Calculada a partir de la suma de todos los valores dividido por el número
total de casos.
Mediana:
Medida de localización del valor central de una variable continua. Muy útil
cuando la variable de interés tiene una distribución asimétrica o contiene outliers.
Calculada a partir del cuantil asociado al percentil 50.
Método Simon bietápico:

Método de investigación empleado en estudios piloto o exploratorios en los que
se desea valorar la eficacia de un tratamiento experimental frente a una eficacia de
referencia. La valoración se lleva a cabo a través del porcentaje de éxitos. La idea
del método consiste en llevar a cabo un análisis intermedio de los resultados para
detener el estudio si no hay indicios del éxito del tratamiento experimental. El
método tiene dos fases. En una primera etapa, la técnica permite determinar un
umbral de éxitos a superar. Si no se consigue sobrepasar el umbral, el estudio
finaliza y el investigador puede concluir que el tratamiento experimental no
ofrece las expectativas de éxito previstas y declararlo en cierto modo inútil. Si se
consigue sobrepasar el primer umbral, el estudio continua y el método
proporciona un nuevo umbral a superar. Si el tratamiento supera el segundo
umbral de éxitos, el investigador puede declarar que el tratamiento mejora la
proporción de referencia o valor teórico. Es te tipo de ensayos reciben el nombre
de estudios secuenciales, ya que en este caso particular se lleva a cabo un análisis
intermedio con el objetivo de detenerlo en caso de futilidad del tratamiento
experimental. En general, los estudios secuenciales requieren un tamaño de
muestra inferior a los estudios directos.
Muestra representativa:
Propiedad atribuible a una muestra únicamente cuando ésta es válida (obtenida sin
sesgo) y fiable (que proporciona suficiente precisión).
Muestra:
Subconjunto de casos u observaciones de una población.
Muestras apareadas:
Ver muestras relacionadas.
Muestras independientes:
Dos o varias muestras de observaciones con la característica que no hay ningún
tipo de dependencia entre las observaciones de cada muestra. Por ejemplo, las
279
muestras obtenidas asignando aleatoriamente los sujetos a diferentes grupos

proporcionan muestras independientes.
Muestras relacionadas:
Dos o varias muestras de observaciones con la característica que cada elemento de
una de las muestras tiene un y sólo un elemento en cada una de las otras muestras
con el cual se puede aparear. Por ejemplo, los mismos individuos y una variable
de interés medida en diferentes momentos del tiempo.
Muestreo aleatorio simple:

Método de muestreo aplicado cuando se seleccionan unidades experimentales de
una población con reemplazo y de manera que todas las unidades tienen la misma
probabilidad de ser escogidas. Si la población es infinita, las probabilidades de
que una determinada unidad sea seleccionada dos veces es nula.
Muestreo aleatorio simple con reposición:

Método de muestreo aplicado cuando se seleccionan unidades experimentales de
una población finita sin reemplazo y de manera que todas las unidades tienen la
misma probabilidad de ser escogidas. Una misma unidad experimental no puede
ser seleccionada dos veces.
Muestreo estratificado:
Método de muestreo aplicado cuando la población está estratificada en función de
la variable de interés. Este método consiste en seleccionar determinado número de
unidades de cada uno de los posibles estratos. (Ver estrato).
Muestreo inverso:
Método de muestreo aplicado a variables dicotómicas cuando el interés consiste
en estimar una proporción de eventos presumiblemente baja. Este método consiste
en incluir unidades experimentales hasta conseguir un determinado número de
eventos.
Muestreo por conglomerados:

Método de muestreo aplicado cuando la población está dividida en diferentes
conglomorados en función de la variable de interés. Este método consiste en
seleccionar un cierto número de conglomerados e incluir todas las unidades
experimentales de cada conglomerado seleccionado. (Ver conglomerado).
Muestreo sistemático:
Método de muestreo aplicado cuando la población está ordenada según cierto
criterio. El método permite seleccionar sistemáticamente las unidades
experimentales, por ejemplo cada 20 unidades se selecciona la primera.
Nivel de confianza:
Nivel de probabilidad fijado por el investigador y utilizado en los intervalos de
confianza para fijar sus límites. (Ver intervalo de confianza).
Nivel de significación:
Nivel de probabilidad fijado por el investigador a partir del cual se rechazará la
hipótesis nula. Convencionalmente se utiliza el nivel de significación igual a 0.05
Odds ratio:
Medida empleada en los estudios observacionales para comparar el riesgo de
sufrir determinado evento entre dos muestras y calculada a partir de la razón de
las ventajas en cada muestra. Es una medida alternativa al riesgo relativo.
Parámetro:
Valor representativo de una población, por ejemplo media, mediana, proporción,
etc.
Percentil:
Medida de posición obtenida de una muestra que permite identificar el valor que
deja por debajo determinado porcentaje entero de casos. Por ejemplo el percentil
50 es el mismo índice que la mediana.
Periodo de inclusión:
Período de reclutamiento de pacientes al estudio. Este índice es empleado en
diversas técnicas de análisis de supervivencia.
Período de seguimiento:
Duración del estudio desde el momento que los pacientes son reclutados hasta la
finalización del mismo. Este índice es empleado en diversas técnicas de análisis
de supervivencia.
281
Población finita:
Si la población de referencia puede considerarse finita, el intervalo de confianza
para determinado parámetro poblacional puede corregirse para obtener una mayor
precisión con el mismo número de unidades experimentales.
Población:
Conjunto normalmente amplio de individuos (o unidades experimentales) con
unas características comunes de interés para el investigador. Por ejemplo: estado
civil, tratamiento, etc.
Potencia:
Probabilidad de rechazar la hipótesis nula cuando en realidad es cierta. La
potencia da un criterio de comparación para el estudio de diferentes tests para la
misma hipótesis, siendo el test más potente el preferido usualmente. Es también la
base de los procedimientos para la estimación del tamaño de muestra requerido
para detectar un efecto de una magnitud particular (tamaño del efecto). En
general, se escogerá el tamaño de muestra que garantice una potencia de 0.8
(80%) al detectar el tamaño del efecto propuesto en la hipótesis alternativa. Se
define la potencia cómo : 1–β, dónde β es el error de tipo II.
Precisión:
Término utilizado para indicar la distancia entre los límites del intervalo de
confianza y el parámetro de interés.
Proporción:
Medida de descripción de variables dicotómicas. Calculada a partir del número de
casos que cumplen determinada condición dividido por el número total de casos.
Prueba χ2 a partir de la aproximación normal:

Prueba χ2 calculada a partir de la aproximación del estadístico a la distribución
normal.
Prueba χ2 para dos muestras independientes:

Prueba para el contraste de la hipótesis experimental que las proporciones de
ocurrencia de determinado evento medido en dos muestras independientes son
diferentes.
Prueba χ2 para una muestra:

Prueba para el contraste de la hipótesis experimental que la proporción de
ocurrencia de determinado evento medido en una muestra es diferente a
determinado valor fijado previamente.
Prueba ANOVA de 1 Factor:

Ver Prueba F.
Prueba binomial exacta:

Prueba exacta basada en la distribución binomial para el contraste de la hipótesis
experimental que la proporción de ocurrencia de determinado evento medido en
una muestra es diferente a determinado valor fijado previamente.
Prueba de McNemar para dos muestras relacionadas:

Prueba para el contraste de la hipótesis experimental que las proporciones de
ocurrencia de determinado evento medido en dos muestras relacionadas son
diferentes.
Prueba de Wald para una covariable en regresión logística:

Prueba para el contraste de la hipótesis experimental que el efecto de una variable
continua al explicar la proporción de ocurrencia de determinado evento medidos
en una muestra no es nulo.
Prueba estadística:
Ver contraste de hipótesis.
Prueba F:
Prueba para el contraste de la hipótesis experimental que las medias de una
variable continua medida en diversas muestras independientes son diferentes.
Prueba Log–Rank:
Prueba para el contraste de la hipótesis experimental que el tiempo de
supervivencia hasta la ocurrencia de determinado evento medido en dos muestras
independientes no es igual.
283
Prueba para la correlación de Pearson:

Prueba para el contraste de la hipótesis experimental que la correlación entre dos
variables continuas medidas en una muestra no es nula.
Prueba T–Student con corrección de Satterthwaite:

variable continua medida en dos muestras independientes son diferentes, cuando
sus varianzas son diferentes.
Prueba T–Student para dos muestras independientes:

variable continua medida en dos muestras independientes son diferentes.
Prueba T–Student para dos muestras relacionadas:

variable continua medida en dos muestras relacionadas son diferentes.
Prueba T–Student para una muestra:

Prueba para el contraste de la hipótesis experimental que la media de una variable
continua medida en una muestra es diferente a determinado valor fijado
previamente.
Prueba U de Mann–Whitney:
Prueba para el contraste de la hipótesis experimental que las distribuciones de una
variable ordinal medida en dos muestras independientes no son iguales.
Prueba Z:
variable continua medida en una muestra independientes es diferente a
determinado valor fijado previamente.
P–Valor:
Probabilidad asociada al test de significación, que mide la probabilidad de obtener
un estadístico más lejano de la hipótesis nula suponiendo cierta la hipótesis nula.
Regresión lineal múltiple:

Técnica empleada para analizar la relación entre una variable respuesta de
naturaleza continua y un conjunto de variables explicativas de naturaleza
cuantitativa.
Riesgo relativo:
Medida empleada en los estudios observacionales para comparar el riesgo de
sufrir determinado evento entre dos muestras y calculado a partir de la proporción
de ocurrencia en ambas muestras. Es una medida alternativa al odds ratio.
Riesgos (hazard):
Término empleado en el análisis de la supervivencia para describir el riesgo de
ocurrencia del evento de interés.
Tamaño del Efecto:

Término general para designar el tamaño estimado de efectos tales cómo
diferencias de efectos entre tratamientos expresados en determinadas magnitudes.
Tamaño muestral a reclutar:

Tamaño de muestra corregido por el posible abandono de determinado porcentaje
de pacientes.
Tamaño muestral:
Se designa así el número de individuos seleccionados en una investigación.
Normalmente, si el objetivo del estudio es contrastar una hipótesis experimental,
se escoge un tamaño de muestra de forma que el estudio tenga una determinada
potencia para detectar un cierto tamaño del efecto.
Tasa de abandonos:
Ver abandonos.
Tasa de mortalidad:
Ver riesgo (hazard).
285
Unidad experimental:
Cada uno de los sujetos o individuos que configuran la muestra.
Valor crítico:
Valor o valores con el que el estadístico calculado a partir de la muestra es
comparado con el objetivo de rechazar o aceptar la hipótesis nula. El valor crítico
se escoge a un determinado nivel de significación.
Variable ajustada:
Terminología empleada en los modelos de regresión para referirse a una variable
explicativa que forma parte de un modelo en el que también figuran otras
variables.
Variable categórica:
Variable cuyos valores representan etiquetas para diversas categorías.
Variable continua:
Variable no restringida a valores particulares excepto por la precisión del
instrumento de medida. Por ejemplo: edad, peso, frecuencia cardiaca, ...
Variable cualitativa:
Ver variable categórica.
Variable cuantitativa:
Variable que mide cantidades, por lo tanto puede ser una variable continua,
escala, discreta u ordinal.
Variable dicotómica:
Variable categórica con exclusivamente dos posibles valores.
Variable discreta:
Variable restringida a un número concreto de valores
Variable escala:
Variable continua y positiva.
Variable explicativa
Variable que supuestamente influye en las variables respuesta. Puede o no ser
controlada por el investigador. Por ejemplo, factores de riesgo u otras fuentes de
variabilidad que pueden influir en la variable respuesta principal.
Variable explicativa principal

Variable explicativa correspondiente al objetivo del estudio. Normalmente
corresponde a la variable grupo de tratamiento.
Variable nominal:
Ver variable categórica.
Variable ordinal:
Variable que permite ordenar una muestra de individuos en función de
determinada característica, aunque las diferencias entre diferentes puntos de la
escala no tienen porqué ser equivalentes. Por ejemplo: La ansiedad medida en el
escala: leve, moderada, severa.
Variable respuesta
Variable asociada al objetivo general del estudio y medida en el individuo cuyas
variaciones tratará de explicar el estudio.
Variable respuesta principal:

Variable respuesta más relevante clínicamente e íntimamente relacionada con el
objetivo principal. Las posibles evidencias clínicas se basarán en su análisis. El
tamaño de muestra del estudio (número de individuos incluidos en el estudio) se
calcula en base al análisis estadístico previsto para contrastar la hipótesis
principal.
Variable tiempo de supervivencia:

Variable cuantitativa que mide el tiempo transcurrido hasta la aparición de
determinado evento.
287
Varianza:
Medida de la dispersión de una variable, calculada a partir del promedio de
distancias al cuadrado entre las observaciones de la muestra y su media.
Violaciones del protocolo:

Conjunto de pacientes que no se incluyen en el análisis debido a un
incumplimiento del protocolo del estudio. Para garantizar que el tamaño de
muestra del estudio es el correcto, se deberá corregir (aumentar) en función del
porcentaje esperado de abandonos y/o violaciones del protocolo.
289
Bibliografía
Cálculos del tamaño muestral y potencia estadística
A comparison of power approximations for Satterthwaite’s test – Commun.
Statist. Simula 24 583–593 (1995).
A simple method of sample size calculation for linear and logistic Regresion –
Hsieh et al. – Statistics in Medicine 17, 1623–1634 (1998).
Applied analysis of variance in the behavioural sciences, New York, Marcel
Dekker. Chapter 8, R. O’Brien, K Muller (1993).
Optimal two–stage designs for phase II clinical trials – R. Simon – Controlled
Clinical Trials 10, 1–10 (1988).
SAS documentation Chapter 56 – The POWER procedure, SAS Institute, Cary,
NC, USA (1999).
Sample size calculation for survival studies using S–Plus: Technical Details of the
n Survival Library – H. Southworth ( 2002).
Sample size calculation for the Wilcoxon–Mann–Whitney test adjusting for ties –
Y. Zhao, D. Rahardja, Y. Qu – Statistics in Medicine (2007)
Sample size determination for comparing several survival curves with unequal
allocations – S. Halabi1, B. Singh – Statistics in Medicine 23, 1793–1815 (2004)
Sample size determinations for r x c comparative trials – JM. Lachin – Biometrics
33, 315–324 (1997) .
Sample size determination for some common nonparametric tests – Gottfried E.
Noether – Journal of the American Statistical Association, 82, 645–647 (1987).
Sample size for clinical studies, 2nd Edition – D. Machin, M. Campbell, P.
Fayers, A. Pinol – Ed. Blackwell Science (1997).
Test for equivalence or noninferiority for paired binary data– Liu et al – Statistics
in Medicine 21, 231–245 (2002).
Muestreo y diseño de experimentos
Diseño razonado de muestras y captación de datos para la investigación sanitaria.
Luis Carlos Silva Ayçaguer ; Ed. Diaz de Santos (2000).
Diseño de Ensayos Clínicos
Clinical Trials, a practical approach – S.J. Pocock – John Wiley & Sons (1983).
Introducción a la Estadística
Material del “Curso a Distancia sobre Técnicas Estadísticas en Biomedicina” Ed.

GSK (2002–2004). http://www.e–pfb.com
Algoritmos para las funciones estadísticas utilizadas por Ene 3.0
Algorithm AS 63 Applied. Statistics. (1973), Vol. 22, No. 3
Algorithm AS 66 Applied Statistics (1973) Vol. 22 No. 3
Algorithm AS 91 Applied Statistics (1975) Vol. 24 No. 1
Algorithm AS 190 Applied. Statistics. (1983) Vol. 32, No. 2
Algorithm AS 226 APPL. Statistics. (1987) Vol. 36, No. 2
Algorithm R 84 Applied Statistics. (1990) Vol. 39
Algorithm AS 275 Applied. Statistics. (1992), Vol.41, No.2

Manual ENE 30 en Red PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Manual ENE 30 en Red PDF

Caricato da

Copyright:

Formati disponibili

Llorenç Badiella Busquets

Alejandro Pedromingo Marino

Cálculo del tamaño muestral

Aplicable a 61 diseños incluyendo:

Programación Ene 3.0: Albert Teixidó

Conceptos, errores y estrategias en el cálculo del TM 3

Comparación de no–igualdad entre las medias de dos muestras relacionadas de

Ejemplo 45. Comparación de superioridad relevante entre las medias de dos

fundamentos de las pruebas estadísticas. En “Consideraciones sobre parámetros

Además incluye nuevas capacidades de asistencia al usuario:

 Corrección del TM por abandonos.

Conceptos, errores y estrategias en el

Como se verá esto no es así, y será conveniente utilizar cálculos matemático–

¿Qué es el tamaño muestral?

¿Es necesario el uso de la estadística?

Dos propiedades básicas que debe tener una muestra: validez y

¿Cuándo es necesario calcular el TM?

El cálculo del TM está basado en intangibles

 En la aversión al riesgo del investigador

¿Es objetivo el TM?

Tipos básicos de planteamientos de estudios: estimación o contraste

¿Qué interviene en el TM?

La variable respuesta condiciona todo el estudio

Influencia de la dispersión o variabilidad de la respuesta

forma explícita. Para mayor información, la desviación típica de una proporción p

Tipo de muestreo empleado

Intervalos de confianza simétricos o asimétricos

medias y al 100% (o 0%) en el caso de proporciones. Esto corresponde al caso

Precisión, tamaño del efecto y expectativas de diferencias

Aversión al riesgo del investigador

Riesgo de que existan diferencias reales pero no encontrar significación

En el extremo con α=0 ó β=0, el TM sería igual al tamaño de la población.

probabilísticos, ni imprecisiones. Los resultados presentarían validez y fiabilidad

¿Cuál es el espíritu de la investigación: abierto o dirigido?

¿Qué se trata de probar: no–igualdad, equivalencia o no–inferioridad?

Equilibrio en el tamaño de los grupos de tratamiento

¿Cuál es el objetivo del estudio: exploratorio o confirmatorio?

Requerimientos generales en los estudios de estimación de

 El tipo de parámetro a estimar: medias, proporciones, RR u OR, cuantiles, etc

Requerimientos generales en los estudios de Contraste de Hipótesis

Más de dos muestras independientes

¿Qué puede ocurrir si se toma un TM arbitrario?

Errores básicos en el cálculo del tamaño muestral

El mito de la fracción poblacional

Enfermos vs. semillas

Tesis vs. tesinas y publicaciones

Intervalos, errores y decimales exóticos

sido previamente establecido por criterios de conveniencia. Lo mismo puede decirse

Ventajismo basado en la biodiversidad

En estudios con gran soporte bibliográfico, prácticamente cualquier TM es

Múltiples tamaños muestrales

Confundir el error estándar con la desviación típica

las fórmulas del TM siempre se solicita la desviación típica generalmente denotada

Escala logarítmica o escala natural

No–inferioridad, no–igualdad o superioridad

La justificación a posteriori del TM o el estadístico bombero

Estrategias básicas en el cálculo del tamaño muestral

Un estudio, varios investigadores

Seguir o no seguir: Tablas o gráficos de potencia

Qué hacer en caso de desinformación total en estudios de estimación

Qué hacer en caso de desinformación total de medias y desviaciones

Desconocimiento total de las diferencias relevantes

Desconocimiento de la prevalencia u otras proporciones

Corrección del TM por abandonos.

En la aversión al riesgo del investigador

Riesgo de que existan diferencias reales pero no encontrar significación

El tipo de parámetro a estimar: medias, proporciones, RR u OR, cuantiles, etc

No analizar inferencialmente los datos. Está formalmente contraindicado

512MB memoria RAM