Analisis Pruebas de Hipotesis Govanna Reyes Salgado IGE 4A

Encabezado: TRABAJO DE ANALISIS
Pruebas de hipótesis con dos muestras y varias muestras de datos numéricos
Govanna Reyes Salgado
Instituto Tecnológico de Nuevo Laredo
Mayo 07 de 2020
Notas del autor
M.E.S. Pablo Daniel Lugo Amador, Estadística Inferencial I, Instituto Tecnológico de Nuevo
Laredo
La correspondencia relacionada con esta investigación ser dirigida a nombre de Pablo Daniel
Lugo Amador, Instituto Tecnológico de Nuevo, Av. Reforma 2007.
Contacto: govanna_13_05_00@hotmail.com
Nuevo Laredo, Tamaulipas. Mayo, 2020.

Contenido
Introducción................................................................................................................................1
Distribución Normal...................................................................................................................2
Propiedades de la distribución normal:...................................................................................3
La distribución normal estándar N (0,1):................................................................................4
Tipificación de la variable:.....................................................................................................4
Cálculo de probabilidades en distribuciones normales:..........................................................5
t de Student.................................................................................................................................7
Los usos para los cueles es idónea esta distribución:..............................................................7
Características de la distribución t de Student:.......................................................................7
Grados de libertad:..................................................................................................................8
Cómo diferenciarla de las otras distribuciones:......................................................................8
Teoría de pequeñas muestras:.................................................................................................8
Distribución de probabilidad T-Student:.................................................................................9
Propiedades de las distribuciones t:......................................................................................11
Cálculo de la distribución T Student:....................................................................................11
Pruebas de significancia............................................................................................................13
Pruebas uni y bilateral:..........................................................................................................14
Errores de Tipo I y de Tipo II:..............................................................................................15
Comparación de dos muestras independientes: Pruebas t para las diferencias entre dos medias
.......................................................................................................................................................17
Condiciones de aplicación del test t para dos medias:..........................................................19
Intervalo de confianza para la diferencia de medias:............................................................21
Pruebas de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales
.......................................................................................................................................................22
Definición:............................................................................................................................22
Características:......................................................................................................................23
Cuando usar esta distribución:..............................................................................................23
En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:...........23
Grados de libertad:................................................................................................................23
Como usar la tabla:...............................................................................................................24
Grafica de la distribución F:..................................................................................................24
Para varianzas y de igualdad de las varianzas de dos poblaciones normales:......................24
Comparaciones de dos muestras pareadas................................................................................27
Muestra:................................................................................................................................27
Muestras pareadas:................................................................................................................27
Características:......................................................................................................................27
Comparaciones de dos muestras pareadas:...........................................................................27
Escalas de comparación:.......................................................................................................28
Proceso:.................................................................................................................................28
Modelo totalmente aleatorio: análisis de varianza de un factor................................................30

Modelos de ANOVA:...........................................................................................................30
Para poder aplicar esta técnica, es necesario que se verifiquen las siguientes condiciones
previas:.......................................................................................................................................32
ANOVA de un factor:...........................................................................................................32
Selección del tamaño de muestra para estimar la diferencia de dos medias.............................35
Cálculo del tamaño de la muestra para estimar la diferencia de medias:.............................35
Aplicaciones..............................................................................................................................36
Bibliografías..............................................................................................................................37
1
Introducción
En el siguiente documento se presentará la prueba de hipótesis, como también otros aspectos
de la inferencia estadística que al igual que la estimación de la muestra. Se desarrolla una
metodología paso a paso que le permite hacer inferencias sobre un parámetro poblacional
mediante el análisis diferencial entre los resultados observados y los resultados de la muestra
esperados si la hipótesis subyacente es realmente cierta. En el problema de estimación se trata de
elegir el valor de un parámetro de la población, mientras que en las pruebas de hipótesis se trata
de decidir entre aceptar o rechazar un valor especifico (por ejemplo, si el nivel de centramiento
de un proceso es o no lo es).
Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmación acerca
de una población y/o sus parámetros.

2
Distribución Normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carlo Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva; de ahí que también se le conozca, más
comúnmente, como la “campana de Gauss”. La distribución de una variable normal está
completamente determinada por dos parámetros, su media y su desviación estándar, denotadas
generalmente por µ y σ. Con esta notación, la densidad de normal viene dada por la ecuación:
Que determina la cuerva en forma de campana que tan bien conocemos:
Así, se dice que una característica X sigue una distribución normal de media µ y varianza σ²,
y se denota como X = N (µ, σ), si su función de densidad viene dada por la ecuación 1.
Al igual que ocurría con un histograma, Enel que el área de cada rectángulo es proporcional al
número de datos en el rango de valores correspondiente si, tal y como se muestra en la figura 1,
en el eje horizontal se levanta perpendicular en dos puntos a y b, en área bajo la curva delimitada
por esas líneas indica la probabilidad de que la variable de interés X, tome un valor cualquiera en
3
ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus
“ramas” se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución
normal, será mucho más probable observar un dato cercano al valor medio que uno se encuentre
muy alejado de éste.
Propiedades de la distribución normal:
La distribución normal posee ciertas propiedades importantes que conviene destacar:
I. Tiene una única moda, que coincide con su media y su mediana.
II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞ y
+∞ es teóricamente posible. El área total bajo la curva es, por lo tanto, igual a 1.
III. Es simétrica con respecto a su media µ. Según esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.
IV. La distancia entre la línea trazada en la media y el punto de inflexión de la cuerva es
igual a una desviación típica (σ). Cuanto mayor sea σ, más aplanada será la curva de la
densidad.
V. El área bajo la curva comprendido entre los valores situados aproximadamente a dos
desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo (µ -1.96σ, µ +1.96σ).
VI. La forma de la campana de Gauss depende de los parámetros µ y σ. La media indica la
posición de la campana, de modo que para diferentes valores de µ la gráfica es
desplazada a lo largo del eje horizontal. Por otra parte, le desviación estándar
determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de σ, más
se dispersarán los datos en tomo a la media y la cuerva será más plana. Un valor
4
pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos
cercanos al valor medio de la distribución.
La distribución normal estándar N (0,1):
Se observó que no existe una sola distribución de probabilidad normal, sino una “familia” de
ellas. Como sabemos, cada una de las distribuciones puede tener una media (µ) o una desviación
estándar distinta (σ). Por tanto, el número de distribuciones normales es ilimitado y sería
imposible proporcionar una tabla de probabilidades para cada combinación de µ y σ.
Para resolver este problema se utiliza un solo “miembro” de la familia de distribuciones
normal, aquella cuya media es 0 y desviación estándar 1 que es la que se conoce como
distribución estándar normal, o tipificada o reducida, de forma que todas las distribuciones
normales pueden convertirse a la estándar, restando la media de cada observación y dividiendo
por la desviación estándar.
La probabilidad de la variable X dependerá del área del recinto sombreado en la figura. Y
para calcularla utilizamos una tabla.
Tipificación de la variable:
Para poder utilizar la tabla tenemos que transformar la variable X que sigue una distribución
N (µ, σ) en otra variable Z que siga una distribución N (0,1).

5
Si tenemos un ejercicio con valores X, µ y σ hacemos el cambio de variables y encontramos
Z, luego vamos a la tabla y con el valor Z hallamos la probabilidad = área.
Cálculo de probabilidades en distribuciones normales:
La table nos da la probabilidad de P (z ≤ k), siendo z la variable tipificada. Estas
probabilidades nos dan la función de distribución Φ(k).
Φ(k) = P(z ≤ k)
En la tabla de valores de k se ubican las unidades y décimas en la columna de la izquierda y
las centésimas en la fila de arriba.

6
Justamente, esta tabla nos proporciona la probabilidad desde que ocurran sucesos menores
que Z = 0.46. Esto es, la probabilidad de que ocurran secesos desde menos infinito hasta el valor
de Z de 0.46 es de 0.6772. Esto es, un 67.72%.
Sucesos menos que Z = 0.46 es lo mismo que decir que la temperatura sea menor que 21°C.
Con la variable X hablamos de temperatura, con la variable estándar hablamos de Z.

7
t de Student
La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en
una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de artículos
científicos debido a una difusión previa de secretos industriales. De ahí que Gosset publicase sus
resultados bajo el seudónimo de Student.
En muchas ocasiones no se conoce σ y el número de observaciones en la muestra es menor de
30. En estos casos se puede utilizar la desviación estándar de la muestra S como una estimación
de σ, pero no es posible usarla distribución Z como estadístico de prueba. El estadístico de
prueba adecuado es la distribución t. A veces es necesario hacer análisis de muestras pequeñas
por razones de tiempo y reducción de costos, para ello fue descubierta la distribución y por
William Gosset, un especialista en estadística, que la publicó en 1908 con el seudónimo de
Distribución t Student.
Los usos para los cueles es idónea esta distribución:
I. Para determinar el intervalo de confianza dentro del cual se puede estimar la media de
una población a partir de muestras pequeñas (n<30).
II. Para probar hipótesis cuando una investigación se basa en muestreo pequeño.
III. Para probar si dos muestras provienen de una misma población.
Características de la distribución t de Student:
En muchas ocasiones no se conoce σ y el número de observaciones en la muestra n<30. En
estos casos, se puede utilizar la desviación estándar de la muestra S como una estimación de σ,
pero no es posible usar la distribución Z como estadístico de prueba. El estadístico de prueba
adecuado es la distribución t. Sus aplicaciones en la inferencia estadística son para estimar y
probar una media y una diferencia de medias (independientes y pareada).

8
Grados de libertad:
Existe una distribución t distinta para casa uno de los posibles grados de libertad. Y podemos
definirlos como el número de valores que podemos elegir libremente.
Cómo diferenciarla de las otras distribuciones:
La distribución de T es similar a la distribución de Z, pues amabas son simétricas alrededor de
una media de cero. Ambas tienen distribuciones de campana para la distribución y es más
variable debido a que tienen fluctuaciones en 2 cantidades. La distribución de T difiere de la de Z
en la que la varianza de T depende del tamaño de la muestra n y siempre es mayor a 1,
únicamente cuando n tiende a ∞ las dos distribuciones serán iguales.
Teoría de pequeñas muestras:
En probabilidad y estadística, la distribución-t, o distribución t de Student es una distribución
de probabilidad que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que
también la podemos utilizar con muestras aleatorias de tamaño grande.
Para definir grados de libertad se hará referencia a la varianza maestral:

9
Distribución de probabilidad T-Student:
Una variable se distribuye según el modelo de probabilidad t o T de Student con k grados de
libertad, donde k es un entero positivo, si su función de densidad es la siguiente:
La gráfica de esta función de densidad es simétrica, respecto del eje de ordenada, con
independencia del valor de k, y de forma algo semejante a la de una distribución normal:

10
Su valor medio y varianza son:
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de la
distribución t es similar a la de la distribución normal estándar: ambas son simétricas y
unimodales, y el valor máximo de la ordenada se alcanza en la media µ = 0. Sin embargo, la
distribución t tiene colas más amplias que la normal; esto es, la probabilidad e las cosas es mayor
que en la distribución normal. A medida que el número de grados de libertad tiende a infinito, la
forma límite de la distribución t es la distribución normal estándar.

11
Propiedades de las distribuciones t:
I. Cada curva t tiene forma de campana con centro en 0.
II. Cada curva t, está más dispersa que la cuerva normal estándar.
III. A medida que k aumenta, la dispersión de la curva t correspondiente disminuye.
IV. A medida que k→∞, la secuencia de curvas t se aproxima a la curva normal estándar.
Cálculo de la distribución T Student:
I. Plantear hipótesis nula (Ho) e hipótesis alternativa (Hi).
La hipótesis alternativa plantea matemáticamente lo que queremos demostrar.
La hipótesis nula plantea exactamente lo contrario.
II. Determinar nivel de significancia.
Rango de aceptación de hipótesis alternativa. α
Se considera:
 0.05 para proyectos de investigación.
 0.01para aseguramiento de calidad.
 0.10 para encuestas de mercadotecnia y políticas.

12
III. Evidencia muestral.
Se calcula la media y la desviación estándar a partir de la muestra.
IV. Se aplica la Distribución t de Student para calcular la probabilidad de error (P) por
medio de la fórmula:
V. En base a la evidencia disponible se acepta o se rechaza la hipótesis alternativa.
 Si la probabilidad de error (P) es mayor que el nivel de significancia:
Se rechaza la hipótesis alternativa.
 Si la probabilidad de error (P) es menor que el nivel de significancia:
Se acepta la hipótesis alternativa.

13
Pruebas de significancia
La prueba de significancia es una de las ramas principales de la inferencia estadística. La
finalidad de la prueba de significancia es decidir si una afirmación acerca de un parámetro de
población es verdadera. Por ejemplo, es posible desear determinar si afirmaciones como las
siguientes son ciertas:
I. El tiempo promedio de terminación de este examen es de 80 minutos.
II. El 3% de la producción está defectuosa.
Ocasionalmente quizá se quiera evaluar una afirmación que no especifique realmente el valor
del parámetro en cuestión:
I. El porcentaje del desempleo es el mismo en dos ciudades vecinas.
II. La razón promedio de kilómetros por litro es la misma para los tres tipos de gasolina.
El objeto de la prueba de significación es evaluar proposiciones o afirmaciones acerca de los
valores de los parámetros de población.
El aspecto principal de la prueba de significancia es determinar si la diferencia entre un valor
propuestos de un parámetro de población y el valor estadístico de la muestra se debe
razonablemente a la variabilidad del muestreo, o si la discrepancia es demasiado grande para ser
considerada de esa manera.
El primer paso de la prueba se significancia es formular dos hipótesis con respecto a dicho
aserto. Las hipótesis son explicaciones potenciales (teorías) que intenta informar acerca de
hechos observados en situaciones en las que existen algunos factores desconocidos. Definiéndose
formalmente dos tipos de hipótesis que se requieren formular. La que señala que la proposición
es verdadera recibe el nombre de hipótesis nula y se representa mediante el símbolo H0; y la

14
segunda, que afirma que la proposición es falsa se denomina hipótesis alternativa y se designa
mediante el signo H1.
En segundo paso en la prueba de significancia es identificarla distribución de muestreo
adecuada, ya que ésta describirá ampliamente la variación casual.
El nivel de significancia de una prueba es la probabilidad de rechazar una hipótesis nula que
sea verdadera.
El tercer paso es una prueba de este tipo es seleccionar un nivel de significación que sea
aceptable. Esto, a su vez, indicará un valor crítico correspondiente que servirá como un estándar
de comparación respecto al cual juzgar un “valor estadístico de prueba” observado.
Por lo tanto, la esencia de una prueba de significancia es dividir una distribución de muestreo
con base en el supuesto de que H0 es verdadera, en regiones de aceptación y rechazo respecto a
H0. Un valor crítico se selecciona con base a una probabilidad especifica de que el tomador de
decisiones esté dispuesto a aceptar o rechazar una H0 verdadera, Un valor estadístico de prueba
se calcula a partir de datos de la muestra y del valor esperado (propuesto), el cual es comparado
con el valor crítico. Un valor estadístico de prueba es superior al valor crítico señala que se debe
rechazar H0 (es decir, que la sola variabilidad del muestreo no tendrá en cuenta el valor
estadístico de muestrea observado), mientras que un valor de prueba menor que el valor critico
indica que se debe aceptar H0.
Pruebas uni y bilateral:
El interés por detectar deviaciones no aleatorias. (es decir, significativas) a partir de un
parámetro especificado, puede comprender desviaciones en ambas direcciones o en unas sola.
En esencia, la hipótesis alternativa se utiliza para indicar qué aspecto de variación no aleatoria
resulta de interés. Existe tres casos posibles:

15
I. Concentrarse en ambas direcciones.
II. Concentrarse en desviaciones por debajo del valor esperado.
III. Concentrarse en deviaciones por encima del valor esperado.
Obsérvese que la hipótesis nula se representa de la misma forma, independientemente de cuál
sea la hipótesis alternativa.
I. En el primer caso: un valor demasiado por encima o demasiado por debajo del valor
esperado causaría un rechazo de la hipótesis nula.
II. En el segundo caso: únicamente un valor demasiado abajo del valor esperado
rechazaría la hipótesis nula.
III. En el tercer caso: ocurre justamente lo opuesto, dado que sólo calores muy por encima
del valor esperado causan rechazo.
En la práctica, se utiliza la prueba bilateral siempre que la divergencia en ambas direcciones
sea crítica, mientras que la prueba de cola izquierda es útil cuando se quiere observar si se ha
cumplido un estándar mínimo, y la prueba de la cola derecha sirve cuando estándares máximos
no deber ser excedidos.
Errores de Tipo I y de Tipo II:
Existen dos tipos de errores que son inherentes al proceso de la prueba de significación. Ya se
ha observado que el creer que H0 es falsa cuando realmente es verdadera, puede conllevar cierto
riesgo. La probabilidad de cometer este error es igual al nivel de significancia de una prueba α.
También se conoce como error de tipo I. Un segundo tipo de error que también se puede
presentar, es aceptar la H0 cuando no es verdadera. Este recibe el nombre de tipo II y se le
designa el símbolo β.
16
Naturalmente existe la esperanza de que H0 sea aceptada cuando sea verdadera, y rechazada
cuando sea falsa. Por tanto, en cualquier prueba pueden presentarse cuatro posibilidades. Es
importante saber que una vez que se toma una decisión, ésta puede ser correcta o incurrir en
algún tipo de error, y la decisión (aceptada o rechazada) indicará qué tipo de error es posible.
Obsérvese también que, cuando H0 es verdadera no puede haber tipo II, y cuando H0 es falsa no
se puede cometer un error de tipo I.
Se comete errores de tipo I si se rechaza H0 cuando es verdadera. La probabilidad de un
error de tipo I es igual al nivel de significación de una prueba de hipótesis.
Se comete un error de tipo II si se acepta H0 cuando no es verdadera.
Sin embargo, existe una relación inversa entre los errores tipo I y de tipo II: si disminuye la
probabilidad de un error de tipo I, respecto al de incurrir en uno de tipo II, aunque en la práctica
es común seleccionar tradicionalmente niveles de errores tipo I y pasar por alto los de tipo II.
17
Comparación de dos muestras independientes: Pruebas t para las diferencias entre dos
medias
Aunque podemos utilizar la t de Student para contrastar la media de una muestra y la media
poblacional de la que ha sido extraída (problema más simple referido a una sola muestra), el uso
más habitual de esta distribución es el de comparar las medias de una variable cuantitativa
continua entre dos grupos independientes.
Este tipo de problemas habrá siempre dos variables:
I. Una cuantitativa (variable dependiente que se compara).
II. Otra cualitativa dicotómica (variable independiente).
Se trata de comprobar si la variable cuantitativa depende de la variable dicotómica, es decir,
calcularemos las medias de la variable continua para los dos grupos de la variable cualitativa y
crearemos el contraste para determinar si existen diferencias significativas o no entre las medias
de dos muestras independientes.
Se plantea una hipótesis nula y una hipótesis alternativa, y a partir de estas hipótesis se tiene
que comprobar si la diferencia que existe entre las dos medias es debido a que realmente una
hipótesis es más efectiva que la otra, o si las diferencias observadas se podrían explicar
simplemente por azar.
Para poder resolver este tipo de problemas se aplica la expresión de la t de Student para
comparar dos medias:
Donde EEDM es el “error estándar de la diferencia de medias”.

18
Podemos ver que la t de Student se obtiene dividiendo el efecto entre un error (en este caso,
error estándar de la diferencia de medias) que expresa la variabilidad aleatoria esperada.
Como en la mayoría de los test estadísticos, todo el secreto está en dividir la diferencia
observada por un término de error que estima la variabilidad biológica aleatoria.
I. Si la diferencia observada es mucho mayor que la variabilidad biológica aleatoria
esperada, entonces el consciente t tendrá un valor grande y diremos que hay
diferencias significativas.
II. Si la diferencia observada es pequeña en relación a la variabilidad biológica esperada,
entonces la t tendrá un valor pequeño y no podremos decir que existen diferencias
significativas.
Como regla general, si el valor de t que hemos encontrado es superior al tabulado se rechaza
la hipótesis nula y se podrá afirmar que hay diferencias significativas entre ambas medias.
Ahora solo nos falta saber qué es eso del error estándar de la diferencia de medias (EEDM).
Primero tenemos que usar una varianza común llamada varianza ponderada Sp². Para calcularla
se hace una media ponderada entre las dos varianzas. Se pondera cada varianza por los grados de
libertad (n-1) de su grupo:
La desviación estándar ponderada (Sp) será:

19
Una vez que sabemos cuál es la desviación estándar ponderada, ya podemos calcular el
EEDM, mediante la siguiente expresión:
Condiciones de aplicación del test t para dos medias:
Antes de aplicar el test que acabamos de ver, debemos comprobar si se cumplen las
condiciones de aplicación.
Las condiciones de aplicación del test t para comparar dos medias son:
I. Normalidad
La variable cuantitativa o dependiente ha de seguir aproximadamente una distribución normal
dentro de cada grupo. Habitualmente se suele emplear el siguiente criterio: cuando tanto n como
m son mayores o iguales a 3º se puede presumir que la aproximación a la normal será buena.
Se debe comprobar si la variable cuantitativa se aproxima a la normal hay que verificar que en
cada grupo se cumplen los 3 requisitos siguientes:
 Comprobar que el máximo y el mínimo queden dentro del intervalo definido por:
Media ± 3 desviaciones estándar.
 Que la asimetría (en valor absoluto) sea menor que dos veces su error estándar:
lAsimetríaI < 2 errores estándar de asimetría.
 Que la curtosis (en valor absoluto) sea menor que dos veces su error estándar:
ICurtosisI < 2 errores estándar de curtosis.
Si se cumplen estos tres requisitos, podemos asumir que la distribución es normal. Si no se
cumple la condición de normalidad, puede intentarse que mejore la aproximación a la

20
normalidad mediante una transformación de los datos de la variable cuantitativa en sus
logaritmos.
En la práctica, habitualmente, realizaremos un test de normalidad. Existen diversos test para
comprobar si los valores de una variable siguen o no la distribución normal. Cuando resultan
significativos (p<0.05) se rechaza la hipótesis de normalidad, tendremos evidencia de que los
datos no siguen una distribución normal.
Si finalmente la variable no se aproxima a la normalidad, se deben aplicar pruebas no
paramétricas.
II. Homogeneidad de Varianzas (Homocedasticidad)
Además de seguir una distribución normal hay que comprobar que las varianzas de ambos
grupos sean iguales, es decir, homogéneas.
Mediante la prueba F de Snedecor para la homogeneidad de varianzas podremos comprobar
que no hay diferencias significativas entre las varianzas. Para ellos calculamos las varianzas de
cada grupo y obtenemos al cociente:
A continuación, se calculan los grados de libertad del numerador y denominador que son (n-1)
y (m-1) respectivamente, y se busca en las tablas de la F el valor tabulado para p=0.05. Cuanto
más diferentes sean las varianzas, mayor valor tendrá F y superara el valor critico de las tablas.
Si la F calculada es superior al valor tabulado, pensaremos que las varianzas no son homogéneas
entre sí.
21
Intervalo de confianza para la diferencia de medias:
Con lo visto hasta ahora hemos resuelto el problema de la comparación de dos grupos
independientes, pero se ha llegado a una conclusión algo limitada: “no existen diferencias
significativas”. Faltan algo imprescindible: estimar la magnitud de la diferencia entre ambos
grupos. Vimos que esto se resolvía calculando unos límites de confianza a la diferencia de
medias.
La expresión es parecida al intervalo de confianza para una media, pero ahora se utiliza una
diferencia de medias y se usa el error estándar de la diferencia de medias:

22
Pruebas de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones
normales
Esta razón F fue creada por Ronaldo Fisher (1890- 1962) matemático británico, cuyas teorías
estadísticas hicieron mucho más precisos los experimentos científicos. Usada en teoría de
probabilidad y estadística, la distribución F es una distribución de probabilidad continua.
También se le conoce como distribución F de Snedecor por George Snedecor o como
distribución F de Fisher-Snedecor por Ronald Fisher.
Esta prueba se usa como estadística de prueba en varias situaciones. Igualmente se emplea
para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. La cual es
útil para determinar si una población normal tiene una mayor variación que la otra. También se
aplica cuando se trata de comparar simultáneamente varias medias poblacionales.
Definición:
Esta es la distribución de probabilidad de la razón de dos varianzas provenientes de dos
poblaciones diferentes. Por medio de esta distribución es posible determinar la probabilidad de
ocurrencia de una razón especifica con V1 =n1 y V2=n2-1, grados de libertad en muestras de
tamaño n1 y n2.
La variable aleatoria F se define como el cociente de dos variables aleatorias chi-cuadradas
independientes, cada una dividida entre sus respectivos grados de libertad.

23
Características:
I. Existen una “familia” de distribuciones F. Un miembro especifico de la familia se
determina por dos parámetros: los grados de libertad en el numerador y en el
denominador.
II. La distribución F es una distribución continua.
III. La distribución F tiene un sesgo positivo F, no puede ser negativa.
IV. A medida que aumentan los valores, la curva se aproxima al eje x, pero nunca lo toca.
V. Está relacionada con el cociente de varianzas.
VI. Sus valores varían de 0 a infinito.
Cuando usar esta distribución:
Es la distribución más importante en experimentación pues permite hacer cálculos sobre
varianzas diseminadas determinando si las diferencias mostradas son significativas y por lo tanto
atribuibles a cambios importantes en el comportamiento de las poblaciones en estudio.
En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:
I. La hipótesis de que las medias de múltiples poblaciones normalmente distribuidas y
con la misma desviación estándar son iguales. Esta es, quizás, la más conocida de las
hipótesis verificadas mediante el test F y el problema más simple del análisis de
varianza.
II. La hipótesis de que las desviaciones estándar de dos poblaciones normalmente
distribuidas son iguales.
Grados de libertad:
Se llama grados de libertad al número de movimientos simples que puede tener un cuerpo o
un punto material.
24
Se obtiene restando uno al número de elementos de la muestra.
Así, V1 =n1 y V2=n2-1
Como usar la tabla:
I. Para extraer los valores de probabilidad de esta tabla se sigue el siguiente
procedimiento:
II. Extraer muestras de dos poblaciones y estimar las desviaciones estándar.
III. Determinar los grados de libertad.
IV. Calcular el valor de F= s 21 / s 22.
V. Localizar en tablas, la probabilidad asociada a los valores de F: V1 y V2. En algunos
casos se puede interpolar, de lo contrario, se escoge el que más se le aproxime.
Grafica de la distribución F:
La forma de la representación gráfica depende de los valores m y n, de tal forma que, si V1 y
V2 tienden a infinitos, dicha distribución se asemeja a la distribución normal.
Para varianzas y de igualdad de las varianzas de dos poblaciones normales:
La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos
poblaciones es evidente a partir del análisis de una sola población.
Intuitivamente, podríamos comparar las varianzas de dos poblaciones σ 21 y σ 22, utilizando la
razón de las varianzas muestrales s 21 / s 22. Si s 21 / s 22 es casi igual a 1, se tendrá poca evidencia
25
para indicar que σ 21 y σ 22 no son iguales. Por otra parte, un valor muy grande o muy pequeño para
s 21 / s 22, proporcionará evidencia de una diferencia en las varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada
independientes, cada una divida entre sus respectivos grados de libertad. Esto es,
donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad v 1 y v 2
respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribuciones ji-cuadradas con
grados de libertad, respectivamente. Entonces la distribución de la variable aleatoria
está dada por:
0<x<∞, y se dice que sigue la distribución F
con grados de libertad en el numerador y grados de libertad en el denominador.
La media y la varianza de la distribución F son:
para
para
26
La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la derecha. La
distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sin embargo, se
encuentra centrada respecto a 1, y los dos parámetros proporcionan una flexibilidad
adicional con respecto a la forma de la distribución.
Si s 21 y s 22 son las varianzas muestrales independientes de tamaño n 1 y n 2 tomadas de
poblaciones normales como varianzas σ 21 y σ 22, respectivamente, entonces:
Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística del autor
Güenther, se tendrá que buscar primero los grados de libertad dos para luego localizar el área
correspondiente, relacionándola con los grados de libertad uno, para calcular el valor de F.
Las tablas tienen la siguiente estructura:
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente:
27
Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma depende de
dos variables que son los grados de libertad.
Comparaciones de dos muestras pareadas
Muestra:
Es una parte de la población, seleccionada por técnicas estadísticas, en la que a cada uno de
sus miembros se toma las características que se quiere estudiar.
Muestras pareadas:
Hay situaciones cuando cada observación en la muestra 1 está correlacionada de alguna forma
con una observación en la muestra 2.
En este caso, decimos que la data ocurre en pares.
Características:
I. Cada observación en una muestra está directamente relacionada con otra observación
en la otra muestra.
II. Cada individuo es observado dos veces.
III. Las dos muestras difieren solo en el factor que interesa comparar.
IV. Las dos muestras deben ser del mismo tamaño.
Comparaciones de dos muestras pareadas:
Como hemos estado analizando este tipo de muestras; estas representan la falta de
independencia entre las observaciones de los grupos, y puede ser una característica de diseño del
28
estudio para buscar fundamentalmente una mayor eficiencia del contraste estadístico al disminuir
la variabilidad. En otras ocasiones con este tipo de diseño pareado lo que se busca es dar una
mayor validez a las inferencias obtenidas, controlando o eliminando la influencia de variables
extrañas cuyo efecto ya es conocido o sospechado, y que se dese desea que intervengan en el
estudio actual pudiendo enmascarar el efecto del tratamiento o de la variable de interés.
Escalas de comparación:
Las escalas de comparación pareada le piden al participante que elija uno de dos productos de
un conjunto, basándose en algunos criterios expresados de manera que el participante expresa
una serie de juicios pareados entre objetos.
 En el lado positivo:
Las comparaciones pareadas superan varios problemas de las escalas tradicionales de orden de
rango:
I. A las personas les resulta más fácil elegir o seleccionar un aspecto de una serie de dos,
que clasificar un gran conjunto de datos.
II. Se superó el problema de sesgo del orden: en el ordenamiento de aspectos o de
preguntas no hay un patrón que cree una fuente de sesgo.
 En el lado negativo:
Debido a que se evalúan todos los pares posibles, el número de comparaciones pareadas se
incrementa geométricamente a medida que el número de objetos que se van a evaluar crece
aritméticamente. Por consiguiente, el número de objetos que se van evaluar debe ser bastante
reducido para impedir que el entrevistado se fatigue.

29
Proceso:
El proceso de comparación de muestras pareadas está diseñado para comparar datos en 2
columnas numéricas donde los calores es cada fila están pareados, y corresponden al mismo
sujeto o unidad experimental. La razón principal para tal comparación típicamente es determinar
si el factor que diferencia las columnas tiene o no efecto en los datos.
Y esta se puede realizar de dos maneras:
I. Prueba de dos colas.
II. Prueba de una cola.
Ocupandose tambien la hipotesis nula y altenativa.
I. Hipotesis nula (H0): Cando no hay diferencia entre las muestas. A=B.
II. Hipotesis alternativa (H1): Cuando sí hay diferencia entre las muestras. A≠B.
30
Modelo totalmente aleatorio: análisis de varianza de un factor
En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según
terminología inglesa) son técnicas de análisis multivariante de dependencia, que se utilizan para
analizar datos procedentes de diseños con una o más variables independientes cualitativas
(medidas en escalas nominales u ordinales) y una variable dependiente cuantitativa (medida con
una escala de intervalo o de razón). En este contexto, las variables, las variables independientes
se suelen denominar factores (y sus diferentes estados posibles o valores son niveles o
tratamientos) y la variable dependiente se conoce como respuesta.
Los modelos ANOVA permiten, básicamente, comparar los valores medios que toman la
variable dependiente en J poblaciones en las que los niveles de factores son distintos, con la
finalidad de determinar si existen diferentes significativas según dichos niveles o si, por el
contrario, la respuesta en cada población es independiente de los niveles de factores.
Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y
genetista R. A. Fisher en los años 1920 y 1930 y es algunas ves conocido como “Anova de
Fisher” o “análisis de varianza de Fisher”, debido al uso de la d
Modelos de ANOVA:
Aunque existen muchos y muy diferentes modelos de ANOVA, puede obtenerse una
clasificación bastante simple de los mismo atendiendo a tres criterios: el número de factores, el
tipo de muestreo efectuado sobre los niveles de los factores y el tipo de aleatorización utilizada
para seleccionar las muestras representativas de cada población y agrupar sus elementos (o
unidades experimentales) en los distintos grupos que se desea comparar.

31
I. Según el número de factores, se llama ANOVA de un factor al modelo en el que existe
una única variable independiente; en cambio, si el modelo consta de más de un factor
se le denomina modelos factorial o se habla de análisis de varianza factorial.
II. En cuanto al muestreo de niveles, se refiere a la forma de establecer los niveles de
cada factor. Esto depende, normalmente, de los intereses del investigador. Si se fijan
únicamente aquellos niveles del factor que realmente interesa estudiar, estamos ante
un modelo de ANOVA de efectos fijos (también llamados modelo I) mientras que, si
los niveles se seleccionan aleatoriamente de entre todos los posibles, se trata de un
modelo ANOVA de efectos aleatorios (o modelos II).
III. Las distinciones basadas en el tipo de aleatorización son equivalentes a las que se
establecen al hablar de muestras independientes y muestras relacionadas. Como en
todo experimento estadístico en el que no resulta posible trabajar con la población en
su totalidad, se deben elegir muestras aleatorias y asignarse también aleatoriamente
sus elementos a los diferentes niveles o tratamientos, para asegurar que no se cometan
errores sistemáticos. Si las unidades experimentales reaccionan o responden a los
tratamientos de la misma manera, se dicen que son homogéneas. Por el contrario, si
responden de diferente manera a los tratamientos debido a sus diferentes intrínsecas,
se dirán heterogéneas. Por otra parte, el tamaño de las muestras puede o no ser el
mismo. Diremos que un diseño es equilibrado o balanceado si todas las muestras
tienen el mismo tamaño y no equilibrado o no balanceado en caso contrario.
Como ya hemos indicado, en ANOVA se trata de determinar si los niveles de factores pueden
conllevar diferencias en la respuesta en los distintos grupos o poblaciones, contrastando la
igualdad de medias de la variable dependiente en dichos grupos. Para ello se basa en el estudio
32
de la varianza. En concreto, se analiza la relación entre las llamadas medias cuadráticas inter-
grupos y medias cuadráticas intra-grupos, que deben ser iguales si las medias de las poblaciones
lo son.
Para poder aplicar esta técnica, es necesario que se verifiquen las siguientes condiciones
previas:
I. Independencia: los individuos estudiados han de ser independientes unos de otros.
II. Aleatoriedad: las muestras o grupos objeto de estudio deben haberse obtenido de
forma aleatoria.
III. Normalidad: las muestras o grupos analizados deben seguir una distribución normal.
IV. Homocedasticidad: debe haber igualdad de varianzas en las muestras o grupos
estudiados.
ANOVA de un factor:
El análisis de la varianza de un factor se utiliza para comparar el valor de una variable
dependiente cuantitativa en varios grupos, que se diferencian por los niveles del factor
considerado.
El análisis de la varianza nos permite realizar inferencias acerca de las medias poblacionales,
₁, ₂… k (desconocidas) a partir de las medias muestrales Y₁, Y₂…Yk (obtenidas
experimentalmente) y concretamente, pone a prueba la hipótesis nula:
H0 ₁  ₂ …  k
Pero el contraste, sorprendentemente, no será a partir de la comparación de las medias
implicadas, sino de la variabilidad observada de las puntuaciones. Extrayendo dos componentes
de variabilidad que combinaremos adecuadamente para concluir la veracidad o no de la H0
planteada.
33
Si observamos las puntaciones presentadas en la tabla del ejemplo del rendimiento,
observamos que como es obvio dentro de cada grupo, no todas las puntuaciones son iguales a la
media es decir presentan una variabilidad intragrupo. También observamos que a su vez los
grupos con práctica previa presentan asimismo esta variabilidad interna pero las puntuaciones
con en general mayores que en el grupo anterior. Es decir, observamos también la presencia de
una variabilidad “entre los grupos” atribuida a los “tratamientos”.
Se trata por tanto de estimar de forma independiente la variabilidad total de variable estudiada
descomponiéndola en dos componentes aditivos:
I. Una componente debida a la variable de agrupación utilizada (VI). Será la parte de la
varianza que hemos denominado “variabilidad inter-grupo”.
II. Otra componente debida a factores extraños y no controlados en el experimento. Será
la parte de la varianza que hemos denominado “varianza intra-grupo” o varianza de
error.
Si estos componentes no difieren apreciablemente, concluimos que las medias provienen de la
misma población y, por tanto, las diferencias muestras observadas son debidas al azar.
Por el contrario, si ha habido un efecto de la VI la variabilidad inter-grupo habrá de ser
“significativamente” mayor que la variabilidad intra-grupo y, por lo tanto, concluiremos que las
medias provienen de poblaciones diferentes, lo que nos conducirá al rechazo de la hipótesis nula
de igualdad de las k medias planteadas.

34
35
Selección del tamaño de muestra para estimar la diferencia de dos medias
Cálculo del tamaño de la muestra para estimar la diferencia de medias:
Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado
por:
En esta ecuación se nos pueden presentar dos casos:
I. Los tamaños de muestra son iguales.
II. Los tamaños de muestra son diferentes.
Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja
n ya que n₁ es igual a n₂.
Para el segundo caso se podrá una n en función de la otra. Este caso se utiliza cuando las
poblaciones son diferente tamaño y se sabe que una es K veces mayor que la otra.
36
Aplicaciones
A lo largo de este documento se a explicado las aplicaciones sobre cada uno de los aspectos
investigados, además de utilizar un lenguaje compresivo que pudiera explicar el proceso de su
aplicación, este caso, los ejemplos o el procedimiento de cada una de las muestras presentadas.
Entonces, por consecuencia, se recomienda al lector dirigirse al tema deseado e indagar en el
para poder entrar su aplicación.

37
Bibliografías
[CITATION Dis \l 3082 ]
[ CITATION Pér01 \l 3082 ]
[CITATION Áng \l 3082 ]
[ CITATION Dis1 \l 3082 ]
[ CITATION Aba19 \l 3082 ]
[ CITATION Wik \l 3082 ]
[ CITATION Uni \l 3082 ]
[ CITATION Cla1 \l 3082 ]
[ CITATION Eds \l 3082 ]
[ CITATION Ins \l 3082 ]
[ CITATION Ver16 \l 3082 ]
[ CITATION Ado18 \l 3082 ]
[ CITATION Ser12 \l 3082 ]
[ CITATION Pre \l 3082 ]
[ CITATION Leo14 \l 3082 ]
[ CITATION Lui03 \l 3082 ]
[ CITATION Sli \l 3082 ]
[ CITATION Ana \l 3082 ]
[ CITATION Tem \l 3082 ]
[ CITATION Moi09 \l 3082 ]
[ CITATION Sli1 \l 3082 ]

Analisis Pruebas de Hipotesis Govanna Reyes Salgado IGE 4A

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Analisis Pruebas de Hipotesis Govanna Reyes Salgado IGE 4A

Caricato da

Copyright:

Formati disponibili

Encabezado: TRABAJO DE ANALISIS

Pruebas de hipótesis con dos muestras y varias muestras de datos numéricos

Govanna Reyes Salgado

Instituto Tecnológico de Nuevo Laredo

Notas del autor

Lugo Amador, Instituto Tecnológico de Nuevo, Av. Reforma 2007.

Nuevo Laredo, Tamaulipas. Mayo, 2020.

Propiedades de la distribución normal:...................................................................................3

La distribución normal estándar N (0,1):................................................................................4

Cálculo de probabilidades en distribuciones normales:..........................................................5

Los usos para los cueles es idónea esta distribución:..............................................................7

Características de la distribución t de Student:.......................................................................7

Cómo diferenciarla de las otras distribuciones:......................................................................8

Teoría de pequeñas muestras:.................................................................................................8

Distribución de probabilidad T-Student:.................................................................................9

Propiedades de las distribuciones t:......................................................................................11

Cálculo de la distribución T Student:....................................................................................11

Pruebas uni y bilateral:..........................................................................................................14

Errores de Tipo I y de Tipo II:..............................................................................................15

Condiciones de aplicación del test t para dos medias:..........................................................19

Intervalo de confianza para la diferencia de medias:............................................................21

Cuando usar esta distribución:..............................................................................................23

En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:...........23

Como usar la tabla:...............................................................................................................24

Grafica de la distribución F:..................................................................................................24

Para varianzas y de igualdad de las varianzas de dos poblaciones normales:......................24

Comparaciones de dos muestras pareadas................................................................................27

Comparaciones de dos muestras pareadas:...........................................................................27

Modelo totalmente aleatorio: análisis de varianza de un factor................................................30

Selección del tamaño de muestra para estimar la diferencia de dos medias.............................35

Cálculo del tamaño de la muestra para estimar la diferencia de medias:.............................35

En el siguiente documento se presentará la prueba de hipótesis, como también otros aspectos

de la inferencia estadística que al igual que la estimación de la muestra. Se desarrolla una

esperados si la hipótesis subyacente es realmente cierta. En el problema de estimación se trata de

Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmación acerca

de una población y/o sus parámetros.

(1667-1754). Posteriormente, Carlo Friedrich Gauss (1777-1855) elaboró desarrollos más

profundos y formuló la ecuación de la curva; de ahí que también se le conozca, más

comúnmente, como la “campana de Gauss”. La distribución de una variable normal está

completamente determinada por dos parámetros, su media y su desviación estándar, denotadas

Que determina la cuerva en forma de campana que tan bien conocemos:

muy alejado de éste.

Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

I. Tiene una única moda, que coincide con su media y su mediana.

una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de

observar un dato menor.

IV. La distancia entre la línea trazada en la media y el punto de inflexión de la cuerva es

desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de

posibilidades de observar un valor comprendido en el intervalo (µ -1.96σ, µ +1.96σ).

VI. La forma de la campana de Gauss depende de los parámetros µ y σ. La media indica la

posición de la campana, de modo que para diferentes valores de µ la gráfica es

determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de σ, más

cercanos al valor medio de la distribución.

La distribución normal estándar N (0,1):

imposible proporcionar una tabla de probabilidades para cada combinación de µ y σ.

Para resolver este problema se utiliza un solo “miembro” de la familia de distribuciones

normales pueden convertirse a la estándar, restando la media de cada observación y dividiendo

por la desviación estándar.

La probabilidad de la variable X dependerá del área del recinto sombreado en la figura. Y

para calcularla utilizamos una tabla.

N (µ, σ) en otra variable Z que siga una distribución N (0,1).

Si tenemos un ejercicio con valores X, µ y σ hacemos el cambio de variables y encontramos