Sei sulla pagina 1di 41

Encabezado: TRABAJO DE ANALISIS

Pruebas de hipótesis con dos muestras y varias muestras de datos numéricos

Govanna Reyes Salgado

Instituto Tecnológico de Nuevo Laredo

Mayo 07 de 2020

Notas del autor

M.E.S. Pablo Daniel Lugo Amador, Estadística Inferencial I, Instituto Tecnológico de Nuevo

Laredo

La correspondencia relacionada con esta investigación ser dirigida a nombre de Pablo Daniel

Lugo Amador, Instituto Tecnológico de Nuevo, Av. Reforma 2007.

Contacto: govanna_13_05_00@hotmail.com

Nuevo Laredo, Tamaulipas. Mayo, 2020.


Encabezado: TRABAJO DE ANALISIS

Contenido
Introducción................................................................................................................................1

Distribución Normal...................................................................................................................2

Propiedades de la distribución normal:...................................................................................3

La distribución normal estándar N (0,1):................................................................................4

Tipificación de la variable:.....................................................................................................4

Cálculo de probabilidades en distribuciones normales:..........................................................5

t de Student.................................................................................................................................7

Los usos para los cueles es idónea esta distribución:..............................................................7

Características de la distribución t de Student:.......................................................................7

Grados de libertad:..................................................................................................................8

Cómo diferenciarla de las otras distribuciones:......................................................................8

Teoría de pequeñas muestras:.................................................................................................8

Distribución de probabilidad T-Student:.................................................................................9

Propiedades de las distribuciones t:......................................................................................11

Cálculo de la distribución T Student:....................................................................................11

Pruebas de significancia............................................................................................................13

Pruebas uni y bilateral:..........................................................................................................14

Errores de Tipo I y de Tipo II:..............................................................................................15

Comparación de dos muestras independientes: Pruebas t para las diferencias entre dos medias

.......................................................................................................................................................17
Encabezado: TRABAJO DE ANALISIS

Condiciones de aplicación del test t para dos medias:..........................................................19

Intervalo de confianza para la diferencia de medias:............................................................21

Pruebas de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales

.......................................................................................................................................................22

Definición:............................................................................................................................22

Características:......................................................................................................................23

Cuando usar esta distribución:..............................................................................................23

En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:...........23

Grados de libertad:................................................................................................................23

Como usar la tabla:...............................................................................................................24

Grafica de la distribución F:..................................................................................................24

Para varianzas y de igualdad de las varianzas de dos poblaciones normales:......................24

Comparaciones de dos muestras pareadas................................................................................27

Muestra:................................................................................................................................27

Muestras pareadas:................................................................................................................27

Características:......................................................................................................................27

Comparaciones de dos muestras pareadas:...........................................................................27

Escalas de comparación:.......................................................................................................28

Proceso:.................................................................................................................................28

Modelo totalmente aleatorio: análisis de varianza de un factor................................................30


Encabezado: TRABAJO DE ANALISIS

Modelos de ANOVA:...........................................................................................................30

Para poder aplicar esta técnica, es necesario que se verifiquen las siguientes condiciones

previas:.......................................................................................................................................32

ANOVA de un factor:...........................................................................................................32

Selección del tamaño de muestra para estimar la diferencia de dos medias.............................35

Cálculo del tamaño de la muestra para estimar la diferencia de medias:.............................35

Aplicaciones..............................................................................................................................36

Bibliografías..............................................................................................................................37
1

Introducción

En el siguiente documento se presentará la prueba de hipótesis, como también otros aspectos

de la inferencia estadística que al igual que la estimación de la muestra. Se desarrolla una

metodología paso a paso que le permite hacer inferencias sobre un parámetro poblacional

mediante el análisis diferencial entre los resultados observados y los resultados de la muestra

esperados si la hipótesis subyacente es realmente cierta. En el problema de estimación se trata de

elegir el valor de un parámetro de la población, mientras que en las pruebas de hipótesis se trata

de decidir entre aceptar o rechazar un valor especifico (por ejemplo, si el nivel de centramiento

de un proceso es o no lo es).

Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmación acerca

de una población y/o sus parámetros.


2

Distribución Normal

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre

(1667-1754). Posteriormente, Carlo Friedrich Gauss (1777-1855) elaboró desarrollos más

profundos y formuló la ecuación de la curva; de ahí que también se le conozca, más

comúnmente, como la “campana de Gauss”. La distribución de una variable normal está

completamente determinada por dos parámetros, su media y su desviación estándar, denotadas

generalmente por µ y σ. Con esta notación, la densidad de normal viene dada por la ecuación:

Que determina la cuerva en forma de campana que tan bien conocemos:

Así, se dice que una característica X sigue una distribución normal de media µ y varianza σ²,

y se denota como X = N (µ, σ), si su función de densidad viene dada por la ecuación 1.

Al igual que ocurría con un histograma, Enel que el área de cada rectángulo es proporcional al

número de datos en el rango de valores correspondiente si, tal y como se muestra en la figura 1,

en el eje horizontal se levanta perpendicular en dos puntos a y b, en área bajo la curva delimitada

por esas líneas indica la probabilidad de que la variable de interés X, tome un valor cualquiera en
3

ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus

“ramas” se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución

normal, será mucho más probable observar un dato cercano al valor medio que uno se encuentre

muy alejado de éste.

Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

I. Tiene una única moda, que coincide con su media y su mediana.

II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞ y

+∞ es teóricamente posible. El área total bajo la curva es, por lo tanto, igual a 1.

III. Es simétrica con respecto a su media µ. Según esto, para este tipo de variables existe

una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de

observar un dato menor.

IV. La distancia entre la línea trazada en la media y el punto de inflexión de la cuerva es

igual a una desviación típica (σ). Cuanto mayor sea σ, más aplanada será la curva de la

densidad.

V. El área bajo la curva comprendido entre los valores situados aproximadamente a dos

desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de

posibilidades de observar un valor comprendido en el intervalo (µ -1.96σ, µ +1.96σ).

VI. La forma de la campana de Gauss depende de los parámetros µ y σ. La media indica la

posición de la campana, de modo que para diferentes valores de µ la gráfica es

desplazada a lo largo del eje horizontal. Por otra parte, le desviación estándar

determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de σ, más

se dispersarán los datos en tomo a la media y la cuerva será más plana. Un valor
4

pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos

cercanos al valor medio de la distribución.

La distribución normal estándar N (0,1):

Se observó que no existe una sola distribución de probabilidad normal, sino una “familia” de

ellas. Como sabemos, cada una de las distribuciones puede tener una media (µ) o una desviación

estándar distinta (σ). Por tanto, el número de distribuciones normales es ilimitado y sería

imposible proporcionar una tabla de probabilidades para cada combinación de µ y σ.

Para resolver este problema se utiliza un solo “miembro” de la familia de distribuciones

normal, aquella cuya media es 0 y desviación estándar 1 que es la que se conoce como

distribución estándar normal, o tipificada o reducida, de forma que todas las distribuciones

normales pueden convertirse a la estándar, restando la media de cada observación y dividiendo

por la desviación estándar.

La probabilidad de la variable X dependerá del área del recinto sombreado en la figura. Y

para calcularla utilizamos una tabla.

Tipificación de la variable:

Para poder utilizar la tabla tenemos que transformar la variable X que sigue una distribución

N (µ, σ) en otra variable Z que siga una distribución N (0,1).


5

Si tenemos un ejercicio con valores X, µ y σ hacemos el cambio de variables y encontramos

Z, luego vamos a la tabla y con el valor Z hallamos la probabilidad = área.

Cálculo de probabilidades en distribuciones normales:

La table nos da la probabilidad de P (z ≤ k), siendo z la variable tipificada. Estas

probabilidades nos dan la función de distribución Φ(k).

Φ(k) = P(z ≤ k)

En la tabla de valores de k se ubican las unidades y décimas en la columna de la izquierda y

las centésimas en la fila de arriba.


6

Justamente, esta tabla nos proporciona la probabilidad desde que ocurran sucesos menores

que Z = 0.46. Esto es, la probabilidad de que ocurran secesos desde menos infinito hasta el valor

de Z de 0.46 es de 0.6772. Esto es, un 67.72%.

Sucesos menos que Z = 0.46 es lo mismo que decir que la temperatura sea menor que 21°C.

Con la variable X hablamos de temperatura, con la variable estándar hablamos de Z.


7

t de Student

La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en

una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de artículos

científicos debido a una difusión previa de secretos industriales. De ahí que Gosset publicase sus

resultados bajo el seudónimo de Student.

En muchas ocasiones no se conoce σ y el número de observaciones en la muestra es menor de

30. En estos casos se puede utilizar la desviación estándar de la muestra S como una estimación

de σ, pero no es posible usarla distribución Z como estadístico de prueba. El estadístico de

prueba adecuado es la distribución t. A veces es necesario hacer análisis de muestras pequeñas

por razones de tiempo y reducción de costos, para ello fue descubierta la distribución y por

William Gosset, un especialista en estadística, que la publicó en 1908 con el seudónimo de

Distribución t Student.

Los usos para los cueles es idónea esta distribución:

I. Para determinar el intervalo de confianza dentro del cual se puede estimar la media de

una población a partir de muestras pequeñas (n<30).

II. Para probar hipótesis cuando una investigación se basa en muestreo pequeño.

III. Para probar si dos muestras provienen de una misma población.

Características de la distribución t de Student:

En muchas ocasiones no se conoce σ y el número de observaciones en la muestra n<30. En

estos casos, se puede utilizar la desviación estándar de la muestra S como una estimación de σ,

pero no es posible usar la distribución Z como estadístico de prueba. El estadístico de prueba

adecuado es la distribución t. Sus aplicaciones en la inferencia estadística son para estimar y

probar una media y una diferencia de medias (independientes y pareada).


8

Grados de libertad:

Existe una distribución t distinta para casa uno de los posibles grados de libertad. Y podemos

definirlos como el número de valores que podemos elegir libremente.

Cómo diferenciarla de las otras distribuciones:

La distribución de T es similar a la distribución de Z, pues amabas son simétricas alrededor de

una media de cero. Ambas tienen distribuciones de campana para la distribución y es más

variable debido a que tienen fluctuaciones en 2 cantidades. La distribución de T difiere de la de Z

en la que la varianza de T depende del tamaño de la muestra n y siempre es mayor a 1,

únicamente cuando n tiende a ∞ las dos distribuciones serán iguales.

Teoría de pequeñas muestras:

En probabilidad y estadística, la distribución-t, o distribución t de Student es una distribución

de probabilidad que surge del problema de estimar la media de una población normalmente

distribuida cuando el tamaño de la muestra es pequeño.

A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que

también la podemos utilizar con muestras aleatorias de tamaño grande.

Para definir grados de libertad se hará referencia a la varianza maestral:


9

Distribución de probabilidad T-Student:

Una variable se distribuye según el modelo de probabilidad t o T de Student con k grados de

libertad, donde k es un entero positivo, si su función de densidad es la siguiente:

La gráfica de esta función de densidad es simétrica, respecto del eje de ordenada, con

independencia del valor de k, y de forma algo semejante a la de una distribución normal:


10

Su valor medio y varianza son:

La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de la

distribución t es similar a la de la distribución normal estándar: ambas son simétricas y

unimodales, y el valor máximo de la ordenada se alcanza en la media µ = 0. Sin embargo, la

distribución t tiene colas más amplias que la normal; esto es, la probabilidad e las cosas es mayor

que en la distribución normal. A medida que el número de grados de libertad tiende a infinito, la

forma límite de la distribución t es la distribución normal estándar.


11

Propiedades de las distribuciones t:

I. Cada curva t tiene forma de campana con centro en 0.

II. Cada curva t, está más dispersa que la cuerva normal estándar.

III. A medida que k aumenta, la dispersión de la curva t correspondiente disminuye.

IV. A medida que k→∞, la secuencia de curvas t se aproxima a la curva normal estándar.

Cálculo de la distribución T Student:

I. Plantear hipótesis nula (Ho) e hipótesis alternativa (Hi).

La hipótesis alternativa plantea matemáticamente lo que queremos demostrar.

La hipótesis nula plantea exactamente lo contrario.

II. Determinar nivel de significancia.

Rango de aceptación de hipótesis alternativa. α

Se considera:

 0.05 para proyectos de investigación.

 0.01para aseguramiento de calidad.

 0.10 para encuestas de mercadotecnia y políticas.


12

III. Evidencia muestral.

Se calcula la media y la desviación estándar a partir de la muestra.

IV. Se aplica la Distribución t de Student para calcular la probabilidad de error (P) por

medio de la fórmula:

V. En base a la evidencia disponible se acepta o se rechaza la hipótesis alternativa.

 Si la probabilidad de error (P) es mayor que el nivel de significancia:

Se rechaza la hipótesis alternativa.

 Si la probabilidad de error (P) es menor que el nivel de significancia:

Se acepta la hipótesis alternativa.


13

Pruebas de significancia

La prueba de significancia es una de las ramas principales de la inferencia estadística. La

finalidad de la prueba de significancia es decidir si una afirmación acerca de un parámetro de

población es verdadera. Por ejemplo, es posible desear determinar si afirmaciones como las

siguientes son ciertas:

I. El tiempo promedio de terminación de este examen es de 80 minutos.

II. El 3% de la producción está defectuosa.

Ocasionalmente quizá se quiera evaluar una afirmación que no especifique realmente el valor

del parámetro en cuestión:

I. El porcentaje del desempleo es el mismo en dos ciudades vecinas.

II. La razón promedio de kilómetros por litro es la misma para los tres tipos de gasolina.

El objeto de la prueba de significación es evaluar proposiciones o afirmaciones acerca de los

valores de los parámetros de población.

El aspecto principal de la prueba de significancia es determinar si la diferencia entre un valor

propuestos de un parámetro de población y el valor estadístico de la muestra se debe

razonablemente a la variabilidad del muestreo, o si la discrepancia es demasiado grande para ser

considerada de esa manera.

El primer paso de la prueba se significancia es formular dos hipótesis con respecto a dicho

aserto. Las hipótesis son explicaciones potenciales (teorías) que intenta informar acerca de

hechos observados en situaciones en las que existen algunos factores desconocidos. Definiéndose

formalmente dos tipos de hipótesis que se requieren formular. La que señala que la proposición

es verdadera recibe el nombre de hipótesis nula y se representa mediante el símbolo H0; y la


14

segunda, que afirma que la proposición es falsa se denomina hipótesis alternativa y se designa

mediante el signo H1.

En segundo paso en la prueba de significancia es identificarla distribución de muestreo

adecuada, ya que ésta describirá ampliamente la variación casual.

El nivel de significancia de una prueba es la probabilidad de rechazar una hipótesis nula que

sea verdadera.

El tercer paso es una prueba de este tipo es seleccionar un nivel de significación que sea

aceptable. Esto, a su vez, indicará un valor crítico correspondiente que servirá como un estándar

de comparación respecto al cual juzgar un “valor estadístico de prueba” observado.

Por lo tanto, la esencia de una prueba de significancia es dividir una distribución de muestreo

con base en el supuesto de que H0 es verdadera, en regiones de aceptación y rechazo respecto a

H0. Un valor crítico se selecciona con base a una probabilidad especifica de que el tomador de

decisiones esté dispuesto a aceptar o rechazar una H0 verdadera, Un valor estadístico de prueba

se calcula a partir de datos de la muestra y del valor esperado (propuesto), el cual es comparado

con el valor crítico. Un valor estadístico de prueba es superior al valor crítico señala que se debe

rechazar H0 (es decir, que la sola variabilidad del muestreo no tendrá en cuenta el valor

estadístico de muestrea observado), mientras que un valor de prueba menor que el valor critico

indica que se debe aceptar H0.

Pruebas uni y bilateral:

El interés por detectar deviaciones no aleatorias. (es decir, significativas) a partir de un

parámetro especificado, puede comprender desviaciones en ambas direcciones o en unas sola.

En esencia, la hipótesis alternativa se utiliza para indicar qué aspecto de variación no aleatoria

resulta de interés. Existe tres casos posibles:


15

I. Concentrarse en ambas direcciones.

II. Concentrarse en desviaciones por debajo del valor esperado.

III. Concentrarse en deviaciones por encima del valor esperado.

Obsérvese que la hipótesis nula se representa de la misma forma, independientemente de cuál

sea la hipótesis alternativa.

I. En el primer caso: un valor demasiado por encima o demasiado por debajo del valor

esperado causaría un rechazo de la hipótesis nula.

II. En el segundo caso: únicamente un valor demasiado abajo del valor esperado

rechazaría la hipótesis nula.

III. En el tercer caso: ocurre justamente lo opuesto, dado que sólo calores muy por encima

del valor esperado causan rechazo.

En la práctica, se utiliza la prueba bilateral siempre que la divergencia en ambas direcciones

sea crítica, mientras que la prueba de cola izquierda es útil cuando se quiere observar si se ha

cumplido un estándar mínimo, y la prueba de la cola derecha sirve cuando estándares máximos

no deber ser excedidos.

Errores de Tipo I y de Tipo II:

Existen dos tipos de errores que son inherentes al proceso de la prueba de significación. Ya se

ha observado que el creer que H0 es falsa cuando realmente es verdadera, puede conllevar cierto

riesgo. La probabilidad de cometer este error es igual al nivel de significancia de una prueba α.

También se conoce como error de tipo I. Un segundo tipo de error que también se puede

presentar, es aceptar la H0 cuando no es verdadera. Este recibe el nombre de tipo II y se le

designa el símbolo β.
16

Naturalmente existe la esperanza de que H0 sea aceptada cuando sea verdadera, y rechazada

cuando sea falsa. Por tanto, en cualquier prueba pueden presentarse cuatro posibilidades. Es

importante saber que una vez que se toma una decisión, ésta puede ser correcta o incurrir en

algún tipo de error, y la decisión (aceptada o rechazada) indicará qué tipo de error es posible.

Obsérvese también que, cuando H0 es verdadera no puede haber tipo II, y cuando H0 es falsa no

se puede cometer un error de tipo I.

Se comete errores de tipo I si se rechaza H0 cuando es verdadera. La probabilidad de un

error de tipo I es igual al nivel de significación de una prueba de hipótesis.

Se comete un error de tipo II si se acepta H0 cuando no es verdadera.

Sin embargo, existe una relación inversa entre los errores tipo I y de tipo II: si disminuye la

probabilidad de un error de tipo I, respecto al de incurrir en uno de tipo II, aunque en la práctica

es común seleccionar tradicionalmente niveles de errores tipo I y pasar por alto los de tipo II.
17

Comparación de dos muestras independientes: Pruebas t para las diferencias entre dos

medias

Aunque podemos utilizar la t de Student para contrastar la media de una muestra y la media

poblacional de la que ha sido extraída (problema más simple referido a una sola muestra), el uso

más habitual de esta distribución es el de comparar las medias de una variable cuantitativa

continua entre dos grupos independientes.

Este tipo de problemas habrá siempre dos variables:

I. Una cuantitativa (variable dependiente que se compara).

II. Otra cualitativa dicotómica (variable independiente).

Se trata de comprobar si la variable cuantitativa depende de la variable dicotómica, es decir,

calcularemos las medias de la variable continua para los dos grupos de la variable cualitativa y

crearemos el contraste para determinar si existen diferencias significativas o no entre las medias

de dos muestras independientes.

Se plantea una hipótesis nula y una hipótesis alternativa, y a partir de estas hipótesis se tiene

que comprobar si la diferencia que existe entre las dos medias es debido a que realmente una

hipótesis es más efectiva que la otra, o si las diferencias observadas se podrían explicar

simplemente por azar.

Para poder resolver este tipo de problemas se aplica la expresión de la t de Student para

comparar dos medias:

Donde EEDM es el “error estándar de la diferencia de medias”.


18

Podemos ver que la t de Student se obtiene dividiendo el efecto entre un error (en este caso,

error estándar de la diferencia de medias) que expresa la variabilidad aleatoria esperada.

Como en la mayoría de los test estadísticos, todo el secreto está en dividir la diferencia

observada por un término de error que estima la variabilidad biológica aleatoria.

I. Si la diferencia observada es mucho mayor que la variabilidad biológica aleatoria

esperada, entonces el consciente t tendrá un valor grande y diremos que hay

diferencias significativas.

II. Si la diferencia observada es pequeña en relación a la variabilidad biológica esperada,

entonces la t tendrá un valor pequeño y no podremos decir que existen diferencias

significativas.

Como regla general, si el valor de t que hemos encontrado es superior al tabulado se rechaza

la hipótesis nula y se podrá afirmar que hay diferencias significativas entre ambas medias.

Ahora solo nos falta saber qué es eso del error estándar de la diferencia de medias (EEDM).

Primero tenemos que usar una varianza común llamada varianza ponderada Sp². Para calcularla

se hace una media ponderada entre las dos varianzas. Se pondera cada varianza por los grados de

libertad (n-1) de su grupo:

La desviación estándar ponderada (Sp) será:


19

Una vez que sabemos cuál es la desviación estándar ponderada, ya podemos calcular el

EEDM, mediante la siguiente expresión:

Condiciones de aplicación del test t para dos medias:

Antes de aplicar el test que acabamos de ver, debemos comprobar si se cumplen las

condiciones de aplicación.

Las condiciones de aplicación del test t para comparar dos medias son:

I. Normalidad

La variable cuantitativa o dependiente ha de seguir aproximadamente una distribución normal

dentro de cada grupo. Habitualmente se suele emplear el siguiente criterio: cuando tanto n como

m son mayores o iguales a 3º se puede presumir que la aproximación a la normal será buena.

Se debe comprobar si la variable cuantitativa se aproxima a la normal hay que verificar que en

cada grupo se cumplen los 3 requisitos siguientes:

 Comprobar que el máximo y el mínimo queden dentro del intervalo definido por:

Media ± 3 desviaciones estándar.

 Que la asimetría (en valor absoluto) sea menor que dos veces su error estándar:

lAsimetríaI < 2 errores estándar de asimetría.

 Que la curtosis (en valor absoluto) sea menor que dos veces su error estándar:

ICurtosisI < 2 errores estándar de curtosis.

Si se cumplen estos tres requisitos, podemos asumir que la distribución es normal. Si no se

cumple la condición de normalidad, puede intentarse que mejore la aproximación a la


20

normalidad mediante una transformación de los datos de la variable cuantitativa en sus

logaritmos.

En la práctica, habitualmente, realizaremos un test de normalidad. Existen diversos test para

comprobar si los valores de una variable siguen o no la distribución normal. Cuando resultan

significativos (p<0.05) se rechaza la hipótesis de normalidad, tendremos evidencia de que los

datos no siguen una distribución normal.

Si finalmente la variable no se aproxima a la normalidad, se deben aplicar pruebas no

paramétricas.

II. Homogeneidad de Varianzas (Homocedasticidad)

Además de seguir una distribución normal hay que comprobar que las varianzas de ambos

grupos sean iguales, es decir, homogéneas.

Mediante la prueba F de Snedecor para la homogeneidad de varianzas podremos comprobar

que no hay diferencias significativas entre las varianzas. Para ellos calculamos las varianzas de

cada grupo y obtenemos al cociente:

A continuación, se calculan los grados de libertad del numerador y denominador que son (n-1)

y (m-1) respectivamente, y se busca en las tablas de la F el valor tabulado para p=0.05. Cuanto

más diferentes sean las varianzas, mayor valor tendrá F y superara el valor critico de las tablas.

Si la F calculada es superior al valor tabulado, pensaremos que las varianzas no son homogéneas

entre sí.
21

Intervalo de confianza para la diferencia de medias:

Con lo visto hasta ahora hemos resuelto el problema de la comparación de dos grupos

independientes, pero se ha llegado a una conclusión algo limitada: “no existen diferencias

significativas”. Faltan algo imprescindible: estimar la magnitud de la diferencia entre ambos

grupos. Vimos que esto se resolvía calculando unos límites de confianza a la diferencia de

medias.

La expresión es parecida al intervalo de confianza para una media, pero ahora se utiliza una

diferencia de medias y se usa el error estándar de la diferencia de medias:


22

Pruebas de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones

normales

Esta razón F fue creada por Ronaldo Fisher (1890- 1962) matemático británico, cuyas teorías

estadísticas hicieron mucho más precisos los experimentos científicos. Usada en teoría de

probabilidad y estadística, la distribución F es una distribución de probabilidad continua.

También se le conoce como distribución F de Snedecor por George Snedecor o como

distribución F de Fisher-Snedecor por Ronald Fisher.

Esta prueba se usa como estadística de prueba en varias situaciones. Igualmente se emplea

para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. La cual es

útil para determinar si una población normal tiene una mayor variación que la otra. También se

aplica cuando se trata de comparar simultáneamente varias medias poblacionales.

Definición:

Esta es la distribución de probabilidad de la razón de dos varianzas provenientes de dos

poblaciones diferentes. Por medio de esta distribución es posible determinar la probabilidad de

ocurrencia de una razón especifica con V1 =n1 y V2=n2-1, grados de libertad en muestras de

tamaño n1 y n2.

La variable aleatoria F se define como el cociente de dos variables aleatorias chi-cuadradas

independientes, cada una dividida entre sus respectivos grados de libertad.


23

Características:

I. Existen una “familia” de distribuciones F. Un miembro especifico de la familia se

determina por dos parámetros: los grados de libertad en el numerador y en el

denominador.

II. La distribución F es una distribución continua.

III. La distribución F tiene un sesgo positivo F, no puede ser negativa.

IV. A medida que aumentan los valores, la curva se aproxima al eje x, pero nunca lo toca.

V. Está relacionada con el cociente de varianzas.

VI. Sus valores varían de 0 a infinito.

Cuando usar esta distribución:

Es la distribución más importante en experimentación pues permite hacer cálculos sobre

varianzas diseminadas determinando si las diferencias mostradas son significativas y por lo tanto

atribuibles a cambios importantes en el comportamiento de las poblaciones en estudio.

En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:

I. La hipótesis de que las medias de múltiples poblaciones normalmente distribuidas y

con la misma desviación estándar son iguales. Esta es, quizás, la más conocida de las

hipótesis verificadas mediante el test F y el problema más simple del análisis de

varianza.

II. La hipótesis de que las desviaciones estándar de dos poblaciones normalmente

distribuidas son iguales.

Grados de libertad:

Se llama grados de libertad al número de movimientos simples que puede tener un cuerpo o

un punto material.
24

Se obtiene restando uno al número de elementos de la muestra.

Así, V1 =n1 y V2=n2-1

Como usar la tabla:

I. Para extraer los valores de probabilidad de esta tabla se sigue el siguiente

procedimiento:

II. Extraer muestras de dos poblaciones y estimar las desviaciones estándar.

III. Determinar los grados de libertad.

IV. Calcular el valor de F= s 21 / s 22.

V. Localizar en tablas, la probabilidad asociada a los valores de F: V1 y V2. En algunos

casos se puede interpolar, de lo contrario, se escoge el que más se le aproxime.

Grafica de la distribución F:

La forma de la representación gráfica depende de los valores m y n, de tal forma que, si V1 y

V2 tienden a infinitos, dicha distribución se asemeja a la distribución normal.

Para varianzas y de igualdad de las varianzas de dos poblaciones normales:

La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos

poblaciones es evidente a partir del análisis de una sola población.

Intuitivamente, podríamos comparar las varianzas de dos poblaciones σ 21 y σ 22, utilizando la

razón de las varianzas muestrales s 21 / s 22. Si s 21 / s 22 es casi igual a 1, se tendrá poca evidencia
25

para indicar que σ 21 y σ 22 no son iguales. Por otra parte, un valor muy grande o muy pequeño para

s 21 / s 22, proporcionará evidencia de una diferencia en las varianzas de las poblaciones.

La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada

independientes, cada una divida entre sus respectivos grados de libertad. Esto es,

donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad v 1 y v 2

respectivamente.

Sean U y V dos variables aleatorias independientes que tienen distribuciones ji-cuadradas con

grados de libertad, respectivamente. Entonces la distribución de la variable aleatoria

está dada por:

0<x<∞, y se dice que sigue la distribución F

con grados de libertad en el numerador y grados de libertad en el denominador.

La media y la varianza de la distribución F son:

para

para
26

La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la derecha. La

distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sin embargo, se

encuentra centrada respecto a 1, y los dos parámetros proporcionan una flexibilidad

adicional con respecto a la forma de la distribución.

Si s 21 y s 22 son las varianzas muestrales independientes de tamaño n 1 y n 2 tomadas de

poblaciones normales como varianzas σ 21 y σ 22, respectivamente, entonces:

Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística del autor

Güenther, se tendrá que buscar primero los grados de libertad dos para luego localizar el área

correspondiente, relacionándola con los grados de libertad uno, para calcular el valor de F.

Las tablas tienen la siguiente estructura:

El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6

grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente:
27

Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma depende de

dos variables que son los grados de libertad.

Comparaciones de dos muestras pareadas

Muestra:

Es una parte de la población, seleccionada por técnicas estadísticas, en la que a cada uno de

sus miembros se toma las características que se quiere estudiar.

Muestras pareadas:

Hay situaciones cuando cada observación en la muestra 1 está correlacionada de alguna forma

con una observación en la muestra 2.

En este caso, decimos que la data ocurre en pares.

Características:

I. Cada observación en una muestra está directamente relacionada con otra observación

en la otra muestra.

II. Cada individuo es observado dos veces.

III. Las dos muestras difieren solo en el factor que interesa comparar.

IV. Las dos muestras deben ser del mismo tamaño.

Comparaciones de dos muestras pareadas:

Como hemos estado analizando este tipo de muestras; estas representan la falta de

independencia entre las observaciones de los grupos, y puede ser una característica de diseño del
28

estudio para buscar fundamentalmente una mayor eficiencia del contraste estadístico al disminuir

la variabilidad. En otras ocasiones con este tipo de diseño pareado lo que se busca es dar una

mayor validez a las inferencias obtenidas, controlando o eliminando la influencia de variables

extrañas cuyo efecto ya es conocido o sospechado, y que se dese desea que intervengan en el

estudio actual pudiendo enmascarar el efecto del tratamiento o de la variable de interés.

Escalas de comparación:

Las escalas de comparación pareada le piden al participante que elija uno de dos productos de

un conjunto, basándose en algunos criterios expresados de manera que el participante expresa

una serie de juicios pareados entre objetos.

 En el lado positivo:

Las comparaciones pareadas superan varios problemas de las escalas tradicionales de orden de

rango:

I. A las personas les resulta más fácil elegir o seleccionar un aspecto de una serie de dos,

que clasificar un gran conjunto de datos.

II. Se superó el problema de sesgo del orden: en el ordenamiento de aspectos o de

preguntas no hay un patrón que cree una fuente de sesgo.

 En el lado negativo:

Debido a que se evalúan todos los pares posibles, el número de comparaciones pareadas se

incrementa geométricamente a medida que el número de objetos que se van a evaluar crece

aritméticamente. Por consiguiente, el número de objetos que se van evaluar debe ser bastante

reducido para impedir que el entrevistado se fatigue.


29

Proceso:

El proceso de comparación de muestras pareadas está diseñado para comparar datos en 2

columnas numéricas donde los calores es cada fila están pareados, y corresponden al mismo

sujeto o unidad experimental. La razón principal para tal comparación típicamente es determinar

si el factor que diferencia las columnas tiene o no efecto en los datos.

Y esta se puede realizar de dos maneras:

I. Prueba de dos colas.

II. Prueba de una cola.

Ocupandose tambien la hipotesis nula y altenativa.

I. Hipotesis nula (H0): Cando no hay diferencia entre las muestas. A=B.

II. Hipotesis alternativa (H1): Cuando sí hay diferencia entre las muestras. A≠B.
30

Modelo totalmente aleatorio: análisis de varianza de un factor

En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según

terminología inglesa) son técnicas de análisis multivariante de dependencia, que se utilizan para

analizar datos procedentes de diseños con una o más variables independientes cualitativas

(medidas en escalas nominales u ordinales) y una variable dependiente cuantitativa (medida con

una escala de intervalo o de razón). En este contexto, las variables, las variables independientes

se suelen denominar factores (y sus diferentes estados posibles o valores son niveles o

tratamientos) y la variable dependiente se conoce como respuesta.

Los modelos ANOVA permiten, básicamente, comparar los valores medios que toman la

variable dependiente en J poblaciones en las que los niveles de factores son distintos, con la

finalidad de determinar si existen diferentes significativas según dichos niveles o si, por el

contrario, la respuesta en cada población es independiente de los niveles de factores.

Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y

genetista R. A. Fisher en los años 1920 y 1930 y es algunas ves conocido como “Anova de

Fisher” o “análisis de varianza de Fisher”, debido al uso de la d

Modelos de ANOVA:

Aunque existen muchos y muy diferentes modelos de ANOVA, puede obtenerse una

clasificación bastante simple de los mismo atendiendo a tres criterios: el número de factores, el

tipo de muestreo efectuado sobre los niveles de los factores y el tipo de aleatorización utilizada

para seleccionar las muestras representativas de cada población y agrupar sus elementos (o

unidades experimentales) en los distintos grupos que se desea comparar.


31

I. Según el número de factores, se llama ANOVA de un factor al modelo en el que existe

una única variable independiente; en cambio, si el modelo consta de más de un factor

se le denomina modelos factorial o se habla de análisis de varianza factorial.

II. En cuanto al muestreo de niveles, se refiere a la forma de establecer los niveles de

cada factor. Esto depende, normalmente, de los intereses del investigador. Si se fijan

únicamente aquellos niveles del factor que realmente interesa estudiar, estamos ante

un modelo de ANOVA de efectos fijos (también llamados modelo I) mientras que, si

los niveles se seleccionan aleatoriamente de entre todos los posibles, se trata de un

modelo ANOVA de efectos aleatorios (o modelos II).

III. Las distinciones basadas en el tipo de aleatorización son equivalentes a las que se

establecen al hablar de muestras independientes y muestras relacionadas. Como en

todo experimento estadístico en el que no resulta posible trabajar con la población en

su totalidad, se deben elegir muestras aleatorias y asignarse también aleatoriamente

sus elementos a los diferentes niveles o tratamientos, para asegurar que no se cometan

errores sistemáticos. Si las unidades experimentales reaccionan o responden a los

tratamientos de la misma manera, se dicen que son homogéneas. Por el contrario, si

responden de diferente manera a los tratamientos debido a sus diferentes intrínsecas,

se dirán heterogéneas. Por otra parte, el tamaño de las muestras puede o no ser el

mismo. Diremos que un diseño es equilibrado o balanceado si todas las muestras

tienen el mismo tamaño y no equilibrado o no balanceado en caso contrario.

Como ya hemos indicado, en ANOVA se trata de determinar si los niveles de factores pueden

conllevar diferencias en la respuesta en los distintos grupos o poblaciones, contrastando la

igualdad de medias de la variable dependiente en dichos grupos. Para ello se basa en el estudio
32

de la varianza. En concreto, se analiza la relación entre las llamadas medias cuadráticas inter-

grupos y medias cuadráticas intra-grupos, que deben ser iguales si las medias de las poblaciones

lo son.

Para poder aplicar esta técnica, es necesario que se verifiquen las siguientes condiciones

previas:

I. Independencia: los individuos estudiados han de ser independientes unos de otros.

II. Aleatoriedad: las muestras o grupos objeto de estudio deben haberse obtenido de

forma aleatoria.

III. Normalidad: las muestras o grupos analizados deben seguir una distribución normal.

IV. Homocedasticidad: debe haber igualdad de varianzas en las muestras o grupos

estudiados.

ANOVA de un factor:

El análisis de la varianza de un factor se utiliza para comparar el valor de una variable

dependiente cuantitativa en varios grupos, que se diferencian por los niveles del factor

considerado.

El análisis de la varianza nos permite realizar inferencias acerca de las medias poblacionales,

₁, ₂… k (desconocidas) a partir de las medias muestrales Y₁, Y₂…Yk (obtenidas

experimentalmente) y concretamente, pone a prueba la hipótesis nula:

H0 ₁  ₂ …  k

Pero el contraste, sorprendentemente, no será a partir de la comparación de las medias

implicadas, sino de la variabilidad observada de las puntuaciones. Extrayendo dos componentes

de variabilidad que combinaremos adecuadamente para concluir la veracidad o no de la H0

planteada.
33

Si observamos las puntaciones presentadas en la tabla del ejemplo del rendimiento,

observamos que como es obvio dentro de cada grupo, no todas las puntuaciones son iguales a la

media es decir presentan una variabilidad intragrupo. También observamos que a su vez los

grupos con práctica previa presentan asimismo esta variabilidad interna pero las puntuaciones

con en general mayores que en el grupo anterior. Es decir, observamos también la presencia de

una variabilidad “entre los grupos” atribuida a los “tratamientos”.

Se trata por tanto de estimar de forma independiente la variabilidad total de variable estudiada

descomponiéndola en dos componentes aditivos:

I. Una componente debida a la variable de agrupación utilizada (VI). Será la parte de la

varianza que hemos denominado “variabilidad inter-grupo”.

II. Otra componente debida a factores extraños y no controlados en el experimento. Será

la parte de la varianza que hemos denominado “varianza intra-grupo” o varianza de

error.

Si estos componentes no difieren apreciablemente, concluimos que las medias provienen de la

misma población y, por tanto, las diferencias muestras observadas son debidas al azar.

Por el contrario, si ha habido un efecto de la VI la variabilidad inter-grupo habrá de ser

“significativamente” mayor que la variabilidad intra-grupo y, por lo tanto, concluiremos que las

medias provienen de poblaciones diferentes, lo que nos conducirá al rechazo de la hipótesis nula

de igualdad de las k medias planteadas.


34
35

Selección del tamaño de muestra para estimar la diferencia de dos medias

Cálculo del tamaño de la muestra para estimar la diferencia de medias:

Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado

por:

En esta ecuación se nos pueden presentar dos casos:

I. Los tamaños de muestra son iguales.

II. Los tamaños de muestra son diferentes.

Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja

n ya que n₁ es igual a n₂.

Para el segundo caso se podrá una n en función de la otra. Este caso se utiliza cuando las

poblaciones son diferente tamaño y se sabe que una es K veces mayor que la otra.
36

Aplicaciones

A lo largo de este documento se a explicado las aplicaciones sobre cada uno de los aspectos

investigados, además de utilizar un lenguaje compresivo que pudiera explicar el proceso de su

aplicación, este caso, los ejemplos o el procedimiento de cada una de las muestras presentadas.

Entonces, por consecuencia, se recomienda al lector dirigirse al tema deseado e indagar en el

para poder entrar su aplicación.


37

Bibliografías

[CITATION Dis \l 3082 ]

[ CITATION Pér01 \l 3082 ]

[CITATION Áng \l 3082 ]

[ CITATION Dis1 \l 3082 ]

[ CITATION Aba19 \l 3082 ]

[ CITATION Wik \l 3082 ]

[ CITATION Uni \l 3082 ]

[ CITATION Cla1 \l 3082 ]

[ CITATION Eds \l 3082 ]

[ CITATION Ins \l 3082 ]

[ CITATION Ver16 \l 3082 ]

[ CITATION Ado18 \l 3082 ]

[ CITATION Ser12 \l 3082 ]

[ CITATION Pre \l 3082 ]

[ CITATION Leo14 \l 3082 ]

[ CITATION Lui03 \l 3082 ]

[ CITATION Sli \l 3082 ]

[ CITATION Ana \l 3082 ]

[ CITATION Tem \l 3082 ]

[ CITATION Moi09 \l 3082 ]

[ CITATION Sli1 \l 3082 ]

Potrebbero piacerti anche