Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Mayo 07 de 2020
M.E.S. Pablo Daniel Lugo Amador, Estadística Inferencial I, Instituto Tecnológico de Nuevo
Laredo
La correspondencia relacionada con esta investigación ser dirigida a nombre de Pablo Daniel
Contacto: govanna_13_05_00@hotmail.com
Contenido
Introducción................................................................................................................................1
Distribución Normal...................................................................................................................2
Tipificación de la variable:.....................................................................................................4
t de Student.................................................................................................................................7
Grados de libertad:..................................................................................................................8
Pruebas de significancia............................................................................................................13
Comparación de dos muestras independientes: Pruebas t para las diferencias entre dos medias
.......................................................................................................................................................17
Encabezado: TRABAJO DE ANALISIS
Pruebas de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales
.......................................................................................................................................................22
Definición:............................................................................................................................22
Características:......................................................................................................................23
Grados de libertad:................................................................................................................23
Muestra:................................................................................................................................27
Muestras pareadas:................................................................................................................27
Características:......................................................................................................................27
Escalas de comparación:.......................................................................................................28
Proceso:.................................................................................................................................28
Modelos de ANOVA:...........................................................................................................30
Para poder aplicar esta técnica, es necesario que se verifiquen las siguientes condiciones
previas:.......................................................................................................................................32
ANOVA de un factor:...........................................................................................................32
Aplicaciones..............................................................................................................................36
Bibliografías..............................................................................................................................37
1
Introducción
metodología paso a paso que le permite hacer inferencias sobre un parámetro poblacional
mediante el análisis diferencial entre los resultados observados y los resultados de la muestra
elegir el valor de un parámetro de la población, mientras que en las pruebas de hipótesis se trata
de decidir entre aceptar o rechazar un valor especifico (por ejemplo, si el nivel de centramiento
de un proceso es o no lo es).
Distribución Normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
generalmente por µ y σ. Con esta notación, la densidad de normal viene dada por la ecuación:
Así, se dice que una característica X sigue una distribución normal de media µ y varianza σ²,
y se denota como X = N (µ, σ), si su función de densidad viene dada por la ecuación 1.
Al igual que ocurría con un histograma, Enel que el área de cada rectángulo es proporcional al
número de datos en el rango de valores correspondiente si, tal y como se muestra en la figura 1,
en el eje horizontal se levanta perpendicular en dos puntos a y b, en área bajo la curva delimitada
por esas líneas indica la probabilidad de que la variable de interés X, tome un valor cualquiera en
3
ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus
“ramas” se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución
normal, será mucho más probable observar un dato cercano al valor medio que uno se encuentre
II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞ y
+∞ es teóricamente posible. El área total bajo la curva es, por lo tanto, igual a 1.
III. Es simétrica con respecto a su media µ. Según esto, para este tipo de variables existe
igual a una desviación típica (σ). Cuanto mayor sea σ, más aplanada será la curva de la
densidad.
V. El área bajo la curva comprendido entre los valores situados aproximadamente a dos
desplazada a lo largo del eje horizontal. Por otra parte, le desviación estándar
se dispersarán los datos en tomo a la media y la cuerva será más plana. Un valor
4
pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos
Se observó que no existe una sola distribución de probabilidad normal, sino una “familia” de
ellas. Como sabemos, cada una de las distribuciones puede tener una media (µ) o una desviación
estándar distinta (σ). Por tanto, el número de distribuciones normales es ilimitado y sería
normal, aquella cuya media es 0 y desviación estándar 1 que es la que se conoce como
distribución estándar normal, o tipificada o reducida, de forma que todas las distribuciones
Tipificación de la variable:
Para poder utilizar la tabla tenemos que transformar la variable X que sigue una distribución
Φ(k) = P(z ≤ k)
Justamente, esta tabla nos proporciona la probabilidad desde que ocurran sucesos menores
que Z = 0.46. Esto es, la probabilidad de que ocurran secesos desde menos infinito hasta el valor
Sucesos menos que Z = 0.46 es lo mismo que decir que la temperatura sea menor que 21°C.
t de Student
La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en
una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de artículos
científicos debido a una difusión previa de secretos industriales. De ahí que Gosset publicase sus
30. En estos casos se puede utilizar la desviación estándar de la muestra S como una estimación
por razones de tiempo y reducción de costos, para ello fue descubierta la distribución y por
Distribución t Student.
I. Para determinar el intervalo de confianza dentro del cual se puede estimar la media de
II. Para probar hipótesis cuando una investigación se basa en muestreo pequeño.
estos casos, se puede utilizar la desviación estándar de la muestra S como una estimación de σ,
Grados de libertad:
Existe una distribución t distinta para casa uno de los posibles grados de libertad. Y podemos
una media de cero. Ambas tienen distribuciones de campana para la distribución y es más
de probabilidad que surge del problema de estimar la media de una población normalmente
A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que
La gráfica de esta función de densidad es simétrica, respecto del eje de ordenada, con
distribución t tiene colas más amplias que la normal; esto es, la probabilidad e las cosas es mayor
que en la distribución normal. A medida que el número de grados de libertad tiende a infinito, la
II. Cada curva t, está más dispersa que la cuerva normal estándar.
IV. A medida que k→∞, la secuencia de curvas t se aproxima a la curva normal estándar.
Se considera:
IV. Se aplica la Distribución t de Student para calcular la probabilidad de error (P) por
medio de la fórmula:
Pruebas de significancia
población es verdadera. Por ejemplo, es posible desear determinar si afirmaciones como las
Ocasionalmente quizá se quiera evaluar una afirmación que no especifique realmente el valor
II. La razón promedio de kilómetros por litro es la misma para los tres tipos de gasolina.
El primer paso de la prueba se significancia es formular dos hipótesis con respecto a dicho
aserto. Las hipótesis son explicaciones potenciales (teorías) que intenta informar acerca de
hechos observados en situaciones en las que existen algunos factores desconocidos. Definiéndose
formalmente dos tipos de hipótesis que se requieren formular. La que señala que la proposición
segunda, que afirma que la proposición es falsa se denomina hipótesis alternativa y se designa
El nivel de significancia de una prueba es la probabilidad de rechazar una hipótesis nula que
sea verdadera.
El tercer paso es una prueba de este tipo es seleccionar un nivel de significación que sea
aceptable. Esto, a su vez, indicará un valor crítico correspondiente que servirá como un estándar
Por lo tanto, la esencia de una prueba de significancia es dividir una distribución de muestreo
H0. Un valor crítico se selecciona con base a una probabilidad especifica de que el tomador de
decisiones esté dispuesto a aceptar o rechazar una H0 verdadera, Un valor estadístico de prueba
se calcula a partir de datos de la muestra y del valor esperado (propuesto), el cual es comparado
con el valor crítico. Un valor estadístico de prueba es superior al valor crítico señala que se debe
rechazar H0 (es decir, que la sola variabilidad del muestreo no tendrá en cuenta el valor
estadístico de muestrea observado), mientras que un valor de prueba menor que el valor critico
En esencia, la hipótesis alternativa se utiliza para indicar qué aspecto de variación no aleatoria
I. En el primer caso: un valor demasiado por encima o demasiado por debajo del valor
II. En el segundo caso: únicamente un valor demasiado abajo del valor esperado
III. En el tercer caso: ocurre justamente lo opuesto, dado que sólo calores muy por encima
sea crítica, mientras que la prueba de cola izquierda es útil cuando se quiere observar si se ha
cumplido un estándar mínimo, y la prueba de la cola derecha sirve cuando estándares máximos
Existen dos tipos de errores que son inherentes al proceso de la prueba de significación. Ya se
ha observado que el creer que H0 es falsa cuando realmente es verdadera, puede conllevar cierto
riesgo. La probabilidad de cometer este error es igual al nivel de significancia de una prueba α.
También se conoce como error de tipo I. Un segundo tipo de error que también se puede
designa el símbolo β.
16
Naturalmente existe la esperanza de que H0 sea aceptada cuando sea verdadera, y rechazada
cuando sea falsa. Por tanto, en cualquier prueba pueden presentarse cuatro posibilidades. Es
importante saber que una vez que se toma una decisión, ésta puede ser correcta o incurrir en
algún tipo de error, y la decisión (aceptada o rechazada) indicará qué tipo de error es posible.
Obsérvese también que, cuando H0 es verdadera no puede haber tipo II, y cuando H0 es falsa no
Sin embargo, existe una relación inversa entre los errores tipo I y de tipo II: si disminuye la
probabilidad de un error de tipo I, respecto al de incurrir en uno de tipo II, aunque en la práctica
es común seleccionar tradicionalmente niveles de errores tipo I y pasar por alto los de tipo II.
17
Comparación de dos muestras independientes: Pruebas t para las diferencias entre dos
medias
Aunque podemos utilizar la t de Student para contrastar la media de una muestra y la media
poblacional de la que ha sido extraída (problema más simple referido a una sola muestra), el uso
más habitual de esta distribución es el de comparar las medias de una variable cuantitativa
calcularemos las medias de la variable continua para los dos grupos de la variable cualitativa y
crearemos el contraste para determinar si existen diferencias significativas o no entre las medias
Se plantea una hipótesis nula y una hipótesis alternativa, y a partir de estas hipótesis se tiene
que comprobar si la diferencia que existe entre las dos medias es debido a que realmente una
hipótesis es más efectiva que la otra, o si las diferencias observadas se podrían explicar
Para poder resolver este tipo de problemas se aplica la expresión de la t de Student para
Podemos ver que la t de Student se obtiene dividiendo el efecto entre un error (en este caso,
Como en la mayoría de los test estadísticos, todo el secreto está en dividir la diferencia
diferencias significativas.
significativas.
Como regla general, si el valor de t que hemos encontrado es superior al tabulado se rechaza
la hipótesis nula y se podrá afirmar que hay diferencias significativas entre ambas medias.
Ahora solo nos falta saber qué es eso del error estándar de la diferencia de medias (EEDM).
Primero tenemos que usar una varianza común llamada varianza ponderada Sp². Para calcularla
se hace una media ponderada entre las dos varianzas. Se pondera cada varianza por los grados de
Una vez que sabemos cuál es la desviación estándar ponderada, ya podemos calcular el
Antes de aplicar el test que acabamos de ver, debemos comprobar si se cumplen las
condiciones de aplicación.
Las condiciones de aplicación del test t para comparar dos medias son:
I. Normalidad
dentro de cada grupo. Habitualmente se suele emplear el siguiente criterio: cuando tanto n como
m son mayores o iguales a 3º se puede presumir que la aproximación a la normal será buena.
Se debe comprobar si la variable cuantitativa se aproxima a la normal hay que verificar que en
Comprobar que el máximo y el mínimo queden dentro del intervalo definido por:
Que la asimetría (en valor absoluto) sea menor que dos veces su error estándar:
Que la curtosis (en valor absoluto) sea menor que dos veces su error estándar:
logaritmos.
comprobar si los valores de una variable siguen o no la distribución normal. Cuando resultan
paramétricas.
Además de seguir una distribución normal hay que comprobar que las varianzas de ambos
que no hay diferencias significativas entre las varianzas. Para ellos calculamos las varianzas de
A continuación, se calculan los grados de libertad del numerador y denominador que son (n-1)
y (m-1) respectivamente, y se busca en las tablas de la F el valor tabulado para p=0.05. Cuanto
más diferentes sean las varianzas, mayor valor tendrá F y superara el valor critico de las tablas.
Si la F calculada es superior al valor tabulado, pensaremos que las varianzas no son homogéneas
entre sí.
21
Con lo visto hasta ahora hemos resuelto el problema de la comparación de dos grupos
independientes, pero se ha llegado a una conclusión algo limitada: “no existen diferencias
grupos. Vimos que esto se resolvía calculando unos límites de confianza a la diferencia de
medias.
La expresión es parecida al intervalo de confianza para una media, pero ahora se utiliza una
normales
Esta razón F fue creada por Ronaldo Fisher (1890- 1962) matemático británico, cuyas teorías
estadísticas hicieron mucho más precisos los experimentos científicos. Usada en teoría de
Esta prueba se usa como estadística de prueba en varias situaciones. Igualmente se emplea
para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. La cual es
útil para determinar si una población normal tiene una mayor variación que la otra. También se
Definición:
ocurrencia de una razón especifica con V1 =n1 y V2=n2-1, grados de libertad en muestras de
tamaño n1 y n2.
Características:
denominador.
IV. A medida que aumentan los valores, la curva se aproxima al eje x, pero nunca lo toca.
varianzas diseminadas determinando si las diferencias mostradas son significativas y por lo tanto
con la misma desviación estándar son iguales. Esta es, quizás, la más conocida de las
varianza.
Grados de libertad:
Se llama grados de libertad al número de movimientos simples que puede tener un cuerpo o
un punto material.
24
procedimiento:
Grafica de la distribución F:
razón de las varianzas muestrales s 21 / s 22. Si s 21 / s 22 es casi igual a 1, se tendrá poca evidencia
25
para indicar que σ 21 y σ 22 no son iguales. Por otra parte, un valor muy grande o muy pequeño para
independientes, cada una divida entre sus respectivos grados de libertad. Esto es,
respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribuciones ji-cuadradas con
para
para
26
distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sin embargo, se
Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística del autor
Güenther, se tendrá que buscar primero los grados de libertad dos para luego localizar el área
correspondiente, relacionándola con los grados de libertad uno, para calcular el valor de F.
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente:
27
Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma depende de
Muestra:
Es una parte de la población, seleccionada por técnicas estadísticas, en la que a cada uno de
Muestras pareadas:
Hay situaciones cuando cada observación en la muestra 1 está correlacionada de alguna forma
Características:
I. Cada observación en una muestra está directamente relacionada con otra observación
en la otra muestra.
III. Las dos muestras difieren solo en el factor que interesa comparar.
Como hemos estado analizando este tipo de muestras; estas representan la falta de
independencia entre las observaciones de los grupos, y puede ser una característica de diseño del
28
estudio para buscar fundamentalmente una mayor eficiencia del contraste estadístico al disminuir
la variabilidad. En otras ocasiones con este tipo de diseño pareado lo que se busca es dar una
extrañas cuyo efecto ya es conocido o sospechado, y que se dese desea que intervengan en el
Escalas de comparación:
Las escalas de comparación pareada le piden al participante que elija uno de dos productos de
En el lado positivo:
Las comparaciones pareadas superan varios problemas de las escalas tradicionales de orden de
rango:
I. A las personas les resulta más fácil elegir o seleccionar un aspecto de una serie de dos,
En el lado negativo:
Debido a que se evalúan todos los pares posibles, el número de comparaciones pareadas se
incrementa geométricamente a medida que el número de objetos que se van a evaluar crece
aritméticamente. Por consiguiente, el número de objetos que se van evaluar debe ser bastante
Proceso:
columnas numéricas donde los calores es cada fila están pareados, y corresponden al mismo
sujeto o unidad experimental. La razón principal para tal comparación típicamente es determinar
I. Hipotesis nula (H0): Cando no hay diferencia entre las muestas. A=B.
II. Hipotesis alternativa (H1): Cuando sí hay diferencia entre las muestras. A≠B.
30
terminología inglesa) son técnicas de análisis multivariante de dependencia, que se utilizan para
analizar datos procedentes de diseños con una o más variables independientes cualitativas
(medidas en escalas nominales u ordinales) y una variable dependiente cuantitativa (medida con
una escala de intervalo o de razón). En este contexto, las variables, las variables independientes
se suelen denominar factores (y sus diferentes estados posibles o valores son niveles o
Los modelos ANOVA permiten, básicamente, comparar los valores medios que toman la
variable dependiente en J poblaciones en las que los niveles de factores son distintos, con la
finalidad de determinar si existen diferentes significativas según dichos niveles o si, por el
Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y
genetista R. A. Fisher en los años 1920 y 1930 y es algunas ves conocido como “Anova de
Modelos de ANOVA:
Aunque existen muchos y muy diferentes modelos de ANOVA, puede obtenerse una
clasificación bastante simple de los mismo atendiendo a tres criterios: el número de factores, el
tipo de muestreo efectuado sobre los niveles de los factores y el tipo de aleatorización utilizada
para seleccionar las muestras representativas de cada población y agrupar sus elementos (o
cada factor. Esto depende, normalmente, de los intereses del investigador. Si se fijan
únicamente aquellos niveles del factor que realmente interesa estudiar, estamos ante
III. Las distinciones basadas en el tipo de aleatorización son equivalentes a las que se
sus elementos a los diferentes niveles o tratamientos, para asegurar que no se cometan
se dirán heterogéneas. Por otra parte, el tamaño de las muestras puede o no ser el
Como ya hemos indicado, en ANOVA se trata de determinar si los niveles de factores pueden
igualdad de medias de la variable dependiente en dichos grupos. Para ello se basa en el estudio
32
de la varianza. En concreto, se analiza la relación entre las llamadas medias cuadráticas inter-
grupos y medias cuadráticas intra-grupos, que deben ser iguales si las medias de las poblaciones
lo son.
Para poder aplicar esta técnica, es necesario que se verifiquen las siguientes condiciones
previas:
II. Aleatoriedad: las muestras o grupos objeto de estudio deben haberse obtenido de
forma aleatoria.
III. Normalidad: las muestras o grupos analizados deben seguir una distribución normal.
estudiados.
ANOVA de un factor:
dependiente cuantitativa en varios grupos, que se diferencian por los niveles del factor
considerado.
El análisis de la varianza nos permite realizar inferencias acerca de las medias poblacionales,
₁, ₂… k (desconocidas) a partir de las medias muestrales Y₁, Y₂…Yk (obtenidas
H0 ₁ ₂ … k
planteada.
33
observamos que como es obvio dentro de cada grupo, no todas las puntuaciones son iguales a la
media es decir presentan una variabilidad intragrupo. También observamos que a su vez los
grupos con práctica previa presentan asimismo esta variabilidad interna pero las puntuaciones
con en general mayores que en el grupo anterior. Es decir, observamos también la presencia de
Se trata por tanto de estimar de forma independiente la variabilidad total de variable estudiada
error.
misma población y, por tanto, las diferencias muestras observadas son debidas al azar.
“significativamente” mayor que la variabilidad intra-grupo y, por lo tanto, concluiremos que las
medias provienen de poblaciones diferentes, lo que nos conducirá al rechazo de la hipótesis nula
Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado
por:
Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja
Para el segundo caso se podrá una n en función de la otra. Este caso se utiliza cuando las
poblaciones son diferente tamaño y se sabe que una es K veces mayor que la otra.
36
Aplicaciones
A lo largo de este documento se a explicado las aplicaciones sobre cada uno de los aspectos
aplicación, este caso, los ejemplos o el procedimiento de cada una de las muestras presentadas.
Bibliografías