Sei sulla pagina 1di 10

Ciro Soliz De La Cruz

ANLISIS DE VARIANZA
(ANOVA)
INGENIERA DE CALIDAD

ERICK IVN LARA AGUIRRE

INGENIERA INDUSTRIAL

OCTAVO SEMESTRE
INSTITUTO TECNOLGICO SUPERIOR DE
COATZACOALCOS

CIRO SOLS DE LA CRUZ
1

INTRODUCCIN
La estadstica utilizada para analizar los resultados de los diseos con una variable
independiente y ms de dos niveles o condiciones se llama ANOVA. Esta es una
abreviatura para el anlisis de la varianza (ANalysis Of VAriance) . El de una va es
similar al t-test independiente, con excepcin de que un t-test independiente se utiliza
para diseos con dos condiciones o niveles, mientras que un ANOVA de una va se
utiliza para tres o ms niveles.
Al calcular variables independientes con ms de dos condiciones o niveles, un ANOVA
reduce el riesgo de cometer un error de la primera clase. Un error de tipo I es donde la
hiptesis puede ser inapropiadamente rechazada.

CIRO SOLS DE LA CRUZ
2

DESARROLLO
El anlisis de la varianza (ANOVA, ANalysis Of VAriance, segn terminologa inglesa)
es una coleccin de modelos estadsticos y sus procedimientos asociados, en el cual
la varianza est particionada en ciertos componentes debidos a diferentes variables
explicativas.
Las tcnicas iniciales del anlisis de varianza fueron desarrolladas por el estadstico y
genetista R. A. Fisher en los aos 1920 y 1930 y es algunas veces conocido como
"Anova de Fisher" o "anlisis de varianza de Fisher", debido al uso de la distribucin F
de Fisher como parte del contraste de hiptesis.
El anlisis de la varianza (ANOVA) es una potente herramienta estadstica, de gran
utilidad tanto en la industria, para el control de procesos, como en el laboratorio de
anlisis, para el control de mtodos analticos. Los ejemplos de aplicacin son
mltiples, pudindose agrupar, segn el objetivo que persiguen, en dos principalmente:
la comparacin de mltiples columnas de datos y la estimacin de los componentes de
variacin de un proceso. Nos ocupamos en este artculo de la primera de ellas.
Comparacin de mltiples poblaciones
La comparacin de diversos conjuntos de resultados es habitual en los laboratorios
analticos. As, por ejemplo, puede interesar comparar diversos mtodos de anlisis
con diferentes caractersticas, diversos analistas entre s, o una serie de laboratorios
que analizan una misma muestra con el mismo mtodo (ensayos colaborativos).
Tambin sera el caso cuando queremos analizar una muestra que ha estado sometida
a diferentes tratamientos o ha estado almacenada en diferentes condiciones. En todos
estos ejemplos hay dos posibles fuentes de variacin: una es el error aleatorio en la
medida y la otra es lo que se denomina factor controlado (Tipo de mtodo, diferentes
condiciones, analista o laboratorio,...). Una de las herramientas estadsticas ms
utilizadas que permite la separacin de las diversas fuentes de variacin es el anlisis
de la varianza (ANOVA, del ingls Analysis of Variance).
El ANOVA tambin puede utilizarse en situaciones donde ambas fuentes de variacin
son aleatorias. Un ejemplo sera el anlisis de algn compuesto de un vino almacenado
en un depsito. Supongamos que las muestras se toman aleatoriamente de diferentes
partes del depsito y se realizan diversos anlisis replicados. Aparte de la variacin
natural en la medida tendremos una variacin en la composicin del vino de les
diferentes partes del depsito.
Cuando tengamos un factor, controlado o aleatorio, aparte del error propio de la
medida, hablaremos del ANOVA de un factor. En el caso de que estuvisemos
desarrollando un nuevo mtodo colorimtrico y quisiramos investigar la influencia de
diversos factores independientes sobre la absorbancia, tales como la concentracin de
reactivo A y la temperatura a la que tiene lugar la reaccin, entonces hablaramos de
un ANOVA de dos factores.
CIRO SOLS DE LA CRUZ
3

En los casos donde tenemos dos o ms factores que influyen, se realizan los
experimentos para todas las combinaciones de los factores estudiados, seguido del
ANOVA. Se puede deducir entonces si cada uno de los factores o una interaccin entre
ellos tienen influencia significativa en el resultado. Para utilizar el ANOVA de forma
satisfactoria deben cumplirse tres tipos de hiptesis, aunque se aceptan ligeras
desviaciones de las condiciones ideales:
Cada conjunto de datos debe ser independiente del resto.
Los resultados obtenidos para cada conjunto deben seguir una distribucin
normal.
Las varianzas de cada conjunto de datos no deben diferir de forma significativa.
El anlisis de la varianza parte de los conceptos de regresin lineal.
El primer concepto fundamental es que todo valor observado puede expresarse
mediante la siguiente funcin:

Donde Y sera el valor observado (variable dependiente), y X el valor que toma la
variable independiente.
sera una constante que en la recta de regresin equivale a la ordenada en el origen,
es otra constante que equivale a la pendiente de la recta, y es una variable
aleatoria que aade a la funcin cierto error que desva la puntuacin observada de la
puntuacin pronosticada.
Por tanto, a la funcin de pronstico la podemos llamar "Y prima":

Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones
esperadas, ms el error aleatorio:
(1.1)
Sabiendo este concepto, podemos operar con esta ecuacin de la siguiente forma:
1) Restamos a ambos lados de la ecuacin (para mantener la igualdad) la media de la
variable dependiente:

2) Substituimos el error por la ecuacin resultante de despejar la ecuacin 1.1:

CIRO SOLS DE LA CRUZ
4

Por tanto...

Y reorganizando la ecuacin:

Ahora hay que tener en cuenta que la media de las puntuaciones observadas es
exactamente igual que la media de las puntuaciones pronosticadas:

Por tanto:

Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos
al cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:

Y desarrollamos el cuadrado:

Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas
por el nmero de casos (n), las llamamos Sumas de Cuadrados., excepto en el ltimo
trmino, que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y
la covarianza en este caso es cero (por las propiedades de la regresin lineal, la
covarianza entre el error y la variable independiente es cero).
Por tanto:

O lo mismo que:

de un factor, que es el caso ms sencillo, la idea bsica del anlisis de la varianza es
comparar la variacin total de un conjunto de muestras y descomponerla como:

CIRO SOLS DE LA CRUZ
5

Donde:
es un nmero real relacionado con la varianza, que mide la variacin
debida al "factor", "tratamiento" o tipo de situacin estudiado.
es un nmero real relacionado con la varianza, que mide la variacin
dentro de cada "factor", "tratamiento" o tipo de situacin.
En el caso de que la diferencia debida al factor o tratamiento no sean estadsticamente
significativa puede probarse que las varianzas muestrales son iguales:

Donde:
es el nmero de situaciones diferentes o valores del factor se estn
comparando.
es el nmero de mediciones en cada situacin se hacen o nmero de valores
disponibles para cada valor del factor.
As lo que un simple test a partir de la F de Snedecor puede decidir si el factor o
tratamiento es estadsticamente significativo.

Visin general
Existen tres clases conceptuales de estos modelos:
1. El Modelo de efectos fijos asume que los datos provienen de poblaciones
normales las cuales podran diferir nicamente en sus medias. (Modelo 1)
2. El Modelo de efectos aleatorios asume que los datos describen una jerarqua de
diferentes poblaciones cuyas diferencias quedan restringidas por la jerarqua.
Ejemplo: El experimentador ha aprendido y ha considerado en el experimento
slo tres de muchos ms mtodos posibles, el mtodo de enseanza es un
factor aleatorio en el experimento. (Modelo 2)
3. El Modelo de efectos mixtos describen situaciones que ste puede tomar.
Ejemplo: Si el mtodo de enseanza es analizado como un factor que puede
influir donde estn presentes ambos tipos de factores: fijos y aleatorios. (Modelo
3)



CIRO SOLS DE LA CRUZ
6

Supuestos previos
El ANOVA parte de algunos supuestos que han de cumplirse:
La variable dependiente debe medirse al menos a nivel de intervalo.
Independencia de las observaciones.
La distribucin de los residuales debe ser normal.
Homocedasticidad: homogeneidad de las varianzas.
La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum
of squares') en componentes relativos a los factores contemplados en el modelo. Como
ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en
diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede
resultar apropiado un anlisis de regresin lineal)

El nmero de grados de libertad (gl) puede separarse de forma similar y corresponde
con la forma en que la distribucin chi-cuadrado ( o Ji-cuadrada) describe la suma de
cuadrados asociada.

Tipos de modelo
Modelo I: Efectos fijos
El modelo de efectos fijos de anlisis de la varianza se aplica a situaciones en las que
el experimentador ha sometido al grupo o material analizado a varios factores, cada
uno de los cuales le afecta slo a la media, permaneciendo la "variable respuesta" con
una distribucin normal.
Este modelo se supone cuando el investigador se interesa nicamente por los niveles
del factor presentes en el experimento, por lo que cualquier variacin observada en las
puntuaciones se deber al error experimental.
Modelo II: Efectos aleatorios (componentes de varianza)
Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren
diferencias incomparables en el material o grupo experimental. El ejemplo ms simple
es el de estimar la media desconocida de una poblacin compuesta de individuos
diferentes y en el que esas diferencias se mezclan con los errores del instrumento de
medicin.
Este modelo se supone cuando el investigador est interesado en una poblacin de
niveles, tericamente infinitos, del factor de estudio, de los que nicamente una
muestra al azar (t niveles) estn presentes en el experimento.
CIRO SOLS DE LA CRUZ
7

El anlisis de la varianza permite contrastar la hiptesis nula de que las medias de K
poblaciones (K >2) son iguales, frente a la hiptesis alternativa de que por lo menos
una de las poblaciones difiere de las dems en cuanto a su valor esperado. Este
contraste es fundamental en el anlisis de resultados experimentales, en los que
interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la
variable dependiente o de inters.

El Anova requiere el cumplimiento los siguientes supuestos:
Las poblaciones (distribuciones de probabilidad de la variable dependiente
correspondiente a cada factor) son normales.
Las K muestras sobre las que se aplican los tratamientos son independientes.
Las poblaciones tienen todas igual varianza (homoscedasticidad).
El ANOVA se basa en la descomposicin de la variacin total de los datos con respecto
a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimacin
de obtenida a partir de toda la informacin muestral, en dos partes:
Variacin dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersin
de los valores de cada muestra con respecto a sus correspondientes medias.
Variacin entre muestras (SCE) o Inter-grupos, cuantifica la dispersin de las
medias de las muestras con respecto a la media global.
Las expresiones para el clculo de los elementos que intervienen en el Anova son las
siguientes:
Media Global:
Variacin Total:
Variacin Intra-grupos:
Variacin Inter-grupos:
Siendo xij el i-simo valor de la muestra j-sima; nj el tamao de dicha muestra y su
media. Cuando la hiptesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores
insesgados de la varianza poblacional y el cociente entre ambos se distribuye segn
una F de Snedecor con K-1 grados de libertad en el numerador y N-K grados de libertad
en el denominador. Por lo tanto, si H0 es cierta es de esperar que el cociente entre
ambas estimaciones ser aproximadamente igual a 1, de forma que se rechazar H0
si dicho cociente difiere significativamente de 1.
CIRO SOLS DE LA CRUZ
8

Grados de libertad
Los grados de libertad pueden descomponerse al igual que la suma de cuadrados. As,
GLtotal = GLentre + GLdentro. Los GLentre se calculan como: a - 1, donde a es el
nmero de tratamientos o niveles del factor. Los GLdentro se calculan como N - a,
donde N es el nmero total de observaciones o valores de la variable medida (la
variable respuesta).
Pruebas de significacin
El anlisis de varianza lleva a la realizacin de pruebas de significacin estadstica,
usando la denominada distribucin F de Snedecor.
Tablas ANOVA
Una vez que se han calculado las sumas de cuadrados, las medias cuadrticas, los
grados de libertad y la F, se procede a elaborar una tabla que reuna la informacin,
denominada "Tabla de Anlisis de varianza o ANOVA", que adopta la siguiente forma:

Tabla de ANOVA
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado medio F
Intergrupo

t - 1


Intragrupo o
Error

N - t


Total

N - 1

Tabla ANOVA del modelo de regresin simple
Fuente de
Variacin
Suma de
Cuadrados
Grados de
Libertad
Varianzas
Por la recta
scE = i = 1
n
2

1
e
2
=
Residual
scR = i = 1
n
2

n - 2
R
2
=
Global
scG = i = 1
n
2

n - 1
Y
2
=



CIRO SOLS DE LA CRUZ
9

CONCLUSIN
Hemos visto que el ANOVA puede utilizarse para comparar entre s las medias de los
resultados obtenidos por diversos laboratorios, analistas, mtodos de anlisis, etc. En
el siguiente artculo mostraremos cmo utilizar el ANOVA para descomponer la
variacin total de un proceso en las fuentes de variacin parciales.
Esto nos puede resultar muy til para, por ejemplo, determinar cules son los factores
que afectan ms a un determinado procedimiento analtico. Desde el punto de vista
prctico, existen mltiples paquetes estadsticos que permiten ejecutar rpidamente los
clculos del ANOVA. Lo que es interesante, sin embargo, es que el usuario tenga
capacidad para extraer conclusiones qumicas de los resultados obtenidos.

Potrebbero piacerti anche