Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
......................................
Resumen
Uno de los problemas que se pueden presentar al analizar un diseño con estructura factorial fraccionada
es la presencia de observaciones influyentes, las cuales pueden distorsionar el análisis de varianza,
conllevando a conclusiones erróneas. Este problema, no tratado aún el la literatura estadística, es el interés
principal de este trabajo. En este se plantea la posibilidad de detectar las observaciones influyentes mediante
el uso de herramientas implementadas en los modelos de regresión lineal múltiple.
Palabras claves: Diseño Factorial Fraccionado, Mínima Aberración, Regresión Lineal Múltiple,
Observaciones Influyentes.
Abstract
One of the difficulties that can appear when analyzing a factorial structure design is the influent
observation presence, which can distort the variance analysis, leading to wrong conclusions. This problem,
which is not so explored until now in the statistics research, is the main topic in this work. The possibility of
detecting influent observations through the usage of tools implemented in the multiple linear regression
models, is suggested.
Keywords: Fractional Factorial Design, Minimal aberration, Multiple Linear regression, Influent
Observations.
1. Introducción
El uso de técnicas experimentales dentro del programa de producción y mejoramiento de la calidad
en la industria, ayuda a seleccionar en forma óptima, la combinación de las categorías de los factores
que intervienen en la elaboración de un producto; de forma tal que este se acerque al “ideal” tanto
en calidad como en economía; este hecho ha permitido que muchas empresas hayan fortalecido sus
departamentos de estadística, ante la efectividad de estas herramientas en el control de la calidad
final del producto. Por lo general en los procesos industriales que conducen a problemas de
optimización, en aras al mejoramiento de la calidad se busca estudiar el efecto de las variables
1
Tatiana Pamela Jiménez Valderrama
Uno de los problemas que puede presentarse al desarrollar esta clase de experimentos es el de
identificación de observaciones influyentes, el cual no ha sido abordado hasta el momento según la
revisión literaria realizada. Se han realizado algunas propuesta para solucionar este problema en los
diseños factoriales 2k, Oehlert (1994), Vargas (1998) y Jiménez (2000). Se han propuesto diferentes
metodologías, destacándose principalmente los métodos robustos y la aplicación de métodos de
identificación de observaciones influyentes desarrollados en la teoría de la regresión. Esta técnica de
reparametrización es de gran interés en el desarrollo de este trabajo ya que se utiliza este resultado
para transformar el diseño de estructura factorial fraccionada 2k−p a un modelo de regresión lineal
múltiple con el fin de emplear las herramientas de detección de observaciones influyentes que
existen para este modelo y poder así dar una posible solución a la detección de observaciones
influyentes en el diseño factorial fraccionado.
2. Métodos Empleados
Para la identificación de observaciones influyentes presentes en un diseño factorial fraccionado 2k-p
se propone utilizar los estadísticos DfFits, Matriz de Influencia M y los estimadores M
redescending. Método que han sido propuestos en la literatura estadística con el fin de identificar
observaciones influyentes en modelos de regresión lineal múltiple.
yˆ i − yˆ (i )
DfFits i =
s ( i ) hii
El estadístico DfFit se ve afectado tanto por los errores de predicción como por apalancamiento,
en general cualquier observación para la cual DfFit i > 4( p / n) requiere atención.
1
M = EDHDE
ps 2
Donde s2 representa la estimación del cuadrado medio del error para el modelo de regresión
lineal múltiple, E es una matriz diagonal cuyos elementos son los residuales obtenidos y D es una
matriz diagonal con elementos (1 − hii ) −1 .
Para determinar cuáles observaciones tienen grandes ponderaciones se deben comparar el valor
relativo de las componentes para identificar los elementos del conjunto. El método sugerido es
observar todas las razones posibles entre las componentes en orden decreciente, buscando un
punto claro de corte y formar un conjunto de posibles puntos influyentes, y se procede a probarlos.
min
β
∑ ρ (e )
i =1
i
Donde la función ρ está relacionada con la función de máxima verosimilitud para una
distribución de los errores, seleccionada en forma adecuada.
Para obtener un estimador M se resuelve el sistema:
n
⎛ y i − xit β ⎞
∑ x ij Ψ ⎜
⎜ cs ⎟
⎟
i =1 ⎝ ⎠
donde ψ denota la derivada de la función ρ, y c es una constante de ajuste.
Vargas (1998) considera el diseño factorial con la siguiente estructura para los datos:
p
y mi = ∑ xi jθ j + δ i + ε i
j =1
donde i=1,2,…,N, ymi es la mediana de las r réplicas por tratamiento y δi = 0 para la mayoría de
las celdas. Aquellas para las cuales δi ≠ 0 se identifican como posibles influyentes. Se asume que εi
sigue una distribución normal con media igual a cero y varianza σ2.
El modelo anterior se ajusta mediante una regresión robusta y aquellas celdas a las que el ajuste
les asigne un peso muy pequeño se consideran candidatas a influyentes.
3. Ejemplo
Los datos de éste factorial fueron simulados por Oehlerth (1994) con el fin de ajustarse a un
modelo de efectos principales más una interacción de segundo orden. Su estructura es presentada
en la Tabla 1 donde las observaciones correspondientes a la combinación de tratamientos donde
todos los niveles de los factores están presentes en el nivel bajo se encuentra contaminada.
El análisis de varianza (Tabla 2) para este factorial completo muestra, que con un nivel de
significancia de 0.05 el único efecto no significativo es CD, as subir el nivel de significancia a 0.08
todos los efectos son significativos.
El hecho de que aparezcan como significativas intersecciones de tercer orden hace sospechar de la
presencia de observaciones influyentes en el conjunto de datos, así que se realizaron las pruebas
para la validación de supuestos: con la prueba de Levene se obtuvo un valor de prueba F15,16=0,174
(p_valor de 0,999) para la hipótesis nula de igualdad de varianzas intratratamientos; al realizar la
prueba de Kolmogorov-Smirnov se obtuvo un p_valor de 0,454 para la hipótesis nula de
distribución normal para los errores. De esta forma se comprueban los supuestos del modelo. Esto,
en condiciones ideales, sería suficiente para suponer que el modelo propuesto en el análisis de
varianza es el correcto.
Tabla 2: Análisis de varianza para el diseño factorial 24 propuesto por Oehlerth (1994)
Fuente de Sumas de
p_Valor
Variabilidad Cuadrados
A 120,901 0,000
B 204,020 0,000
C 472,781 0,000
D 335,405 0,000
AB 18,000 0,005
AC 24,811 0,002
AD 15,125 0,010
BC 27,380 0,001
BD 10,811 0,025
CD 6,480 0,073
ABC 11,520 0,021
ABD 34,031 0,000
ACD 50,000 0,000
BCD 22,111 0,000
Error 30,251
Sin embargo, el estudio llevado a cabo por Jiménez (2000) mostró que las observaciones
correspondientes al tratamiento (1) fueron identificadas como influyentes mediante el método
propuesto por Vargas (1998) y se estimaron dichas observaciones en 14,23.
Al estudiar de nuevo el conjunto de datos, ahora con las observaciones influyentes ya corregidas se
obtiene un nuevo análisis de varianza (Tabla 3) en el cual a un nivel de significancia de 0,05 son
significativos los efectos principales, una interacción de segundo orden y una de tercer orden. El
error estándar del error fue reducido a 0,97, el R2 ajustado es de 0,982 el cual también mejoró y la
prueba de distribución normal sobre los errores obtuvo una significancia de 0,781 mejor que la
obtenida con los datos originales.
Ahora, bien como el interés es identificar este tipo de observaciones en una estructura factorial
fraccionada, ya que es la de uso más frecuente en problemas industriales, se fraccionó el factorial 24
según el criterio de la tabla de signos (Tabla 4).
Tabla 3: Análisis de varianza para el factorial 24 de Oehlerth (1994) con observaciones ajustadas
Fuente de Sumas de
p_Valor
Variabilidad Cuadrados
A 42,920 0,000
B 350,728 0,000
C 685,796 0,000
D 517,937 0,000
AB 0,041 0,838
AC 0,293 0,585
AD 0,308 0,575
BC 0,622 0,428
BD 1,337 0,250
CD 3,605 0,067
ABC 1,103 0,295
ABD 1,931 0,171
ACD 6,901 0,015
BCD 0,067 0,794
Error 16,026
Así las fracciones quedaron de tal forma que la información influyente se encuentra en la fracción
generada por I = +ABCD y la fracción generada por I = −ABCD se encuentra “limpia” de
observaciones influyentes.
Al llevarse a cabo el análisis de varianza para la fracción I = +ABCD (Tabla 5) se encuentra que
todos los efectos son significativos, su R2 ajustado es 0,957 y s2 es 1,417. Estos resultados
concuerdan con el análisis de varianza del factorial completo, ya que significancia de las
interacciones dobles hace sospechar de la posible presencia de observaciones influyentes.
Fuente de Sumas de
p_Valor
Variabilidad Cuadrados
A 123,210 0,000
B 26,010 0,003
C 126,563 0,000
AB 23,040 0,004
AC 34,223 0,001
BC 41,603 0,001
ABC 111,303 0,000
Error 11,340
Sin embargo, con la otra fracción, I = −ABCD, se obtiene que únicamente son significativos los
efectos principales y la interacción de orden tres (alias del efecto principal D), su R2 es 0,989 y s2 es
0,641 (Tabla 6), lo cual concuerda con el análisis de varianza del factorial completo cuando se han
ajustado las observaciones influyentes.
Fuente de Sumas de
p_Valor
Variabilidad Cuadrados
A 19,803 0,001
B 228,010 0,000
C 380,250 0,000
AB 1,440 0,172
AC 1,440 0,172
BC 0,903 0,270
ABC 235,622 0,000
Error 5,130
A B C DfFits
Bajo Bajo Bajo -0,70 0,70
Alto Alto Bajo 1,25 -1,25
Alto Bajo Alto 1,05 -1,05
Bajo Alto Alto 0,35 -0,35
Alto Bajo Bajo -0,80 0,80
Bajo Alto Bajo -0,90 0,90
Bajo Bajo Alto -0,95 0,95
Alto Alto Alto -0,20 0,20
El siguiente método empleado fue el de Matriz de Influencia, para la cual se tuvo en cuenta los
valores residuales que se presentan en la Tabla 8 para la construcción de la Matriz E, también se
construyó la matriz XtX, la cual es una matriz diagonal con elementos (xtx)ii = 16, a partir de esta se
obtuvo la matriz H cuyos elementos de la diagonal fueron hii = 0,4375 y teniendo en cuenta estos
valores se construyó la Matriz D, obtenidas las marices E, D y H se tienen todos los elementos para
la construcción de la matriz M que se muestra a continuación:
La cual tiene siete (7) valores propios no nulos, cada vector propio esta conformado por los
componentes: { −0.707, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.707} .
A B C Residuales
Bajo Bajo Bajo -0,70 0,70
Alto Alto Bajo 1,25 -1,25
Alto Bajo Alto 1,05 -1,05
Bajo Alto Alto 0,35 -0,35
Alto Bajo Bajo -0,80 0,80
Bajo Alto Bajo -0,90 0,90
Bajo Bajo Alto -0,95 0,95
Alto Alto Alto -0,20 0,20
Por último se emplearon métodos robustos utilizando como funciones de influencia las de Hampel,
Huber y Andrews. Las constantes de ajuste que se utilizaron fueron las establecidas en el programa
S-PLUS2000 (Huber: c = 1,5, Hampel: a = 1,5, b = 3,5 y c = 8 y para Andrews c = 2,1). Como se
muesra en la Tabla 9 estas funciones no identificaron ninguna observación como posible influyente.
De estos se esperaba que identificaran de forma eficaz la celda con información influyente pero no
se obtuvo el resultado esperado, los estimadores de Huber y Hampel asignaron pesos iguales a 1
para todas las observaciones y el de Andrews pesos iguales a 0,958, así que no identificaron a
ninguna de las observaciones como posible influyente.
4. Conclusiones
En este caso ninguno de los métodos propuestos identificaron las observaciones influyentes
contenidas en la fracción I = +ABCD, con lo cual se llega a la conclusión que los efectos
correspondientes a los factores principales y a los de las interacciones son significativos para la
variable respuesta, sin embargo esto conlleva a una decisión errónea y podría significar un alto costo
si de esto dependiera la elaboración de un producto.
Tabla 9: Asignación de pesos a las observaciones, de la fracción 24-1 generada por I = +ABCD, por métodos robustos
Referencias
Jiménez, M. (2000), Ajuste de factoriales 2k con presencia de Observaciones Influyentes y Valores
Faltantes mediante Modelos de Regresión, Trabajo de Grado (Estadística), Universidad
Nacional de Colombis, Facultad de Ciencias, Departamento de Estadística, Bogotá.
Montgomery, D. C., & Peck, E. A., (1995), Introduction to Linear Regression, Second
Edition. John Wiley & Sons, Inc. New York.
Oehlert, G., (1994), ‘Isolating One-Cell Interactions’, Technometrics 36, 403-408.
Peña, D. & Yohai, V. J., (1995), ‘The Detection of Influential Subsets in Lineal Regression using an
Influence Matrix’, Journal of the Royal Statistical Society, Serie B 57, 145-156.
Vargas, J. A., (1998), ‘Identificación de Celdas Atípicas en Experimentos Factoriales Mediante el
uso de Regresión Robusta’ Revista Colombiana de Estadística 22, 9-16.