Sei sulla pagina 1di 10

XVIII Simposio Colombiano de Estadística

Estadística en la industria y los negocios


Cartagena de Indias, Agosto 11 al 15 de 2008

DETECCIÓN DE OBSERVACIONES INFLUYENTES EN


DISEÑOS FACTORIALES 2k-p, ESTUDIO DE CASOS
Detection of influential observations in factorial design 2k-p, Case Studies

Tatiana Pamela Jiménez *

......................................

Resumen
Uno de los problemas que se pueden presentar al analizar un diseño con estructura factorial fraccionada
es la presencia de observaciones influyentes, las cuales pueden distorsionar el análisis de varianza,
conllevando a conclusiones erróneas. Este problema, no tratado aún el la literatura estadística, es el interés
principal de este trabajo. En este se plantea la posibilidad de detectar las observaciones influyentes mediante
el uso de herramientas implementadas en los modelos de regresión lineal múltiple.

Palabras claves: Diseño Factorial Fraccionado, Mínima Aberración, Regresión Lineal Múltiple,
Observaciones Influyentes.

Abstract
One of the difficulties that can appear when analyzing a factorial structure design is the influent
observation presence, which can distort the variance analysis, leading to wrong conclusions. This problem,
which is not so explored until now in the statistics research, is the main topic in this work. The possibility of
detecting influent observations through the usage of tools implemented in the multiple linear regression
models, is suggested.

Keywords: Fractional Factorial Design, Minimal aberration, Multiple Linear regression, Influent
Observations.

1. Introducción
El uso de técnicas experimentales dentro del programa de producción y mejoramiento de la calidad
en la industria, ayuda a seleccionar en forma óptima, la combinación de las categorías de los factores
que intervienen en la elaboración de un producto; de forma tal que este se acerque al “ideal” tanto
en calidad como en economía; este hecho ha permitido que muchas empresas hayan fortalecido sus
departamentos de estadística, ante la efectividad de estas herramientas en el control de la calidad
final del producto. Por lo general en los procesos industriales que conducen a problemas de
optimización, en aras al mejoramiento de la calidad se busca estudiar el efecto de las variables

Estadística, Magister en Ciencias Estadísticas: mtjimenezv@gmail.com

1
Tatiana Pamela Jiménez Valderrama

(factores) en la elaboración del producto. Cuando en la elaboración de un producto intervienen


muchos factores, se recomienda la aplicación del diseño con arreglo factorial como una alternativa
más eficiente a los métodos donde se van estudiando los factores en forma separada, es decir frente
a los experimentos secuenciales, esto se traduce en eficiencia y economía.

Sin embargo, en condiciones de uniformidad y de encontrarse similitudes, los efectos de las


interacciones de orden superior con frecuencia son negligibles (de poco interés práctico) siendo
deseable emplear un diseño fraccionado que con menos corridas dé información sobre los efectos
de mayor interés (efectos principales e interacciones dobles).

Uno de los problemas que puede presentarse al desarrollar esta clase de experimentos es el de
identificación de observaciones influyentes, el cual no ha sido abordado hasta el momento según la
revisión literaria realizada. Se han realizado algunas propuesta para solucionar este problema en los
diseños factoriales 2k, Oehlert (1994), Vargas (1998) y Jiménez (2000). Se han propuesto diferentes
metodologías, destacándose principalmente los métodos robustos y la aplicación de métodos de
identificación de observaciones influyentes desarrollados en la teoría de la regresión. Esta técnica de
reparametrización es de gran interés en el desarrollo de este trabajo ya que se utiliza este resultado
para transformar el diseño de estructura factorial fraccionada 2k−p a un modelo de regresión lineal
múltiple con el fin de emplear las herramientas de detección de observaciones influyentes que
existen para este modelo y poder así dar una posible solución a la detección de observaciones
influyentes en el diseño factorial fraccionado.

2. Métodos Empleados
Para la identificación de observaciones influyentes presentes en un diseño factorial fraccionado 2k-p
se propone utilizar los estadísticos DfFits, Matriz de Influencia M y los estimadores M
redescending. Método que han sido propuestos en la literatura estadística con el fin de identificar
observaciones influyentes en modelos de regresión lineal múltiple.

2.1. Estadístico DfFits


Este estadístico está diseñado para detectar la presencia de observaciones influyentes mediante la
medición del número de desviaciones estándar ñeque cambian los valores ajustados al eliminar una
observación determinada, como se explica en Montgomery & Peck (1995), este estadístico se define
como:

yˆ i − yˆ (i )
DfFits i =
s ( i ) hii

con i=1,2,…,n, yˆ (i ) es el valor ajustado de yi sin utilizar la i-ésima observación, yˆ (i ) es el valor


ajustado utilizando todas las observaciones, s(i) la estimación de la escala sin tener en cuenta la i-
ésima observación y hii es el elemento de la diagonal de matriz H = X(XtX)-1Xt correspondiente a la
i-ésima observación.

XVIII Simposio de Estadística 2008


Detección de Observaciones Influyentes 3

El estadístico DfFit se ve afectado tanto por los errores de predicción como por apalancamiento,
en general cualquier observación para la cual DfFit i > 4( p / n) requiere atención.

2.2. Matriz de Influencia M


Es un método, propuesto por Peña & Yohai (1985), para detectar conjuntos de observaciones
influyentes en modelos de regresión lineal múltiple mediante el estudio las coordenadas de los
vectores propios de una matriz de covarianzas no-centradas. Esta matriz esta definida como:

1
M = EDHDE
ps 2
Donde s2 representa la estimación del cuadrado medio del error para el modelo de regresión
lineal múltiple, E es una matriz diagonal cuyos elementos son los residuales obtenidos y D es una
matriz diagonal con elementos (1 − hii ) −1 .
Para determinar cuáles observaciones tienen grandes ponderaciones se deben comparar el valor
relativo de las componentes para identificar los elementos del conjunto. El método sugerido es
observar todas las razones posibles entre las componentes en orden decreciente, buscando un
punto claro de corte y formar un conjunto de posibles puntos influyentes, y se procede a probarlos.

2.3. Estimadores M redescendign


Vargas (1998) propone utilizar estimadores M redescending, en regresión robusta, con el fin de
identificar celdas con información influyente cuando se requiere ajustar un modelo de orden menor,
por ejemplo un modelo de efectos principales únicamente, razón por la cual esté método se
propone como una buena alternativa ya que se ajusta al tipo de diseño considerado para este
estudio.
Se define a los estimadores M como aquellos que minimizan una función ρ de los residuales:

min
β
∑ ρ (e )
i =1
i

Donde la función ρ está relacionada con la función de máxima verosimilitud para una
distribución de los errores, seleccionada en forma adecuada.
Para obtener un estimador M se resuelve el sistema:
n
⎛ y i − xit β ⎞
∑ x ij Ψ ⎜
⎜ cs ⎟

i =1 ⎝ ⎠
donde ψ denota la derivada de la función ρ, y c es una constante de ajuste.

XVIII Simposio de Estadística 2008


Tatiana Pamela Jiménez Valderrama

Vargas (1998) considera el diseño factorial con la siguiente estructura para los datos:

p
y mi = ∑ xi jθ j + δ i + ε i
j =1

donde i=1,2,…,N, ymi es la mediana de las r réplicas por tratamiento y δi = 0 para la mayoría de
las celdas. Aquellas para las cuales δi ≠ 0 se identifican como posibles influyentes. Se asume que εi
sigue una distribución normal con media igual a cero y varianza σ2.
El modelo anterior se ajusta mediante una regresión robusta y aquellas celdas a las que el ajuste
les asigne un peso muy pequeño se consideran candidatas a influyentes.

3. Ejemplo
Los datos de éste factorial fueron simulados por Oehlerth (1994) con el fin de ajustarse a un
modelo de efectos principales más una interacción de segundo orden. Su estructura es presentada
en la Tabla 1 donde las observaciones correspondientes a la combinación de tratamientos donde
todos los niveles de los factores están presentes en el nivel bajo se encuentra contaminada.

Tabla 1: Datos del diseño factorial 24 propuesto por Oehlerth (1994)


D
A B C Bajo Alto
Bajo Bajo Bajo 26,1 27,5 23,5 21,1
Alto Bajo Bajo 11,4 11,0 20,4 22,0
Bajo Alto Bajo 22,0 20,2 28,1 29,9
Alto Alto Bajo 18,9 16,4 26,5 26,6
Bajo Bajo Alto 22,8 23,8 30,6 32,5
Alto Bajo Alto 22,3 20,2 28,7 28,8
Bajo Alto Alto 30,0 29,3 38,3 38,5
Alto Alto Alto 29,6 29,8 34,5 34,9

El análisis de varianza (Tabla 2) para este factorial completo muestra, que con un nivel de
significancia de 0.05 el único efecto no significativo es CD, as subir el nivel de significancia a 0.08
todos los efectos son significativos.

El hecho de que aparezcan como significativas intersecciones de tercer orden hace sospechar de la
presencia de observaciones influyentes en el conjunto de datos, así que se realizaron las pruebas
para la validación de supuestos: con la prueba de Levene se obtuvo un valor de prueba F15,16=0,174
(p_valor de 0,999) para la hipótesis nula de igualdad de varianzas intratratamientos; al realizar la
prueba de Kolmogorov-Smirnov se obtuvo un p_valor de 0,454 para la hipótesis nula de
distribución normal para los errores. De esta forma se comprueban los supuestos del modelo. Esto,
en condiciones ideales, sería suficiente para suponer que el modelo propuesto en el análisis de
varianza es el correcto.

XVIII Simposio de Estadística 2008


Detección de Observaciones Influyentes 5

Tabla 2: Análisis de varianza para el diseño factorial 24 propuesto por Oehlerth (1994)

Fuente de Sumas de
p_Valor
Variabilidad Cuadrados

A 120,901 0,000
B 204,020 0,000
C 472,781 0,000
D 335,405 0,000
AB 18,000 0,005
AC 24,811 0,002
AD 15,125 0,010
BC 27,380 0,001
BD 10,811 0,025
CD 6,480 0,073
ABC 11,520 0,021
ABD 34,031 0,000
ACD 50,000 0,000
BCD 22,111 0,000
Error 30,251

Sin embargo, el estudio llevado a cabo por Jiménez (2000) mostró que las observaciones
correspondientes al tratamiento (1) fueron identificadas como influyentes mediante el método
propuesto por Vargas (1998) y se estimaron dichas observaciones en 14,23.

Al estudiar de nuevo el conjunto de datos, ahora con las observaciones influyentes ya corregidas se
obtiene un nuevo análisis de varianza (Tabla 3) en el cual a un nivel de significancia de 0,05 son
significativos los efectos principales, una interacción de segundo orden y una de tercer orden. El
error estándar del error fue reducido a 0,97, el R2 ajustado es de 0,982 el cual también mejoró y la
prueba de distribución normal sobre los errores obtuvo una significancia de 0,781 mejor que la
obtenida con los datos originales.

Ahora, bien como el interés es identificar este tipo de observaciones en una estructura factorial
fraccionada, ya que es la de uso más frecuente en problemas industriales, se fraccionó el factorial 24
según el criterio de la tabla de signos (Tabla 4).

XVIII Simposio de Estadística 2008


Tatiana Pamela Jiménez Valderrama

Tabla 3: Análisis de varianza para el factorial 24 de Oehlerth (1994) con observaciones ajustadas

Fuente de Sumas de
p_Valor
Variabilidad Cuadrados
A 42,920 0,000
B 350,728 0,000
C 685,796 0,000
D 517,937 0,000
AB 0,041 0,838
AC 0,293 0,585
AD 0,308 0,575
BC 0,622 0,428
BD 1,337 0,250
CD 3,605 0,067
ABC 1,103 0,295
ABD 1,931 0,171
ACD 6,901 0,015
BCD 0,067 0,794
Error 16,026

Tabla 4: Estructura de las fracciones generadas para el factorial 24 de Oehlerth (1994)

XVIII Simposio de Estadística 2008


Detección de Observaciones Influyentes 7

Así las fracciones quedaron de tal forma que la información influyente se encuentra en la fracción
generada por I = +ABCD y la fracción generada por I = −ABCD se encuentra “limpia” de
observaciones influyentes.

Al llevarse a cabo el análisis de varianza para la fracción I = +ABCD (Tabla 5) se encuentra que
todos los efectos son significativos, su R2 ajustado es 0,957 y s2 es 1,417. Estos resultados
concuerdan con el análisis de varianza del factorial completo, ya que significancia de las
interacciones dobles hace sospechar de la posible presencia de observaciones influyentes.

Tabla 5: Análisis de varianza para la fracción generada por I = +ABCD

Fuente de Sumas de
p_Valor
Variabilidad Cuadrados
A 123,210 0,000
B 26,010 0,003
C 126,563 0,000
AB 23,040 0,004
AC 34,223 0,001
BC 41,603 0,001
ABC 111,303 0,000
Error 11,340

Sin embargo, con la otra fracción, I = −ABCD, se obtiene que únicamente son significativos los
efectos principales y la interacción de orden tres (alias del efecto principal D), su R2 es 0,989 y s2 es
0,641 (Tabla 6), lo cual concuerda con el análisis de varianza del factorial completo cuando se han
ajustado las observaciones influyentes.

Tabla 6: Análisis de varianza para la fracción generada por I = -ABCD

Fuente de Sumas de
p_Valor
Variabilidad Cuadrados
A 19,803 0,001
B 228,010 0,000
C 380,250 0,000
AB 1,440 0,172
AC 1,440 0,172
BC 0,903 0,270
ABC 235,622 0,000
Error 5,130

A partir de estos análisis de varianza se comprueba la importancia de identificar observaciones


influyentes, pues se pueden tomar decisiones en forma errónea si se considera como único criterio
el análisis de varianza.

XVIII Simposio de Estadística 2008


Tatiana Pamela Jiménez Valderrama

Ahora, se lleva a cabo el diagnóstico de presencia de observaciones influyentes estudiando el diseño


con estructura factorial fraccionada como un modelo de regresión lineal múltiple.

La primera herramienta propuesta fue el estadístico DfFits, con valor de prueba


F = 2 p / n = 2 7 / 16 = 1,323 , el máximo valor absoluto obtenido, mediante en paquete SPSS, de
los DfFits fue 1,25, el cual es más pequeño que el valor de prueba por tanto se puede concluir que
ninguna de las observaciones fue identificada como posible valor influyente (Tabla 7).

Tabla 7: Valores DfFit para la fracción 24-1 generada por I = +ABCD

A B C DfFits
Bajo Bajo Bajo -0,70 0,70
Alto Alto Bajo 1,25 -1,25
Alto Bajo Alto 1,05 -1,05
Bajo Alto Alto 0,35 -0,35
Alto Bajo Bajo -0,80 0,80
Bajo Alto Bajo -0,90 0,90
Bajo Bajo Alto -0,95 0,95
Alto Alto Alto -0,20 0,20

El siguiente método empleado fue el de Matriz de Influencia, para la cual se tuvo en cuenta los
valores residuales que se presentan en la Tabla 8 para la construcción de la Matriz E, también se
construyó la matriz XtX, la cual es una matriz diagonal con elementos (xtx)ii = 16, a partir de esta se
obtuvo la matriz H cuyos elementos de la diagonal fueron hii = 0,4375 y teniendo en cuenta estos
valores se construyó la Matriz D, obtenidas las marices E, D y H se tienen todos los elementos para
la construcción de la matriz M que se muestra a continuación:

XVIII Simposio de Estadística 2008


Detección de Observaciones Influyentes 9

La cual tiene siete (7) valores propios no nulos, cada vector propio esta conformado por los
componentes: { −0.707, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.707} .

Según el procedimiento de identificación de observaciones influyentes mediante la Matriz de


Influencia M, el siguiente paso consiste en ordenar las componentes de cada vector propio y así
calcular los valores de aj = vi(j)/vi(j−1), con j = n, n − 1, n − 2, ..., c1, y de bj = vi(j)/vi(j+1) con j = 1, 2,
3,...,c2: al ordenar las componentes se obtiene un arreglo como el presentado en el párrafo anterior
de esta forma si se quiere calcular el valor de b1 y el valor de an como son divisiones se tendría
entonces operaciones indefinidas, no solo en ente caso sino también para el calculo de los otros
valores de bj y de aj ya que las componentes que están en medio son iguales a cero. Esto último
indica que para este tipo de diseños este método no es viable.

Tabla 8: Residuales para la fracción 24-1 generada por I = +ABCD

A B C Residuales
Bajo Bajo Bajo -0,70 0,70
Alto Alto Bajo 1,25 -1,25
Alto Bajo Alto 1,05 -1,05
Bajo Alto Alto 0,35 -0,35
Alto Bajo Bajo -0,80 0,80
Bajo Alto Bajo -0,90 0,90
Bajo Bajo Alto -0,95 0,95
Alto Alto Alto -0,20 0,20

Por último se emplearon métodos robustos utilizando como funciones de influencia las de Hampel,
Huber y Andrews. Las constantes de ajuste que se utilizaron fueron las establecidas en el programa
S-PLUS2000 (Huber: c = 1,5, Hampel: a = 1,5, b = 3,5 y c = 8 y para Andrews c = 2,1). Como se
muesra en la Tabla 9 estas funciones no identificaron ninguna observación como posible influyente.

De estos se esperaba que identificaran de forma eficaz la celda con información influyente pero no
se obtuvo el resultado esperado, los estimadores de Huber y Hampel asignaron pesos iguales a 1
para todas las observaciones y el de Andrews pesos iguales a 0,958, así que no identificaron a
ninguna de las observaciones como posible influyente.

4. Conclusiones
En este caso ninguno de los métodos propuestos identificaron las observaciones influyentes
contenidas en la fracción I = +ABCD, con lo cual se llega a la conclusión que los efectos
correspondientes a los factores principales y a los de las interacciones son significativos para la
variable respuesta, sin embargo esto conlleva a una decisión errónea y podría significar un alto costo
si de esto dependiera la elaboración de un producto.

XVIII Simposio de Estadística 2008


Tatiana Pamela Jiménez Valderrama

Tabla 9: Asignación de pesos a las observaciones, de la fracción 24-1 generada por I = +ABCD, por métodos robustos

Peso Peso Peso


asignado asignado asignado
Residual Ajuste
por por por
Huber Hampel Andrews
-0,70 26,80 1 1 0,97
0,70 26,80 1 1 0,97
-0,95 31,55 1 1 0,95
0,95 31,55 1 1 0,95
-0,90 29,00 1 1 0,95
0,90 29,00 1 1 0,95
0,35 29,65 1 1 0,99
-0,35 29,65 1 1 0,99
-0,80 21,20 1 1 0,96
0,80 21,20 1 1 0,96
1,05 21,25 1 1 0,94
-1,05 21,25 1 1 0,94
1,25 17,65 1 1 0,91
-1,25 17,65 1 1 0,91
-0,20 34,70 1 1 1,00
0,20 34,70 1 1 1,00

Referencias
Jiménez, M. (2000), Ajuste de factoriales 2k con presencia de Observaciones Influyentes y Valores
Faltantes mediante Modelos de Regresión, Trabajo de Grado (Estadística), Universidad
Nacional de Colombis, Facultad de Ciencias, Departamento de Estadística, Bogotá.
Montgomery, D. C., & Peck, E. A., (1995), Introduction to Linear Regression, Second
Edition. John Wiley & Sons, Inc. New York.
Oehlert, G., (1994), ‘Isolating One-Cell Interactions’, Technometrics 36, 403-408.
Peña, D. & Yohai, V. J., (1995), ‘The Detection of Influential Subsets in Lineal Regression using an
Influence Matrix’, Journal of the Royal Statistical Society, Serie B 57, 145-156.
Vargas, J. A., (1998), ‘Identificación de Celdas Atípicas en Experimentos Factoriales Mediante el
uso de Regresión Robusta’ Revista Colombiana de Estadística 22, 9-16.

XVIII Simposio de Estadística 2008

Potrebbero piacerti anche