Sei sulla pagina 1di 17

METODO DE DUNCAN

Análisis de los métodos estadísticos a la solución de problemas técnico


1. Desarrollo
Regresión Lineal Simple Y Múltiple
Problema 1.
En la Unidad Económica Básica "Frank País" de Moa se desea conocer el peso
promedio que alcanzarán las gallinas en el próximo trimestre. A final de cada
trimestre estas gallinas son distribuidas a la población y se inicia nuevamente el
ciclo de crecimiento.
Se conoce la cantidad de pienzo y agua consumida por estas juega un papel
determinante en el peso de las mismas.
En el actual trimestre se realizó un estudio donde se obtuvieron los datos para 35
gallinas. (Ver anexo 1). (Los datos recopilados no son reales).
Análisis de la Regresión Simple.
Variables:
• Variable dependiente: Y. Peso de las gallinas en libras (lb.).
• Variable independiente: X. Cantidad de pienzo consumida en kilogramos
(Kg.)

Dócima de la pendiente.
Planteamiento de las hipótesis:

Si se acepta H0 : la variable no es significativa.(No existe relación lineal entre Y y


X ).
Si se rechaza H0 la variable es significativa (Existe relación lineal entre Y y X ).

F. variación S.C G.L C.M F P

Regresión 153,198 1 153,198 90,58 0,0000

Residuos 55,815 33 1,69136

Total 209,013 34

El coeficiente de correlación = 0,856131(las variables se encuentran relacionadas


linealmente en un 85,6131%).
R2 = 73,2959 (Se ha eliminado un 73,2959 % de los errores con la regresión).
El error estándar = 1,30052
Como el valor de probabilidad es 0,0000<0,05 se RH0 lo que quiere decir que el
pienzo es determinante en el peso de las gallinas.
La ecuación determinada para esta estimación es:
Dócima de la falta de ajuste.

(El modelo lineal proporciona un buen ajuste).

(El modelo lineal no proporciona un buen ajuste).

El modelo que mejor ajusta es el Square Root-X

F. variación S.C G.L C.M F P

F.A 36,1583 24 1,5066 0,69 0,7771

E.P 19,6567 9 2,18407

Como el valor de probabilidad 0,7771>0,10 se AH0 por lo que el modelo


proporciona un buen ajuste.
Análisis de la Regresión múltiple:
Variables:
• Variable dependiente: Y. Peso de las gallinas en libras (lb.).
• Variable independiente: X1 .cantidad de pienzo consumida en kilogramos
(Kg.).
• Variable independiente: X2 .cantidad de agua consumida en litros (L.).

Dócima de la pendiente

F. variación S.C G.L C.M F P

Regresión 177,586 2 88,7929 90,41 0,0000

Residuos 31,4272 32 0,982099

Total 209,013 34

R2 = 84,964 %
R2 ajustada =84,0243 %
Error estándar =0,991009
Error medio absoluto = 0,742858
Estadístico de Durbin Watson = 1,76054.
Como la probabilidad es menor que 0,05 entonces se RH0, lo que indica que
algunas de estas variables son útiles para hacer estimaciones del peso de las
gallinas (Y).
Método paso a paso.(paso alante )
Con este método podemos determinar cuáles variables del modelo son
significativas.
Estadígrafo para entrar = 4,14911
Estadígrafo para remover = 4,14911
En el paso número cero tenemos cero variables en el modelo con 34 G.L para el
error y un coeficiente de determinación de 0,00 %.
En el paso número uno adicionamos la variable X1 con un estadígrafo para entrar
de 87,4949 y como este valor es mayor que 4,14911 esta variable queda en el
modelo con 33 G.L para el error y un coeficiente de determinación de 72,61 %.
En el paso número dos adicionamos la variable X2 con un estadígrafo para entrar
de 26,2859 y como este valor es mayor que 4,14911 esta variable queda en el
modelo con 32 G.L para el error y un coeficiente de determinación de 84,96 %.
Como podemos observar, tanto el pienzo como el agua que consumen las gallinas
son significativas en el peso de las mismas.
El modelo tiene la siguiente ecuación:

Verificación de supuestos:
Normalidad:
Si aproximadamente el 95 % de los residuos están en el intervalo de ,
entonces no hay razón para rechazar el supuesto de normalidad.

El intervalo es (-1,982018; 1,982018)


Se cumple el supuesto de normalidad ya que el 94,29 % de los errores aleatorios
se encuentran dentro del intervalo indicado.
Homocedasticidad:

(Hay Homocedasticidad)

Algún difiere (No hay Homocedasticidad)


n =35
c=3
p =3
S.C Residual G.1 = 22, 2067
S.C Residual G.2 = 24,306

F = 1, 0945345

1,0945345<2,57693
Se acepta H0 por lo que se cumple el supuesto de Homocedasticidad.
No autocorrelación:
(No hay autocorrelación).
(Hay autocorrelación)
n =35

dl =1,343
dv =1,584
RH0 AH0 RH0
0 1,343 1,584 2,416 2,657 4
d =1,76054. Se encuentra en la región de aceptación por lo que se cumple este
supuesto.
No multicolinialidad:

(No hay multicolinialidad)


(Si hay multicolinialidad)

R.C:

R.C:

> 4,13927
Se RH0 por lo no se cumple el supuesto de no multicolinialidad.
Haciendo un pronóstico del peso que debería alcanzar una gallina para un
consumo de pienzo de 10,6 Kg. y 9 L de agua obtuvimos un valor de 10,5669 con
un error estándar 1,04204.

2. Diseño de experimento
Problema 2.
En un estudio realizado por el ministerio de salud pública se obtuvo que la mayor
parte de la población cubana que padece de Hipertensión Arterial se concentra en
las provincias orientales. Según criterios médicos una de las causas
fundamentales de tal enfermedad es el régimen alimenticio que llevan las
personas. Se pudo observar además que los alimentos que se consumen no
provocan el mismo efecto en la presión para los distintos horarios del día.
Es interés de todos conocer cuáles son los alimento que podemos consumir en
mayor o menor medida, los horarios en que son menores y mayores los valores de
tensión arterial, así como la mejor y la peor combinación de estos factores.
Para darle respuestas a estas interrogantes se tomaron muestras de valores de
presión por 6 días en diferentes horarios del día de una persona. (Ver anexo 2).
Análisis de varianza para datos tipo III

F. variación S.C G.L C.M F P

P. Efectos

A: Factor A. 1733,33 2 866,667 39,00 0,0024

B: Factor H. 1200,0 2 600 27,00 0,0048

C: Réplic. 5,55556 1 5,55556 0,25 0,6433

Interacción

AB 266,667 4 66,6667 3,00 0,1562

AC 311,111 2 155,556 7,00 0,0494

BC 44,4444 2 22,2222 1,00 0,4444

Residuos 88,8889 4 22,2222

Total 3650,0 17

Analizando el P-value del factor A. se obtuvo que para se rechaza H0 lo


que significa que hay diferencias significativas entre los alimentos que se
consumen, por lo que la variable es significativa en la inestabilidad de la presión.
Haciendo el mismo análisis para el factor H. se obtuvo que para se
rechaza H0 lo que significa que hay diferencias significativas entre los horarios del
día en que se toma la presión, por lo que la variable es significativa en la
inestabilidad de la presión.
Haciendo el análisis para las réplicas se obtuvo que para se acepta H0 lo
que significa que la variable no es significativa en la inestabilidad de la presión.
En las interacciones tenemos que solo es significativa la interacción del factor A
con las réplicas.
Para obtener en cuáles horarios y en cuáles alimentos están estas diferencias
significativas se uso del método de Duncan obteniéndose:
Pruebas de rangos múltiples para los datos por el Factor A.

Método de Duncan con 95 %

Factor A. Conteo Media LS Grupos


Homogéneos
Verduras 6 118,333 X
Harina 6 135,0 X
Sal 6 141,667 X

Contraste Diferencia

Harina-sal -6,66667
Harina-verduras *16,6667
Sal-verduras *23,3333

De aquí se deduce que existe homogeneidad entre los alimentos harina y sal y
existen diferencias significativas entre harina-verduras y sal-verduras.
Pruebas de rangos múltiples para los datos por el Factor H.

Método de Duncan con 95 %

Factor H. Conteo Media LS Grupos


Homogéneos

Meridiano 6 121,667 X
Noche 6 131,667 X
mañana 6 141,667 X

Contraste Diferencia

Mañana-meridiano *20,0
Mañana-noche *10,0
Meridiano-noche *-10,0

De aquí se obtiene que existen diferencias significativas entre los tres horarios.
Para el Factor A.
Chequeo de varianza.
Prueba C. de Cochran`s: 0,565217 P-value = 0,279372
Prueba de Bartlett`s: 1,15598 P-value = 0,368475
En la prueba de Cochran`s P-value > 0,05
En la prueba de Bartlett`s P-value > 0,05
Se cumple el supuesto de igualdad de varianza.
Para el Factor H.
Chequeo de varianza
Prueba C. de Cochran`s: 0,442177 P-value = 0,749976
Prueba de Bartlett`s: 1,17879 P-value = 0,322074
En la prueba de Cochran`s P-value > 0,05
En la prueba de Bartlett`s P-value > 0,05
Se cumple el supuesto de igualdad de varianza.
Para el Factor Combi.
Pruebas de rangos múltiples para los datos por el Facto Combi.

Método de Duncan con 95 %

Factor Combi. Conteo Media Grupos


Homogéneos

8 2 115,0 X
9 2 115,0 X
7 2 125,0 XX
5 2 125,0 XX
2 2 125,0 XX
6 2 135,0 XX
3 2 145,0 XX
4 2 145,0 XX
1 2 155,0 X

Con el experimento anterior llegamos a la conclusión de que los alimentos que


debemos consumir en mayor proporción son las verduras y los que menos
debemos consumir son aquellos que contengan alto contenido de sal. El horario
del día en que la presión alcanza menores valores es el meridiano y mayores
valores por la mañana. La mejor combinación es verduras-meridiano y la peor sal-
mañana.
3. Series Cronológicas
Analizando el problema anterior pero con datos correspondientes a cuatro
semanas se desea analizar el comportamiento de la presión en cada semana así
podría comportarse en los próximos días. (Ver anexo 3).
1. Tt = B0
Media: 139,6429 Varianza: 153,4439 Modelo híbrido.
2. Serie de tendencia constante estacional con período 7.

B0 =139,643 p = 7 n = 28
E (1) =1,074 E (2) = 0,967 E (3) = 1,074 E (4) = 0,967
E (5) = 0,859 E (6) = 0,985 E (7) = 1,074
Varianza: 63,7500 Desv. Típica: 7,9844
3. Estimación y chequeo.
4. Diseño de pronóstico.

Horizonte (K): 2 N = 28 m = 28 n = 14
Función de pronóstico:
E (1) = 1,060 E (2) = 0,971 E (3) = 1,065 E (4) = 0,975
E (5) = 0,851 E (6) = 0,953 E (7) = 1,094
Media de los errores: - 5,361
Suma de cuadrados: 980,298 Cuadrado Medio: 75,405
Raíz del Cuadrado Medio: 8,683752
Cálculo del intervalo de confianza para un nivel de confianza de 95 %.
Pronóstico para T = 30: 132,7373
Intervalo de confianza para el pronóstico (115,09; 150,38)
Desviación Estándar (1,25 DAP):9,0026
Valor del DAP: 7,20
Coeficiente de alisamiento del DPA: 0,250
METODO DE TUKEY

Inferencia de los parámetros del modelo.


Intervalos de confianza de los parámetros.

Se consideran dos situaciones:

Se acepta H0.
Si se acepta la no influencia del factor los datos provienen de una única muestra
homogénea y los parámetros y 2 se estiman según las técnicas clásicas.
(3.21)

(3.22)

Se rechaza H0.
Si se supone que el factor influye, entonces los parámetros del modelo son: 1 ,...,
2
I y . Los estimadores son

Los intervalos de confianza se calculan a partir de las siguientes distribuciones:


Para i = + i

que permite obtener el siguiente intervalo de confianza a un nivel 1 - (dado en


(3.19 ))

2
Para la varianza se utiliza el estadístico pivote (dado en (3.16 ))

de donde se deduce el siguiente intervalo de confianza dado en (3.17 ).


Diferencia entre dos medias.

Si se rechaza la hipótesis nula es porque existen medias de tratamientos


diferentes y es importante calcular un intervalo de confianza para el parámetro =
i - j, con i j, i,j = 1,...,I. Este intervalo se deduce fácilmente del siguiente
estadístico pivote

que proporciona el siguiente intervalo de confianza a un nivel 1 -

3.5.2 Concepto de contraste.

Lo expuesto en el apartado anterior puede generalizarse. Para ello se introduce el


siguiente concepto:

“ Se denomina contraste, , a cualquier combinación lineal de los efectos de los


tratamientos

En un diseño completamente aleatorizado todo contraste es estimable y su


estimador mínimo-cuadrático es

Por la normalidad e independencia de las observaciones, se obtiene la distribución


de

(3.26)
En muchos casos es útil representar un contraste por la lista de sus coeficientes.
Esto es, el contraste se puede representar por cualquiera de las dos formas
equivalentes siguientes:

Contrastes importantes sobre los que es interesante hacer inferencia son los
siguientes:

• Comparar tratamientos a pares (“pairwise”).

Son contrastes del tipo: = i - j, donde el vector de coeficientes es un


1 en el i-ésimo lugar, un -1 en el j-ésimo lugar y un 0 en el resto.

Por ejemplo, = [0,0,1,0,...,0,-1,0] sería el contraste 3 - I-1 . Existen m =


(I 2) contrastes de comparaciones por pares

Es decir, estimar contrastes del tipo: = i - j, donde el vector de


coeficientes es 1 en el i-éximo lugar, un -1 en el j-ésimo lugar y un 0 en el
resto.
Por ejemplo, =[0,0,1,0,...,0,-1,0] sería el contraste 3 - I-1. Existen m =
contrastes de comparaciones por pares.

• Tratamientos frente a control.


Un subconjunto de contrastes del grupo anterior muy particular es el formado por
los I - 1 contrastes 1 - I ([1,0,...,0,-1]), 2 - I ([0,1,...,0,-1]), ... , I-1 - I ([0,0,...,1,-
1]). El objetivo es comparar el efecto de cada uno de los tratamientos con un
tratamiento concreto, que se suele denominar control.

• Diferencias de medias de grupos.

Si los niveles de los factores tratamiento se dividen de un modo natural en dos


o más grupos, puede ser interesante comparar el efecto medio de un grupo con
los efectos medios de otros grupos.

Por ejemplo, supóngase que se desea comparar el efecto del color del papel
de examen en los resultados finales de éste. Se ha probado con dos tonos claros:
blanco y amarillo (niveles 1 y 2 del factor) y con tres tonos más fuertes: azul, verde
y rosa (niveles 3, 4 y 5). El siguiente contraste:

permite observar diferencias entre la influencia del papel claro (grupo 1) con
respecto a la del papel oscuro (grupo 2).

• Tendencias

Cuando los niveles del factor tratamiento son cuantitativos y tienen un


orden natural, el experimentador podría estar interesado en saber si la
respuesta crece o decrece con un incremento del nivel o, más aún, si esa
tendencia se mantiene o no constante. Se habla entonces de contrastes
de tendencia.

Por ejemplo, supóngase que hay I = 5 niveles de un factor son equiespaciados


y con igual tamaño muestral en cada grupo. Suponiendo α = α1 = α2 = α3 = α4 = α5
el siguiente contraste indica una tendencia lineal en los niveles

En el mismo contexto, una tendencia cuadrática viene dada por el contraste

En general, si = i = 1Ibi i es el estimador mínimo cuadrático de un contraste


individual = i = 1Ibi i, con i = 1Ibi = 0. Entonces, de (3.2 6) se deduce que un
intervalo de confianza para , al nivel 1 - , viene dado por:

(3.27)

donde g.l. representa los grados de libertad con que se ha estimado la varianza
del error.
2
En el modelo del diseño completamente aleatorizado al estimar por la
varianza residual, R2, con n - I grados de libertad, se obtiene

(3.28)
I
Análogamente, utilizando la distribución del contraste = b i, dada en (3 .
i=1 i
26), se pueden realizar test de hipótesis del tipo

(3.29)

3.5.3 Contrastes múltiples.


Si el test de la F de la tabla ANOVA indica rechazo de la hipótesis nula de
igualdad de las medias de los niveles, es importante establecer la hipótesis
alternativa adecuada y, para ello, son de gran utilidad los contrastes múltiples. En
ocasiones se quiere realizar un número muy grande de comparaciones, de modo
que la probabilidad de que alguna comparación individual resulte significativa
puede ser erróneamente muy grande.

Si se quieren resolver todas las pruebas de hipótesis siguientes:

Existen m = = pruebas (por ejemplo, si I = 6 entonces m = 15). Al


resolverlas una a una, con nivel , se denomina Aij al suceso:

Entonces:

Sea el suceso: A = rechazar erróneamente alguna H0ij = ij


m
Aij.

¿Cuál es la probabilidad de A?
Suponiendo que los Aij fuesen independientes (obviamente no lo son):

Si = 0'05 y m = 15, entonces P(A) = 1 - 0'9515 = 1 - 0'46 = 0'54.

Por tanto, la probabilidad de concluir erróneamente que algún par de


tratamientos son significativamente distintos es mayor que 0'54.

Hay distintos métodos para abordar el problema de la resolución de pruebas de


hipótesis simultáneas (es decir, garantizando para todos ellas un nivel de
significación predeterminado). Unos han sido desarrollados con carácter general y
otros orientados a problemas concretos como puede ser la comparación de
distintos tratamientos con un tratamiento control.

A continuación se exponen dos métodos de resolución de contrastes múltiples.

Método de Bonferroni.

Se basa en calcular un nivel de significación, *, para cada una de las m


pruebas de hipótesis que garantice un nivel de significación concreto para todas
las pruebas de hipótesis simultáneas ( es por tanto el nivel de significación
global).

Supóngase que se tienen I niveles y m pruebas de hipótesis individuales. Sean


los sucesos:

Ak : “aceptar la hipótesis nula del contraste k-ésimo cuando ésta es cierta”.

A : “rechazar erróneamente la hipótesis nula de uno o más contrastes”.

¿Qué * habrá que utilizar en cada prueba de hipótesis individual para


garantizar que P(A) no es mayor que ?

(3.29)

Por tanto, para el modelo matemático de un diseño completamente aleatorizado,


el método de Bonferroni consiste en resolver cada prueba de hipótesis individual
conforme al siguiente criterio:

m j
Dado un conjunto de m contrastes j = 1 , rechazar la hipótesis H0 : i=
I j
1 bi i = 0, a un nivel de significación global no superior a , siempre que

(3.30)

Ventajas y desventajas de este procedimiento son las siguientes:

• Si m es muy grande, será tan pequeño que tn-I no viene en las tablas. Se
puede aproximar por:
donde z es el valor de una normal estandar tal que P = .

• Es método es excesivamente conservador y sólo resulta más potente que otros


procedimientos cuando m es muy pequeño.
• Es válido para cualquier tipo de diseño.

Método de Scheffé.

El método de Bonferroni presenta serios inconvenientes, en particular, si m es


muy grande la mínima diferencia significativa al nivel global para cada prueba es
excesivamente grande.

Por el contrario, el método de Scheffé proporciona una mínima diferencia


significativa que no depende del número de pruebas m a realizar.

El valor crítico de Scheffé es

I
de modo que, para cualquier contraste individual i = 1 bi i se rechaza la hipótesis H0

: i = 1Ibi i = 0, a un nivel de significación global no superior a , siempre que

(3.31)

DIFERENCIA MÍNIMA SIGNIFICATIVA

La Diferencia Mínima Significativa (DMS) sólo debe emplearse para comparar


medias adyacentes en un arreglo ordenado, aunque también se puede emplear
para comparar las medias con un testigo o tratamiento estándar.
La DMS es una prueba de t de Student que utiliza la varianza combinada, es decir:
Sd es el error estándar de la diferencia y su cálculo a partir de los datos de la
ANDEVA es como sigue:

Donde: CME es el cuadrado medio del error


r es el número de repeticiones.
Ejemplo:
ANDEVA

Fuentes de
SC GL CM F
variación

Tratamientos 0.73 4 0.1825 4.1196

Repeticiones 0.096 2 0.048 1.0835

Error 0.354 8 0.0443

Total 1.1790 14
Promedios ordenados

B 8.05

A 7.85

C 7.74

D 7.51

E 7.45

El valor de la t se toma de la tabla con los grados de libertad del error.


Si la diferencia entre dos promedios seguidos excede el valor de 0.397, se la
declara significativa al nivel del 5%.
En este ejemplo, la DMS indica que no hay diferencias significativas entre
tratamientos adyacentes, pero la F de la ANDEVA indica que sí existen diferencias
si se comparan medias no adyacentes, en este caso, el investigador podría optar
por otro tipo de prueba de rango múltiple.

Potrebbero piacerti anche