Sei sulla pagina 1di 76

Correlacin, Series de Tiempo, Distribucin Normal y Anlisis de Varianza. ndice 1.- In troduccin1 2.- MINITAB1 3.

- Correlac Este manual contiene el concepto, aplicacin y ejecucin en el sistema Minitab versin 15, de los temas de Correlacin, Series de Tiempo, Distribucin Normal y Anlisis de Varianza (ANOVA). 2.- MINITAB Minitab (MINITAB es marca registrada de Minitab Inc.) es un programa de computad ora diseado para ejecutar funciones estadsticas bsicas y avanzadas. Combina lo amig able del uso de Microsoft Excel con la capacidad de ejecucin de anlisis estadsticos Minitab pone a tu disposicin las herramientas necesarias para analizar tus datos y tomar decisiones con dichos datos para mejorar tus negocios. Minitab es una h erramienta poderosa y fcil de usar, enfocada al anlisis de datos complejos y a la identificacin y resolucin de problemas relativos a procesos, por ello Minitab se h a convertido en un instrumento fundamental para todas aquellas compaas con proceso s productivos que requieren de un software de anlisis para poder controlar fcilmen te esos procesos o mejorar el rendimiento de sus cadenas de produccin. Minitab St atistical incluye cerca de 50 nuevas caractersticas con cambios mnimos en el inter faz, haciendo que el programa siga siendo igual de fcil de usar que en versiones anteriores. Algunas de las novedades ms interesantes son: Puedes asignar formulas a las columnas en la hoja de trabajo. Dibujo de graficas de probabilidad y dist ribucin. Y ms.

2.1 Caractersticas principales de MINITAB. Minitab cuenta entre otros, con los siguientes procedimientos estadsticos: Estadst ica bsica y avanzada: Importacin, exportacin y manipulacin de datos Lenguaje de macr os. Regresin y ANOVA SPC DOE - Diseo de experimentos Gage R&R Anlisis de Confiab dad Tamao de muestra y capacidad Series de tiempo y prediccin 1

3.- Correlacin. Correlacin. El objetivo de esta sesin es analizar el grado de la relacin existente entre varia bles utilizando modelos matemticos y representaciones grficas. As pues, para repres entar la relacin entre dos o ms variables desarrollaremos una ecuacin que permitir e stimar una variable en funcin de la otra. Por ejemplo: En qu medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto? Cmo representamos que la bajada de temperaturas implica un aumento del consumo de la calefaccin? A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que llamaremos anlisis de correlacin. 3.1 Anlisis de correlacin: Es la herramienta estadstica que podemos usar para describir el grado hasta el cu al una variable est linealmente relacionada con otra. Mide el grado de asociacin e ntre 2 variables. Los estadsticos han desarrollado dos medidas para describir la correlacin entre 2 variables: a) El coeficiente de determinacin. b) El coeficiente de correlacin. La introduccin de estas dos medidas es el propsito de esta seccin. 3.2 Coeficiente de determinacin. Es la principal forma en que podemos medir la extensin o fuerza de la asociacin qu e existe entre 2 variables, X y Y. Como hemos usado una muestra de puntos para d esarrollar lneas de regresin, nos referiremos a esta medida como el coeficiente de determinacin de muestra. Se desarrolla de la relacin entre 2 tipos de variacin: La variacin de los valores Y en un conjunto de datos alrededor de: 1. La lnea de reg resin ajustada = (Y-Y) _ 2. Su propia media = (Y-Y) El coeficiente de determinacin se simboliza: 2

3.3 Una interpretacin intuitiva de r Revisaremos las 2 formas extremas en las que las variables X y Y pueden relacion arse. En este ejemplo cada valor observado de Y cae en la lnea de estimacin, como se ve en la tabla esta es una correlacin perfecta. La ecuacin de estimacin apropiada para este caso es fcil de determinar. Puesto que la lnea de regresin pasa a travs del origen, sabemos que la interseccin Y es cero; y puesto que Y se incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe ser igual a 4. La lnea de regresin es: Para determinar el coeficiente de determinacin de muestra p ara la lnea de regresin, primero calculamos el numerador de la fraccin en la ecuacin de r. Variacin de los valores de Y alrededor de la lnea de regresin = Como cada valor de Y est sobre la lnea de regresin la diferencia es 0 (0) = 0 3

Sustituimos los valores en la frmula encontramos que el coeficiente de determinac in de muestra es igual a + 1 De hecho r es igual a +1 siempre que la lnea de regresin sea un estimador perfecto. Una segunda forma extrema en la que las variables X y Y pueden relacionarse es aquella en que los puntos podran caer a distancias iguales en ambos lados de una lnea de regresin horizontal. A continuacin mostramos la grfica: 4

Sustituimos los valores en la frmula encontramos que el coeficiente de determinac in de muestra es igual a 0 Por lo tanto el valor de r es cero cuando no hay correlacin. Un r cercano a 1 indic a una fuerte correlacin entre X y Y. Un r cercano a 0 indica que existe poca corre lacin entre X y Y. 5

Se debe subrayar fuertemente que r mide solo la fuerza de una relacin lineal entre 2 variables. Por ejemplo, si tuviramos muchos puntos X y Y y todos cayeran en la circunferencia de un crculo, aunque dispersos aleatoriamente, claramente habra un a relacin entre estos puntos. (todos caen en el mismo crculo), Pero si calculamos r resultara estar cerca de 0, porque los puntos no tienen una relacin lineal entre s. Para evitar estos clculos, los estadsticos han desarrollado una versin de atajo, usando los valores que habramos determinado de antemano en el anlisis de regresin. La frmula es: Para ver que esta frmula es un atajo, la aplicaremos a nuestra anterior regresin q ue relaciona los gastos de inversin y desarrollo con las ganancias. Recuerde que cuando encontramos los valores para a y b la lnea de regresin para este problema e s: 6

3,600 + 2,000 5,400 = ------------------------------5,642 5,400 200 = ------ = 0 .826 Coeficiente de determinacin de muestra 242 Por tanto, podemos concluir que l a variacin en los gastos de investigacin y desarrollo (la variable independiente X ) explica 82.6 % de la variacin en las ganancias anuales (la variable dependiente Y) 3.4 Coeficiente de correlacin. Es la segunda medida que podemos usar para describir que tan bien una variable e s explicada por otra. Cuando tratamos con muestras el coeficiente de correlacin d e muestra se denota como r y es la raz cuadrada del coeficiente de determinacin de muestra: r = r Cuando la pendiente de la ecuacin de estimacin es positiva, r es la raz cuadrada positiva, pero si b es negativa, r es la negativa. El signo de r ind ica la direccin de la relacin entre las dos variables X y Y. Diversas caracterstica s de r, el coeficiente de correlacin de muestra 7

En el problema anterior encontramos que el Coeficiente de determinacin de muestra es r = 0.826, para encontrar r sustituimos este valor en la ecuacin: r = r = 0.826 = 0.909 Coeficiente de correlacin de muestra La relacin entre las dos variables es directa y la pendiente es positiva, por tanto el signo de r es positivo. Suponga mos que la cantidad gastada en boletos de cine correlaciona 0.6 con el ingreso f amiliar. A primera vista, 0.6 parece ser una correlacin bastante fuerte ya que es ta ms cerca de 1 que de 0. Pero esto explica slo el 36% (0.6 x 0.6 = 0.36) de la v ariacin en la cantidad de dinero que las familias gastan en pelculas. Esto sugiere que una estrategia de comercializacin diseada para atraer familias con altos ingr esos pasara por alto una gran cantidad de clientes potenciales. 3.5 Desarrollo en Minitab: CORRELACION 1.- Abrir el Minitab. 2.- Introducir los datos en la hoja de trabajo 8

3.- Colocarse en el siguiente Men y opcin: Stat Basic Statistics Correlation 9

4.- Seleccionar las variables a correlacionar: Gastos y Ganancias dando clic en cada una hasta que aparezcan en el recuadro de variables, posteriormente dar cli c en el botn OK. 5.- Minitab calcula el resultado utilizando la Correlacin de Pearson. Donde en es te caso tenemos una correlacin de .909 que como se explic anteriormente nos indica que los Gastos de Investigacin y las ganancias estn correlacionados. El p-value ( valor de probabilidad) nos indica la siguiente hiptesis: Ho: cuando p-value > 0.0 5 H1: cuando p-value < 0.05 10

3.6 DIAGRAMA DE DISPERSION. 1. Para generar el diagrama de dispersin: Colocarse e n el siguiente Men y opcin: Graph Scatterplot 2.- Seleccione la opcin Con Regresin. (With Regression) y dar clic en OK 11

3. Seleccionar las variables de Gastos y Ganancias con un clic. y posteriormente clic en OK para obtener la siguiente grfica de dispersin: 12

3.7 LINEA DE REGRESION Y ECUACION DE REGRESION. 1.- Para generar el diagrama de dispersin con la lnea de regresin y la ecuacin de regresin: Colocarse en el siguiente Men y opcin: Regression Fitted Line Plot Stat 13

2.- Seleccionar las variables Y y X y clic OK. Se desplegar la siguiente grfica que representa la funcin Y = 20 + 2X 14

3.8 Desarrollo de un Caso. Una agencia de Viajes desea saber la relacin que hay entre las ventas, el presupu esto destinado a publicidad, y las comisiones de los vendedores para esto presen ta los siguientes datos. Realice los anlisis respectivos. ANLISIS DE DATOS: Se van a utilizar las siguientes variables: Variables Independi entes: 1.- Gastos de Publicidad 2.- Comisin de vendedores Variable dependiente: Ventas De acuerdo a los cuadros podemos decir: - La variable que ms relacin tiene con la Variable Dependiente es decir las ventas es la variable Gastos de Publicidad - E n cuanto a la variable Comisiones de vendedores podemos decir que no tiene relac in relevante con las Ventas. La variable que ms relacin tiene con las ventas es la variable Gastos de Publicida d. 15

- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene re lacin relevante con las Ventas: 16

4.- Series de Tiempo en Minitab. CONCEPTOS BASICOS DE SERIES DE TIEMPO 4.1 INTRODUCCIN Toda institucin, ya sea la f amilia, la empresa o el gobierno, tiene que hacer planes para el futuro si ha de sobrevivir y progresar. Hoy en da diversas instituciones requieren conocer el co mportamiento futuro de ciertos fenmenos con el fin de planificar, prever o preven ir. La planificacin racional exige prever los sucesos del futuro que probablement e vayan a ocurrir. La previsin, a su vez, se suele basar en lo que ha ocurrido en el pasado. Se tiene pues un nuevo tipo de inferencia estadstica que se hace acer ca del futuro de alguna variable o compuesto de variables basndose en sucesos pas ados. La tcnica ms importante para hacer inferencias sobre el futuro con base en l o ocurrido en el pasado, es el anlisis de series de tiempo. Son innumerables las aplicaciones que se pueden citar, en distintas reas del conocimiento, tales como, en economa, fsica, geofsica, qumica, electricidad, en demografa, en marketing, en te lecomunicaciones, en transporte, etc. Series De Tiempo Ejemplos - Precios de un artculo - Tasas de desempleo - Tasa de inflacin - ndice de precios, etc. - Meteorol oga - Cantidad de agua cada - Temperatura mxima diaria - Velocidad del viento (ener ga elica) - Energa solar, etc. - Series sismologas - Tasas de crecimiento de la pobl acin - Tasa de natalidad, mortalidad - Resultados de censos poblacionales - Serie s de demanda, gastos, ofertas - Anlisis de seales - Series de trfico 1. Series econmicas: 2. Series Fsicas: 3. Geofsica: 4. Series demogrficas: 5. Series de marketing: 6. Series de telecomunicacin: 7. Se ries de transporte: Uno de los problemas que intenta resolver las series de tiempo es el de prediccin . Esto es dado una serie {x(t1),...,x(tn)} nuestros objetivos de inters son descr ibir el comportamiento de la serie, investigar el mecanismo generador de la seri e temporal, buscar posibles patrones temporales que permitan sobrepasar la incer tidumbre del futuro. En adelante se estudiar como construir un modelo para explic ar la estructura y prever la evolucin de una variable que observamos a lo largo d el tiempo. La variables de inters puede ser macroeconmica (ndice de precios al cons umo, demanda de electricidad, series de exportaciones o importaciones, etc.), ma croeconmica (ventas de una empresa, existencias en un almacn, gastos en publicidad de un sector), fsica (velocidad del viento en una central elica, 17

temperatura en un proceso, caudal de un ro, concentracin en la atmsfera de un agent e contaminante), o social (nmero de nacimientos, matrimonios, defunciones, o voto s a un partido poltico). 4.2 DEFINICIN DE SERIE DE TIEMPO En muchas reas del conoci miento las observaciones de inters son obtenidas en instantes sucesivos del tiemp o, por ejemplo, a cada hora, durante 24 horas, mensuales, trimestrales, semestra les o bien registradas por algn equipo en forma continua. Llamamos Serie de Tiemp o a un conjunto de mediciones de cierto fenmeno o experimento registradas secuenc ialmente en el tiempo. Estas observaciones sern denotadas por {x(t1), x(t2), ..., x(tn)} = {x(t) : t T R} con x(ti) el valor de la variable x en el instante ti. Si T = Z se dice que la serie de tiempo es discreta y si T = R se dice que la se rie de tiempo es continua. Cuando ti+1 - ti = k para todo i = 1,...,n-1, se dice que la serie es equiespaciada, en caso contrario ser no equiespaciada. En adelan te se trabajar con series de tiempo discreta, equiespaciadas en cuyo caso asumire mos y sin perdida de generalidad que: {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), . .., x(n)}. Hay cuatro tipos de cambio o variacin implicados en el anlisis de serie s temporales, estos son: 1. Tendencia Secular. 2. Fluctuacin Cclica. 3. Variacin te mporal o estacional. 4. Variacin irregular. Tendencia Secular: El valor de la var iable tiende a aumentar o disminuir en un periodo muy largo. El incremento estab le en los costos de vida registrados en el Indice de Precios al Consumidor (IPC) es un ejemplo de tendencia secular. Fluctuacin Cclica: El ejemplo ms comn de fluctuacin cclica es el ciclo de negocios. A travs del tiempo, hay aos en que el ciclo de negocios llega a un pico por encima d e la lnea de tendencia. En otros tiempos, la actividad de los negocios parece cae r, llegando a un punto bajo la lnea de tendencia. El tiempo que transcurre entre picos o puntos bajos es de al menos 1 ao y puede llegar a durar hasta 15 o 20 aos. (Automviles, celulares) 18

Variacin temporal: Este tipo de variacin implica patrones de cambio en el lapso de un ao que tienden a repetirse anualmente. Ejemplo, la gripa en invierno, la fieb re en verano. Variacin Irregular: El valor de una variable puede ser completamente impredecible , es decir, cambia de manera aleatoria. Ejemplo: Conflictos a nivel mundial, com o los efectos del conflicto en el Medio Oriente en 1973, la situacin en Irn en 197 9-1981, el colapso de la OPEP en 1986 y la situacin en Irak en 1990 sobre los pre cios de la gasolina en Estados Unidos son ejemplos de variacin irregular. 19

4.3 PRIMER PASO AL ANALIZAR CUALQUIER SERIE DE TIEMPO El primer paso en el anlisi s de series de tiempo, consiste en graficar la serie. Esto nos permite detectar las componentes esenciales de la serie. El grfico de la serie permitir: a) Detecta r Outlier: se refiere a puntos de la serie que se escapan de lo normal. Un outli ers es una observacin de la serie que corresponde a un comportamiento anormal del fenmeno (sin incidencias futuras) o a un error de medicin. Se debe determinar des de fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omi tir o reemplazar por otro valor antes de analizar la serie. Por ejemplo, en un e studio de la produccin diaria en una fbrica se present la siguiente situacin ver fig ura 1.1: Figura 1.1 Los dos puntos enmarcados en un crculo parecen corresponder a un compo rtamiento anormal de la serie. Al investigar estos dos puntos se vio que corresp ondan a dos das de paro, lo que naturalmente afect la produccin en esos das. El probl ema fue solucionado eliminando las observaciones e interpolando. b) Permite dete ctar tendencia: la tendencia representa el comportamiento predominante de la ser ie. Esta puede ser definida vagamente como el cambio de la media a lo largo de u n periodo (ver figura 1.2). Figura 1.2 c) Variacin estacional: la variacin estacional representa un movimiento peridico de la serie de tiempo. La duracin de la unidad del periodo es generalmen te menor que un ao. Puede ser un trimestre, un mes o un da, etc (ver figura 1.3). Matemticamente, podemos decir que la serie representa variacin estacional si exist e un nmero s tal que x(t) = x(t + ks). Las principales fuerzas que causan una vari acin estacional son las condiciones del tiempo, como por ejemplo: 20

1) en invierno las ventas de helado 2) en verano la venta de lana 3) exportacin d e fruta en marzo. Todos estos fenmenos presentan un comportamiento estacional (an ual, semanal, etc.) Figura 1.3 d) Variaciones irregulares (componente aleatoria): los movimientos ir regulares (al azar) representan todos los tipos de movimientos de una serie de t iempo que no sea tendencia, variaciones estacionales y fluctuaciones cclicas. Eje mplo: A continuacin presentamos los datos que describen el ndice de contaminacin de l aire (en partculas por milln en el aire) de una ciudad de occidente. Ao 1997 1982 1987 1992 Indice de contaminacin 220 350 800 2450 Representaremos los datos grfic amente en Minitab, obtendremos la tendencia, la ecuacin lineal y el pronstico para los siguientes 10 aos. 4.4 Desarrollo en Minitab: SERIES DE TIEMPO. 1.- Abrir Minitab. 2.- Introducir los datos a la hoja de trabajo de Minitab. 21

3.- Seleccionar: Stat Time Series Time Series Plot 4.- Clic en Simple 22

Clic OK 5.- Con un clic seleccionamos la columna con los datos de la serie de tiempo. (E l ndice de contaminacin) 6.- Clic en Time/Scale para ajustar la escala de tiempo Clic en Calendar, Selecci onamos Year. Iniciamos en el ao 1977 con incrementos de 5 aos, por eso introducimos 5 en Data I ncrement. Clic OK 23

7.- Minitab despliega la serie de tiempo del ndice de contaminacin. 24

Para obtener la grfica de tendencia y la ecuacin lineal favor de seguir los siguie ntes pasos: 1.- Seleccionar: Stat Time Series Trend Analysis. 2.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear 25

3.- Clic en Time para ajustar la escala de tiempo Clic OK 4.- Clic Ok en la ventana Trend Analysis para obtener la grfica de tenden cia y el modelo de tendencia lineal. 26

5.- Para generar pronsticos, Clic en Generate forecast. En este caso buscamos 2 p ronsticos, teclear 2 en Number of forecast. Clic OK 6.- Minitab despliega la grfica de la tendencia incluyendo los pronsticos. 27

4.5. MODELOS CLASICOS DE SERIES DE TIEMPO 4.5.1 MODELOS DE DESCOMPOSICIN Un modelo clsico para una serie de tiempo, supone que una serie x(1), ..., x(n) p uede ser expresada como suma o producto de tres componentes: tendencia, estacion alidad y un trmino de error aleatorio. Existen tres modelos de series de tiempos, que generalmente se aceptan como buenas aproximaciones a las verdaderas relacio nes, entre los componentes de los datos observados. Estos son: 1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) E(t) A(t) 3. Mixto: X(t) = T (t) E(t) + A(t) Donde: X(t) serie observada en instante t T(t) componente de ten dencia E(t) componente estacional A(t) componente aleatoria (accidental) Una sup osicin usual es que A(t) sea una componente aleatoria o ruido blanco con media ce ro y varianza constante. Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no depende de otras componentes, como T(t), s por el contrario la estaciona lidad vara con la tendencia, el modelo ms adecuado es un modelo multiplicativo (2) . Es claro que el modelo 2 puede ser transformado en aditivo, tomando logaritmos . El problema que se presenta, es modelar adecuadamente las componentes de la se rie. La figura 2.1 ilustra posibles patrones que podran seguir series representad as por los modelos (1), (2) y (3). Figura 2.1 4.6 ESTIMACIN DE LA TENDENCIA Supondremos aqu que la componente estacional E(t) no est presente y que el modelo aditivo es adecuado, esto es: X(t) = T(t) + A(t), donde A(t) es ruido blanco. Ha y varios mtodos para estimar T(t). Los ms utilizados consisten en: 28

1) 1) Ajustar una funcin del tiempo, como un polinomio, una exponencial u otra fu ncin suave de t. 2) 2) Suavizar (o filtrar) los valores de la serie. 3) 3) Utiliz ar diferencias. 4.6.1 AJUSTE DE UNA FUNCIN Los siguientes grficos ilustran algunas de las formas de estas curvas. bt 1.T(t) = a + bt (Lineal) 2.T(t) = a e (Exponencial) 3. T(t) = a + b ebt (Exponencial modificada) 4.T(t) = 0 + 1t ,...,+ mt (Polinomial) m 5.T(t) = exp(a + b(rt)) (Gompertz 0 < r < 1) 1 , 0 < r <1 a + b( r t ) 6. T(t) = (Logstica) Nota: i. La curva de tendencia debe cubrir un periodo relativamente largo para s er una buena representacin de la tendencia a largo plazo. ii. La tendencia rectiln ea y exponencial son aplicable a corto plazo, puesto que una curva S a largo pla zo puede parecer una recta en un perodo restringido de tiempo (por ejemplo). Figura 2.2 En la figura 2.2 ambas curvas (recta y Gompertz) ajustan bien pero la s proyecciones divergen enormemente a largo plazo. 29

Ejemplo 1: En la tabla 2.1 se presentan los datos trimestrales de unidades habit acionales iniciadas en los Estados Unidos desde el tercer trimestre de 1964 hast a el segundo trimestre de 1972 [1]. (Es necesario advertir que para el anlisis de tendencia el periodo que se considera debera ser ms largo. Sin embargo, ya que el propsito principal es el de ilustrar el mtodo de descomposicin y las tcnicas para i nferir partiendo de los elementos as descompuestos, la insuficiencia de los datos no tiene por qu interesar.) Tabla 2.1: Nuevas unidades habitacionales comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trimestre de 1972 (en miles de unidades). Ao I II III IV Total Anual 1964 398 352 1965 283 454 392 345 1,474 1966 274 392 290 210 1,166 1967 218 382 382 340 1,322 1968 298 452 42 3 372 1,545 1969 336 468 387 309 1,500 1970 264 399 408 396 1,467 1971 389 604 5 79 513 2,085 1972 510 661 Fuente: U.S. Department of Comerse, Survey of Current Bussiness. Sea t cada uno de los 32 trimestres que van de 1964 a 1972, o sea que t = 1 para el tercer trimestre de 1964, t = 2 para el cuarto trimestre, y as suc esivamente. As que el dominio de definicin de t es el conjunto de los enteros de 1 a 32 inclusive. Sea T(t) las iniciaciones de viviendas trimestralmente. Los val ores de t y T(t) se dan en la tabla 2.2. Para calcular los valores de a y de b e n la recta de tendencia: T(t) = a + bt Se obtienen las siguientes cifras a parti r de los datos de la tabla 2.1. Tabla 2.2: Clculo de la tendencia de las vivienda s comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trime stre de 1972 Ao trimestre 1964: 3 4 1965: 1 2 3 4 1966: 1 2 3 4 1967: 1 2 3 4 1968: 1 2 3 4 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 T(t) Tendencia 398 291,73 352 298,07 283 304,41 454 310,75 392 317,09 345 323,43 274 329,77 392 336,11 290 342,45 210 348,79 218 355,13 382 361,47 382 367,81 34 0 374,15 298 380,49 452 386,83 423 393,17 372 399,51 30

1969: 1 2 3 4 1970: 1 2 3 4 1971: 1 2 3 4 1972: 1 2 19 20 21 22 23 24 25 26 27 28 29 30 31 32 336 468 387 309 264 399 408 396 389 604 579 513 510 661 405,85 412,19 418,53 424,87 431,21 437,55 443,89 450,23 456,57 462,91 469,25 475 ,59 481,93 488,27 Entonces, la recta de tendencia es: T(t) = 285,39 + 6,34 t La figura 2.3 muestra grficamente la recta de tendencia aju stada a los datos trimestrales de la tabla 2.2. La recta de trazos despus de 1972 representa proyecciones (ver seccin 3 Predicciones). Figura 2.3 4.7 Desarrollo en Minitab: ANALISIS DE TENDENCIA 1.- Abrir Minitab. 2.- Copiar los datos a la hoja de trabajo de Minitab. 31

3.- Seleccionar: Stat Time Series Trend Analysis. 4.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear y clic OK 32

5. Minitab despliega la siguiente grfica, que como podemos observar es similar a la presentada en el desarrollo del ejercicio. 6.- Si deseamos obtener 4 graficas en una sola ventana, seleccionar la opcin Grap hs 33

Clic en Four in one. Clic OK Minitab despliega la siguiente grfica. 34

4.8 SUAVIZAMIENTO. FILTROS LINEALES Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La idea central es definir a partir de la serie observada un nueva serie que suaviz a los efectos ajenos a la tendencia (estacionalidad, efectos aleatorios), de man era que podamos determinar la direccin de la tendencia (ver figura 2.4). Figura 2.4 Lo que hacemos es usar una expresin lineal que transforma la serie X(t ) en una serie suavizada Z(t): Z(t) = F(X(t)), t = 1,...,n F X(t) Z(t) de tal modo que F(X(t)) = T(t). La funcin F se denomina Filtro Lineal. El filtro lineal ms usado es el promedio mvil. 2.2.2.1 PROMEDIOS MVILES El objetivo es elimin ar de la serie las componentes estacionales y accidentales. Para una serie mensu al con estacionalidad anual (s = 12), la serie suavizada se obtiene, Z (k ) = 1 2 Z ( k 6) + Z ( k 5) + + Z (k + 5) + 1 2 Z ( k + 6) , 7 k n6 12 (1) Para una serie trimestral, con estacionalidad anual (s = 4), la serie suavizada est dada por Z (k ) = 1 2 Z ( k 2) + Z ( k 1) + Z ( k ) + Z ( k + 1) + 1 2 Z ( k + 2) , 3 k n2 4 (2) A este procedimiento se les llama: filtro simtrico finito. Nota: se suaviza cuand o existen muchos cambios bruscos, movimientos irregulares. 35

Ejemplo 2: A partir de los datos del ejemplo1, se calcula un promedio mvil sumand o los valores para un cierto nmero de periodos sucesivos y dividiendo luego la su ma as obtenida por el nmero de perodos abarcados. En este caso se trata de una seri e trimestral y para ello se ocupa la frmula (2). Tabla 2.3: Clculo del Promedio Mvi l centrado de cuatro trimestres de las iniciaciones de viviendas en los EEUU, te rcer trimestre 1964 a segundo trimestre de 1972 (en miles de unidades) Promedio Mvil Ao por Datos Total Mvil en Promedio Mvil de Centrado de cuatro trimestre Origin ales Y cuatro trimestres cuatro trimestres trimestres (1) (2) (3) (4) (5) 1964: 3 398 4 352 1965: 1 283 1.487 372 371 2 454 1.481 370 369 3 392 1.474 369 367 4 345 1.465 366 359 1966: 1 274 1.403 351 338 2 392 1.301 325 308 3 290 1.166 292 285 4 210 1.110 278 276 1967: 1 218 1.100 275 287 2 382 1.192 298 314 3 382 1.32 2 331 341 4 340 1.402 351 359 1968: 1 298 1.472 368 373 2 452 1.513 378 382 3 42 3 1.545 386 391 4 372 1.583 396 398 1969: 1 336 1.599 400 395 2 468 1.563 391 38 3 3 387 1.500 375 366 4 309 1.428 357 348 1970: 1 264 1.359 340 342 2 399 1.380 345 356 3 408 1.467 367 382 4 396 1.592 398 424 1971: 1 389 1.797 449 471 2 604 1.968 492 507 3 579 2.085 521 536 4 513 2.206 552 559 1972: 1 510 2.263 566 2 66 1 En la tabla 2.3, por ejemplo, el promedio mvil de cuatro trimestres para el prime r trimestre de 1965 se obtiene sumando los valores del tercer y cuarto trimestre s de 1964 y el primero y segundo trimestres de 1965 y dividiendo luego la suma p or 4. El promedio para el segundo trimestre de 1965 se obtiene sumando los valor es del cuarto trimestre de 1964 con los del primero, segundo y tercer trimestres de 1965 y luego dividiendo la suma por 4. As pues, para cada promedio sucesivo, se resta el trimestre que viene primero y se suma el ltimo siguiente. 36

La columna 4 de la tabla 2.3 muestra los promedios mviles de cuatro trimestres ob tenidos, partiendo de los datos iniciaciones de viviendas para el 1964 a 1972. E l promedio mvil no elimina las fluctuaciones muy acentuadas de la serie, pero red uce sustancialmente la amplitud de las variaciones de los datos originales. Si e n el clculo de un promedio mvil entra un nmero impar de perodos, el proceso ser ms sen cillo puesto que el nmero de perodos antes y despus del perodo para el cual se calcu la el promedio son iguales. Si el nmero de periodos es par, como en este ejemplo, no se puede utilizar el mismo nmero de perodos antes y despus de un periodo especi ficado. Por tanto, el promedio mvil ha de quedar a mitad de camino entre los valo res de dos perodos consecutivos y no se relaciona con ningn perodo. Este problema s e puede resolver calculando un promedio mvil centrado en la serie, lo cual se log ra obteniendo primero un promedio mvil centrado de dos trimestres de los promedio s mviles ya obtenidos. El primer promedio mvil centrado es la media de los dos pri meros promedios mviles de cuatro trimestres, el segundo promedio mvil centrado es la media de los promedios mviles de cuatro trimestres segundo y tercero, etc. De esta manera, habr un nmero igual de perodos despus y antes del periodo especificado para el cual se est calculando el promedio mvil centrado. Los promedios mviles cent rados se ven en la columna 5 de la tabla 2.3. + 352 + 283+ 454 + 392 4 Z (3) = 2 398 + 2 * (352 + 283 + 454) + 392 Z (3) = 4 * ( 2) 398 + 352 + 283 + 454 4 Segn la frmula 2, el clculo sera el siguiente: Z (1) + Z (2) + Z (3) + Z (4) + 12 Z (5) 4 398 + 352 + 283 + 454 + 392 2 Z (3) = 2 = 371 4 Z (3) = 1 2 Este valor corresponde al Promedio Mvil Centrado que se muestra en la columna 5. La figura 2.5 muestra grficamente el ajuste por a travs del promedio mvil, segn tabl a 2.3, donde el segmento negro representa la serie original y el segmento azul l a serie suavizada. Figura 2.5 37

4.9 Desarrollo en Minitab: PROMEDIOS MOVILES. 1.- Abrir Minitab. 2.- Copiar los datos a la hoja de trabajo de Minitab: 38

3.- Seleccionar: Stat Time Series Moving Average... 39

4.- Seleccionar con un clic la variable con las series de tiempo y colocar la MA length. En este caso es igual a 4 (4 trimestres por ao). Clic OK 5.- Minitab despliega la grfica con el promedio mvil. 40

4.10 Resumen Se llama Serie de Tiempo, a un conjunto de mediciones de cierto fenmeno o experim ento registradas secuencialmente en el tiempo, por ejemplo a cada hora, mensualm ente, trimestralmente, semestralmente, etc.. En este apunte se trabaj con series de tiempo discreto, equiespaciadas en cuyo caso se asume que: : {x(t1), x(t2), . .., x(tn)}= {x(1), x(2), ..., x(n)}. Debido al carcter introductorio se restringi al caso de series de tiempo univariadas. Al analizar una serie de tiempo, lo pri mero que se debe hacer es graficar la serie. Esto nos permite detectar las compo nentes esenciales de la serie. El grfico de la serie permitir: detectar Outlier, d etectar tendencias, variacin estacional, variaciones irregulares (o componente al eatoria). Un modelo clsico para una serie de tiempo, puede ser expresada como sum a o producto de tres componentes: tendencia, estacional y un trmino de error alea torio. Existen tres modelos de series de tiempos. Estos son: 1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) E(t) A(t) 3. Mixto: X(t) = T(t ) E(t) + A(t) Con el fin de obtener un modelo, es necesario estimar la tendencia y la estacionalidad. Para estimar la tendencia, se supone que la componente est acional no est presente. La estimacin se logra al ajustar a una funcin de tiempo a un polinomio o suavizamiento de la serie a travs de los promedios mviles. Para est imar la estacionalidad se requiere haber decidido el modelo a utilizar (mixto o aditivo). Una vez estimada la tendencia y la estacionalidad se esta en condicion es de predecir. Los mtodos revisados en este apunte son de naturaleza descriptiva , por lo que el juicio y el conocimiento del fenmeno juegan un rol importante en la seleccin del modelo. Los mtodos clsicos tienen la desventaja que se adaptan a tr avs del tiempo, lo que implica que el proceso de estimacin debe volver a iniciarse frente al conocimiento de un nuevo dato. 41

5.- Distribucin Normal. La distribucin de probabilidad normal ocupa un lugar prominente en la estadstica p or dos razones: 1.- Tiene algunas propiedades que la hacen aplicable un gran nmer o de situaciones en las que es necesario hacer inferencias mediante la toma de m uestras. 2.- La distribucin normal casi se ajusta a las distribuciones de frecuen cia reales observadas en muchos fenmenos, incluyendo caractersticas humanas (pesos , altura, IQ, etc.), resultados de procesos fsicos (dimensiones y rendimientos) y muchas otras medidas de inters para los administradores, tanto en el sector pblic o como en el privado. 5.1 Caractersticas: 1.- La curva tiene un solo pico, por lo tanto se dice que es unimodal. 2.- La media, la mediana y la moda de los datos se encuentran en el centro de la curva y tienen el mismo valor. 3.- Los dos extremos de la distribucin normal de probabilidad se extienden indefi nidamente y nunca tocan el eje horizontal. Nota: La mayor parte de las poblaciones reales no se extienden de manera indefin ida en ambas direcciones, pero para estas poblaciones, la distribucin normal es u na aproximacin conveniente. 42

EN RESUMEN: LA CURVA DE DISTRIBUCION NORMAL: 1. ES UNIMODAL. 2. LA MAYOR CANTIDA D DE DATOS DE LA DISTRIBUCION CAE EN EL CENTRO DE LA CURVA. 3. LA MEDIA, LA MEDI ANA Y LA MODA SE ENCUENTRAN EN EL MISMO PUNTO. 4. LOS DOS EXTREMOS DE LA DISTRIB UCION SE EXTIENDEN INDEFINIDAMENTE. Para definir, entender y aplicar una distribucin normal de probabilidad es necesa rio conocer dos parmetros: La media ( ): Es la suma de los datos divididos entre el nmero de datos. La desviacin estndar(): Es la variacin de los datos con respecto a la media (): No importa cuales sean los valores de y s para una distribucin de probabilidad no rmal, el rea total bajo la curva es 1.00, de manera que podemos pensar en reas baj o la curva como si fueran probabilidades. 43

En resumen: entre ms grande es el valor de sigma () el nivel de defectos permitido es menor. Uso de la tabla de distribucin de probabilidad normal estndar. x = Valor de la variable aleatoria que nos preocupa. = Media de la distribucin de la variable aleatoria. = Desviacin estndar de la distribucin. z = Nmero de desviaci ones estndar que hay desde x a la media de la distribucin. 5.3 EJEMPLO: Existe un programa de entrenamiento diseado para mejorar la calidad de las habili dades de supervisin de los supervisores de la lnea de produccin. Debido a que el pr ograma es autoadministrado, los supervisores requieren un nmero diferente de hora s para terminarlo. Un estudio de los participantes anteriores indica que el tiem po medio que se lleva completar el programa es de 500 horas, y que esta variable aleatoria normalmente distribuida tiene una desviacin estndar de 100 horas. 44

Cul es la probabilidad de que un participante elegido al azar requiera ms de 500 ho ras para completar el programa? Respuesta: La mitad del rea bajo la curva est localizada a ambos lados de la media de 500 horas. Si la probabilidad mxima de que un evento ocurra es 1 y en este ca so nuestra media esta en 500 y ocupa exactamente la mitad de nuestra curva enton ces la probabilidad es la mitad de el rea de la curva, o sea 0.5 Cul es la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento? x = Valor de la variable aleatoria que nos preocupa. = Media de la distribucin de la variable aleatoria. = Desviacin estndar de la distribucin. z = Nmero de desviaci ones estndar que hay desde x a la media de la distribucin. Buscando en la tabla para distribuciones normales de probabilidad encontramos qu e para z = 1.5 la probabilidad es = 0.4332 45

5.4 Desarrollo en Minitab: DISTRIBUCION NORMAL 1.- Abrir el Minitab. 2.- Colocarse en el siguiente Men y opcin: Graph Probability Distribution Plot 3.- Se despliega la ventana de Probability Distribution Plots: Clic en View Probability 46

Clic OK 4.- Seleccionar Distribucin Normal. 47

Introducir los valores de la Media (Mean) y la Desviacin Estndar (Standard deviati on) 5.- Clic en Shaded Area, 48

Seleccionar X Value, Clic en Middle y proporcionar los valores de X1 y X2 Clic OK 6.- Minitab despliega la grfica de la distribucin normal con el valor de la sombre ado. probabilidad Como en el ejemplo anterior, tenemos que la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entr enamiento es de .433 49

5.5 Desarrollo de un Caso. Una empresa elctrica fabrica focos que tienen una duracin antes de fundirse, que s e distribuye normalmente con media igual a 820 horas y una desviacin estndar de 42 horas. Encuentre lo siguiente: a) La probabilidad de que el foco se funda entre las 780 y 830 horas. b) Que probabilidad hay de que un foco dure ms de 850 horas . c) Que probabilidad hay de que un foco dure entre 710 y 760 horas 50

1.2.3.4.Abrir el Minitab. Colocarse en el siguiente Men y opcin: Graph Probability Distrib ution Plot Clic en View Probability Seleccionar Distribucin Normal. Introducir la Media (Mean) y la Desviacin Estndar (Standard deviation) Clic en Shaded Area. Seleccionar X Value, Clic en Middle y proporcionar los valo res de X1 y X2 Clic OK 51

7. Minitab despliega la grfica de la distribucin normal con el valor de la probabi lidad sombreado 0.424 42.4 % el mismo resultado que haciendo el ejercicio de for ma manual. De 820 (la media) a 855 tenemos una probabilidad de 0.298 52

Seleccionar Shaded Area y X Value y proporcionar los valores de X1 y X2 Minitab despliega la grfica de la distribucin normal con el valor de la probabilid ad sombreado: 0.0722 o 7.2 % el mismo resultado que haciendo el ejercicio de for ma manual . 53

6. Anlisis de varianza En estadstica, anlisis de varianza (ANOVA, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados. El anlisis de varianza sirv e para comparar si los valores de un conjunto de datos numricos son significativa mente distintos a los valores de otro o ms conjuntos de datos. El procedimiento p ara comparar estos valores est basado en la varianza global observada en los grup os de datos numricos a comparar. Tpicamente, el anlisis de varianza se utiliza para asociar una probabilidad a la conclusin de que la media de un grupo de puntuacio nes es distinta de la media de otro grupo de puntuaciones. Permite probar la sig nificancia de las diferencias entre ms de dos medias muestrales. 6.1 Situaciones en las que podemos utilizar ANOVA. El anlisis de varianza ser til en situaciones tales como la comparacin del kilometra je logrado por cinco clases diferentes de gasolina; la prueba de cul de cuatro mto dos de capacitacin produce el aprendizaje ms rpido; o en la comparacin de los ingres os del primer ao de los graduados de una media docena de escuelas de administracin . En cada caso, se pueden comparar las medias de ms de dos muestras. 6.2 Supuestos previos El ANOVA parte de algunos supuestos que han de cumplirse: La variable dependient e debe medirse al menos a nivel de intervalo. Independencia de las observaciones . La distribucin de la variable dependiente debe ser normal. Homocedasticidad: ho mogeneidad de las varianzas. 6.3 Visin general Existen tres tipos de modelos: El modelo de efectos fijos asume que el experimen tador ha considerado para el factor todos los posibles valores que ste puede toma r. Ejemplo: Si el gnero del individuo es un factor, y el experimentador ha inclui do tantos individuos masculinos como femeninos, el gnero es un factor fijo en el experimento. Los modelos de efectos aleatorios asumen que en un factor se ha con siderado tan slo una muestra de los posibles valores que ste puede tomar. Ejemplo: Si el mtodo de enseanza es analizado como un factor que puede influir sobre el ni vel de aprendizaje y se ha considerado en el experimento slo tres de los muchos ms mtodos posibles, el mtodo de enseanza es un factor aleatorio en el experimento. Lo s modelos mixtos describen situaciones donde estn presentes ambos tipos de factor es: fijos y aleatorios. 54

La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum o f squares') en componentes relativos a los factores contemplados en el modelo. C omo ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de facto res en diferentes niveles. (Si los niveles son cuantitativos y los efectos son l ineales, puede resultar apropiado un anlisis de regresin lineal) SSTotal = SSError + SSFactores El nmero de grados de libertad (gl) puede separarse de forma simila r y se corresponde con la forma en que la distribucin chi-cuadrado describe la su ma de cuadrados asociada. glTotal = glError + glFactores Modelo de efectos fijos El modelo de efectos fijos de anlisis de la varianza se a plica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta slo a la media, pe rmaneciendo la "variable respuesta" con una distribucin normal. Modelo de efectos aleatorios Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. E l ejemplo ms simple es el de estimar la media desconocida de una poblacin compuest a de individuos diferentes y en el que esas diferencias se mezclan con los error es del instrumento de medicin. Grados de libertad Por grados de libertad "degrees of freedom" entendemos el nmero efectivo de observaciones que contribuyen a la s uma de cuadrados en un ANOVA, es decir, el nmero total de observaciones menos el nmero de datos que sean combinacin lineal de otros. Pruebas de significacin El anlis is de varianza lleva a la realizacin de pruebas de significacin estadstica, usando la denominada distribucin F de Snedecor. 55

6.4 Ejemplo 1 de anlisis de varianza: Quince aprendices en un curso tcnico son aleatoriamente asignados a tres diferent es tipos de mtodos de instruccin, todos los cuales persiguen el desarrollo de un n ivel especfico de habilidad en diseo asistido por computadora. Las calificaciones de aprovechamiento al trmino de la unidad de instruccin se muestran en la siguient e tabla. Use el procedimiento de anlisis de varianza para probar la hiptesis nula de que las medias muestrales se obtuvieron de la misma poblacin, con un nivel de significancia del 5%. Metodo de Instruccin A1 A2 A3 86 90 82 Calificaciones total es 84 89 81 400 425 375 1200 Calificaciones medias 80 85 75 Calificaciones 79 76 68 81 88 73 70 82 71 Tabla de resumen F requerido Fuente de variacin Grados de Suma de Cuadrado medio libertad cuadrado s F Observado 5% = 125/37.33 = 3.35 3.88 1% 6.93 Tratamientos Error de muestreo Total 2 12 14 250 = 250/2 = 125 448 = 448/12 =37.33 698 El nmero total de gl para total es el nmero de observaciones -1 = 15-1 = 14 El nmer o de grados de libertad para los tratamientos es tratamientos -1 = 3-1 =2 Los gr ados de libertad para el error de muestreo son gl totales - gl de los tratamient os = 14 -2=12 Termino de correccin es la sumatoria total de las observaciones ele vadas al cuadrado y divididas entre el numero total de observaciones: = 1200 =1, 440,000 / 15 = 96,000 LA SCT es igual a sumar las observaciones al cuadrado y re starles el trmino de correccin ( C ) lo que es igual a: = (86) + (79) + .......+ (81 ) = 96698 - 96000 = 698 LA SCA es igual a elevar al cuadrado la sumatoria de cada tratamiento/ n y restarle el termino de correccin ( C ) = 160 000/ 5 + 180625/5 + 140625/5 - 96000 = 250 LA SCE = SCT - SCA = 698 - 250 = 448 Los valores del F requerido se obtienen de la tabla para distribuciones F con un 0.05 del rea en el extremo derecho y de la tabla para distribuciones F con un 0.01 del rea en el ex tremo derecho. Conclusin: Dado que la F observada es menor que la F requerida al nivel de significancia del 5% se concluye que no existe ningn efecto asociado con los mtodos de instruccin y por lo tanto que las diferencias entre la medias no so n significativas al nivel del 5%. 56

6.5 Desarrollo en Minitab del ejemplo 1. 1.- Abrir Minitab. 2.- Introducir los datos en la hoja de trabajo: Cada mtodo de instruccin se captura en cada columna A1, A2, A3. 3.- Seleccione Stat ANOVA One-Way (Unstacked) 57

4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 % 5.- Para revisar la configuracin de las grficas clic en Graphs. Clic Three in one (3 en 1) Clic OK Clic OK en la ventana One-Way Analysis of Variance 58

6.- Minitab despliega el anlisis de varianza: El anlisis de varianza La primera fila en la tabla del anlisis de varianza contien e todas las estadsticas asociadas con el factor. La siguiente fila contiene todas las estadsticas asociadas con el error aleatorio (error). Los grados de libertad Los grados de libertad (DF) se refieren al nmero de valores usados para calcular la suma de los cuadrados (SS) para cada fuente. La suma de cuadrados La suma de cuadrados (SS) es la medida de la cantidad de variabilidad que cada fuente cont ribuye a los datos. Observe que el total de variabilidad en los datos (SS suman 698) es igual al SS para el factor (250) ms el SS para el Error (448). Media cuad rada (MS) para cada fuente es igual al SS dividi por el DF. El MS para el factor es una estimacin del promedio de la media junto con el grupo de variabilidad. El MS para el error es una estimacin del promedio dentro del grupo. F-estadstica Es c alculado como el MS para el factor dividido por el MS para el error. Cuando las diferencias entre el nivel de factor de la media es similar a las diferencias en tre las observaciones de cada nivel. F ser cerrado a 1. Si la variabilidad entre el nivel de factor de la media es ms larga que la variabilidad entre las observac iones dentro del factor, F ser mayor que 1. El P-value: Si el valor de p (p-value ) de una prueba estadstica es menor que tu alfa, entonces se debe rechazar la hipt esis nula. 59

Conclusin: Dado que el P value es mayor que el alfa de 5% se acepta la hiptesis nu la y se concluye que no existe ningn efecto asociado con los mtodos de instruccin y por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%. 95% CIs individuales Para la Media Para cada nivelado de tu factor MINI TAB despliega el intervalo de confianza., As como lo siguiente las estadsticas: N-------- Nmero de observaciones. Mean--- Media de las observaciones. StDev--- Des viacin estndar de las observaciones Residual Plots for A1, A2, A3 Normal Probability Plot 99 90 Residual Percent 50 10 1 -10 -5 0 Residual 5 10 -10 75.0 77.5 80.0 Fitted Value 82.5 85.0 5 0 -5 Versus Fits Histogram 3 Frequency 2 1 0 -8 -4 0 Residual 4 8 Interpretando los resultados La grafica de probabilidad normal Usa la grafica de probabilidad normal de la residual para verificar que tu residual no este desvi ado sustancialmente de la distribucin normal. Si la residual viene de la distribu cin normal, los puntos seguirn una lnea recta. Si la residual no viene de la distri bucin normal, los puntos no seguirn una lnea recta. Basado en esta grafica, es razonable asumir que la residual de los datos no est d esviada sustancialmente de la distribucin normal. 60

Interpretando los resultados Residuales contra fits. Use la grafica de la residu al versus las fits para verificar que las siguientes suposiciones han sido encon tradas: Variaciones constantes a travs de la combinacin de todos los factores. No estn fuera de lnea los datos. Si t ves cualquier tipo de patrn en la grafica, una de estas suposiciones encontradas ha sido violada. La siguiente tabla indica los t ipos de patrones que puedes ver Los patrones: La extensin desigual de las residua les a travs de los diferentes valores ajustados. Un punto est situado muy lejos de l cero. Indica La variacin de tu residual no es constante. Fuera de lnea. Alternativas Se puede usar un histograma de la residual para evaluar la normalidad. Sin embar go la grafica de probabilidad normal es generalmente fcil de interpretar, especia lmente para muestras pequeas. 61

6.6 Ejemplo 2 de anlisis de varianza: Se quiere averiguar si 3 fertilizantes, A, B y C presentan diferencias significa tivas en cuanto a sus efectos sobre el aumento de la cosecha. Con este propsito s e eligieron al azar 15 parcelas a las que se fertiliz aleatoriamente con cada uno de los fertilizantes en cuestin. Los aumentos de cosecha obtenidos fueron los si guientes: A la vista de estos datos, puede inferirse que existen diferencias significativas entre los tres fertilizantes a nivel alfa = 0.05? Se trata de un Anlisis de Vari anza para un factor en un diseo completamente aleatorio, con el que se quiere con trastar la hiptesis nula de igualdad de los efectos medios de los tres fertilizan tes, , frente a la alternativa de no ser los tres iguales. Como en todos los contrastes de este tipo, lo primero que debemos determinar es la tabla de ANOVA , la cual es: Para calcular la suma de cuadrados SSTi, partiendo de la tabla de datos del enun ciado, calculamos, en una ltima columna, los totales de cada tratamiento (totales por filas) as como la suma de todos los totales, 62

El nmero de observaciones realizadas de cada tratamiento es ni = 5, i = 1,2,3, y el nmero total de observaciones es La suma de cuadrados debido a los fertilizantes, ser por lo tanto = 17430.6 - 17408.067 = 22.533 Sus grados de libertad son igual al nmero de tratamientos menos uno, r -1 = 3 - 1 = 2 La suma total de cuadrados es igual a la suma de los cuadrados de las obser vaciones menos el valor antes calculado T/n, En nuestro ejercicio es igual a: = 39 + 33 + + 26 + 35 - 17408.067 = 17617 17408.067 = 208.933 Sus grados de libertad son igual al nmero de tratamientos menos uno, n1 = 15-1 = 14 Por ltimo la suma resi dual de cuadrados se calcula como diferencia de las otras dos sumas de cuadrados antes calculadas: 63

= 208.933 22.533 = 186.4 Sus grados de libertad se calculan tambin como diferenci a de los grados de libertad de las otras dos sumas de cuadrados que sirvieron pa ra obtener SSE; es decir, (n-1)(r-1)=14-2= 12 De esta forma, determinamos las sum as de cuadrados y los grados de libertad de las tres fuentes de variacin que form an la tabla de Anlisis de Varianza. Los cuadrados medios correspondientes a cada fuente de varianza se determinan ahora, simplemente, dividiendo cada suma de cua drados por sus grados de libertad: Cuadrado medio correspondiente a los fertiliz antes: SSTi 22.533 ------- = ----------- = 11.266 r- 1 2 Cuadrado medio correspo ndiente a los fertilizantes: SSE = ------n- r 186.4 -------12 = 15.333 Finalmente, el estadstico a utilizar en el contraste, se calcula dividiendo los c uadrados medios antes determinados: SSTi/(r -1) 11.266 F = -------------- = ---------- = 0.73 SSE/(n r) 15.333 Todos estos clculos se recogen en la tabla ANOVA siguiente: F. de variacin Suma de cuadrados SSTi = 22.533 SSE = 186.4 SST = 208.933 Fertilizantes Residual Total Grados de libertad 2 12 14 Cuadrados medios Estadstico 11.266 15.533 F = 0.73 El estadstico F tiene, si es cierta la hiptesis nula de igualdad de los efectos me dios de los tres fertilizantes, una distribucin F de Snedecor con grados de liber tad igual al par formado por los grados de libertad correspondientes a las fuent es de variacin de los Fertilizantes y Residual, antes determinados, (r-1, n-r)= ( 2,12), por lo que para determinar el punto crtico, a un nivel de significacin alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 = 3.88 53. Al ser F = 0.73 menor que dicho punto crtico, se acepta Ho concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes. 64

6.7 Desarrollo en Minitab del ejemplo 2. 1.- Abrir Minitab. 2.- Introducir los datos en la hoja de trabajo: Cada mtodo de instruccin se captura en cada columna A1, A2, A3. 3.- Seleccione Stat ANOVA One-Way (Unstacked) 65

4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 % 5.- Para revisar la configuracin de las grficas clic en Graphs. Clic Three in one (3 en 1) Clic OK Clic OK en la ventana One-Way Analysis of Variance 66

6.- Minitab despliega el anlisis de varianza: Residual Plots for Normal Probability 99 5.0 90 Residual Value 35 36 50 10 Versus Fits Histogram 3 Frequency 2 1 0 -6 -4 -2 0 2 Residual 4 6 67 A1, A2, A3 Plot Percent 2.5 0.0 -2.5 -5.0 -10 -5 0 Residual 5 10 33 34 Fitted 1

Conclusin: Dado que el P-value es mayor que el alfa de 5% se acepta la hiptesis nu la concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes. El estadstico F tiene, si es cierta la hiptesis nula de igualdad d e los efectos medios de los tres fertilizantes, una distribucin F de Snedecor con grados de libertad igual al par formado por los grados de libertad correspondie ntes a las fuentes de variacin de los Fertilizantes y Residual, antes determinado s, (r-1, n-r)= (2,12), por lo que para determinar el punto crtico, a un nivel de significacin alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2 ,12);0.05 = 3.8853. Al ser F = 0.73 menor que dicho punto crtico, se acepta Ho co ncluyendo con la no existencia de diferencias significativas entre los tres fert ilizantes. 6.8 Desarrollo detallado de un ejemplo de ANOVA en MINITAB. Paso 1 - Definir el problema y el Objetivo. Un diseador de la ropa quiere determi nar si el porcentaje de algodn en una fibra sinttica tiene un efecto en la tensin d e la fibra. Se sabe que el porcentaje de algodn debe estar entre el 10% y el 40% para que la tela mantenga otras propiedades deseables. Al incrementar la tensin s e hace la tela ms durable. El objetivo es estudiar los efectos de cambiar el cont enido de algodn en la fuerza de tensin. Paso 2 - Definir el Factor y Niveles de In ters. Factor = % Volumen del Algodn Nivel = 15%, 20%, 25%, 30%, 35% Paso 3 Definir el nivel Alfa (usualmente el 5%) Paso 4 - Definir el nivel Beta (usualmente 10 20 %) Paso 5 - Establecer el Tamao del Efecto. Paso 6 - Establecer el Tamao de la muestra. Recolectaremos 5 muestras para cada nivel de porcentaje de algodn. Paso 7 - Desarrollar el Plan de Muestreo. Para asegurar que no hay influencias debido a variables escondidas, el orden de las pruebas ser en forma aleatoria, 25 corri das en total. Paso 8 - Seleccionar las muestras. Paso 9 - Conducir las pruebas c on las muestras seleccionadas. Introducimos los datos al Minitab. 68

Note que hay 2 diferentes formas en las que se pueden capturar los datos en MINI TAB: 1. Unstacked: (No apilados) Cada muestra est en su propia columna. (C1 a C5) 2. Stacked: (Apilados) Los datos de las muestras estn en una columna y los del f actor en otra columna. (C6 - C7) Nota: El mtodo apilado es preferido porque se pu ede preservar el orden de observacin de los datos. Paso 10 - Graficar los datos. Opciones: Stat ANOVA One-Way. 69

Seleccionar la Tensin como Response y el % de Algodn como Factor, confianza al 95% dejar el nivel de Clic en Graphs. 70

Clic en Boxplots of data Clic OK Clic OK en la ventana del One-Way Analysis of Variance. Boxplot of Tensin 25 20 Tensin 15 10 5 15 20 25 % de Algodn 30 35 Qu observaciones podemos hacer de los grficos de caja? 1.- La respuesta se incremen te al 30%, y disminuye al 35%. 2.- 25% y 30% parecen ser significativamente mayo res que el 15% y 35% 3.- 30% esta significativamente ms alto que 15%, 20%, 35%. 71

Paso 11 - Construir la tabla ANOVA. Paso 12 - Calcular la prueba estadstica (F) y su valor asociado de p. One-way ANOVA: Tensin versus % de Algodn Source % de Algodn Error Total S = 2.839 DF 4 20 24 SS 475.76 161.20 636.96 MS 11 8.94 8.06 F 14.76 P 0.000 R-Sq = 74.69% R-Sq(adj) = 69.63% Source = Fuentes de variacin. DF = Grados de libertad por fuente. SS = Suma de cu adrados (variacin) por fuente. MS = Estimado de la varianza de cada fuente SS/df. F = Radio de F MS(% de Algodn)/MS(Error) P = Valor de P Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+--------+---------+---------+--15 5 9.800 3.347 (-----*----) 20 5 15.400 3.130 (---*----) 25 5 17.600 2.074 (----*----) 30 5 21.600 2.608 (----*----) 35 5 10.800 2.864 (-----*----) ------+---------+---------+---------+--10.0 15.0 20.0 25.0 Paso 13 Probar la hiptesis de medias iguales Hiptesis alterna, Ha: Al menos una media no es igual. Prueba estadstica: Cuadrados de la media del % de algodn Cuadrados de la media del error 118.94 14.76 F = ----------------------------------- = ------ = 8.06 P-value = probabilidad de observar la prueba estadstica si Ho es verdadera = 0.00 0 Como p-value es < 0.05, rechazamos la hiptesis nula Ho y concluimos que una o ms medias es diferente. Paso 14 - Revisar posibles violaciones a los supuestos. Cuando usamos ANOVA, hac emos los siguientes supuestos: Los residuales son: o Independientes o Distribuid os de forma Normal o Con varianza igual MINITAB es muy robusto para realizar estas pruebas. 72

Seleccionar Four en 1 Independencia. (4 en 1) para revisar Normalidad, Varianzas iguales e Clic OK Residual Plots for Tensin Normal Probability Plot 99 5.0 90 50 10 1 -5.0 -2.5 0.0 Residual 2.5 5.0 Residual Percent 2.5 0.0 -2.5 5.0 10.0 12.5 15.0 17.5 Fitted Value 20.0 Versus Fits Histogram 6.0 Frequency 4.5 3.0 1.5 0.0 -4 -2 0 2 Residual 4 5.0 Residual 2.5 0.0 -2.5 -5. 0 2 4 6 Versus Order 8 10 12 14 16 18 20 22 24 Observation Order 73

Paso 15 - Si Ho fue rechazada, determinar cual(es) media(s) son diferentes. Stat ANOVA One-Way O ANOVA One-Way (Unstacked) Stat Selecciona Comparisons Clic Fisher individual error rate: Captura un valor de 5 (para alfa igual a 5%) Fisher 95% Individual Confidence Intervals All Pairwise Comparisons among Levels of % de Algodn Simultaneous confidence level = 73.57% % de Algodn = 15 subtracted from: % de Algodn 20 25 30 35 Lower 1.855 4.055 8.055 -2.745 Center 5.600 7.800 11.800 1.000 Upper 9.345 11.545 15.545 4.745 --------+---------+---------+---------+(----*----) (----*---) (----*---) (---*---) --------+---------+---------+---------+-8.0 0.0 8.0 16.0 % de Algodn = 20 subtracted from: % de Algodn 25 30 35 Lower -1.545 2.455 -8.345 Center 2.200 6.200 -4.600 Upper 5.945 9.945 -0.855 --------+---------+---------+---------+(----*---) (----*---) (---*----) -------+---------+---------+---------+-8.0 0.0 8.0 16.0 74

% de Algodn = 25 subtracted from: % de Algodn 30 35 Lower 0.255 -10.545 Center 4.000 -6.800 Upper 7.745 -3.055 --------+---------+---------+---------+(----*----) (----*---) --------+--------+---------+---------+-8.0 0.0 8.0 16.0 % de Algodn = 30 subtracted from: % de Algodn 35 Lower -14.545 Center -10.800 Upper -7.055 --------+---------+---------+---------+(----*---) --------+---------+---------+--------+-8.0 0.0 8.0 16.0 Paso 16 Verificar los resultados y trasladar la conclusin estadstica a una solucin prctica. Conclusin estadstica: Existe una diferencia significante entre las medias poblacionales. La media poblacional para el contenido de algodn de 30% es signifi cativamente mayor que las medias poblacionales de los otros niveles de contenido de algodn. Solucin prctica: Usaremos el 30% de contendido de algodn para la fibra s inttica, lo cual proporcionar la mxima tensin, manteniendo al mismo tiempo las otras propiedades deseables.

Equipo integrado por: Ing. Gerardo Valdes Fuentes Ing. Rosa Isela Melndez Lpez Ing . Renato Elmer Vzquez Garca Lic. Jos Luis Chvez Dvila Maestra en Administracin y Lider zgo. Universidad Autnoma del Noreste. 7.- Bibliografa: Estadstica para Administradores, Richard I. Levin & David S. Rubin. Editorial ntice Hall www.wikipedia.com http://www.monografias.com/trabajos30/regresion-cor relacion/regresioncorrelacion.shtml?monosearch http://www.uned.es/experto-metodo s-avanzados/INGENIERIA1.pdf http://espanol.geocities.com/jefranco_2000mx/anova1. htm Minitab 15 (Versin de prueba obtenida de www.minitab.com). MeetMinitabEs.pdf (Obtenido de www.minitab.com) 75