Sei sulla pagina 1di 38

Mtodos lineales y estimacin por mnimos cuadrados

1. Introduccin 2. Mtodos de los mnimos cuadrados 3. Error estndar en la estimacin 4. Coeficiente de determinacin 5. 6. 7. 8. 9. Coeficiente de correlacin Regresin lineal mltiple Estimacin de los coeficientes Inferencias en la regresin lineal mltiple Prediccin

10.Correlacin 11. Bibliografa

INTRODUCCIN El presente trabajo forma parte de los objetivos y contenidos de aprendizaje de la ctedra ESTADSTICA, que pretende desarrollar las habilidades para la utilizacin de los mtodos lineales y estimacin de mnimos cuadrados. Para lograr este fin, se realizo la consulta de una bibliografa bsica la cual permiti desarrollar los conceptos y ejemplos, como base para realizar una exposicin adecuada en el saln de clases. En este trabajo bsicamente se habla de cmo desarrollar la aplicacin de los mtodos lineales y estimacin por mnimos cuadrados, adems de inferencia, prediccin y correlacin. Se desarrollaron una serie de ejemplos mediante los cuales se trata de presentar manera mas sencilla usar estos mtodos. El Equipo # 4

Mtodos de mnimos cuadrados.

El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersin se conoce como "el mtodo de los mnimos cuadrados". La recta resultante presenta dos caractersticas importantes: 1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste

(Y - Y) = 0.

2. Es mnima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta dara una suma menor de las desviaciones elevadas al cuadrado (Y - Y)

(mnima). El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci Re emplazando nos queda

La obtencin de los valores de a y b que minimizan esta funcin es un problema que se puede resolver recurriendo a la derivacin parcial de la funcin en trminos de a y b: llamemos G a la funcin que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las incgnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier mtodo ya sea igualacin o matrices para obtener los valores de a y b.

Derivamos parcialmente la ecuacin respecto de a

Primera ecuacin normal

Derivamos parcialmente la ecuacin respecto de b

Segunda ecuacin normal

Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo:

En un estudio econmico se desea saber la relacin entre el nivel de instruccin de las personas y el ingreso. EJEMPLO 1 Se toma una muestra aleatoria de 8 ciudades de una regin geogrfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educacin superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes: CIUDAD : 1 2 3 4 5 6 7 8 % de (X) Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2 Ingreso (Y) Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Tenemos las ecuaciones normales

= na + bx ax + bx

xy =

Debemos encontrar los trminos de las ecuaciones


y, x, xy,

x Por tanto procedemos de la siguiente forma:

XY

4.2 4.9

7.2 6.7

30.24 32.83

51.84 44.89

7.0 6.2 3.8 7.6 4.4 5.4 43.5

17.0 119.00 289.00 12.5 6.3 77.50 23.94 156.25 39.69

23.9 181.64 571.21 6.0 10.2 26.40 55.08 36.00 104.04

89.8 546.63 1292.92

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b 546.63 = 89.8a + 1292.92b multiplicamos la primera ecuacin por (-89.8) y la segunda por (8) as:

43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)

-3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b 466.74 = -0- 2279.32b

Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a as:

Reemplazando b = 0.20477 en la primera ecuacin normal

43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a

Tenemos entonces que los coeficientes de regresin son : a = 3.139 y b = 0.20477. Por tanto la ecuacin de regresin nos queda:

Significa entonces que por cada incremento en una unidad en X el valor de se aumenta en 0.20477

Esta ecuacin permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad ser:

Los valores a y b tambin se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:

Si dividimos todos los trminos de la ecuacin (1) entre n nos queda:

Tenemos entonces que el primer termino es el segundo termino es la incgnita a y el tercer termino es la incgnita b multiplicada por por tanto nos queda:

entonces

Reemplazando a en la ecuacin (2) tenemos

a = 5.4375 0.20477 (11.2250) = 5.4375 2.2985 = 3.139 Se debe tener presente la diferencia entre el valor de obtenido con

la ecuacin de regresin y el valor de Y observado. Mientras es una estimacin y su bondad en la estimacin depende de lo estrecha que sea la relacin entre las dos variables que se estudian; Y es el valor efectivo, verdadero obtenido mediante la observacin del investigador. En el ejemplo Y es el valor mediano del ingreso que obtuvo el investigador utilizando todos los ingresos observados en cada ciudad y es el valor estimado con base en el modelo lineal utilizado para obtener la ecuacin de regresin Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Y = 4.2 al reemplazar en la ecuacin el porcentaje de graduados obtenemos un estimado de

Grficamente lo anterior se puede mostrar as:

Claramente se observa en la grfica que hay una diferencia entre el valor efectivo de Y y el valor estimado; esta diferencia se conoce como error en la estimacin, este error se puede medir. A continuacin se ver el procedimiento. Error estndar en la estimacin El error estndar de la estimacin designado por sYX mide la disparidad "promedio" entre los valores observados y los valores estimados de siguiente formula. . Se utiliza la

Debemos entonces calcular los valores de para cada ciudad sustituyendo en la ecuacin los valores de los porcentajes de graduados de cada ciudad estudiada.

4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4

7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2

4.6 4.5 6.6 5.7 4.4 8.0 4.4 5.2

-0.4 0.4 0.4 0.5 -0.6 -0.4 0.0 0.2

0.16 0.16 0.16 0.25 0.36 0.16 0.00 0.04 1.29

Syx = 0.46 (decenas de miles $)

Como esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir, trata de medir la diferencia promedio entre lo observado y lo estimado esperado de acuerdo al modelo, puede considerarse como un indicador del grado de precisin con que la ecuacin de regresin, describe la relacin entre las dos variables. Este error estndar se ve afectado por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 sern decenas de miles de pesos, razn por la cual no es posible comparar con las

relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular una medida que interprete o mida mejor el grado de relacin entre las variables.

Coeficiente de determinacin. El cambio de la variable Y generalmente depende de muchos factores, en ocasiones, difciles de identificar; con el modelo lineal simple, slo tenemos presente uno. Por ejemplo, en nuestro caso la mediana del ingreso depende no slo del porcentaje de graduados en el nivel superior, que es, el factor que tenemos presente, pueden entrar a jugar factores tales como, la distribucin de la edad en la poblacin, la distribucin por sexo en la poblacin, la industrializacin de la ciudad, el numero de universidades y muchos otros. El coeficiente de determinacin mide o interpreta la cantidad relativa de la variacin que ha sido explicada por la recta de regresin, es decir, la proporcin de cambio en Y explicado por un cambio en la variable X ( X es el factor que se utiliza para calcular la recta de ajuste o ecuacin de regresin, en el ejemplo es el porcentaje de graduados en el nivel superior en cada ciudad). Para el ejemplo el Coeficiente de determinacin va a medir la proporcin del cambio en el ingreso mediano de cada ciudad, debido o explicado por un cambio en el porcentaje de graduados en el nivel superior. Veamos algunos componentes de la variabilidad en el anlisis de regresin: La diferencia entre cada valor de Y observado y denomina variacin de Y. media se

La diferencia entre estimado y media , es la variacin tenida en cuenta por la ecuacin de regresin, razn por la cual se denomina variacin explicada de Y.

La diferencia entre Y observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuacin de regresin por eso se llama: variacin no explicada de Y.

La diferencia entre Y observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuacin de regresin por eso se llama: variacin no explicada de Y.

La sumatoria de las diferencias en cada una de las formas de variacin la podemos representar as:

Grficamente esta relacin se puede representar as:

Se dijo anteriormente, que el coeficiente de determinacin es la proporcin de cambio explicado en Y, por cambio en X, es decir, la proporcin que representa la variacin explicada de la variacin total. Recuerde una proporcin es la relacin de una parte con el total, por tanto, el coeficiente de determinacin ser:

En otras palabras el coeficiente de determinacin es la relacin entre la variacin explicada y la variacin total. Su valor siempre estar Para su calculo se procede as:

4.2 4.9

5.44 5.44

-1.24 -1.24

1.54 0.29

4.6 4.5

-0.84 -0.84

0.71 0.88

-0.4 0.4

0.16 0.16

7.0 6.2 3.8 7.6 4.4 5.4

5.44 5.44 5.44 5.44 5.44 5.44

1.56 0.76 1.64 2.16 1.04 0.4

2.43 0.58 2.69 4.66 1.08 0.001

6.6 5.7 4.4 8.0 4.4 5.2

1.16 0.26 -1.04 2.56 -1.04 -0.24

1.35 0.07 1.08 6.55 1.08 0.06

0.4 0.5 -0.6 -0.4 0.0 0.2

0.16 0.25 0.36 0.16 0.00 0.04

43.5

13.271

11.78

1.29

Generalmente esta proporcin se expresa como porcentaje por tanto podemos decir que

r = 88.76%

como conclusin podemos decir que el 88.76% de la variacin en el ingreso mediano de las ciudades de la muestra esta relacionada o explicada por la variacin en el porcentaje de graduados en educacin Superior en cada ciudad.

Coeficiente de correlacin Este Coeficiente como ya se dijo mide la fuerza de la relacin entre las variables. El coeficiente tiene el signo que tiene b y su valor estar El signo menos en el ndice significa una relacin negativa y un signo ms una correlacin positiva. El coeficiente se obtiene sacando la raz cuadrada al coeficiente de determinacin y se simboliza con "r".

En este caso el coeficiente r tiene signo positivo ya que toma el valor de b obtenido con las ecuaciones normales toma valor positivo. A continuacin se da, a modo de orientacin , como podran interpretarse los valores de r (positivo o negativo)

0.0 0.2 0.4 0.7 0.9

a a a a a

0.2 0.4 0.7 0.9 1.0

Correlacin muy dbil, despreciable Correlacin dbil. bajo Correlacin moderada Correlacin fuerte, alto, importante Correlacin muy fuerte, muy alto

La correlacin entre los valores de dos variables es un hecho. El que lo consideremos satisfactorio o no, depende de la interpretacin. Otro problema que representa la correlacin es cuando se pregunta si una variable, de algn modo causa o determina a la otra. La correlacin no implica causalidad. Si las variables X e Y estn

correlacionadas, esto puede ser por que X causa a Y, o porque Y causa a X o porque alguna otra variable afecta tanto a X como Y, o por una combinacin de todas estas razones; o puede ser que la relacin sea una coincidencia.

Modelo de regresin lineal con el uso de matrices. Al ajustar un modelo de regresin lineal mltiple, en particular cuando el nmero de variables pasa de dos, el conocimiento de la teora matricial puede facilitar las manipulaciones matemticas de forma considerable. Suponga que el experimentador tiene k variables independientes x1, x2,....,xk, y n observaciones y1, y2,...., yn, cada una de las cuales se pueden expresar por la ecuacin yi = 0 + 1x1i + 2x2i +.+ kxki + i Este modelo en esencia representa n ecuaciones que describen cmo se generan los valores de respuesta en el proceso cientfico. Con el uso de la notacin matricial, podemos escribir la ecuacin y=X + donde

Entonces la solucin de mnimos cuadrados para la estimacin de que se ilustra en la seccin Estimacin de coeficientes, "Regresin lineal mltiple" implica encontrar b para la que SSE = (y - Xb)'(y - Xb) se minimiza. Este proceso de minimizacin implica resolver para b en la ecuacin

No presentaremos los detalles relacionados con las soluciones de las ecuaciones anteriores. El resultado se reduce a la solucin de b en (X'X)b = X'y

Ntese la naturaleza de la matriz X. Aparte del elemento inicial, el isimo rengln representa los valores x que dan lugar a la respuesta yi. Al escribir

y las ecuaciones normales se pueden escribir en la forma matricial AB=g Si la matriz A es no singular, podemos escribir la solucin para el coeficiente de regresin como b = A-1g =(XX)-1Xy De esta forma se puede obtener la ecuacin de prediccin o la ecuacin de regresin al resolver un conjunto de k + 1 ecuaciones con un nmero igual de incgnitas. Esto implica la inversin de la matriz X'X de k + 1 por k + 1. Las tcnicas para invertir esta matriz se explican en la mayora de los libros de texto sobre determinantes y matrices elementales. Por supuesto, se dispone de muchos paquetes de computadora de alta velocidad para problemas de regresin mltiple, paquetes que no slo imprimen estimaciones de los coeficientes de regresin, sino que tambin proporcionan otra

informacin relevante para hacer inferencias respecto a la ecuacin de regresin. Ejemplo 1 Se midi el porcentaje de sobrevivencia de cierto tipo de semen animal, despus del almacenamiento, en varias combinaciones de concentraciones de tres materiales que se utilizan para aumentar su oportunidad de sobrevivencia. Los datos son los siguientes:

y(% sobrevivencia) x1(peso %) x2(peso %) x3(peso %) 25,5 31,2 25,9 38,4 18,4 26,7 26,4 25,9 32 25,2 39,7 35,7 1,74 6,32 6,22 10,52 1,19 1,22 4,10 6,32 4,08 4,15 10,15 1,72 5,30 5,42 8,41 4,63 11,60 5,85 6,62 8,72 4,42 7,60 4,83 3,12 10,80 9,40 7,20 8,50 9,40 9,90 8 9,10 8,70 9,20 9,40 7,60

26,5

1,70

5,30

8,20

Estime el modelo de regresin lineal mltiple para los datos dados. SOLUCIN: Las ecuaciones de estimacin de mnimos cuadrados, (X'X)b = X'y, son

= De los resultados de una computadora obtenemos los elementos de la matriz inversa

y despus, con el uso de la relacin b = (XX)-1 Xy, los coeficientes estimados de regresin son b0= 39.1574, b1 = 1.0161, b2 = -1.8616, b3 = -0.3433. De aqu nuestra ecuacin de regresin estimada es

Para el caso de una sola variable independiente, el grado del polinomio de mejor ajuste a menudo se puede determinar al graficar un diagrama de dispersin de los datos que se obtienen de un

experimento que da n pares de observaciones de la forma {(x i, yi); i = 1, 2, .... n}.

= Al resolver estas r + 1 ecuaciones, obtenemos las estimaciones b0, b1,....., br y por ello generamos la ecuacin de prediccin de regresin polinomial

El procedimiento para ajustar un modelo de regresin polinomial se puede generalizar al caso de ms de una variable independiente. De hecho, el estudiante de anlisis de regresin debe, en esta etapa, tener la facilidad para ajustar cualquier modelo lineal en, digamos, k variables independientes. Suponga, por ejemplo, que tenemos una respuesta Y con k = 2 variables independientes y se postula un modelo cuadrtico del tipo yi = 0 + 1x1i + 2x2i + 11x21i+ 22x22i+ 12x1i x2i+ I donde yi, i = 1, 2, ..., n, es la respuesta para la combinacin (x1i, x2i) de las variables independientes en el experimento. En esta situacin n debe ser al menos 6, pues hay seis parmetros a estimar mediante el procedimiento de mnimos cuadrados. Adems, como el modelo contiene trminos cuadrticos en ambas variables, se deben usar al menos tres niveles de cada variable. El lector debe verificar con facilidad que las ecuaciones normales de mnimos cuadrados (X'X)b = X'y estn dadas por:

Ejemplo 2 Los siguientes datos representan el porcentaje de impurezas que ocurren a varias temperaturas y tiempos de esterilizacin durante una reaccin asociada con la fabricacin de cierta bebida.

Tiempo de esterilizacin, x2 (min)

Temperatura, x1 (C) 75 100 10.55 9.48 125 7.55 6.59

15

14.05 14.93

20

16.56 15.85

13.63 11.75

9.23 8.78

25

22.41

18.55

15.93

21.66

17.98

16.44

Estimar los coeficientes de regresin en el modelo

|x = 0 + 1 x1 + 2 x2+ 11 x12+ 22 x22+ ..+ 12 x1 x2

SOLUCIN: b0 = 56,4668 b1 = -0,36235 b2 = -2,75299 b11 =0,00081 b22 = 0,08171 b12 = 0,00314

y nuestra ecuacin de regresin estimada es

Muchos de los principios y procedimientos asociados con la estimacin de funciones de regresin polinomial caen en la categora de la metodologa de respuesta superficial, un conjunto de tcnicas que los cientficos e ingenieros han utilizado con bastante xito en muchos campos. Problemas como la seleccin de un diseo experimental apropiado, en particular para casos donde hay un nmero grande de variables en el modelo, y la eleccin de las condiciones "ptimas" de operacin sobre x1,x2,.....,xk a menudo se aproximan a travs del uso de estos mtodos. Para una exposicin ms amplia se remite al lector a Response Surface Methodology: Process and Product Optimization Using Designed Experiments de Myers y Montgomery. Regresin lineal mltiple.

En la mayor parte de los problemas de investigacin donde se aplica el anlisis de regresin se necesita ms de una variable independiente en el modelo de regresin. La complejidad de la mayor parte de los mecanismos cientficos es tal que para ser capaces de predecir una respuesta importante se necesita un modelo de regresin mltiple. Cuando este modelo es lineal en los coeficientes se denomina modelo de regresin lineal mltiple. Para el caso de k variables independientes X1, X2,....,Xk, la media de Y| X1, X2,....,XK est dada por el modelo de regresin lineal mltiple

|x1, x2 ,, xk = 0 + 1 x1 +..+ k xk

y la respuesta estimada se obtiene de la ecuacin de regresin de la muestra

donde cada coeficiente de regresin i se estima por bi de los datos de la muestra con el uso del mtodo de mnimos cuadrados. Como en el caso de una sola variable independiente, el modelo de regresin lineal mltiple a menudo puede ser una representacin adecuada de una estructura ms complicada dentro de ciertos rangos de las variables independientes. Tcnicas de mnimos cuadrados similares tambin se pueden aplicar al estimar los coeficientes cuando el modelo lineal involucra, digamos, potencias y productos de las variables independientes. Por ejemplo, cuando k = 1, el experimentador puede pensar que las medias Y|x1 no caen en una lnea recta pero que se describen de forma ms apropiada con el modelo de regresin polinomial

|x = 0 + 1 x + 2 x2+ ..+ r xr

y la respuesta estimada se obtiene de la ecuacin de regresin polinomial

En ocasiones surge confusin cuando hablamos de un modelo polinomial como de un modelo lineal. Sin embargo, los estadsticos por lo general se refieren a un modelo lineal como uno en el cual los parmetros ocurren linealmente, sin importar cmo entran las variables independientes al modelo. Un ejemplo de un modelo no lineal es la relacin exponencial

|x = x,

que se estima con la ecuacin de regresin

Existen muchos fenmenos en la ciencia y en la ingeniera que son inherentemente no lineales por naturaleza y, cuando se conoce la estructura real, desde luego se debe hacer un intento para ajustar el modelo presente. La literatura sobre estimacin por mnimos cuadrados de modelos no lineales es voluminosa. El estudiante que quiera una buena explicacin de algunos aspectos de este tema debe consultar Classical and Modern Regression with Applications de Myers.

Estimacin de los coeficientes. En esta seccin obtenemos los estimadores de mnimos cuadrados de los parmetros 0 + 0, 1,...., k mediante el ajuste del modelo de regresin lineal mltiple

|x1 , x2,......, xk = 0 + 1x1+ 2x2+ kxk

a los puntos de datos i= 1,2,....,n y n >k }, donde yi es la respuesta observada para los valores x1i, x2i,........., xki, de las k variables independientes x1 , x2,......, xk .Cada observacin (x1i, x2i,......,xki, yi) satisface la ecuacin

yi = 0 + 1x1i + 2x2i +.+ kxki + i

o yi = b0 + b1x1i +b2x2i +.+ bkxki +ei, donde i y ei son el error aleatorio y residual, respectivamente, asociados con la respuesta yi . Al utilizar el concepto de mnimos cuadrados para llegar a las estimaciones b0, b1,..., bk, minimizamos la expresin

Al diferenciar SSE a su vez con respecto a b0,b1, b2,......,bk, e igualar a cero, generamos un conjunto de k + 1 ecuaciones normales

Estas ecuaciones se pueden resolver para b0, b1,b2, ..., bk mediante cualquier mtodo apropiado para resolver sistemas de ecuaciones lineales. Ejemplo 1 Se realiz un estudio sobre un camin de reparto ligero a diesel para ver si la humedad, temperatura del aire y presin baromtrica influyen en la emisin de xido nitroso (en ppm). Las mediciones de las emisiones se tomaron en diferentes momentos, con condiciones experimentales variantes. Los datos son los siguientes:

xido Humeda Temperatur Presi xido Humeda Temperatur Presi d a n nitros d a n nitroso x1 x2 x3 o x1 x2 x3 , y y 0,90 0,91 0,96 0,89 1,00 1,10 1,15 1,03 0,77 1,07 72,4 41,6 34,3 35,1 10,7 12,9 8,3 20,1 72,2 24,0 76,3 70,3 77,1 68,0 79,0 67,4 66,8 76,9 77,7 67,7 29,18 29,35 29,24 29,27 29,78 29,39 29,69 29,48 29,09 29,60 1,07 0,94 1,10 1,10 1,10 0,91 0,87 0,78 0,82 0,95 23,2 47,4 31,5 10,6 11,2 73,3 75,4 96,6 107,4 54,9 76,8 86,6 76,9 86,3 86,0 76,3 77,9 78,7 86,8 70,9 29,38 29,35 29,63 29,56 29,48 29,40 29,28 29,29 29,03 29,37

El modelo es:

|x1, x2, x3 = 0 + 1 x1 + 2 x2 +..+ 3 x3

Ajuste este modelo de regresin lineal mltiple a los datos dados y despus estime la cantidad de xido nitroso para las condiciones donde la humedad es 50%, la temperatura 76F y la presin baromtrica 29,30.

SOLUCIN Para las ecuaciones normales encontramos que

La solucin de este conjunto de ecuaciones da las estimaciones nicas b0 = -3.507778, b1= -0.002625, b2= 0.000799, b3= 0.154155. Por tanto, la ecuacin de regresin es

Para 50% de humedad, una temperatura de 76 F y una presin baromtrica 29,30, la cantidad estimada de xido nitroso es

Regresin polinomial. Suponga ahora que deseamos ajustar la ecuacin polinomial

|x = 0 + 1 x + 2 x2+ ..+ r xr

a los n pares de observaciones {(xi, yi); i = 1,2,..., n}. Cada observacin, yi satisface la ecuacin yi = 0 + 1xi + 2xi2+ ..+ r xi2+ i o yi = b0 + b1xi +b2xi2+ ..+ br xir+ei donde r es el grado del polinomio, y i, y ei son de nuevo el error aleatorio y residual asociados con la respuesta yi. Aqu, el nmero de pares, n, debe ser al menos tan grande como r + 1, el nmero de

parmetros a estimar. Ntese que el modelo polinomial se puede considerar como un caso especial del modelo de regresin lineal mltiple ms general, donde hacemos x1 = x, x2 = x2, ..., xr. = xr. Las ecuaciones normales toman la forma:

que se resuelve como antes para b0, b1,.........., br

Ejemplo 2 Dados los datos x y 0 9,1 1 7,3 2 3,2 3 4,6 4 4,8 5 2,9 6 5,7 7 7,1 8 8,8 9 10,2

Ajustar una curva de regresin de la forma

|x = 0 + 1 x + 2 x2 y despus estime Y|x

SOLUCIN:

De los datos dados, encontramos que

Al resolver las ecuaciones normales obtenemos b0=8,697 , b1=-2,341, b2= 0,288 Por tanto:

Inferencias en la regresin lineal mltiple. Una de las inferencias ms tiles que se pueden hacer con respecto a la calidad de la respuesta pronosticada y0 que corresponde a los valores x10, x20,...., xk0, es el intervalo de confianza sobre la respuesta media | x10, x20,...., xk0 . Nos interesa construir un intervalo de confianza sobre la respuesta media para el conjunto de condiciones dado por X0 = [x10, x20,...., xk0] Aumentamos las condiciones sobre las x por el nmero 1 a fin de facilitar el uso de la notacin matricial. Como en el caso k = 1 si hacemos la suposicin adicional de que los errores son independientes y se distribuyen de forma normal, entonces las Bj son normales, con media, varianzas y convarianzas.

tambin est normalmente distribuida y es, de hecho, un estimador insesgado para la respuesta media sobre el que intentamos unir los intervalos de confianza. La varianza de escrita en notacin

matricial simplemente como funcin de condicin x0, es

, (X'X)1, y el vector de

Si esta expresin se expande para un caso dado, digamos k = 2, se ve fcilmente que explica de manera apropiada las varianzas y covarianzas de las Bi. Despus de reemplazar por s2, el intervalo de confianza de 100(1 )% sobre | x10, x20,...., xk0 . se puede construir a partir de la estadstica:

que tiene una distribucin t con n k 1 grados de libertad.

Intervalo Un intervalo de confianza de (1 )100% para la respuesta media | x10, x20,...., xk0 es de confianza para: | x10, x20,...., xk0

donde t libertad.

/2

es un valor de la distribucin t con n-k grados de

La cantidad a menudo se llama error estndar de prediccin y por lo general aparece en el impreso de muchos paquetes de regresin para computadora.

Ejemplo 1 Con el uso de los datos del ejemplo 1 correspondiente al "Modelo de regresin lineal con el uso de matrices", construya un intervalo de confianza de 95% para la respuesta media cuando x1 = 3%, x2 = 8%, y x3 = 9%. SOLUCIN

De la ecuacin de regresin del ejemplo 1 correspondiente al "Modelo de regresin lineal con el uso de matrices", el porcentaje estimado de sobrevivencia cuando x1 = 3%, x2 = 8%, y x3 = 9% es

A continuacin encontramos que:

Con el uso del cuadrado medio del error, s2 = 4.298 o s = 2.073, y de la tabla A.4, vemos que t0.025 = 2.262 para 9 grados de libertad. Por tanto, un intervalo de confianza de 95% para el porcentaje medio de sobrevivencia para x1 = 3%, x2 = 8%, y x3= 9% est dado por

o simplemente . Como en el caso de la regresin lineal simple, necesitamos hacer una clara distincin entre el intervalo de confianza de la respuesta media y el intervalo de prediccin sobre una respuesta observada. Esta ltima proporciona un lmite dentro del cual podemos decir con un grado de certeza preestablecido que caer una nueva respuesta observada. Un intervalo de prediccin para una sola respuesta pronosticada se establece de nuevo al considerar las diferencias variable aleatoria . de la

Se puede mostrar que la distribucin muestral es normal con media

y varianza

De esta manera el intervalo de prediccin de (1 )100% para un solo valor de prediccin y0 se puede construir a partir de la estadstica

que tiene una distribucin t con n k 1 grados de libertad.

Intervalo Un intervalo de prediccin de (1-)100% para una sola de respuesta y0 est dado por: predicci n para y0 donde t/2 es un valor de la distribucin t con n k 1 grados de libertad.

Ejemplo 2 Con el uso de los datos del ejemplo 1 correspondiente a el tema "Modelo de regresin lineal con el uso de matrices" construya un intervalo de prediccin de 95% para una respuesta individual del porcentaje de sobrevivencia cuando x1 = 3%, x2 = 8%, y x3 = 9%. SOLUCIN: Con referencia a los resultados del ejemplo 1 de esta seccin, encontramos que el intervalo de prediccin de 95% para la respuesta y0 cuando x1= 3%, x2 = 8%, y x3 = 9% es

que se reduce a . Ntese, como se espera, que el intervalo de prediccin es considerablemente menos estrecho que el intervalo de confianza para el porcentaje de sobrevivencia media en el ejemplo 1. Un conocimiento de las distribuciones de los estimadores de los coeficientes individuales permite al experimentador construir intervalos de confianza para los coeficientes y probar hiptesis acerca de ellos. De esta manera podemos utilizar la estadstica

con n k 1 grados de libertad para probar las hiptesis y construir intervalos de confianza sobre j. Por ejemplo, si deseamos probar:

calculamos la estadstica:

y no rechazamos H0 si libertad. Ejemplo 3

donde

tiene n k 1 grados de

Para el modelo del ejemplo 1 correspondiente al "Modelo de regresin lineal con el uso de matrices", pruebe la hiptesis de que 2 = -2,5 en el nivel de significancia 0.05 contra la alternativa de que 2> -2,5. SOLUCIN: Clculos:

Decisin : rechazar H0 y concluir que 2> -2,5

PREDICCION. Existen varias razones para construir una regresin lineal. Una, por supuesto, es predecir valores de respuesta a uno o mas valores de la variable independiente. En este aparte nos enfocamos en los errores asociados con la prediccin. La ecuacin = a +bx se puede usar para predecir o estimar la respuesta media y x en x = xo no es necesariamente uno de los valores preseleccionados, o se puede utilizar para predecir un solo valor o de la variable Yo cuando x = xo. Esperaramos que el error de prediccin fuese mas alto en el caso de un solo valor predicho en el caso donde se predice una media. Esto, entonces, afectara el ancho de nuestros intervalos para valores que se predicen. Suponga que el experimentador desea construir un intervalo de confianza para y x . Utilizaremos el estimador puntual o = A + Bxo para estimar y x . = + se puede mostrar que la distribucin muestral de o es normal con media:

Y varianza: La ultima se sigue del hecho que Cov(, B) = 0. De esta forma el intervalo de confianza de (1 - )100% sobre la respuesta media y x . Se puede construir a partir de la estadstica :

Que tiene una distribucin t con n 2 grados de libertad

Intervalo de confianza para y x .:

CORRELACION. Hasta este punto hemos supuesto que la variable de regresin independiente x es una variable fsica o cientfica pero no una variable aleatoria. De hecho, en este contexto , x a menudo se llama variable matemtica, que, en el proceso de muestreo, se mide con un error insignificante. En muchas aplicaciones de las tcnicas de regresin es mas realista suponer que X y Y son variables aleatorias y que las mediciones {(Xi, Yi) ; i= 1, 2, ..., n} son observaciones de una poblacin que tiene la funcin de densidad conjunta f(x, y). Consideremos el problema de medir la relacin entre las dos variables X y Y. Por ejemplo, si X y Y representan la longitud y circunferencia de una clase particular de hueso en el cuerpo de un adulto, podemos realizar un estudio antropolgico para determinar si los valores grandes de X se asocian con valores grandes de Y, y viceversa. El anlisis de correlacin intenta medir la fuerza de tales relaciones entre dos variables por medio de un solo numero llamado coeficiente de correlacin.

En teora a menudo se supone que la distribucin condicional f(y x) de Y, para valores fijos de X, es normal con una media y x = +

y varianza y x = y X tambin se distribuye con normalmente con x y varianza x. La densidad conjunta de X y Y es entonces: Donde X es ahora una variable aleatoria independiente del error aleatorio E. Como la media del error aleatorio E es cero, se sigue que:

Al sustituir para y en la expresin anterior para f( x, y), obtenemos la distribucin normal bivariada:

La constante (rho) se llama coeficiente de correlacin poblacional y juega un papel importante en muchos problemas de anlisis de datos de dos variables. El valor de es 0 cuando = 0 , que resulta cuando en esencia no hay una regresin lineal; es decir, la lnea de regresin es horizontal y cualquier conocimiento de X no es de utilidad para predecir Y. Como debemos tener y , y 1 por ello -1 1. Los valores de = 1 solo ocurren cuando = 0, en cuyo caso tenemos una relacin lineal perfecta entre las dos variables. de esta manera un valor de igual a +1 implica una relacin lineal perfecta con una pendiente positiva, mientras que un valor de igual a 1 resulta de una relacin lineal perfecta con pendiente negativa. Se puede decir entonces que las estimaciones mustrales de cercanas a la unidad en magnitud implican una buena correlacin o una asociacin lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna correlacin.

Se debe sealar que en estudios de correlacin, como en problemas de regresin lineal, los resultados que se obtienen solo son tan buenos como el modelo que se supone. En las tcnicas de correlacin que aqu se estudian se supone una densidad normal bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente relacionado con x. Para observar la conveniencia de la suposicin de linealidad, a menudo es til una graficacin preliminar de los datos experimentales. Un valor del coeficiente de correlacin muestral cercano a cero resultara de datos que muestren un efecto estrictamente aleatorio como se indica en la figura a :

en donde se puede observar poca o ninguna relacin causal. Es importante recordar que el coeficiente de correlacin entre dos variables es una media de su relacin lineal, y que un valor de r = 0 implica una falta de linealidad y no una falta de asociacin. Por ello, si existe una fuerte relacin cuadrtica entre X y Y como se indica en la figura b, podemos aun obtener una correlacin cero que indique una relacin no lineal.

formula del calculo de r

Bibliografa: www.monografias.com

Tabla n 1 de lab 2 1.0000 2.6250 Corte ord = 1 ; Pendient = 2.625 = 1.299 ; Coef. correl. = -0.992790 corte ordenadas = 0.82646 ; pendiente = 0.11205

Potrebbero piacerti anche