Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
11
ICM ESPOL
El propsito de este estudio es proporcionar los conceptos y tcnicas para construir modelos
matemticos que describan de manera apropiada a un conjunto de datos, cuando la relacin es
de tipo lineal. Estos modelos son tiles para realizar pronsticos.
Este estudio se denomina anlisis de regresin y el objetivo es estimar la ecuacin de
regresin la cual es la recta terica poblacional (desconocida) de la cual provienen los datos.
Suponer que se tiene un conjunto de n mediciones u observaciones (x1, y1), (x2, y2),...,(xn, yn)
Estas observaciones provienen de las variables X y Y. La variable X se denomina variable de
prediccin mientras que la variable Y se denomina variable de respuesta.
Se supondr que existe una correspondencia de X a Y y el objetivo es modelar esta relacin.
Cada valor yi es una observacin o el resultado de una medicin, por lo tanto pudiesen haber
otros valores yi para el mismo valor de xi. Esto permite entender que yi es uno de los
posibles resultados de la variable aleatoria Yi. Una variable aleatoria debe tener una
distribucin de probabilidad. El siguiente grfico permite visualizar esta suposicin:
Un resultado de la
variable aleatoria Yi
Distribucin de probabilidad
de la variable aleatoria Yi
Si la relacin entre X y Y tiene tendencia lineal, lo cual puede reconocerse graficando los
puntos en una representacin que se denomina grfico de dispersin, entonces es razonable
proponer un modelo lineal para describir la relacin y que tome en cuenta la aleatoriedad de Y
Definicin: Modelo de regresin lineal probabilista (modelo poblacional desconocido)
Y = 0 + 1 x +
En donde 0 y 1 son los parmetros del modelo y es el componente aleatorio de Y
Se supondr que para cada variable aleatoria Yi el componente aleatorio i tiene la misma
distribucin de probabilidad y que adems estos componentes son variables independientes:
E[Y] = 0 + 1 x
El modelo poblacional terico tiene dos parmetros 0 (intercepcin) y 1 (pendiente)
ICM ESPOL
Modelo Poblacional
0 + 1 x
Ejemplo
Se desea construir un modelo de regresin para relacionar las calificaciones parcial y
final en cierta materia, utilizando una muestra aleatoria de 10 estudiantes que han
tomado esta materia:
Estudiante
Nota Parcial
Nota Final
1
39
65
2
43
75
3
21
52
4
64
82
5
57
92
6
43
80
7
38
73
8
75
98
9
34
56
10
52
75
Diagrama de dispersin
X: calificacin parcial
Y: calificacin final
11.1
ICM ESPOL
El siguiente procedimiento matemtico permite usar los datos dados para construir una recta
de la cual se obtienen estimadores para los parmetros 0 y 1 de la recta de regresin
poblacional 0 + 1 x,
Se trata de colocar una recta entre los puntos dados, de la forma mejor balanceada con el
criterio de hacer que la suma de las distancias de la recta a los puntos sea la menor posible.
Esta recta se denomina recta de mnimos cuadrados.
Definicin: Recta de mnimos cuadrados
y = 0 + 1 x
Para cada valor x i se tiene el dato observado y i , mientras que al evaluar la recta de mnimos
cuadrados y = 0 + 1 x con este mismo valor x i se obtiene el valor y i = 0 + 1 x i
Sea ei = y i y i , la diferencia entre estos dos valores. Esta diferencia se denomina el residual.
2
Entonces, el criterio de mnimos cuadrados consiste en minimizar e i para todos los puntos.
El cuadrado puede interpretarse como una manera de cuantificar las diferencias sin importar el
signo. La verdadera razn es formal y corresponde a la teora de la estimacin estadstica.
Definicin: Suma de los cuadrados del error
n
2 n
2
e
=
(
y
y
i i i ) = ( y i 0 1x i ) 2
n
SCE =
i=1
i =1
i =1
n
n
0 xi + 1 xi2 =
i =1
i=1
i =1
n
xi yi
i=1
ICM ESPOL
y = 0 + 1 x
i
1
2
3
4
5
6
7
8
9
10
xi
39
43
21
64
57
43
38
75
34
52
yi
65
75
52
82
92
80
73
98
56
75
x2i
1521
1849
441
4096
3249
1849
1444
5625
1156
2704
xiyi
2535
3225
1092
5248
5244
3440
2774
7350
1904
3900
466
748
23934
36712
10
i=1
0n
n
+ 1 x i =
i =1
n
n
0 xi + 1 xi2 =
i =1
i=1
10 0 + 466 1 = 748
466 0 + 23934 1 = 36712
yi
i =1
xi yi
i=1
1 = 0.836
y = 35.83 + 0.836 x
11.2
COEFICIENTE DE CORRELACIN
Para determinar el tipo de relacin lineal entre las variables x y y del modelo de regresin lineal
se usa el coeficiente de correlacin lineal que se define a continuacin:
Para simplificar la escritura se establecen las siguientes definiciones
1 n
1 n
x = xi
y = yi
n i=1
n i=1
n
n
Sxx = (x i x ) 2
Syy = ( yi y) 2
i=1
i=1
n
Sxy = (x i x )( yi y)
i=1
Definicin: Coeficiente de correlacin
r=
Sxy
, 1 r 1
Sxx Syy
r=0.9
r=0.1
ICM ESPOL
r=-0.9
r=0.1
2
2 1
Sxx = (x i x ) = x i x i
(1)
n i=1
i=1
i=1
(2)
n
n
1 n n
Sxy = (x i x )( yi y) = x i yi x i yi
n i = 1 i = 1
i=1
i=1
ICM ESPOL
1 n
SCT = Syy = ( yi y) = yi2 yi
n i=1
i=1
i=1
n
S 2xy
SCE = ( yi yi ) 2 = S yy
Sxx
i=1
n
S 2xy
2
SCR = ( yi y) =
S xx
i=1
n
(3)
(4)
(5)
Demostracin de (1)
n
n
n
n
2
2
Sxx = (x i x ) 2 = (x i2 2x i x + x ) = x i2 2x x i + nx
i=1
i=1
i=1
i=1
n
n
n
n
1
2
2
2
2
2
2
= x i 2xn x i + nx = x i 2xnx + nx = x i nx
n i=1
i=1
i=1
i=1
n
i= 1
11.4
xi2
n(
xi
i =1
2
= xi
i=1
1 n
x i
n i=1
ANLISIS DE VARIANZA
S 2xy
2
SCE = ( yi yi ) = S yy
Sxx
i=1
n
Se puede escribir
S yy =
S 2xy
S xx
+ SCE
S yy = SCR + SCE
Sustituyendo la definicin de la frmula (3)
Con la sustitucin de las equivalencias de las frmulas (3), (4) y (5) se obtiene
i=1
i=1
i=1
( y i y) 2 = ( y i y) 2 + ( y i y i ) 2
ICM ESPOL
Esta frmula permite descomponer la variabilidad total SCT de la variable de respuesta (y) en
dos componentes: la variabilidad SCR correspondiente a la recta de regresin de mnimos
cuadrados, y la variacin residual SCE que no se ha incluido en la recta de mnimos
cuadrados obtenida
SCT =
y = 35.83 + 0.836 x
(Recta de mnimos cuadrados obtenida)
x=39: y = 35.83 + 0.836 (39) = 68.434
x=43: y = 35.83 + 0.836 (43) = 71.778
...
x=52: y = 35.83 + 0.836 (52) = 79.302
n
SCR =
(yi y)2
i=1
SCE =
(y
i=1
yi )2
11.5
COEFICIENTE DE DETERMINACIN
r2 =
SCR
2
, 0r 1
SCT
r2 =
ICM ESPOL
Tabla ANOVA
Fuente de
variacin
Regresin
Error
Total
Grados de
libertad
1
n2
n1
Suma de
cuadrados
SCR
SCE
SCT
Cuadrados
medios
SCR/1
S2 = SCE/(n 2)
F0
(SCR/1)/(SCE/(n-2))
El ltimo cociente es el valor de una variable que tiene distribucin F. Este estadstico se usa
para una prueba del modelo propuesto
Grados de
libertad
1
8
9
Suma de
cuadrados
1550.4
335.2
1885.6
Cuadrados
medios
1550.4
41.9
F0
37.00
(Tabla F)
ICM ESPOL
S2 =
(yi y i )2
SCE
=
n2
I=1
n2
S2
E[S2] = .
2
y = 0 + 1 x
En donde 0 , 1 son los estimadores de los parmetros 0 , 1
Los estimadores son variables aleatorias pues dependen de los valores y observados.
Si los componentes
i del error son independientes, puede demostrarse que 0 , 1 son
E[ 0 ] = 0,
V[ 0 ] =
2
0
E[1 ] = 1,
= [
2
V[1 ] = 2 =
1
x
i=1
2
i
nS xx
2
Sxx
por el estimador S2
n
xi2
S2 = S2 [ i=1 ]
0
nSxx
S2 =
1
S2
Sxx
t=
0
0
S2
t=
1
1
S2
ICM ESPOL
S2
0
2 i =1
=S [
S2 =
xi2
]
nSxx
S2
41.7673
=
= 0.0188
2218.4
Sxx
t=
1
1
S2
, tiene distribucin
1 t/2
S2 < 1 < 1 + t/2
1
1 con nivel 1
S2
1 t/2
S2 < 1 < 1 + t/2
1
S2
0.836 2.306
1 = b1
1 b1
1 < b1
1 > b1
Estadstico de prueba
t=
b
1
1
S2
ICM ESPOL
t < -1.86
t=
b
1
1
S2
0.836 1
0.0188
= 1.196
Conclusin
La evidencia no es suficiente para rechazar que la pendiente del modelo es 1
t=
0
0
S2
0 t/2
S2 < 0 < 0 + t/2
0
S2
0 t/2
S2 < 0 < 0 + t/2
35.83 2.306
S2
ICM ESPOL
0 = b0
0 b0
0 < b0
0 > b0
Estadstico de prueba
t=
b
0
0
S2
, tiene distribucin
t=
b
0
0
S2
35.83 30
45.0575
t > 1.86
= 0.8685
Conclusin
La evidencia no es suficiente para rechazar que la intercepcin del modelo es 30
2)
Estadstico de prueba
Dn = max| Sn(xi)
F0(xi)|
Regin de rechazo de Ho
= 0.05, n = 10 D0.05 = 0.410
Rechazar
(Tabla K-S)
H0 si Dn > 0.410
i ei = yi - yi , i =1, 2, ..,, 10
y = 35.83 + 0.836 x
ICM ESPOL
e3 1.386
e 4 7.334
e5 8.518
e6 8.222
e 5.4020
7
e8 0.530
e9 8.254
e10 4.302
ei N(0, 2) (Aproximadamente)
e 0
F0(xi) = F0(ei) = P(Z< i
Distribucin normal estndar acumulada
)
2 S2 = 41.7673 S = 6.4627
Modelo propuesto
8.254 0
) = 0.1008, etc. (Datos e ordenados)
6.4627
Tabulacin de resultados. Se utiliza la notacin xi = ei
i
1
2
3
4
5
6
7
8
9
10
xi (ordenados)
-8.254
-7.334
-4.302
-3.434
-1.386
-0.530
3.222
5.402
8.222
8.518
Sn(xi)
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
F0(xi)
0.1008
0.1282
0.2528
0.2976
0.4151
0.4673
0.6910
0.7984
0.8984
0.9063
|Sn(xi)- F0(xi)|
0.0008
0.0718
0.0472
0.1024
0.0849
0.1327
0.0090
0.0016
0.0984
0.0937