Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
¿Qué es el análisis de
regresión lineal?
Yi 0 1 X i ei i = 1, 2,…, n
o Independiente
o Dependiente
UPCPC
MA44 Estadística 185
X vs Y
Variables no X vs Y
Modelo lineal
1600
9
relacionadas 1400
8 1200
Buen ajuste
1000
7
800
Y
Y
6
600
5 400
Cuando
200 X crece Y
4
decrece
0
10 15 20 25 30 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6
X X
X vs Y
Modelo lineal
60 Variables no X vs Y
120
110
40
Y
100
Y
90
80
30
70
Cuando X crece 60
20 50
20 25 Y crece
30 35 40 45 50 200 400 600 800 1000 1200
X X
Ejercicio
Se desea modelar la vida útil (en años) de un satélite en función de la cantidad de combustible
(en kg) requerido para moverlo de su posición orbital, usando un modelo lineal. Los datos se
muestran a continuación:
Vida útil (años) 10,8 11,5 12 12,4 13,2 13,7 13,9 14,1 14,8 15
Cantidad de combustible
150,4 156,3 162,5 165,8 172,5 168,9 184,5 185,9 187,2 199,4
(kg)
14
Vida útil
13
12
11
UPCPC
MA44 Estadística 186
Mediante este método es posible seleccionar la recta que se ajuste mejor a los datos. La
recta resultante tiene dos características importantes:
La suma de las desviaciones verticales de los puntos con relación a la recta es cero; y
La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).
n
∑ ( y i− ^y i )2
Es decir: i =1 es mínima
Los valores de 0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:
n n
∑
i =1
y i = n β^ 0 + β^ 1
(∑ ) i=1
xi
n n n
∑ x i y i= β^ 0
i =1
( ∑ ) (∑ )
i=1
x i + β^ 1
i =1
x 2i
Este método nos permite estimar los parámetros del modelo de regresión. Resolviendo las
ecuaciones simultáneas para β 0 y β 1 tenemos:
n n n
β^ 1=
n
( i=1
) ( )(∑ )
∑ xi y i − ∑ xi
i=1 i=1
yi
n n 2
n (∑ ) (∑ )
i=1
x 2i −
i=1
xi
y
β^ 0 = ȳ− β^ 1 x̄
β^ 1 es la pendiente de la recta o coeficiente de regresión.
β^ 0 es la ordenada en el origen o intercepto de la recta con eje y
Ejercicio
UPCPC
MA44 Estadística 187
Cantidad de
150.4 156.3 162.5 165.8 172.5 168.9 184.5 185.9 187.2 199.4
combustible
Vida útil 10.8 11.5 12 12.4 13.2 13.7 13.9 14.1 14.8 15
Haciendo uso de las fórmulas, el procedimiento implica realizar los siguientes cálculos previos:
X
Y
N° Cantidad de xy x2 y2
Vida útil
combustible
1 150.4 10.8 1624,32 22620,16 116,64
2 156.3 11.5 1797,45 24429,69 132,25
3 162.5 12 1950 26406,25 144
4 165.8 12.4 2055,92 27489,64 153,76
5 172.5 13.2 2277 29756,25 174,24
6 168.9 13.7 2313,93 28527,21 187,69
7 184.5 13.9 2564,55 34040,25 193,21
8 185.9 14.1 2621,19 34558,81 198,81
9 187.2 14.8 2770,56 35043,84 219,04
10 199.4 15 2991 39760,36 225
Total 1733,4 131,4 22965,92 302632,46 1744,64
β^ 1
β^ 0
Análisis de varianza
UPCPC
MA44 Estadística 188
Donde:
n 2
n
n
( )
∑ yi
2
SC Re g= β^ 2 . ( n
∑ x2i −
(∑ )
i=1
xi
)
SCTot =
(∑ )
i =1
y 2i −
i=1
n
,
1 i=1 n
y SCE =SCTot−SC Re g
.
SC Re g SCE
CM Re g= CME=
Además 1 y n−2 .
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 1 16.5077 16.5077 85.9622 0.0000
Residuos 8 1.5363 0.1920
Total 9 18.0440
1. H 0 : β 1=0
H 1 : β 1≠0
2. α (nivel de significación) =
3. Prueba estadística
CMReg
Fcal=
CMError
4. Criterios de decisión
UPCPC
MA44 Estadística 189
Si Fcal > Fcrit. (α, 1, n-2) entonces se rechaza Ho; por lo tanto, el modelo es válido o
Si Fcal ≤ Fcrit. (α, 1, n-2) entonces no se rechaza Ho; el modelo no es válido
5. Conclusión
Ejercicio
A un nivel de significación del 5%, valide el modelo de regresión lineal del ejercicio anterior.
1. H0:
H1:
2. α =
3. Prueba estadística
CMReg
Fcal=
CMError
4. Decisión:
Distribution Plot
F; df1=15; df2=23 Z.R.
0,9
0,8
0,7
0,6
Density
0,5
0,4
0,3 α
0,2 Z.NRA
0,1
0,0
0 . X
Fcrit=
5. Conclusión:
UPCPC
MA44 Estadística 190
Coeficiente de determinación
Es una medida de bondad de ajuste del modelo. Nos indica que tan bueno es el modelo
para explicar el porcentaje de variabilidad de la variable dependiente Y.
2
El coeficiente de determinación R indica el porcentaje de la variabilidad de la variable
dependiente Y que es explicada por el modelo de regresión lineal.
También nos ayuda a saber la precisión con la que se puede predecir o pronosticar el valor
de la variable dependiente, si se conocen los valores de la variable dependiente.
2
El coeficiente de determinación R se calcula de la siguiente manera:
SCReg
R2 100%
SCTot
Coeficiente de correlación
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y.
Se calcula como la raíz cuadrada del coeficiente de determinación:
√ R2 si β^ 1 >0
r=
{−√ R2 si β^ <0
1
Si el coeficiente de correlación está cerca de cero entonces indicará que no existe relación
lineal significativa entre las dos variables
Si el coeficiente de correlación se acerca a 1 o a -1 indicará que existe una relación lineal
fuerte pudiendo ser directa o inversa. Valores que se pueden tomar como referencia para
determinar si no existe relación lineal o si existe una relación lineal fuerte, directa o
inversa, se muestra a continuación:
Relación Relación
lineal No existe lineal
fuerte e Relación fuerte y
inversa Lineal directa
UPCPC
MA44 Estadística 191
Ejercicio
r2
Ejercicios
Temperatura(ºC) 24 20 18 16 10 12 13 28 16 15 23
Vida útil(en 8,0 6,4 5,5 4,6 3,8 3,9 5,6 8,5 6,6 4,5 8,8
años)
8
Vida útil(en años)
10 15 20 25 30
Temperatura
UPCPC
MA44 Estadística 192
β^ 0
Densidad del
300 400 500 600 700 800 900 1000 1100 1200 1400 1600
concreto
Conductividad 0.065 0.08 0.095 0.115 0.13 0.15 0.175 0.205 0.23 0.27 0.346 0.436
UPCPC
MA44 Estadística 193
térmica
(watts/metros.Kelvin)
0,40
0,35
Conductividad
0,30
0,25
0,20
0,15
0,10
0,05
200 400 600 800 1000 1200 1400 1600
Densidad
UPCPC
MA44 Estadística 194
Temperatura (oC) 18 18 18 22 22 26 30 30 34
Tiempo de operación 1200 1215 1150 1000 974 810 583 612 240
1200
1000
Tiempo de operación
800
600
400
200
20 24 28 32 36
Temperatura (oC)
UPCPC
MA44 Estadística 195
UPCPC
MA44 Estadística 196
UPCPC