Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Ejemplos
450
400 Relación Inversa
r = -0.812
350 fuerte
300
Costo
250
200
150
100
50
0
0 10 20 30 40 50 60 70
Temp
Aislante térmico vs. Costo.
450 r = -0.257
Relación Inversa
400 débil
350
300
Costo
250
200
150
100
50
0
0 2 4 6 8 10 12 14
Aislante
Antiguedad del calefactor vs. Costo
250
200
150
100
50
0
0 5 10 15 20
Antiguedad
Tamaño sala vs. Costo Relación directa
r = 0.991
fuerte
450
400
aunque se
350
aprecia una
300
tendencia no
lineal
Costo
250
200
150
100
50
0
0 5 10 15 20 25
Tamaño
4. Calcular un coeficiente de correlación lineal r a partir de la muestra,
como aproximación de la verdadera relación lineal ρ (rho) entre las
n ( xy ) − ( x )( y )
variables.
r=
n (x 2
)− ( x ) 2
n (y 2
)− ( y) 2
−1 r 1
Interpretación:
1. El valor absoluto de r indica la fuerza de la relación entre Y y X.
2. El signo la dirección de la relación (directa o inversamente proporcional)
(tener cuidado con relaciones espúreas)
r=1 correlación positiva perfecta.
r = -1 correlación negativa perfecta.
r=0 no hay relación lineal entre Y y X.
Si hay presencia de varias variables independientes, entonces podemos
agrupar todas las correlaciones en la Matriz de Correlaciones.
Costo Temp Aislante Antigüedad
Costo 1.00
Aislante.
La correlación de 0,257 es baja, así que no existe relación lineal entre las
variables.
Antigüedad.
Una correlación de 0,512; es moderada, directamente proporcional, a mayor
antigüedad del calefactor, mayor costo y viceversa.
Tamaño de la sala principal.
Una correlación de 0,991; es alta y directamente proporcional: A mayor tamaño
de la sala, mayor costo de la calefacción
5. Prueba de Hipótesis para analizar si las correlaciones son
significativamente diferentes de cero.
H 0 : = 0
H 1 : 0
Las correlaciones que son significativas aparecen reflejados en el
cálculo de la matriz de correlaciones
Costo Conclusión
± .444 Parcial: Seleccionamos
critical value .05 (two-tail) a
Costo 1.000 las variables Temperatura
± .561 critical y Tamaño
value .01 (two-tail)
Temp -.812 para continuar el análisis acerca del
Esto quiere decir que la correlación de -,812 entre
Aislante -.257 Costo.
Temperatura y Costo y la de ,991 entre Tamaño y
Antigüedad .537 Costo es significativa si consideramos un nivel de
confianza del 99% (α = 0,01) si bajamos el nivel de
Tamaño .991
confianza a un 95% (α = 0,05), también es
significativa la relación de ,537 entre Antigüedad y
Costo.
Qué es el análisis
de regresión lineal
?
Constante de
regresión Coeficiente de
regresión
Interpretación de la pendiente:
Cuánto cambia la variable dependiente Y, por cada unidad que varíe la
variable independiente X.
Estimación de los parámetros: Método de los mínimos cuadrados.
La recta de regresión hace mínimos los cuadrados de las distancias verticales
desde cada punto de una observación a la recta.
Yi es un valor observado real de la variable Y
a 0 = y − a1x
Aplicamos MegaStat para realizar el Análisis de Regresión
Y marcamos en la nueva ventana las
MegaStat
opciones que aparecen en la pantalla
Correlation/Regresión siguiente que nos mostrarán todas las
salidas que son de nuestro interés para el
Regresión Análisis análisis de regresión
Salida
r² 0.659
Adjusted r² 0.640
r -0.812
Std. Error 63.553
20 observations
1 predictor variable
Costo is the dependent variable
Salida
ANOVA table
Source SS df MS F p-value
Regression 140,214.9411 1 140,214.9411 34.72 1.41E-05
Residual 72,700.8089 18 4,038.9338
Total 212,915.7500 19
Regression output confidence interval
variables coefficients std. error t (df=18) p-value 95% lower 95% upper
intercept 388.8020 34.2408 11.355 1.22E-09 316.8646 460.7393
Temp -4.9342 0.8374 -5.892 1.41E-05 -6.6936 -3.1748
Recta de regresión estimada
Ŷ = 388,8020 - 4,9342X
Esta es la ecuación de la recta de regresión pintada en el diagrama
de dispersión, que fue mostrada anteriormente
Note que la pendiente -4.9342 tiene signo negativo, lo cual refleja que la
relación es inversa, análogo al signo del coeficiente de correlación
(-.812).
(Y − Ŷ )
2
Se y sobre x =
n - k -1
Si se trabaja con una recta, se puede calcular el error mediante
Se y sobre x =
− a 0 y − a 1 xy
y 2
n−2
Mientras más grande sea el error estándar de la estimación, mayor será la
dispersión de los puntos alrededor de la línea de regresión
En nuestro ejemplo el error estándar de estimación que se comete al usar
la recta para estimar el costo es de 63,553 $
c. Cálculo del Coeficiente de Determinación
Mide el poder explicativo del modelo de regresión, es decir, la
parte de la variación de Y explicada por la variación de X
El valor de r2 ha de estar entre 0 y 1, si r2 = 0,70 significa que el 70%
de la variación de Y está explicada por las variaciones de X. Es
evidente que cuanto mayor sea r2, mayor poder explicativo tendrá
nuestro modelo.
En nuestro ejemplo
Si analizamos el valor del coeficiente de determinación r ² = 0.659,
apreciamos que aproximadamente el 66% de la variabilidad del
costo esta determinado por la variabilidad en la Temperatura
exterior.
d. Prueba de Hipótesis para analizar si la pendiente es significativa
H 0 : 1 = 0
H1 : 1 0
Para tomar una decisión podemos comparar el valor de un estadístico con
un percentil, o utilizar un criterio equivalente, usado en los paquetes de
Estadística: Comparar el p-valor con el nivel de significación
Regla de Decisión: Rechazar Ho si p < α
En el ejemplo p = 1.41E-05 < 0.05, así que rechazamos H0 por lo que el
valor de la pendiente es significativamente diferente de cero.
x
2
n 2
− nx
e.3) Cálculo del Intervalo de Confianza para el Costo Promedio de todos
los apartamentos, para una temperatura dada.
Se desea calcular una estimación por Intervalo, del costo promedio de la
calefacción de todos los apartamentos considerados en los que la
temperatura es de 35 grados. Aquí calculamos un intervalo de confianza.
150,0
0,0
concluirse que los residuos
-50,0
tienen una distribución
-100,0 aproximadamente normal.
-150,0
-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0
Normal Score
b. La variabilidad de los residuos y - ŷ no varía en dependencia del
valor estimado ŷ
Esto lo apreciamos en el gráfico de los residuos. En este caso nuestro valor
estimado ŷ, es el costo estimado
Efectivamente se observa un
Residuals by Predicted Costo
comportamiento aleatorio de los
190,7 residuales
Residual (gridlines = std. error)
-63,6
-127,1
0 100 200 300 400
Predicted Costo
Un análisis análogo podemos realizar para analizar la relación entre el Tamaño
de la sala principal y el costo del calefactor, dado que la correlación obtenida
es alta: 0,991. Sin embargo el análisis seria muy similar, excepto algo muy
importante que es el análisis de los residuales.
Veamos los gráficos
a. Grafico de Probabilidades Normales
10,0
0,0
-10,0
-20,0
-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0
Normal Score
b. Gráfico de los valores estimados vs. Residuos.
Esto
En significa
este caso losque no essí
residuos
Residuals by Predicted Costo
valido el variación
muestran modelo de en
regresión realizado
dependencia de los valores
44,4 previamente.
estimados Las vemos
del costo,
Residual (gridlines = std. error)
29,6
consecuencias
que de no
valores muy pequeños
orealizar este
muy altos análisis es
tienen
14,8 que las estimaciones
variabilidad mayor que los de
0,0 los están
que coeficientes
alrededor dede
la un
regresión
costo pueden
de 200, nono
es decir ser
-14,8
adecuados
hay y las
un comportamiento
-29,6 predicciones pueden ser
aleatorio.
0 100 200 300 400 incorrectas.
Predicted Costo