Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introducción
Diagramas de dispersión
Regresión lineal
Correlación
Introducción
• Frecuentemente en la investigación estamos interesados en estudiar la
relación entre dos variables como:
80
70
60
Peso (Kg)
50
40 Talla y Peso de 10
personas
30
20
10
0
150 160 170 180 190
Talla (cm)
Regresión Lineal
• Es útil para determinar la forma probable de la relación entre las variables
cuando hay un fenómeno de causa o efecto. El objetivo principal es el de
poder predecir o estimar el valor de una variable dependiente Y
correspondiente al valor dado de la otra variable dependiente X
• El investigador decide cuales valores tomara la variable independiente,
mientras que los valores de la variable dependiente están determinados
por la relación que existe
Regresión lineal
• Estima la fuerza o bondad explicativa del modelo teórico
independientemente de las características de las variables introducidas
• Predice el valor medio que puede asumir la variable Y dado un valor de X
(regresión a la media) bajo un intervalo de confianza
• Estima el efecto neto de cada una de las variables intervinientes sobre la
variable dependiente (control sobre los demás efectos suponiendo
independencia entre las variables predictivas).
µY/X = a + bX
25
20
Latidos/min
15
10 Y
0
0 0.5 1 1.5 2 2.5 3 3.5 4
Dosis
Ejercicio
X Y X2 XY
0.50 10 0.2500 5.0
0.75 8 0.5625 6.0
1.00 12 1.0000 12.0
1.25 12 1.5625 15.0
1.50 14 2.2500 21.0
1.75 12 3.0625 21.0
2.00 16 4.0000 32.0
2.25 18 5.0625 40.5
2.50 17 6.2500 42.5
2.75 20 7.5625 55.0
3.00 18 9.0000 54.0
3.25 20 10.5625 65.0
3.50 21 12.2500 73.5
=63.375 = 442.5
Covarianza
• La covarianza SXY, es una medida que nos habla de la variabilidad conjunta
de dos variables numéricas (cuantitativas).
• Aunque la recta de mínimos cuadrados es la recta que mejor se ajusta a
los puntos, todavía muchos de éstos se desvían de ella. La medida
numérica de tales desviaciones es el estimador isesgado de la varianza de
la regresión de la población, se define como la covarianza.
• Sean (xi, yi ) pares de observaciones de dos características X y Y, y sean XY
sus respectivas medias. La covarianza entre las dos variables se define por
:
Covarianza
• Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que SXY
0, lo que se puede interpretar como que la variable Y tiende a aumentar
cuando lo hace X; casi todos los puntos pertenecen a los cuadrantes
primero y tercero
• Si la mayoría de puntos están repartidos entre el segundo y cuarto
cuadrante entonces SXY0, es decir, las observaciones Y tienen tendencia a
disminuir cuando las de X aumentan
Covarianza
• Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces
se tendrá que SXY = 0. Por lo tanto no hay relación lineal
Covarianza
Pasos para calcular la covarianza de una serie de eventos
1. Se calcula Σ xiyi , esto es la sumatoria de los productos de las
variables x y y; o sea: (x1 * y1) + (x2 * y2) + ... +(xn * yn )
• Si los puntos no están todos sobre la recta de regresión se dice que entre
las variables hay una cierta correlación lineal. Este es el caso que nos
ocupa. Para cuantificar el grado de dicha correlación se usa el
Coeficiente de determinación
• Una nube de puntos que se agrupa en torno a una recta imaginaria nos
justifica el estudio de la regresión lineal entre las variables. Normalmente,
la variable explicativa no explica al 100% los resultados que se observan en
la variable explicada.
• Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del
ajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente o
decreciente. Otro ejemplo: si conocemos el coeficiente de correlación lineal, r = -
0.77, entre dos variables X e Y, ya sabemos que la recta de regresión es
decreciente (por el signo negativo de r), y calculando R2 = r2 · 100 = 59.29%
tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede
calificar de buena).
Coeficiente de determinación lineal
Predicciones. Usos y abusos
• El primer objetivo de la regresión es poner de manifiesto una relación
existente entre dos variables estadísticas. Una vez se constata, por ejemplo,
que hay una relación lineal entre dos variables y se calcula la recta de
regresión apropiada, ésta se puede usar para obtener valores de la variable
explicada, a partir de valores de la variable explicativa.
• Por ejemplo, si se comprueba una buena correlación lineal entre las variables
X = “horas de estudio semanal” e Y = “nota del examen”, con una recta de
regresión (de Y sobre X) igual a
y = 0.9 + 0.6 x
se puede plantear la siguiente pregunta: ¿Qué nota puede obtener (según los
datos) un alumno que estudia 10 horas semanales?
Coeficiente de determinación lineal
• Y la respuesta es tan sencilla como calcular y, sustituyendo en la ecuación de la
recta x = 10, resultando y = 6.9. El coeficiente de correlación (o el de
determinación) lineal es el dato que, si es grande (próximo a 1 ó –1 si es la r, o
próximo a 100% si es R2), nos indicará que la predicción obtenida es FIABLE, lo
cual es lógico pues R2 indicaba la calidad del ajuste de la nube de puntos a la
recta.