Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CARRERA DE BIOLOGÍA
BIOESTADÍSTICA III
Suma de cuadrados debido a la regresión (SCR): medida de que tanto se desvían de la
media los valores estimados de la recta de regresión.
A continuación, se presentan los cálculos para SCT, SCR y SCE.
Observación i
1 2 5,5
2 4 9,9
3 6 12,5
4 8 16,6
5 10 22,0
2 𝑆𝐶𝑅 157,609
𝑟= = =0,9874
𝑆𝐶𝑇 159,62
Se puede expresar como porcentaje e indica el porcentaje de la variabilidad de la variable
dependiente “y” que es explicada por la ecuación de regresión estimada.
Si los coinciden con , se tiene la mejor bondad de ajuste. En ese caso los residuales y la
SCE son iguales a cero. Por lo tanto, el toma un valor de 1.
2
𝑆 𝐶𝐸=∑ ( 𝑦 𝑖 − ^𝑦 𝑖 ) =0
𝑆𝐶𝑅 𝑆𝐶𝑇 − 𝑆𝐶𝐸 𝑆𝐶𝑇 − 0
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙= 𝑦 𝑖 − ^
𝑦 𝑖=0 𝑟 =
2
= = =1
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇
El puede tomar valores de cero a uno. Si toma valores cercanos a uno, la bondad
de ajuste es alta; pero si toma valores cercanos a cero, la bondad de ajuste es
mala.
El valor -1 indica que las variables están perfectamente relacionadas en una relación lineal negativa; es decir, los
puntos de todos los datos se encuentran en una línea recta que tiene pendiente negativa.
Los valores de correlación cercanos a cero indican que “x” y “y” no están relacionadas linealmente.
En una ecuación de regresión lineal simple el valor medio de “y” es una función lineal de
“x”.
𝐸 ( 𝑦 )=𝛽 0 + 𝛽 1 𝑥
Si , entonces ; por lo tanto, el valor medio de “y” no depende de “x”. Se concluye que “x” y “y” no
están relacionadas linealmente.
Si , entonces ; por lo tanto, el valor medio de “y” depende de “x”. Se concluye que “x” y “y” están
relacionadas linealmente.
Se
ha demostrado que SCE tiene grados de libertad ya que para calcularlo es necesario estimar dos parámetros, y .
2 2,011
𝐶𝑀 =𝐶𝑀𝐸=𝑠 = =0,670
5− 2
Error estándar de estimación (): estimación de la desviación estándar del error σ. Se calcula
sacando la raíz cuadrada del error cuadrado medio.
La desviación estándar estimada o error estándar de se calcula como:
0,819
𝑠𝑏 = =0,129
1
√ 40
𝑏1 1,985
𝑡= = =15,39
𝑠 𝑏 1 0,129
INTERVALO DE CONFIANZA PARA
Como 0 que es el valor hipotético de no está comprendido en el intervalo de confianza (1,575 a 2,395), se
rechaza y se tiene que . Se concluye que “x” y “y” están relacionados linealmente.
PRUEBA F
La prueba F se basa en la obtención de dos estimaciones independientes de .
Una prueba F puede emplearse para probar la significancia en la regresión. Si sólo se tiene una
variable independiente, se obtiene la misma conclusión que la prueba t, es decir que y por lo
tanto existe una relación significativa entre las variables “x” y “y”. Pero cuando hay más de una
variable independiente, sólo la prueba F puede usarse para probar la significancia en la regresión
Cuadrado medio debido a la regresión (CMR): estimación de que es igual a la suma de los cuadrados de la
regresión (SCR) dividida entre los grados de libertad de la regresión.
En cualquier tabla, la suma total de cuadrados (SCT) es igual a la suma de la suma de los cuadrados de la
regresión (SCR) más la suma de los cuadrados del error (SCE); además, el total de los grados de libertad es
igual a la suma de los grados de libertad de la regresión más la suma de los grados de libertad del error.
El análisis de regresión sólo analiza la relación entre las variables, no se usa como evidencia de una relación
de causa y efecto; es decir, no permite concluir que los cambios en “x” causen cambios en “y”.
Que exista una relación de causa y efecto sólo puede concluirse cuando el analista puede dar justificaciones
teóricas de que en efecto existe la relación causal.
El hecho de demostrar que hay significancia estadística no permite concluir que la relación
entre “x” y “y” sea lineal. Lo único que se puede decir es que “x” y “y” están relacionadas
y que la relación lineal explica una porción significativa de la variabilidad de “y” sobre el
rango de valores de “x” observados en la muestra.
En la siguiente figura se observa que la verdadera relación entre “x” y “y” no es lineal. Aunque la aproximación lineal
proporcionada por es buena en el rango de los valores observados de “x” en la muestra, se vuelve deficiente fuera de
ese rango.
La ecuación de regresión estimada se puede usar con confianza para predicciones correspondientes a valores de “x”
que estén dentro de los valores de “x” observados en la muestra; en el ejemplo anterior, este rango corresponde a los
valores de “x” entre 2 y 10.
ANÁLISIS RESIDUAL: CONFIRMACIÓN DE LAS SUPOSICIONES DEL MODELO
Si se tienen dudas acerca de las suposiciones del error, se realiza un análisis de residuales, el cual
consiste en examinar gráficos como los siguientes:
El gráfico de residuales contra la variable independiente x es un gráfico de puntos en el que los valores
de se representan en el eje horizontal y los valores de se representan en el eje vertical.
Si la suposición de que la varianza de ϵ es la misma para todos los valores de “x” y si el modelo de
regresión representa adecuadamente la relación entre las variables, se obtiene un gráfico de puntos con
forma de banda horizontal como el siguiente.
Pero si la varianza de ϵ no es la misma para todos los valores de x, se puede obtener el siguiente gráfico.
Cuando el modelo de regresión no representa adecuadamente la relación entre las variables,
se puede obtener el siguiente gráfico. En este caso se debe considerar un modelo regresión
curvilíneo o múltiple.
En el ejemplo anterior, el gráfico de residuales parece tener forma de banda horizontal, por lo no hay
evidencia de que las suposiciones hechas para el modelo de regresión sean dudosas.
Es raro que un gráfico de residuales tenga exactamente la forma de los gráficos anteriores, por lo tanto,
la experiencia y el criterio del analista son muy importantes para tener una adecuada interpretación