Sei sulla pagina 1di 28

UNIVERSIDAD ESTATAL AMAZÓNICA

CARRERA DE BIOLOGÍA

BIOESTADÍSTICA III

Tema I: Métodos multivariados de dependencia.

Subtema IV: Ejercicios sobre Métodos de dependencia: Regresión y


Correlación lineal múltiple.
SUMA DE CUADRADOS
Suma de cuadrados debido al error (SCE): medida del error al utilizar la
ecuación de regresión estimada para estimar los valores de la variable
dependiente. Se calcula en base a los residuales.
 
Suma total de cuadrados (STC o SCT): medida del error al utilizar la media para estimar
los valores de la variable dependiente.

 
Suma de cuadrados debido a la regresión (SCR): medida de que tanto se desvían de la
media los valores estimados de la recta de regresión.
A continuación, se presentan los cálculos para SCT, SCR y SCE.

Observación i
1 2 5,5

2 4 9,9

3 6 12,5

4 8 16,6

5 10 22,0

Suma         SCE=2,011   SCT=159,62


Observación i
1 2
2 5,5
5,5 5,36
5,36 5,5-5,36=
5,5-5,36= 0,0196
0,0196 5,5-13,3=
5,5-13,3= 60,84
60,84
1 0,14 -7,8
 RELACIÓN ENTRE SCT, SCR Y SCE 0,14 -7,8
2 4 9,9 9,33 0,57 0,3249 -3,4 11,56
2 4 9,9 9,33 0,57 0,3249 -3,4 11,56
3 6 12,5 13,30 -0,8 0,64 -0,8 0,64
3 6
8 12,5
16,6 13,30
17,27 -0,8
-0,67 0,64
0,4489 -0,8
3,3 0,64
10,89
4
4 8
10 16,6
22,0 17,27
21,24 -0,67
0,76 0,4489
0,5776 3,3
8,7 10,89
75,69
5
Suma  
10  
22,0  
21,24  
0,76 SCE=2,011
0,5776  
8,7 SCT=159,62
75,69
5
Suma         SCE=2,011   SCT=159,62

1.- 1,39+ 1,985 (2)= 5,36


2.- 1,39 + 1,985 (4)= 9,33
 
COEFICIENTE DE DETERMINACIÓN Y COEFICIENTE DE CORRELACIÓN

Coeficiente de determinación (): media de la bondad de ajuste de la ecuación de regresión


estimada. Es la medida de que tan cerca están los de los ; indica que tan cerca están los
de la recta de regresión.

 2 𝑆𝐶𝑅 157,609
𝑟= = =0,9874
𝑆𝐶𝑇 159,62
 
Se puede expresar como porcentaje e indica el porcentaje de la variabilidad de la variable
dependiente “y” que es explicada por la ecuación de regresión estimada.

En ejercicio anterior, se concluye que el 98,74 % de la variabilidad de “y” es explicada por


relación lineal entre “x” y “y”.

Si los coinciden con , se tiene la mejor bondad de ajuste. En ese caso los residuales y la
SCE son iguales a cero. Por lo tanto, el toma un valor de 1.

2
𝑆 𝐶𝐸=∑ ( 𝑦 𝑖 − ^𝑦 𝑖 ) =0
  𝑆𝐶𝑅 𝑆𝐶𝑇 − 𝑆𝐶𝐸 𝑆𝐶𝑇 − 0
 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙= 𝑦 𝑖 − ^
𝑦 𝑖=0 𝑟  =
2
= = =1
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇
 
El puede tomar valores de cero a uno. Si toma valores cercanos a uno, la bondad
de ajuste es alta; pero si toma valores cercanos a cero, la bondad de ajuste es
mala.

Nota: El coeficiente de determinación, también puede emplearse para relaciones


no lineales y para relaciones en las que hay dos o más variables independientes
(Regresión múltiple).
 
Coeficiente de correlación (: medida de la asociación entre dos variables “x” y “y”. Puede tomar valores desde -1 a
+1.
El valor +1 indica que las variables están perfectamente relacionadas en una relación lineal positiva; es decir, los
puntos de todos los datos se encuentran en una línea recta que tiene pendiente positiva.

El valor -1 indica que las variables están perfectamente relacionadas en una relación lineal negativa; es decir, los
puntos de todos los datos se encuentran en una línea recta que tiene pendiente negativa.

Los valores de correlación cercanos a cero indican que “x” y “y” no están relacionadas linealmente.

  el ejemplo, , por lo que se concluye que existe una relación lineal


En
fuerte entre “x” y “y”.
Nota: El uso del coeficiente de correlación está restringido a relaciones
lineales entre una variable dependiente y una variable independiente; no se
usa para relaciones no lineales y cuando hay dos o más variables
independientes.
 
SUPOSICIONES DEL MODELO
Aunque el coeficiente de determinación () tenga valores altos, la ecuación de regresión estimada
no debe usarse hasta que se determine que el modelo empleado es adecuado. Para eso se
realizan las pruebas de significancia de la relación, las cuales se basan en las siguientes
suposiciones.

El valor medio del error es igual a cero, E(ϵ)=0.

La varianza de ϵ, que se denota , es la misma para todos los valores de x.

Los valores de ϵ son independientes.

El término del error ϵ tiene distribución normal.


PRUEBAS DE SIGNIFICANCIA

En una ecuación de regresión lineal simple el valor medio de “y” es una función lineal de
“x”.
 𝐸 ( 𝑦 )=𝛽 0 + 𝛽 1 𝑥

 
Si , entonces ; por lo tanto, el valor medio de “y” no depende de “x”. Se concluye que “x” y “y” no
están relacionadas linealmente.

Si , entonces ; por lo tanto, el valor medio de “y” depende de “x”. Se concluye que “x” y “y” están
relacionadas linealmente.

Para determinar si se realizan la prueba t o la prueba F. Generalmente la hipótesis del investigador


va en la hipótesis alternativa, por lo que:
PRUEBA t

  de la población se toma otra muestra, se obtendrán otros valores de


Si
y , por lo que se puede obtener la desviación estándar estimada o error
estándar de , que se denota como .
 Error cuadrado medio (ECM, CME o ): estimación de la varianza del error () en el modelo
de regresión. Se calcula dividiendo SCE entre sus grados de libertad.

Se
  ha demostrado que SCE tiene grados de libertad ya que para calcularlo es necesario estimar dos parámetros, y .

En el ejemplo anterior SCE= 2,011, por lo tanto:

  2 2,011
𝐶𝑀 =𝐶𝑀𝐸=𝑠 = =0,670
5− 2
 
Error estándar de estimación (): estimación de la desviación estándar del error σ. Se calcula
sacando la raíz cuadrada del error cuadrado medio.

 En el ejemplo anterior , por lo tanto:

 
 La desviación estándar estimada o error estándar de se calcula como:

 En el ejemplo anterior , por lo tanto:

  0,819
𝑠𝑏 = =0,129
1
√ 40

  𝑏1 1,985
𝑡= = =15,39
𝑠 𝑏 1 0,129
 INTERVALO DE CONFIANZA PARA

El intervalo de confianza para es:

En el ejemplo anterior con y 3 grados de libertad

Al emplear la prueba t de significancia la hipótesis probada fue

Como 0 que es el valor hipotético de no está comprendido en el intervalo de confianza (1,575 a 2,395), se
rechaza y se tiene que . Se concluye que “x” y “y” están relacionados linealmente.
 
PRUEBA F
La prueba F se basa en la obtención de dos estimaciones independientes de .

 
Una prueba F puede emplearse para probar la significancia en la regresión. Si sólo se tiene una
variable independiente, se obtiene la misma conclusión que la prueba t, es decir que y por lo
tanto existe una relación significativa entre las variables “x” y “y”. Pero cuando hay más de una
variable independiente, sólo la prueba F puede usarse para probar la significancia en la regresión
 
Cuadrado medio debido a la regresión (CMR): estimación de que es igual a la suma de los cuadrados de la
regresión (SCR) dividida entre los grados de libertad de la regresión.

El número de grados de libertad de la regresión es igual al número de variables independientes.

En el ejemplo anterior SCR=157,609, por lo tanto:

𝑆𝐶𝑅 157,609   𝐶𝑀𝑅 157,609


 
𝐶𝑀𝑅= 𝐹= = =235,24
1
=
1
=157,609 𝐸𝐶𝑀 0,670
TABLA DE ANOVA PARA LA REGRESIÓN LINEAL
Para resumir los cálculos de la prueba F de significancia se emplea una tabla de ANOVA.

En cualquier tabla, la suma total de cuadrados (SCT) es igual a la suma de la suma de los cuadrados de la
regresión (SCR) más la suma de los cuadrados del error (SCE); además, el total de los grados de libertad es
igual a la suma de los grados de libertad de la regresión más la suma de los grados de libertad del error.

El análisis de regresión sólo analiza la relación entre las variables, no se usa como evidencia de una relación
de causa y efecto; es decir, no permite concluir que los cambios en “x” causen cambios en “y”.

Que exista una relación de causa y efecto sólo puede concluirse cuando el analista puede dar justificaciones
teóricas de que en efecto existe la relación causal.
El hecho de demostrar que hay significancia estadística no permite concluir que la relación
entre “x” y “y” sea lineal. Lo único que se puede decir es que “x” y “y” están relacionadas
y que la relación lineal explica una porción significativa de la variabilidad de “y” sobre el
rango de valores de “x” observados en la muestra.
 
En la siguiente figura se observa que la verdadera relación entre “x” y “y” no es lineal. Aunque la aproximación lineal
proporcionada por es buena en el rango de los valores observados de “x” en la muestra, se vuelve deficiente fuera de
ese rango.

La ecuación de regresión estimada se puede usar con confianza para predicciones correspondientes a valores de “x”
que estén dentro de los valores de “x” observados en la muestra; en el ejemplo anterior, este rango corresponde a los
valores de “x” entre 2 y 10.
 
ANÁLISIS RESIDUAL: CONFIRMACIÓN DE LAS SUPOSICIONES DEL MODELO

Si se tienen dudas acerca de las suposiciones del error, se realiza un análisis de residuales, el cual
consiste en examinar gráficos como los siguientes:

GRÁFICOS DE RESIDUALES CONTRA x

El gráfico de residuales contra la variable independiente x es un gráfico de puntos en el que los valores
de se representan en el eje horizontal y los valores de se representan en el eje vertical.

Si la suposición de que la varianza de ϵ es la misma para todos los valores de “x” y si el modelo de
regresión representa adecuadamente la relación entre las variables, se obtiene un gráfico de puntos con
forma de banda horizontal como el siguiente.
Pero si la varianza de ϵ no es la misma para todos los valores de x, se puede obtener el siguiente gráfico.
Cuando el modelo de regresión no representa adecuadamente la relación entre las variables,
se puede obtener el siguiente gráfico. En este caso se debe considerar un modelo regresión
curvilíneo o múltiple.
En el ejemplo anterior, el gráfico de residuales parece tener forma de banda horizontal, por lo no hay
evidencia de que las suposiciones hechas para el modelo de regresión sean dudosas.

Es raro que un gráfico de residuales tenga exactamente la forma de los gráficos anteriores, por lo tanto,
la experiencia y el criterio del analista son muy importantes para tener una adecuada interpretación

Potrebbero piacerti anche