Sei sulla pagina 1di 30

Ajuste de curvas

Introducción
Diagramas de dispersión
Regresión lineal
Correlación
Introducción
• Frecuentemente en la investigación estamos interesados en estudiar la
relación entre dos variables como:

– Concentración de un fármaco inyectado a un animal y latidos del corazón


– Cantidad de fertilizantes y producción agrícola
– Dureza de los plásticos tratados con calor durante diferentes periodos de tiempo

• La naturaleza y grado de relación pueden ser analizadas por dos técnicas:


Regresión y Correlación
Diagramas de dispersión
• El primer paso a realizar en el estudio de la relación entre dos variables es el
diagrama de dispersión
• La representación gráfica de este tipo de variables es en realidad semejante a
la representación de puntos en el plano, usando unos ejes de coordenadas.
• Cada pareja de valores da lugar a un punto en el plano y el conjunto de
puntos que se obtiene se denomina "diagrama de dispersión o nube de
puntos".
Diagramas de dispersión
• Dadas dos variables X y Y tomadas sobre el mismo elemento de la
población, el diagrama de dispersión es simplemente un gráfico de dos
dimensiones, donde en un eje (la abscisa) se grafica una variable
(independiente), y en el otro eje (la ordenada) se grafica la otra variable
(dependiente).
• Si las variables están correlacionadas, el gráfico mostraría algún nivel de
correlación (tendencia) entre las dos variables. Si no hay ninguna
correlación, el gráfico presentaría una figura sin forma, una nube de
puntos dispersos en el gráfico.
Diagramas de dispersión
• Si las variables están correlacionadas, el gráfico mostraría algún nivel de
tendencia entre las dos variables. Si los puntos muestran una tendencia
lineal positiva o negativa se le puede ajustar una línea recta que servirá
entre otras cosas para predecir valores de Y correspondientes a valores
de X.

Relación lineal positiva Relación lineal negativa Relación exponencial

Relación parabólica No-relación


Diagramas de dispersión
• Ejemplo , estudiamos la talla, medida en cm y el peso, medido en kg de
un grupo de 10 personas, podemos obtener los siguientes valores
Talla (cm) 160 165 168 170 171 175 175 180 180 182
Peso (kg) 55 58 58 61 67 62 66 74 79 83
90

80

70

60
Peso (Kg)

50

40 Talla y Peso de 10
personas
30

20

10

0
150 160 170 180 190
Talla (cm)
Regresión Lineal
• Es útil para determinar la forma probable de la relación entre las variables
cuando hay un fenómeno de causa o efecto. El objetivo principal es el de
poder predecir o estimar el valor de una variable dependiente Y
correspondiente al valor dado de la otra variable dependiente X
• El investigador decide cuales valores tomara la variable independiente,
mientras que los valores de la variable dependiente están determinados
por la relación que existe
Regresión lineal
• Estima la fuerza o bondad explicativa del modelo teórico
independientemente de las características de las variables introducidas
• Predice el valor medio que puede asumir la variable Y dado un valor de X
(regresión a la media) bajo un intervalo de confianza
• Estima el efecto neto de cada una de las variables intervinientes sobre la
variable dependiente (control sobre los demás efectos suponiendo
independencia entre las variables predictivas).
µY/X = a + bX

• Esto significa que el valor medio de Y para un valor fijo de X es igual a a +


bX. Las constantes a y b son la ordenada al origen y la pendiente
respectivamente
Regresión lineal::Suposiciones
1. Los valores de la variable independiente X son fijos, a X se le llama
variable no aleatoria
2. Por cada valor de X hay una subpoblación de valores de Y y cada
subpoblación de valores de Y debe estar normalmente distribuida.
3. Las varianzas de las subpoblaciones de Y deben de ser iguales.
4. Las medias de las subpoblaciones de Y están sobre una recta. (suposición
de linealidad)
5. Los valores de Y son estadísticamente independientes; es decir, los
valores de Y correspondientes a un valor de X no dependen de los
valores de Y para otro de X.

Bajo estas suposiciones la relación que queremos estimar es: µY/X = a + bX


Regresión lineal
• En el caso de asumir una recta, se admite que existe una proporción entre
la diferencia de dos valores X y la diferencia entre dos valores de Y. A ese
factor de ajuste entre ambas series se le llama pendiente de la recta, y se
asume que es constante a lo largo de toda la recta.
Regresión lineal::Mínimos cuadrados
• Para el cálculo de la recta de regresión se aplica el método de mínimos
cuadrados entre dos variables.
• Esta línea es la que hace mínima la suma de los cuadrados de las desviaciones
de cada valor observado Y, es decir, es aquella recta en la que las diferencias
elevadas al cuadrado entre los valores calculados por la ecuación de la recta y
los valores reales de la serie, son las menores posibles.
Regresión lineal::Mínimos Cuadrados
• La ecuación de regresión de la población se estima con la ecuación
Y=a+bX
donde: Y, a y b son estimadores de µY/X , A y B respectivamente. Para
obtener los estimadores a y b utilizamos el método de Mínimos
Cuadrados.

Ecuaciones para la recta de mínimos cuadrados


Regresión lineal::Mínimos Cuadrados
Utilidad de la recta de regresión

• Mediante la recta de regresión podríamos obtener de manera aproximada


el valor de la variable dependiente (y) de la que conociéramos la variable
independiente (x), en una población semejante a aquella de la que se ha
obtenido la muestra

• De manera más precisa, si conocemos la expresión de la recta de


regresión, se pueden calcular valores para la variable y, conocidos los de x,
como si se tratara de una función
Ejercicio
Dosis (mg) Reducción del ritmo cardiaco
• Se lleva a cabo un experimento para (Latidos/min)
estudiar el efecto de cierto fármaco X Y
en la disminución del ritmo cardiaco 0.50 10
en adultos. La variable independiente
0.75 8
es la dosis del fármaco en mg, y la
variable dependiente es la diferencia 1.00 12
entre el ritmo más bajo registrado 1.25 12
después de la administración de la 1.50 14
droga y el ritmo antes de la 1.75 12
administración del fármaco (control).
2.00 16
Los datos se muestran a continuación:
2.25 18
2.50 17
2.75 20
3.00 18
3.25 20
3.50 21
Ejercicio
• Como podemos observar los puntos siguen una relación lineal positiva,
por lo tanto, se procede a determinar la recta de ajuste

25

20
Latidos/min

15

10 Y

0
0 0.5 1 1.5 2 2.5 3 3.5 4
Dosis
Ejercicio
X Y X2 XY
0.50 10 0.2500 5.0
0.75 8 0.5625 6.0
1.00 12 1.0000 12.0
1.25 12 1.5625 15.0
1.50 14 2.2500 21.0
1.75 12 3.0625 21.0
2.00 16 4.0000 32.0
2.25 18 5.0625 40.5
2.50 17 6.2500 42.5
2.75 20 7.5625 55.0
3.00 18 9.0000 54.0
3.25 20 10.5625 65.0
3.50 21 12.2500 73.5
  =63.375  = 442.5
Covarianza
• La covarianza SXY, es una medida que nos habla de la variabilidad conjunta
de dos variables numéricas (cuantitativas).
• Aunque la recta de mínimos cuadrados es la recta que mejor se ajusta a
los puntos, todavía muchos de éstos se desvían de ella. La medida
numérica de tales desviaciones es el estimador isesgado de la varianza de
la regresión de la población, se define como la covarianza.
• Sean (xi, yi ) pares de observaciones de dos características X y Y, y sean XY
sus respectivas medias. La covarianza entre las dos variables se define por
:
Covarianza
• Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que SXY
0, lo que se puede interpretar como que la variable Y tiende a aumentar
cuando lo hace X; casi todos los puntos pertenecen a los cuadrantes
primero y tercero
• Si la mayoría de puntos están repartidos entre el segundo y cuarto
cuadrante entonces SXY0, es decir, las observaciones Y tienen tendencia a
disminuir cuando las de X aumentan
Covarianza
• Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces
se tendrá que SXY = 0. Por lo tanto no hay relación lineal
Covarianza
Pasos para calcular la covarianza de una serie de eventos
1. Se calcula Σ xiyi , esto es la sumatoria de los productos de las
variables x y y; o sea: (x1 * y1) + (x2 * y2) + ... +(xn * yn )

2. Se define n, que el numero de eventos o el numero de pares de variables

3. Se calcula , que es el producto de las medias de ambas variables

4. Obtenidos todos los datos se sustituyen en la formula y se obtiene el


resultado
Correlación lineal
• La covarianza es una medida de la variabilidad común de dos variables
(crecimiento de ambas al tiempo o crecimiento de una y decrecimiento de
la otra), pero esta afectada por las unidades en las que cada variable se
mide.
• Así pues, es necesario definir una medida de la relación entre dos
variables, y que no esté afectada por los cambios de unidad de medida.
Una forma de conseguir este objetivo es dividir la covarianza por el
producto de las desviaciones típicas de cada variable, ya que así se
obtiene un coeficiente adimensional, r, que se denomina coeficiente de
correlación lineal de Pearson
Correlación lineal
• La medida del grado de relación entre dos variables se llama coeficiente
de correlación, representado universalmente por r
• El Coeficiente de Correlación Lineal de Pearson es un índice estadístico
que permite medir la fuerza de la relación lineal entre dos variables. Su
resultado es un valor que fluctúa entre –1 (correlación perfecta de sentido
negativo) y +1 (correlación perfecta de sentido positivo). Cuanto más
cercanos al 0 sean los valores, indican una mayor debilidad de la relación o
incluso ausencia de correlación entre las dos variables.
Correlación lineal
• Si el coeficiente de correlación de Pearson (r) es cercano a 0, las dos
variables no tienen mucho que ver entre sí (no tienen casi ninguna
covariación lineal). Si su valor es cercano a +/-1, esto significa que la
relación entre las dos variables es lineal y está bien representada por una
línea.
Correlación lineal
• Una vez observado que en una variable bidimensional existe una cierta
dependencia entre las dos características o variables que la forman (nube
de puntos y covarianza), podemos precisar el grado de dicha dependencia.

• Si los puntos de la nube estuvieran todos sobre la recta de regresión se


diría que existe una dependencia funcional. De su estudio se encargan las
funciones.

• Si los puntos no están todos sobre la recta de regresión se dice que entre
las variables hay una cierta correlación lineal. Este es el caso que nos
ocupa. Para cuantificar el grado de dicha correlación se usa el
Coeficiente de determinación
• Una nube de puntos que se agrupa en torno a una recta imaginaria nos
justifica el estudio de la regresión lineal entre las variables. Normalmente,
la variable explicativa no explica al 100% los resultados que se observan en
la variable explicada.

• El único caso en el que una variable explica al 100% a la otra variable es


aquel donde los puntos de la nube formen una recta. En ese caso, cada
valor de X nos da el valor exacto de Y. Pero ese no es el caso general.
Vamos a cuantificar la calidad de la explicación de Y por X mediante el
COEFICIENTE DE DETERMINACIÓN.
Coeficiente de determinación lineal
• Los datos de ambas variables tienen una varianza. No nos vamos a
interesar por la varianza de la X (independiente), pero sí por la de Y, por
estar influenciada por la otra variable. La varianza de Y está generada, de
una parte, por los datos de X (es decir, por la varianza), y de otra parte por
causas desconocidas (a no ser que los datos formen una línea recta).

• El coeficiente de determinación va a ser el % de varianza de Y que se


puede explicar por X, y se le suele llamar CALIDAD DEL AJUSTE, porque
valora lo cerca que está la nube de puntos de la recta de regresión (o
dicho de otro modo, lo ajustada que está la nube de puntos a la recta de
regresión). 2
s xy
s y2   se2
s 2 
x var .no exp lic .
var . exp l .porX
Coeficiente de determinación lineal
Coeficiente de determinación lineal
2
s xy 2
s xy
• El % de varianza de Y explicada por X es: que resulta ser  100
s x2 s x2  s y2
 100
s y2

es decir, el coeficiente de correlación lineal r, elevado al cuadrado y multiplicado


por 100. Es por ello que al coeficiente de determinación se le llama R2, es decir
2
2 s xy
R   100
s x2  s y2

• Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del
ajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente o
decreciente. Otro ejemplo: si conocemos el coeficiente de correlación lineal, r = -
0.77, entre dos variables X e Y, ya sabemos que la recta de regresión es
decreciente (por el signo negativo de r), y calculando R2 = r2 · 100 = 59.29%
tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede
calificar de buena).
Coeficiente de determinación lineal
Predicciones. Usos y abusos
• El primer objetivo de la regresión es poner de manifiesto una relación
existente entre dos variables estadísticas. Una vez se constata, por ejemplo,
que hay una relación lineal entre dos variables y se calcula la recta de
regresión apropiada, ésta se puede usar para obtener valores de la variable
explicada, a partir de valores de la variable explicativa.

• Por ejemplo, si se comprueba una buena correlación lineal entre las variables
X = “horas de estudio semanal” e Y = “nota del examen”, con una recta de
regresión (de Y sobre X) igual a
y = 0.9 + 0.6 x
se puede plantear la siguiente pregunta: ¿Qué nota puede obtener (según los
datos) un alumno que estudia 10 horas semanales?
Coeficiente de determinación lineal
• Y la respuesta es tan sencilla como calcular y, sustituyendo en la ecuación de la
recta x = 10, resultando y = 6.9. El coeficiente de correlación (o el de
determinación) lineal es el dato que, si es grande (próximo a 1 ó –1 si es la r, o
próximo a 100% si es R2), nos indicará que la predicción obtenida es FIABLE, lo
cual es lógico pues R2 indicaba la calidad del ajuste de la nube de puntos a la
recta.

• Así pues, la FIABILIDAD de una predicción obtenida mediante la recta de


regresión se puede medir con el coeficiente de determinación R2.

• En el momento de hacer predicciones hay que tener ciertas precauciones,


pues es posible que se obtengan resultados absurdos. Según la recta de
regresión anterior, un alumno que estudie 20 horas por semana (x = 20)
tendría un resultado de 12.9 puntos en su examen, lo cual no tiene sentido si
se evalúa sobre 10. La limitación de la predicción estriba en que sólo se puede
realizar para valores de X que estén situados entre los valores de X de la tabla
de datos inicial.

Potrebbero piacerti anche