Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Ajuste de Datos
Una relación lineal es una tendencia en los datos que se puede modelar mediante una
línea recta.
1
Figura1: Relación lineal positiva (pendiente positiva)
Cuando una variable aumenta mientras la otra variable disminuye, existe una relación
lineal negativa. Los puntos de la figura 2 siguen la línea muy de cerca, lo que sugiere que
la relación entre las variables es fuerte.
Los puntos de los datos de la figura 3 parecen estar distribuidos de manera aleatoria. No
se encuentran cerca de la línea, lo que indica una relación muy débil, si existe alguna.
Si una relación entre dos variables no es lineal, la tasa de aumento o descenso puede
cambiar a medida que una variable cambia, causando un "patrón de curva" en los datos.
Esta tendencia en forma de curva se podría modelar mejor mediante una función no
lineal, como una función cuadrática o cúbica, o se podría transformar para convertirla en
lineal. La figura 4 muestra una relación fuerte entre dos variables.
2
Figura 4: Relación No lineal
En una relación monótona, las variables tienden a moverse en la misma dirección relativa,
pero no necesariamente a un ritmo constante. En una relación lineal, las variables se
mueven en la misma dirección a un ritmo constante. La figura 5 revela que ambas
variables aumentan al mismo tiempo, pero no al mismo ritmo. Esta relación es monótona,
pero no lineal.
Introducción
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian
la relación lineal existente entre dos variables. Antes de profundizar en cada uno de
ellos, conviene destacar algunas diferencias:
La correlación cuantifica como de relacionadas están dos variables, mientras que
la regresión lineal consiste en generar una ecuación (modelo) que, basándose en
la relación existente entre ambas variables, permita predecir el valor de una a
partir de la otra.
El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-
efecto).
A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber
si están relacionadas. En el caso de estudios de regresión lineal, es más común
que una de las variables se controle (tiempo, concentración de reactivo,
temperatura…) y se mida la otra.
Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de
regresión.
3
Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos
parámetros es la covarianza, que indica el grado de variación conjunta de dos variables
aleatorias.
n
2
s =cov ( xy )=∑ ( x i−x́ ) ¿¿ ¿
i=1
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo
tanto, no es comparable entre distintos pares de variables. Para poder hacer
comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan
el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.
Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.w
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
4
Además del valor obtenido para el coeficiente de correlación, es necesario calcular su
significancia. Solo si el p-value es significativo se puede aceptar que existe correlación,
y esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor
del coeficiente de correlación a +1 o −1, si no es significativo, se ha de interpretar que la
correlación de ambas variables es 0, ya que el valor observado puede deberse a simple
aleatoriedad.
La correlación lineal entre dos variables, además del valor del coeficiente de correlación
y de sus significancia, también tiene un tamaño de efecto asociado. Se conoce
como coeficiente de determinación R2. Se interpreta como la cantidad de varianza de Y
explicada por X. En el caso del coeficiente de Pearson y el de Spearman, R2 se obtiene
elevando al cuadrado el coeficiente de correlación.
Coeficiente de Pearson
El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación
difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r),
o si se aplica la población Coeficiente de Pearson poblacional (ρ).
Cov ( xy)
ρ=
σxσ y
∑ ( x i− x́ ) ( y i− ý )
i=1
r xy = n n
√∑ (
i=1
2
x i− x́ ) ∑ ( y i− ý )2
i=1
Condiciones
La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario,
el coeficiente de Pearson no la puede detectar).
Las dos variables deben de ser cuantitativas.
Normalidad: ambas variables se tienen que distribuir de forma normal. Varios
textos defienden su robustez cuando las variables se alejan moderadamente de
la normal.
Homocedasticidad: La varianza de Y debe ser constante a lo largo de la
variable X. Esto se puede identificar si en el scatterplot los puntos mantienen la
misma dispersión en las distintas zonas de la variable X. Esta condición no la he
encontrado mencionada en todos los libros.
Características
5
Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1
una correlación lineal negativa perfecta.
Es una medida independiente de las escalas en las que se midan las variables.
No varía si se aplican transformaciones a las variables.
No tiene en consideración que las variables sean dependientes o independientes.
El coeficiente de correlación de Pearson no equivale a la pendiente de la recta de
regresión.
Interpretación
Además del valor obtenido para el coeficiente, es necesario calcular su significancia.
Solo si el p-value es significativo se puede aceptar que existe correlación y esta será de
la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente
de correlación a +1 o -1, si no es significativo, se ha de interpretar que la correlación de
ambas variables es 0 ya que el valor observado se puede deber al azar. (Ver más
adelante como calcular la significancia).
Practica
Ejemplo 1(Ajuste a una línea recta): Considere los siguientes datos (Tabla 1) de un
experimento cualquiera, vamos ajustar los datos a una línea recta ( y=bx+ a, siendo b la
pendiente y a intercepto) y veremos qué tan bueno es el ajuste.
6
Fuerza VS Longitud
180
160
f(x) = 4.39 x − 59.69
140 R² = 1
120
100
Fuerza (Dn)
80
60
40
20
0
15 20 25 30 35 40 45 50 55
Longitud (cm)
Análisis Grafico. Gráfica, fuerza vs longitud, experimenta una línea recta, con ajuste 0.994, lo
que demuestra que es un ajuste moderado, es por ello que la variable longitud depende de la fuerza,
puesto que la relación entre las variables es fuerte.
Datos x y ∆y
Experimental
es
1 0 0, 0,
9 5
2 1 4 1
3 2 9, 0,
8 8
4 3 14 1
5 4 17 1
6 5 22 2
7
N. Datos Exp 8
N. 2
Parámetros
Ji- 0,59
cuadrado/nd
f
Usaremos el método de los mínimos cuadrados visto en la guía Ajuste de Curvas del
laboratorio de Física 1 como se anexa a los documentos.
En esta guía debemos revisar los temas de “Fundamento Teórico” y “Ajuste de una línea
recta” en los temas extraídos de la guía de laboratorio 2 de física 1, que están detallados
en la próxima página.
s sx sy sxx sxy ∆
4,00 0 3,6 0 0 186,141
1,00 1 4 1 4
1,56 3,125 15,3125 6,25 30,625
1,00 3 14 9 42
1,00 4 17 16 68
0,25 1,25 5,5 6,25 27,5
8,812
5 12,375 59,4125 38,5 172,125
a ∆a b ∆b
0,217
0,8452 0,4548 4,1991 6
Tabla2: Datos de los mínimos cuadrados y pendiente e intercepto
Los anteriores datos son ejecutados en el Excel, de las ecuaciones 1.3 a 1.12 de las
páginas ya mencionadas (Tabla 2).
8
Ajuste Linea Recta
25
15
y
10
0
0 1 2 3 4 5 6
x
Luego con los mismos datos buscamos la calidad del ajuste (Tabla 3) usando la definición
de la ecuación 1.4 para determinar el termino ji-cuadrado ( χ 2). Primero determinamos los
datos observados (yo) que corresponden a los datos obtenidos para los valores de y
medidos.
9
Ji-cuadrado/ndf 0,54
10
11
12
13
Practica de ajuste a una línea recta: Un estudiante cuelga masas de un resorte y mide
la longitud x (cm) en función de la fuerza en (Dn), para hallar la constante del resorte (k).
Sus medidas están en la tabla 3.
Use estos datos, el Excel y el método de los mínimos cuadrados, para determinar la
constante del resorte.
Linealización
Existen datos que al graficarlos no muestran una relación lineal, mientras que su relación
puede ser polinómica de orden dos ( y= p 0+ p1 x+ p 2 x 2). Entonces tras un cambio de
variables la anterior ecuación se puede transformar en una relación lineal, a este proceso
se le llama linealización.
14
Dato
s Tiempo (s) Posición x(cm) ∆x (cm)
1 0 0 10
2 1 3,1 2
3 2 12,2 2
4 3 27 2
5 4 47,9 2
6 5 75,2 2
7 6 108,3 2
8 7 146,8 2
9 8 192,1 2
Los anteriores datos indican que el comportamiento de las variables es del tipo polinómico
1 2
( )
de grado dos x= a t . Ajustando una curva polinómica con el Excel se obtiene una
2
curva con los datos de ajuste siguientes:
200
150
Posición x(cm)
100
50
0
0 1 2 3 4 5 6 7 8 9
Tiempo (s)
Cambiamos t 2 por x.
Cambiamos x por y.
1
La ecuación quedaría y=mx, donde m= a con el intercepto cero. De los datos de la
2
medición cambiamos al tiempo al cuadrado y nos queda una nueva tabla, como la que se
muestra en la tabla 5
15
Tiempo (s) T2 (s2) Posición x(cm) ∆x (cm)
0 0 0 2
1 1 3,1 2
2 4 12,2 2
3 9 27 2
4 16 47,9 2
5 25 75,2 2
6 36 108,3 2
7 49 146,8 2
8 64 192,1 2
200
f(x) = 3 x + 0.08
R² = 1
150
Posicion (cm)
100
50
0
0 10 20 30 40 50 60 70
t^2(s^2)
s sx sy sxx sxy
0,25 0 0 0 0
0,25 0,25 0,775 0,25 0,775
0,25 1 3,05 4 12,2
0,25 2,25 6,75 20,25 60,75
0,25 4 11,975 64 191,6
0,25 6,25 18,8 156,25 470
0,25 9 27,075 324 974,7
0,25 12,25 36,7 600,25 1798,3
0,25 16 48,025 1024 3073,6 Δ
2,25 51 153,15 2193 6581,925 2333,25
16
a ∆a b ∆b
0,077 0,97 3,000 0,0311
Una vez calculados la pendiente y el intercepto, recalculamos los valores que deberían
esperarse si los datos se ajustan a una línea recta con la siguiente ecuación y=3 x +0.97.
17
Datos Tiempo (s) Altura (m) Diferencia Error
h(m) h(m)
h1 0,25 49,3 0,8 0,6
h2 0,5 48,0 2,0 0,6
h3 0,75 46,6 3,4 0,5
h4 1 45,1 4,9 1,2
h5 1,25 41,7 8,3 0,5
h6 1,5 38,4 11,7 0,5
h7 1,75 34,3 15,7 0,5
h8 2 29,8 20,3 0,6
h9 2,25 24,7 25,4 0,5
h10 2,5 18,7 31,3 0,6
h11 2,75 12,6 37,4 0,5
h12 3 5,4 44,7 0,5
50
f(x) = − 4.9 x + 49.46
R² = 1
40
Altura (m)
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10
Tíempo(s)
18
x(cm) F(Dn) x 103 X.Y
23 65 360
24,5 45 900
12,5 62 1.710
81 80 2.480
6,5 134 3.540
41 126 4.950
44,5 155 6.350
80 160 8.050
A ∆a b
263 724 1,284
Ji-cuadrado 2,135488
3
ndf 23
N. Datos Exp 12
N. 4
Parámetros
4
Ji- 0,63
cuadrado/nd
f
Altura (m) vs Tiempo(s)
60
0,0625 49,3 40
0,25 48
Altura (m)
30
0,5625 46,6 20
1 45,1 10
1,5625 41,7
0
2,25 38,4 0 1 2 3 4 5 6 7 8 9 10
Tíempo(s)
3,0625 34,3
4 29,8
5,0625 24,7 Análisis Grafico. Gráfica, Altura Vs Tiempo, experimenta
6,25 18,7 una línea con relación polinómica, con ajuste 4.8977, lo que
7,5625 12,6 demuestra que es un ajuste no muy bueno, es por ello que los
9 5,4 puntos de los datos, parecen estar distribuidos de manera
aleatoria. No se encuentran cerca de la línea, lo que
indica una relación muy débil.
19
Ejemplo 3 (Función exponencial): En muchas ocasiones existen funciones del tipo
exponencial por ejemplo como el caso de crecimiento poblacional ( P ( t ) =P 0 e−γt). También
este tipo de relaciones se pueden linealizar, realizando los cambios de variables
pertinentes.
P ( t ) =P 0 e−γt
A partir de esta relación, aplicamos logaritmo natural a ambos lados de la relación:
b=−γ: Pendiente
a=ln P0 : Intercepto
Se grafican los datos en una escala lineal y se obtiene la siguiente gráfica (figura 4). La
grafica representa una curva de dispersión y se ve que los datos muestran una tendencia
exponencial:
20
Crecimiento de Población
6000000
5000000
4000000
Población (p)
3000000
2000000
1000000
0
0 1 2 3 4 5 6 7 8 9
Tiempo (s)
Se aplica el respectivo ajuste en Excel a una función tipo exponencial y los resultados del
ajuste fueron:
P0=5 x 106
γ =0,596
5000000
f(x) = 4975680.58 exp( − 0.6 x )
R² = 1
4000000
Población (p)
3000000
2000000
1000000
0
0 1 2 3 4 5 6 7 8 9
Tiempo (min)
Lo anterior también se puede obtener aplicando escala logarítmica al eje de las abscisas
(y), se obtendría una gráfica como la figura 6.
21
Crecimiento de Población
10000000
1000000
Población (p)
100000
10000
0 1 2 3 4 5 6 7 8 9
Tiempo (min)
Pero es más fácil cambiar los datos en las abscisas por el logaritmo natural de las
abscisas y se obtiene la tabla 9:
Con estos datos graficamos y obtenemos, la figura 7, con su respectivo ajuste a una línea
recta.
22
Crecimiento de Población
18.00
16.00
14.00 f(x) = − 0.6 x + 15.42
Población (Lnp)
R² = 1
12.00
10.00
8.00
6.00
4.00
2.00
0.00
0 1 2 3 4 5 6 7 8 9
Tiempo (min)
Aquí nos podemos dar cuenta que la pendiente es la misma: b=0,596, para el valor del
intercepto debemos realizar el siguiente cambio. Aplicar la función exponencial al valor
obtenido en el ajuste ln ( 15,42 )=4975318,766 ≈5 x 106 .
Tiempo VS Logaritmo
35
f(x) = 33.6 x^-0.65
R² = 0.71
30
25
20
N(106)
15
10
0
0 5 10 15 20 25 30 35 40 45 50
T(dias)
23
T(días) N(106) ∆N(106)
Análisis Grafico. Gráfica, fuerza vs longitud, experimenta
0,2 32 0,7
una línea curva de relación exponencial, con ajuste 0.7123, lo
2,2 25 0,8 que demuestra que es un ajuste moderado, Esta relación es
4 22 0,8 monótona, pero no lineal. Además el valor obtenido
5 19 0,8 para el coeficiente es muy cercano al coeficiente de
6 17 0,8 correlación a +1 o -1, por tanto no es significativo.
8 14 0,8
11 12,4 0,7
12 10,3 0,7
15 7,5 0,7
18 4,9 0,7
26 4 0,7
33 2,4 0,7
39 1,4 0,7
45 1,1 0,7 Tabla 12: Numero de núcleos por día.
24
3
ndf 5
N. Datos 8
Exp
N. 2
Parámetros
Ji- 0,59
cuadrado/n
df
Dato
s Tiempo (s) Posición x(cm) ∆x (cm)
1 0 0 10
2 1 3,1 2
3 2 12,2 2
4 3 27 2
5 4 47,9 2
6 5 75,2 2
7 6 108,3 2
8 7 146,8 2
9 8 192,1 2
Tabla 13: Datos medidos de tiempo, posición y error en la posición de un balín que
rueda
Aquí existe un tratamiento alternativo de los datos. Aplicamos logaritmos a ambos lados
1
( 2
de la ecuación x= a ace t , así:
2 )
log 10 ( x )=log 10 ( 12 a t )=log ( 12 a )+2 log
ace
2
10 ace 10 (t)
Aquí las nuevas variables son; log 10 (x )= y , log 10 ( t ) =x , b=2 , a=log 10 ( 12 a ). La relación
ace
viene ahora a ser lineal, es decir; y=bx+ a. Por lo tanto los datos quedarían;
25
2 12,2 2 0,30 1,09
3 27 2 0,48 1,43
4 47,9 2 0,60 1,68
5 75,2 2 0,70 1,88
6 108,3 2 0,78 2,03
7 146,8 2 0,85 2,17
8 192,1 2 0,90 2,28
Tabla 14: Datos medidos de tiempo, posición, en escala logarítmica de un balín que
rueda
En este caso la gráfica y el ajuste queda representado por la figura 8. Según los
1
resultados del ajuste vemos que la pendiente b=2, el intercepto a=log 10 a ace . De lo
2 ( )
a 0.4887
anterior despejamos la aceleración y tendríamos a ace =2 x 10 =2 x 10 =6.16, que sería la
aceleración del balín.
1.00
0.50
0.00
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
log(t)
P=aV b
Donde a y b son dos parámetros totalmente desconocidos. Utilice el método anterior para
determinar los parámetros a y b. Para lo anterior utilice los siguientes datos.
P(kg/cm3
N ) Vol.(Litros)
1 0,5 1,65
2 1 1,03
26
3 1,5 0,74
4 2 0,61
5 2,5 0,53
6 3 0,45
s sx sy sxx sxy ∆
0,5 1,65 2,72 0,83 5,141
1 1,03 1,06 1,02
1,5 0,74 0,55 1,11
2 0,61 0,37 1,22
2,5 0,53 0,28 1,33
3 0,45 0,2 1,35
10,5 5,01 5,18 6,86
A ∆a b ∆b
10,5 5,01 6,86 5,18
P(kg/cm3) Vol.(Litros)
0,5 1,65
1 1,03
1,5 0,74
27
2 0,61
2,5 0,53
3 0,45
1.8
Volumen en funcion de la precion
1.6
1.4
f(x) = 1.8 exp( − 0.5 x )
1.2 R² = 0.94
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 3 3.5
28
log(vol) en funcion de (log) precion
0.3
-0.2
-0.3
-0.4
En todos los anteriores ejercicios determine la calidad del ajuste usando el método
del Ji-cuadrado junto con el coeficiente de correlación.
29