Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Octubre 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Variables Bidimensionales 3
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Variables Bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Frecuencias y Frecuencias Marginales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Distribución Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Variables Bidimensionales con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Variables Bidimensionales con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Representaciones Gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Representaciones Gráficas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Representaciones Gráficas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Análisis de la Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Coeficiente de Correlación de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Correlación con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Regresión 18
Regresión y Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Modelo de Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Suma de Cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Regresión Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Coeficiente de Determinación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Regresión con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Regresión con R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
summary(Regresion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Regresión Lineal X sobre Y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Regresión Exponencial, Potencial e Hiperbólica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Regresión Polinómica y Múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1
Contenidos
Variables Bidimensionales
Correlación.
Regresión.
La Regresión tiene como objetivo buscar una función que permita explicar una
Variable en función de otra.
Variables Bidimensionales 3 / 29
Introducción
Hasta ahora, para cada Unidad Estadı́stica de nuestra muestra, sólo hemos observado un
determinado Carácter.
En la realidad, la mayorı́a de las ocasiones que tomamos una muestra observaremos más de un
Carácter por Unidad Estadı́stica.
El valor que adoptaba un Carácter entre sus distintas Modalidades posibles era una Variable
Estadı́stica.
2
Variables Bidimensionales
El caso más sencillo es cuando para cada Unidad Estadı́stica se observan dos Caracteres distintos.
Siendo X e Y dos Variables Estadı́sticas.
Frecuencia Marginal Absoluta n·i o ni· , suma por columnas o por filas respectivamente.
Frecuencia Marginal Relativa f·i o fi· , suma de las fij por columnas o filas respectivamente.
3
Distribución Condicionada
Se define la Distribución Condicionada como la distribución de una de las variables respecto
de un valor concreto de la otra variable.
nij fij
f (yi |xj ) = =
nj· fj·
nij fij
f (xi |yj ) = =
n·j f·j
Ejemplo
Pedidos recibidos hoy en nuestra empresa de transporte logı́stico.
4
Variables Bidimensionales con R
> Producto<-c("a","r","o","a","o","a","r","a","o","a")
> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")
> addmargins(table(Producto,Delegacion))
Delegacion
Producto CR P Sum
a 4 1 5
o 2 1 3
r 0 2 2
Sum 6 4 10
> margin.table(table(Producto,Delegacion),1)
Producto
a o r
5 3 2
Delegacion
Producto CR P
a 0.8000000 0.2000000
o 0.6666667 0.3333333
r 0.0000000 1.0000000
> prop.table(table(Producto,Delegacion),2)
Delegacion
Producto CR P
a 0.6666667 0.2500000
o 0.3333333 0.2500000
r 0.0000000 0.5000000
5
Representaciones Gráficas
Las representaciones gráficas más usadas son los Diagramas de Rectángulos para Caracteres
Cualitativos y diagramas de Barras e Histogramas, para datos Caracteres Cuantitativos.
Pedidos Pedidos
35
Puertollano Ciudad Real
Ciudad Real Puertollano
50
30
40
25
20
30
15
20
10
10
5
0
0
Resinas Aceites Aditivos Resinas Aceites Aditivos
Ahora bien, en el caso de parejas de Variables Estadı́sticas las representaciones más sencillas son
los diagramas de dispersión.
1.5
1.0
0.5
0.0
Y
−0.5
−1.0
−1.5
−2 −1 0 1 2
6
Representaciones Gráficas con R
> Producto<-c("a","r","o","a","o","a","r","a","o","a")
> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")
> barplot(table(Producto,Delegacion),legend.text=TRUE)
> barplot(table(Producto,Delegacion),legend.text=TRUE,
+ beside=TRUE) 6
4
r a
o o
5
a r
3
4
3
2
2
1
1
0
0
CR P CR P
7
Representaciones Gráficas con R
> library(UsingR)
> Ingresos<-cfb$INCOME[1:15]
> Ahorros<-cfb$SAVING[1:15]
> plot(Ingresos,Ahorros)
15000
10000
Ahorros
5000
0
Ingresos
8
Momentos
Se definen los Momentos de orden (r, s) respecto de (v, w):
r s
P
i,j nij (xi − v) (yj − w)
M(r,s) (v, w) = ,
n
teniendo especial interés para (v, w) = (0, 0) y (v, w) = (x, y)
9
Análisis de la Covarianza
1X
sxy = nij (xi − x)(yj − y) = a1,1 − a1,0 · a0,1 = xy − x · y.
n
i,j
11.0
10.8
10.6
Var2
10.4
10.2
10.0
9.8
Var1
sxy = 0
2.2
2.0
1.8
1.6
Var3
1.4
1.2
1.0
Var1
sxy > 0
8.0
Var4
7.5
7.0
Var1
sxy < 0
10
Coeficiente de Correlación de Pearson
La Covarianza posee unidades, las unidades de la Unidad Estadı́stica al cuadrado.
Para conseguir un dato adimensional que nos permita comparar la correlación entre parejas de
variables, se define el Coeficiente de Correlación de Pearson:
sxy
r=
sx · sy
−1 < r < 1
Este coeficiente determina el grado de correlación lineal, pudiendo existir otro tipo de
relaciones.
11
Correlación con R
> Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12)
> Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73,
+ 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5)
> cor(Diesel,Viscosidad)
[1] -0.9950753
> plot(Diesel,Viscosidad)
70
65
Viscosidad
60
55
50
45
0 2 4 6 8 10 12
Diesel
Regresión 18 / 29
Regresión y Correlación
La Regresión trata de buscar una función que permita explicar los valores de una variable en
función de otra.
La regresión persigue:
12
Modelo de Regresión
Siendo X la variable explicativa o independiente e Y la variable respuesta o dependiente,
tendremos la Regresión Simple:
Y = f (X)
Si la variable respuesta, Y , depende de varias variables explicativas, X1 , X2 , . . . , Xn , tendremos la
Regresión Múltiple:
Y = f (X1 , X2 , . . . , Xn )
Y = a + b · X + c · X2 + d · X3 + . . .
Y = a + b1 · X1 + b2 · X2 + · · · + bn · Xn
Qué criterio utilizar para escoger unos valores adecuados para los parámetros.
Regresión Y=f(X)
1.0
0.5
0.0
Y
−0.5
−1.0
−1.5
−3 −2 −1 0 1 2
13
Suma de Cuadrados
Para una observación dada (xi , yj ) con una frecuencia nij , definimos el error cometido por el
modelo de regresión:
εij = (yj − f (xi )),
yj = f (xi ) + εij .
El objetivo es minimizar el error cometido por el modelo al explicar la variable respuesta Y en
función de la variable independiente X:
X X
SCE = nij · ε2ij = nij · (yj − f (xi ))2 .
i,j i,j
Los parámetros del Modelo que minimizan la Suma del Cuadrado de los Errores, definen al
Modelo de Regresión. En el caso del Modelo Lineal Simple tendremos:
yj = a + b · xi + εij .
El objetivo es entonces minimizar la Suma del Cuadrado de los Errores:
X X
SCE = nij · ε2ij = nij · [yj − (a + b · xi )]2 = G(a, b).
i,j i,j
14
Regresión Lineal Simple
La recta que explique la dependencia de Y respecto a X, tendrá parámetros a y b que minimizen
la SCE:
nij · [yj − (a + b · xi )]2 .
X
G(a, b) =
i,j
Para obtener a y b:
∂G(a,b)
∂a =0
∂G(a,b)
∂b =0
P P P
ij nij · yj − ij nij · a − ij nij · b · xi =0
nij · b · x2i = 0
P P P
ij nij · yj · xi − ij nij · a · xi − ij
yx = a · x + b · x2
yx−x·y sxy
b
= = s2x
x2 −x2
Coeficiente de Determinación
El Coeficiente de Correlación de Pearson determina el grado de correlación lineal entre las
variables.
−1 < r < 1
Se demuestra que para r 2 = 1, la Suma de los Cuadrados de los Errores, SCE= 0.
15
Regresión con R
> Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12)
> Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73,
+ 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5)
> Regresion<-lm(Viscosidad ~ Diesel)
> Regresion
Call:
lm(formula = Viscosidad ~ Diesel)
Coefficients:
(Intercept) Diesel
70.425 -2.246
> plot(Diesel,Viscosidad)
> abline(Regresion)
Regresión con R
70
65
Viscosidad
60
55
50
45
0 2 4 6 8 10 12
Diesel
16
summary(Regresion)
Call:
lm(formula = Viscosidad ~ Diesel)
Residuals:
Min 1Q Median 3Q Max
-0.9598 -0.7098 -0.3724 0.9007 1.5250
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 70.42500 0.37018 190.25 <2e-16 ***
Diesel -2.24631 0.05133 -43.76 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
17
Regresión Lineal X sobre Y
En el caso en que busquemos explicar la dependencia de X respecto de Y , mediante regresión
lineal simple:
X =a+b·Y
εij = (xi − f (yj )), xi = f (yj ) + εij .
Regresión X=f(Y)
1.0
0.5
0.0
Y
−0.5
−1.0
−2 −1 0 1 2
yx−x·y sxy
b
= = s2y
y 2 −y 2
18
Regresión Exponencial, Potencial e Hiperbólica
Para los casos de modelos Exponenciales, Potenciales e Hiperbólicos, una transformación de las
variables permite adaptar lo visto para la Regresión Lineal Simple:
Exponencial:
Y = a · bX → log(Y ) = log(a) + log(b) · X
Potencial:
Y = a · Xb → log(Y ) = log(a) + b · log(X)
Hiperbólica:
1 1
Y = → =a+b·X
a+b·X Y
∂G(a, b)
=0
∂θ
19