Sei sulla pagina 1di 93

SEMA

NA

REGRESIN
Y CORRELACIN
SIMPLE

10

1 El diagrama de dispersin
Es un grfico que permite detectar la
existencia de una relacin entre dos
variables.
Visualmente
se
puede
buscar
patrones que indiquen el tipo de
relacin que se da entre las variables.

(b) Lineal inversa

(a) Lineal directa


Y

Relaciones
posibles entre X
y Y vistos en
diagramas de
dispersin

(c) Curvilnea directa


Y

X
Y

(d) Curvilinea inversa

(e) Lineal inversa


con ms dispersin

X
(d) Ninguna relacin

Aplicacin
Los datos siguientes muestran las cantidades
consumidas de complemento nutricional (en
Kg.) y el aumento de peso de nios con
signos de desnutricin.
PACIENTE
COMPLEMENTO

10

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

10

12

14

13

15

17

14

14

EN Kg: X
AUMENTO DE
PESO : Y

Presente la informacin en un diagrama de dispersi

Procedimiento
1er Paso: Rena pares de datos (X,Y), cuya
relacin desea estudiar y organice la
informacin en una tabla.

PACIENTE
COMPLEMENTO

10

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

10

12

14

13

15

17

14

14

EN Kg: X
AUMENTO DE
PESO : Y

2do Paso: Encuentre los valores mnimos y


mximos para X e Y. Elija las escalas que se
usarn en los ejes horizontal y vertical, de
manera
que
ambas
longitudes
sean
aproximadamente
iguales,
facilitando
la
lectura del diagrama.

3er Paso: Registre los datos en el grfico.


Cuando se obtengan los mismos valores en
diferentes observaciones, muestre estos
puntos haciendo crculos concntricos (o), o
registre el segundo punto muy cerca del
primero.

4to Paso: Agregue toda la informacin que


puede ser de utilidad para entender el
diagrama, tal como: ttulo del diagrama,
perodo de tiempo, nmero de pares de
datos, nombre de la variable y unidades de
cada eje, entre otros.

4 El anlisis de correlacin
El anlisis de correlacin es la tcnica
estadstica que permite describir el grado
hasta
el
cual
una
variable
est
linealmente relacionada con otra.
Hay dos medidas que se usan para describir
la correlacin
El coeficiente de correlacin ( r )
2
(r )
El coeficiente de determinacin

El coeficiente de correlacin

N XY ( X )( Y )

2
N
X (

Horas de
estudio

X)

Calificacin

2
2
N

Y ( Y )

xy

x*x

y*y

25

16

64

32

16

64

54

36

81

63

49

81

10

80

64

100

28

49

250

170

415

N=6

2 Las ecuaciones lineales simples


Si dos variables, como X e Y, estn
relacionadas, se puede expresar como una
relacin, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuacin se puede:
a) Calcular el valor de Y para cualquier
valor dado de X
b) Conocer el cambio en Y, cuando X vara
en 1

Por ejemplo: Y = 3 + 1,5X

El aumento en Y, cuando X vara en una


unidad, est dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en
0,8

A) Tipos de Variables
En una ecuacin como Y = 30 + 3X, el valor
de Y depende del valor que toma X, por eso
a Y se le llama variable dependiente, y a X
se le llama variable independiente.
Y = b0 + b1 X

Variable
Dependiente

Variable
Independiente

B) Tipo de Relaciones
Cuando cambios en X provoca cambios en
Y
en
igual
sentido
(aumentos
o
disminuciones),
las
variables
estn
directamente relacionadas. Se observa
el signo +
Y
Ejemplo:
o
o
o
Y = 30 +
o
o
o
5X
o

Cuando cambios en X, provoca variaciones en Y en


sentido inverso (X aumenta, Y disminuye o
viceversa), las variables estn inversamente
relacionadas. Se observa en la ecuacin el signo -.

Ejemplo
:
Y = 20 3X

Y
o
o
o

o
o

o
o
o

C) Grado de la ecuacin:
La ecuacin es de primer grado si la
variable independiente est elevada al
exponente 1. Su grfica genera una
lnea recta (por lo que tambin se le
llama ecuacin lineal)
Ejemplo: Y = 30 + 4 X

Si la variable independiente est elevada a


un exponente diferente a 1, la ecuacin
toma el valor del exponente. Su grfica no
es una lnea recta.
Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuacin de segundo
grado
Y = 3 + 7X + 5 X3 : ecuacin de tercer
grado

D) Ecuaciones simples y mltiples:


Simples: Muestra la relacin entre dos
variables
Y = 30 + 2X
Y = 10 - 3X2
Mltiple: Muestra la relacin entre tres o
ms variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W

D) Grfica de una ecuacin de primer


grado:
Ejemplo: Y = 3 + 1,5X
X
Y

1
4 ,5

2
6 ,0

3
7 ,5

4
9 ,0

5
1 0 ,5

Los cinco pares de valores se diagraman


Y
de la forma
siguiente.
12
11
10
9
8
7
6
5
4
3
2
1

.
.
.
.
.

(5,10.5)

(4,9)

(3,7.5)

(2,6)

(1,4.5)

E) Forma general:
La ecuacin simple de primer grado tiene la
siguiente forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando
X = 1.
b0: el valor autnomo, es decir, Y = b0 cuando
X = 0. En la grfica es la interseccin con el
Y
eje Y
Ejemplo:
b0 = 3
Y = 3 + 1.5X

3 Regresin lineal simple


Es una tcnica estadstica que permite
determinar
la
mejor
ecuacin
que
represente la relacin entre dos variables
relacionadas.
Para
poder
establecer
la
relacin
cuantitativa entre X e Y es necesario
disponer de pares de observaciones. Cada
par ha sido registrado a la misma unidad
elemental.

A) Suposiciones de regresin y correlacin


a) Normalidad: los valores de Y estarn
distribuidos normalmente a cada valor de X.
b) Homoscedasticidad: la variacin alrededor
de la lnea de regresin sea constante para
todos los valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno
estimado de Y) sea independientemente de
cada valor de X.
d) Linealidad: la relacin entre las variables es
lineal.

B) El mtodo de Mnimos
Cuadrados
Es el procedimiento matemtico utilizado
para determinar los valores numricos de
los coeficientes de regresin: b0 y b1

La ecuacin general
= b0 + b1X se
Y
llama ecuacin de regresin y permite
estimar o predecir los valores de Y.

El mtodo consiste en determinar una


ecuacin que la suma de los errores al
cuadrado sea mnima.
Y

= error
Yi - Y

10

Lnea de
estimacin

Min Y - Y
i

4
Error= -6

Error= 2

X
2

10

12

14

El mtodo utiliza un sistema de ecuacin


llamado ecuaciones normales, que tienen
la siguiente forma:

Y nb 0 +b1 X
2
XY

b
X

b
X

0
1
Para
aplicar
las
frmulas, tenemos que
confeccionar un cuadro
como el siguiente:

X2

XY

1.0

8.0

1.0

8.0

1.5

10.0

2.3

15.0

2.0

9.0

4.0

18.0

2.5

12.0

6.3

30.0

3.0

14.0

9.0

42.0

3.5

13.0

12.3

45.5

16.0

60.0

4.0

15.0

4.5

17.0

20.3

76.5

5.0

14.0

25.0

70.0

5.5

14.0

30.3

77.0

32.5
126.0 126.3 442.0

X Y
X
XY
2

3=
2,5 5,
Y 126,0

Sustituyendo los valores


, Xn
2
XY

4
42
X
126,3

y
,en las
ecuaciones normales, obtenemos el siguiente
sistema de ecuaciones.
126 = 10b0 + 32,5b1

442 = 32,5b0 + 126,3b1


Resolviendo el sistema tenemos:
b=
7,479
1,576X
= 7,479 Y
1,576
,por lo tanto,
1

b0

c) Interpretacin
b0 = 7,478 : Es probable que un paciente
desnutrido que no sea considerado
dentro del Programa de Alimentacin
Complementaria tenga un peso de
7,478 Kg.
b1

1,576:Por cada Kg. del alimento


complementario,
se
espera
que
probablemente el nio aumento su
peso en 1,576 Kg.

D) Valor observado y valor estimado de Y


El valor observado (Yi) se refiere al nivel
efectivo u observado de la variable Y (peso del
que el valor estimado (
Y
nio), mientras
), es
i
el nivel estimado de la variable (peso
X
Y

Y
esperado), obtenido utilizando
la ecuacin
de
1.0
8.0
9.055
regresin.
1.5
10.0
9.843
Y

.
.

Yi

Valor
observado

Valor
estimado

xo

2.0

9.0

10.630

2.5

12.0

11.418

3.0

14.0

12.206

3.5

13.0

12.994

4.0

15.0

13.782

4.5

17.0

14.570

5.0

14.0

15.358

5.5

14.0

16.146

OTRA FORMA:
DEFINICIN.-EL COEFICIENTE DE CORRELACIN (O NDICE DE
CORRELACIN LINEAL DE PEARSON)ENTRE DOS VARIABLES X y Y
SE DEFINE POR:

COV ( X , Y )

S S
X

LA COVARIANZA:
COV ( X , Y ) S XY

(X

2 Xi 2
S X i1 n X
n

2
S
Y

i 1

yi
n

X )(Y i Y )
n

S2
y

i 1

2
S
x

i 1

XY

n
Y i
n

2
2

XY
i

Xi n

Recta de regresin de Y sobre X


La recta de regresin de Y sobre X se utiliza para
estimar los valores de la Y a partir de los de la X.
La pendiente de la recta es el cociente entre la
covarianza y la varianza de la variable X.

S
Y Y
Sx

xy
2

(X X )

Recta de regresin de X sobre Y


La recta de regresin de X sobre Y se utiliza para
estimar los valores de la X a partir de los de la Y.
La pendiente de la recta es el cociente entre la
covarianza y la varianza de la variable Y.

X X

Sy

xy
2

(Y Y )

EJEMPLO:
1.-Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:

Matemti
cas

234 4

Fsica

132 4

1
0
9

Hallar las rectas de regresin y representarlas.

1
0
10

Solucin:
X

8 10 10 72

X*X

Y*Y

X*Y

9 10 60
10 10 50
9 16 16 25 36 36 49 49 64 0 0 4
10 38
9 4 16 16 16 36 16 36 49 81 0 0
10 43
9 8 16 20 24 36 28 42 56 90 0 1

Seguimos los siguientes pasos:


1 Hallamos las medias arimticas.

72
6
12

60
5
12

431
2 Calculamos la covarianza.
S xy 12 6 * 5 5.92
3 Calculamos las varianzas.
504
2
S x 12 6 6
2

380
2

S y 12 5 6.66
2

4Recta de regresin de Y sobre X.


Y 5

5.92
( X 6)
12

Y 0.922 0.987 X

4Recta de regresin de X sobre Y.


X 6

5.92
(Y 5)
6.66

X 1.556 0.889Y

Ejemplo
2. Cinco nios de 2, 3, 5, 7 y 8
aos de edad pesan,
respectivamente, 14, 20, 32, 42
y 44 kilos.
a.- Hallar la ecuacin de la recta
de regresin de la edad sobre el
peso.
b.- Cul sera el peso aproximado
de un nio de seis aos?

SOLUCIN
X

2
3
5
7
8
25
25
X 5
5

14
20
32
42
44
152

4
9
25
49
64
151

151 2
152

5 5. 2
Y
30.4 S x
5
5

894

S xy 5 5*30.4 26.8

Y
196
400
1024
1764
1936
5320

XY

28
60
160
294
352
894

5320
2
S y 5 30.4 139.84
2

3. Los valores de dos variables X e Y se distribuyen segn la tabla


siguiente:

Y/X
14
18
22

100
1
2
0

50
1
3
1

25
0
0
2

de:
alcular la covarianza.
btener e interpretar el coeficiente de correlacin l
cuacin de la recta de regresin de Y sobre X.

Lo que importa
verdaderamente en la vida
no son los objetivos que nos
marcamos, sino los caminos
que seguimos para
lograrlos
Peter Bamm(Curt Emmrich)