Sei sulla pagina 1di 12

Universidad Panamericana

Estadística II
Prof. Andrés Sandoval H

Estadística II

7. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

7.1. Análisis de correlación

Empezaremos este tema estudiando el análisis de correlación, que está diseñado


para conocer la magnitud de la relación entre dos variables. Una vez conociendo
estos principios, desarrollaremos un modelos matemático que nos permitirá
estimar el valor de una variable basándonos en el valor de otra. A esto se le llama
regresión.

Para saber lo que es una correlación, daremos un ejemplo.

Ejercicio.

Juan Manuel Huerta tiene una comercializadora de fotocopiadoras y quiere saber


si existe alguna relación entre el número de llamadas hechas en un mes y el
número de fotocopiadoras vendidas. Para ello, toma una muestra aleatoria de 10
representantes de ventas y determina el número de llamadas hechas por cada uno
el mes pasado, así como el número de fotocopiadoras que vendió.

Representante Copiadoras
Llamadas
de Ventas vendidas
José López 20 30
Juan Sánchez 40 60
Pedro Flores 20 40
Enrique Pieck 30 60
Javier Mendoza 10 30
Héctor Moreno 10 40
Montserrat Luna 20 40
Ma José Ibáñez 20 50
Arturo Cázares 20 30
Gerardo Luenga 30 70

A simple vista parece haber una relación entre el número de llamadas hechas y el
número de copiadoras vendidas. Sin embargo, la relación no es perfecta; por
ejemplo, Gerardo Luenga hizo menos llamadas que Juan Sánchez, pero vendió
más unidades.

1
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

Los cálculos de correlación se utilizan para saber con exactitud cuál es la relación
entre dos variables, en este caso, entre las llamadas hechas y el número de
unidades vendidas.

Una manera gráfica de representar la correlación entre dos variables es una


gráfica de dispersión.

Relación entre llamadas realizadas y copiadoras


vendidas

80
Copiadoras vendidas

60

40

20

0
0 10 20 30 40 50
Llamadas realizadas

Como se aprecia en la gráfica, el número de copiadoras vendidas se relaciona con


el número de llamadas hechas; es decir, conforme aumenta el número de
llamadas, aumenta también el número de ventas. En este caso, al número de
llamadas realizadas se le llama variable independiente y al número de copiadoras
vendidas se le llama variable dependiente.

Variable independiente. Es la variable que se va a medir o a estimar.

Variable independiente. Es la variable que da la base para la predicción o


estimación. Es la variable predictora.

Ahora bien, para calcular la magnitud de la relación entre la variable dependiente y


la independiente, se utiliza el coeficiente de correlación de Pearson. Es importante
mencionar que para su utilización es necesario que se cuente con datos del nivel
de razón o de intervalo.

Este coeficiente puede tomar cualquier valor desde –1 hasta +1 inclusive. Un


coeficiente de correlación de 1 (ya sea positivo o negativo) indica una correlación
perfecta. Si no existe absolutamente ninguna correlación entre las variables
entonces el coeficiente de correlación es cero.

2
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

Relación entre llamadas realizadas y copiadoras


vendidas
(Correlación positiva perfecta)

60
50
Copiadoras
vendidas

40
30
20
10
0
0 10 20 30 40 50 60
Llamadas realizadas

Relación entre llamadas realizadas y copiadoras


vendidas
(Correlación negativa perfecta)

60
50
Copiadoras
vendidas

40
30
20
10
0
0 10 20 30 40 50 60
Llamadas realizadas

Relación entre llamadas realizadas y copiadoras


vendidas
(Sin correlación)

60
50
Copiadoras
vendidas

40
30
20
10
0
0 5 10 15 20 25 30
Llamadas realizadas

3
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

En el siguiente diagrama se resume la magnitud y la dirección de la correlación,


según el coeficiente de correlación de Pearson.

Correlación Ninguna Correlación


negativa correlación positiva
perfecta perfecta

Correlación Correlación Correlación Correlación Correlación Correlación


negativa negativa negativa positiva positiva positiva
fuerte moderada débil débil moderada fuerte

- 1.00 - 0.50 0 +0.50 +1.00

Correlación negativa Correlación positiva

Para determinar el valor numérico del coeficiente de correlación de Pearson se


utiliza la siguiente fórmula:

Donde:

n = número de pares de observaciones

ΣX = suma de las variables X

ΣY = suma de las variables Y

ΣXY = suma de los productos de las variables X y Y

Luego entonces...

4
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

Copiadoras
Representante Llamadas
vendidas X2 Y2 XY
de Ventas (X)
(Y)
Javier Mendoza 10 30 100 900 300

Héctor Moreno 10 40 100 1,600 400

José López 20 30 400 900 600

Pedro Flores 20 40 400 1,600 800

Montserrat Luna 20 40 400 1,600 800

Ma José Ibáñez 20 50 400 2,500 1,000

Arturo Cázares 20 30 400 900 600

Enrique Pieck 30 60 900 3,600 1,800

Gerardo Luenga 30 70 900 4,900 2,100

Juan Sánchez 40 60 1,600 3,600 2,400

TOTAL 220 450 5,600 22,100 10,800

r = 0.759

De acuerdo con el diagrama que se presenta anteriormente, esta correlación se


puede interpretar como positiva y como fuerte. Esto quiere decir que hay una
fuerte correlación entre el número de llamadas y el número de unidades vendidas.

Sin embargo “fuerte” (o débil, o moderado) no tienen un significado preciso. Una


medición que posibilita una mejor interpretación es el coeficiente de
determinación.

Se calcula elevando al cuadrado el coeficiente de correlación. En este ejemplo, el


coeficiente de determinación es r 2 = 0.576, que es (0.759) 2. éste es una
proporción o un porcentaje (si se multiplica por 100); podemos decir entonces que
57.6% de la variación en el número de copiadoras vendidas, se explica, o se debe
a, la variación en el número de llamadas realizadas.

5
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

Coeficiente de determinación. Es la proporción de la variación total de la variable


dependiente (Y) que se explica por, o que se debe a, la variación en la variable
dependiente (X).

Prueba de la significancia del coeficiente de correlación

Una vez que se ha determinado el coeficiente de correlación entre el número de


llamadas realizadas y el número de copiadoras vendidas, dado que sólo se tomó
una muestra de los vendedores de la compañía, queda una pregunta obvia:
¿podría ser que si se toman los datos de la población la correlación fuera cero?;
es decir, ¿la correlación encontrada se puede generalizar para toda la población,
para todos los vendedores de la compañía?, o ¿la correlación encontrada se debe
a la casualidad?

Para responder a estas interrogantes se puede aplicar una prueba basada en t.

Los pasos a seguir serían los mismos que hemos estado realizando en otras
pruebas de hipótesis.

Paso 1

H0: ρ = 0

H1: ρ ≠ 0

Donde ρ (que se lee “ro”) representa la correlación de la población.

Paso 2, inciso c)

α = 0.05

Paso 3, inciso c)

La estadística de prueba adecuada, como ya se dijo es t, y la fórmula es como


sigue:

6
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

t = 3.297

Paso 4

El valor crítico se encuentra utilizando la tabla de la distribución de t.

Para conocer los grados de libertad se utiliza la siguiente fórmula:

gl = n –2

gl = 10 – 2

gl = 8

El nivel de significancia, como ya se determinó es α = 0.05.

Luego entonces, buscando en las tablas de la distribución de t, se obtiene el valor


crítico de 2.306

Como la prueba es de dos colas (por la forma en que están planteadas las
hipótesis)

La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para


t es mayor que – 2.306 y menor que 2.306. Si el valor calculado no cae en este
rango, se rechaza H0 y se acepta H1

Paso 5

Dado que el valor que se encontró para t fue de 3.297, se rechaza la hipótesis
nula.

En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la


correlación de la población no es cero. Lo que indica que sí hay correlación para el
total de vendedores, o que es posible generalizar los resultados.

Correlaciones espurias

Es importante mencionar que, con base en los coeficientes de correlación, no se


puede afirmar de manera categórica, que el crecimiento de una variable causa o
determina el crecimiento o la disminución de otra. Por ejemplo, supongamos que

7
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

obtenemos datos de la cantidad de refrescos enlatados que consumen los


alumnos de la UP y que contrastamos esta información con sus calificaciones de
Antropología; aún cuando al realizar los cálculos encontráramos que el coeficiente
de Pearson es positivo y fuerte, no podríamos decir de ninguna manera que las
calificaciones de Antropología están determinadas por el número de refrescos que
consumen los alumnos. A este tipo de correlaciones se les llama espurias.

7.2. Análisis de regresión

A continuación desarrollaremos un modelo matemático (ecuación de la línea) para


expresar la relación entre dos variables y para estimar el valor de la variable
dependiente Y basándonos en el valor de la variable independiente X. La técnica
que se utiliza para desarrollar la ecuación de la línea y hacer estas predicciones,
se le llama análisis de regresión.

El principio matemático con base con el cual se traza la ecuación de la línea y se


predicen los valores de Y, se conoce con el nombre de mínimos cuadrados. Este
principio consiste en trazar una línea sobre la gráfica de dispersión de los valores
de modo que la suma de los cuadrados de la distancia vertical entre el valor real
de Y y su valor predictorio, sea la cantidad más pequeña posible.

En la siguiente gráfica, los puntos azules representan los valores reales de Y dado
un valor determinado de X. Los puntos rosas representan las estimaciones para Y
dado un valor de X. Al unir los puntos rosas, se obtiene la línea de regresión.

Esta línea se trazó en base al principio de los mínimos cuadrados, de modo que al
elevar al cuadrado las diferencias entre los valores estimados de Y y sus valores
reales, el resultado resultante es el número menor posible. Es decir, si se traza la
línea de cualquier otro modo, el resultado de sumar las diferencias de los valores
reales de Y y los estimados, será mayor.

En este ejemplo, en el primer punto (X = 3, Y = 8) existe una diferencia de 2


respecto de la línea de regresión, que se obtiene de 10 – 8. el cuadrado de la
desviación es 4. Para el segundo punto (X = 4, Y = 18), el cuadrado de su
desviación es 16. Para el tercer punto (X = 5, Y = 16), el cuadrado de la desviación
es también 4. La suma del cuadrado de las desviaciones es 24, que se obtiene de
4 +16 + 4.

8
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

26

24

22

Evaluación de logros
20

18

16

14

12

10

6
2 3 4 5 6

Años de servicio en la compañía

Explicado lo anterior, pasemos a las fórmulas. LA forma general de la ecuación de


la regresión es:

FORMA GENERAL DE LA ECUACIÓN


Y ’ = a + bX
DE LA REGRESIÓN LINEAL

Donde:

Y ‘ = Se lee Y prima, es el valor predictorio de la variable Y para un valor


seleccionado de X.

a= Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0.

b= Es la pendiente de la línea, o el cambio promedio en Y’ por cada cambio en


una unidad de la variable independiente X.

X= Es el valor que se escoge para la variable independiente.

A los valores a y b se les conoce como coeficientes de regresión y se calculan con


las siguientes fórmulas:

9
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

PENDIENTE DE LA LÍNEA n ( Σ XY ) – ( Σ X ) ( Σ Y )
b=
DE REGRESIÓN n ( Σ X2 ) – ( Σ X ) 2

ΣY ΣX
INTERSECCIÓN CON EL EJE Y a= –b
n n

Donde:

X= es un valor de la variable independiente

Y= es un valor de la variable dependiente

n= es el número de elementos en la muestra

Ejercicio

Retomaremos el problema de las llamadas realizadas por una muestra de 10


vendedores y las copiadoras vendidas por los mismos. A partir de la información
obtenida, al gerente de ventas le gustaría obtener información precisa sobre la
relación entre estas dos variables y, más allá de eso, le gustaría hacer algunas
predicciones sobre el número de copiadoras que se pueden vender si se realiza
un número específico de llamadas.

Utilizando el método de los mínimos cuadrados, calcula, el número de copiadoras


que se espera vender si un empleado realiza 20 llamadas.

Copiadoras
Representantes Llamadas
vendidas X2 Y2 XY
de ventas (X)
(Y)
Representante 1 20 30 400 900 600
Representante 2 40 60 1,600 3,600 2,400
Representante 3 20 40 400 1,600 800
Representante 4 30 60 900 3,600 1,800
Representante 5 10 30 100 900 300
Representante 6 10 40 100 1,600 400
Representante 7 20 40 400 1,600 800
Representante 8 20 50 400 2,500 1,000
Representante 9 20 30 400 900 600
Representante 10 30 70 900 4,900 2,100
TOTAL 220 450 5,600 22,100 10,800

Primero se sustituyen las fórmulas para calcular a y b.

10
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

PENDIENTE DE LA LÍNEA 10 ( 10,800 ) – ( 220 ) ( 450 )


b=
DE REGRESIÓN 10 ( 5,600 ) – ( 220 ) 2

b = 1.1842

450 220
INTERSECCIÓN CON EL EJE Y a= – (1.1842)
10 10

a = 18.9476

La ecuación de regresión es entonces:

FORMA GENERAL DE LA ECUACIÓN


Y ’ = (18.9476 + (1.1842) 20
DE LA REGRESIÓN LINEAL

Y’ = 42.6326

Esto quiere decir que un vendedor que realiza 20 llamadas puede esperar ventas
de 43 copiadoras.

El valor 1.1842 para b significa que por cada llamada adicional que realice, el
vendedor puede esperar un aumento de 1.2 en el número de copiadoras vendidas.
Dicho de otro modo, cinco llamadas adicionales realizadas en un mes, darán como
resultado aproximadamente seis copiadoras más vendidas (1.1842 * 5 = 5.921)

El valor de 18.9476 para a representa el punto en que se cruza el eje de las Y


cuando X = 0. Dicho de otra forma, si un vendedor no hace ninguna llamada,
puede esperar vender 19 copiadoras. Sin embargo, observa que X = 0 está fuera
del rango de los valores que tenemos en la muestra, y por lo tanto, no se deberá
usar para estimar el número de copiadoras que se venderán. Las llamadas de
venta van de 10 a 40, por lo tanto, las estimaciones deberán hacerse dentro de
ese rango.

El dibujo de la línea de regresión

Para dibujar la línea de regresión se debe calcular el número estimado de


copiadoras vendidas según las llamadas que haya hecho cada vendedor. Esto
queda representado en la siguiente tabla.

11
Universidad Panamericana
Estadística II
Prof. Andrés Sandoval H

Copiadoras Ventas
Representantes Llamadas
vendidas estimadas
de ventas (X)
(Y) Y'=a+bX
0 18.9476
Representante 1 20 30 42.6316
Representante 2 40 60 66.3156
Representante 3 20 40 42.6316
Representante 4 30 60 54.4736
Representante 5 10 30 30.7896
Representante 6 10 40 30.7896
Representante 7 20 40 42.6316
Representante 8 20 50 42.6316
Representante 9 20 30 42.6316
Representante 10 30 70 54.4736
TOTAL 220 450 450

Relación entre llamadas realizadas y


copiadoras vendidas
(Ventas reales y estimadas)
80
70
60
Copiadoras

50
40
30
20
10
0
0 10 20 30 40 50
Llamadas

La línea de regresión tiene algunas características particulares. Como ya hemos


dicho, no hay otra línea a través de los datos para la que la suma de los
cuadrados de las desviaciones sea menor. Además esta línea para por los puntos
que representan la media de los valores X y la media de los valores Y. En este
ejemplo, la media de los valores X es 22.0 y la media de los valores Y es 45.0. El
punto en que la línea cruza estos valores está marcado con amarillo.

12