Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Existen dos métodos distintos pero relacionadas para determinar si existe algún tipo de
relación entre dos variables.
El primer método consiste en determinar el grado o nivel de asociación entre las variables que
se estudian. Este método se denomina análisis de correlación.
El segundo método consiste en determinar una relación funcional de la variable dependiente Y
con respecto a una variable independiente X con el fin de predecir valores de Y . Este método,
es el análisis de regresión.
Los métodos de regresión y correlación entre variables se clasifican de acuerdo al numero de vari-
ables independientes, se denomina simple si hay una sola variable independiente y se denomina
múltiple si hay dos o más variables independientes.
1. Diagrama de dispersión
Sean (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) n valores de la variable bidimensional (X, Y ), observados
en una muestra, donde los xi son los valores de la variable X y los yi son los valores de la
variable Y .
Se denomina diagrama de dispersión o nube de puntos, a la representación gráfica de los
distintos valores (xi , yi ) de las variables X e Y en el mismo sistema cartesiano.
2. Covarianza
La covarianza mide el grado de dispersión o variabilidad conjunta de dos variables X e Y
con respecto a sus medias respectivas (x, y).
La covarianza de n valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) de una variable bidimensional (X, Y ) y
es dado por:
Pn Pn
i=1 (xi − x)(yi − y) xi y i
sXY = = i=1 −x y
n n
Y = a + bX
que mejor se ajuste a los datos de la muestra, con el fin de predecir o estimar Y a partir de X.
El valor yb denominado valor estimado o predecido,representa un valor de Y calculado de la
ecuación Y = a + bX cuando X = xi .
Para determinar dicha ecuación de regresión utilizaremos el método de mı́nimos cuadrados.
en donde ei = yi − ybi se denomina error o residuo y describe el error en el ajuste del modelo de
regresión muestral en el punto i de los datos.
Consideremos la suma
P de cuadrados P de errores:
SCE = ni=1 e2i = ni=1 (yi − ybi )2 = ni=1 (yi − a − bxi )2
P
Determinar una recta de regresión de mı́nimos cuadrados consiste en hallar los valores de a y
b de tal manera que SCE sea mı́nimo. Derivando SCE con respecto a a y con respecto a b y
luego igualando a cero se obtiene las siguientes ecuaciones:
n
X n
X
yi = na + b xi
i=1 i=1
n
X n
X n
X
xi y i = a xi + b x2i
i=1 i=1 i=1
a = y − bx
Interpretación:
5. Coeficiente de determinación
El coeficiente de determinación mide el porcentaje de variación en la variable respuesta,
explicada por la variable independiente, es denotada por r2 y se define por:
s2X
r 2 = b2
s2Y
es equivalente a:
SCR SCE
r2 = =1−
SCT SCT
Donde, las sumas de cuadrados:
SCT = SCE + SCR
son respectivamente
n
X n
X n
X
2 2
(yi − y) = (yi − yb) + y − y)2
(b
i=1 i=1 i=1
SCT : Suma de cuadrados total
SCE: Suma de cuadrados de los errores
SCR: Suma de cuadrados debido a la regresión
Cuanto mayor es el valor de r2 menor es la dispersión y mayor el ajuste de la recta de regresión
a los datos.
Ejercicios explicativos
1. Un comerciante mayorista encargó un estudio para determinar la relación entre los gastos
de publicidad semanal por radio y las ventas de sus productos. En el estudio se obtuvieron
los siguientes resultados:
Gastos de publicidad ($) 30 20 40 50 70 60 80 70 80
Ventas ($) 300 250 400 550 750 630 930 700 840
a) Realice el diagrama de dispersión, e indicar la tendencia de los datos.
Solución:
b) Calcular la recta de regresión con el fin de predecir las ventas e interprete la pendiente
de la regresión.
Solución:
Además se sabe que el coeficiente de correlación de ambas variables es r = 0,90. ¿Qué nota
se puede predecir en la asignatura de Estadı́stica, para un alumno que ha obtenido 14 en
Matemática?
Solución:
Ejercicios propuestos
1. Una compañı́a de alimentos maneja una cadena de tiendas al menudeo. Para medir la
eficiencia de las tiendas se estudió la relación del número de empleados (X) y el promedio
del volumen de ventas mensuales (Y ) expresadas en cientos de dólares para todas las
tiendas durante el año pasado. La gráfica de los datos sugiere una relación lineal entre las
variables. Se tiene la siguiente información:
Pn Pn Pn Pn Pn
n = 100, i=1 xi = 600, i=1 yi = 1600, i=1 xi yi = 13600, i=1 x2i = 5200, i=1 yi2 =
37700
a) Hallar la recta de mı́nimos cuadrados para estimar las ventas a partir del número
de empleados.
b) ¿En cuánto se estiman las ventas para una tienda de 8 empleados?
c) ¿Qué porcentaje de la varianza de las ventas es explicada por la variabilidad del
número de empleados?
d ) ¿Cuántos empleados tiene la tienda cuya venta se estima en $1100?
3. Un profesor de estadı́stica se interesa en la relación entre las horas de estudio y los puntos
obtenidos en el curso. A continuación vemos los datos reunidos de 9 alumnos que acaban
de tomar el curso.