Sei sulla pagina 1di 24

SEMANA 5– ESTADÍSTICA

ESTADÍSTICA

SEMANA 5
Estadística bivariada

Todos los derechos de autor son de la exclusiva propiedad de IACC o de los otorgantes de sus licencias. No está
permitido copiar, reproducir, reeditar, descargar, publicar, emitir, difundir, poner a disposición del público ni
utilizar los contenidos para fines comerciales de ninguna clase.
IACC
1
SEMANA 5– ESTADÍSTICA

APRENDIZAJE ESPERADO
 El estudiante será capaz de analizar
ejercicios y problemas de estadística
bivariada usando procedimientos de
relacionamiento de variables.

IACC
2
SEMANA 5– ESTADÍSTICA

APRENDIZAJE ESPERADO..................................................................................................................... 2
INTRODUCCIÓN ................................................................................................................................... 4
1. TABLAS DE FRECUENCIAS BIVARIADAS ....................................................................................... 5
2. ¿CÓMO SE RELACIONAN LAS VARIABLES? ................................................................................ 10
2.1. COVARIANZA ..................................................................................................................... 10
2.2. COEFICIENTE DE CORRELACIÓN ........................................................................................ 12
2.3. COEFICIENTE DE DETERMINACIÓN ................................................................................... 15
3. ESTADÍSTICA BIVARIADA CON EXCEL ........................................................................................ 16
COMENTARIO FINAL.......................................................................................................................... 20
REFERENCIAS ..................................................................................................................................... 21

IACC
3
SEMANA 5– ESTADÍSTICA

INTRODUCCIÓN
En las aplicaciones de la estadística hay - ¿Existe alguna relación entre la estatura y
muchos problemas que requieren un análisis el peso?
combinado de dos variables. En las siguientes
áreas: administración, en educación y en - Los médicos prueban fármacos nuevos
muchas otras materias, a menudo es para combatir la fiebre amarilla, al
necesario contestar preguntas como: “¿Están prescribir dosis diferentes y observar las
relacionadas estas dos variables? Si es así, respuestas de sus pacientes.
¿de qué manera? ¿Existe una correlación
entre las variables?”. Considere los
siguientes ejemplos:

IACC
4
SEMANA 5– ESTADÍSTICA

1. TABLAS DE FRECUENCIAS BIVARIADAS


Una tabla de frecuencias bivariada también es llamada tabla de frecuencias bidimensional y lo que
hace es resumir la distribución de frecuencias de dos variables de manera simultánea.

En donde:

nij : es la frecuencia conjunta del valor de la clase xi y del valor de la clase yj


ni  : es la frecuencia marginal de la clase xi
n j : es la frecuencia marginal de la clase yj
n : es el tamaño de la muestra.

Además se cumple que:

Para un mejor entendimiento, a continuación se revisarán ejemplos, teniendo en cuenta los


contenidos vistos en semanas anteriores:

IACC
5
SEMANA 5– ESTADÍSTICA

Ejemplo 1:

Se tiene la siguiente información acerca de la edad X y del número de años de estudio Y, de un


grupo de personas de una localidad del sur de Chile:

Si se quiere calcular el “promedio de edad de las personas que estudiaron 14 años”, se transforma
en un problema de una sola variable:

Como la variable es continua (se debe considerar la marca de clase de la variable edad), el tiempo
promedio es:

20  2  24 1  28  2
Tiempo 
5

Cabe destacar que el total de individuos es 5, ya que son ellos los que cumplen la condición de
estudiar 14 años y que 2 tienen 20 años, 1 tiene 24 y 2, 28 años, entonces:

20  2  24  1  28  2 40  24  56 120
Tiempo     24
5 5 5

Luego, la edad promedio de las personas que estudiaron 14 años es de 24 años.

Ejemplo 2:

Se desea estudiar el promedio de “años de estudio”, pero solo de aquellas personas menores de
26 años:

IACC
6
SEMANA 5– ESTADÍSTICA

Nuevamente se transforma en un problema de una sola variable.

Luego, se tiene:

12  7  13  1  14  3  15  3 84  13  42  45 184
Años     13,14
14 14 14

Así, el promedio de años de estudio para los menores de 26 años es de aproximadamente 13 años.

Ejemplo 3:

Para un grupo de matrimonios la


información de la edad del marido (X)
y la edad de la mujer (Y) está dada en
la siguiente tabla:

a) Determine el porcentaje de matrimonios en que ambos cónyuges tienen entre 20 y 30 años.


b) Determine la media de la edad de las mujeres cuyos maridos tienen a lo más 35 años.
c) Determine cuál rango de edad de los maridos es más homogéneo, ¿de las mujeres que tienen
entre 20 y 25 años o de las que tienen entre 35 y 40 años?

IACC
7
SEMANA 5– ESTADÍSTICA

Solución:

a) El total de matrimonios es de 93 (que es la suma de datos de la tabla).

El número de matrimonios que cumplen con la condición de edad (entre 20 y 30) son:

Es decir:
35 + 7 + 3 + 14 = 59

Luego, el porcentaje es = (59/93) * 100 = 63,44%

b) “A lo más 35 años” significa que la edad de los maridos es menor o igual a dicho número.
Entonces, el grupo que se debe evaluar es:

Así, se puede escribir la tabla de la siguiente manera. Recordar que la marca de clases es
calcular los extremos dividido por dos, es decir y tomando como ejemplo el primer intervalo, se
tiene (20 + 25)/2 = 45/2 = 22,5.

Y(años) N° matrimonios Marca de


Clase Y(años) N° matrimonios Mc*N°matri
20 - 25 40
22,5 20 - 25 40 900
25 - 30 24 27,5 25 - 30 24 660
30 - 35 22 32,5 30 - 35 22 715
35 - 40 6 37,5 35 - 40 6 225
2500

IACC
8
SEMANA 5– ESTADÍSTICA

Luego, si la cantidad total de matrimonios es 92:

2.500
YX 35   27,174
92

Por lo tanto, la media de la edad de las mujeres cuyos maridos tienen a lo más 35 años es de 27
años aproximadamente.

c) Finalmente, para determinar cuál rango de edad de los maridos es más homogéneo, hay que
calcular el coeficiente de variación para las siguientes tablas:

X(años) N° matrimonios X(años) N° matrimonios


20 - 25 35 20 - 25 1
25 - 30 3 25 - 30 3
30 - 35 2 30 - 35 2
35 - 40 0 35 - 40 1

- Para la primera tabla se tiene:

Recordar que las fórmulas son:

Luego:

935 22.100
X 20Y 25   23,375 .    23,375 2  6,11  2,47
40 40

2,47
 CV ( X 20Y 25 )   0,1057  10,57%
23,375

IACC
9
SEMANA 5– ESTADÍSTICA

- Para la segunda tabla se tiene:

Marca de
Clase X(años) N° matrimonios Mc*N°matri Mc^2*N°matrim
22,5 20 - 25 1 22,5 506,3
27,5 25 - 30 3 82,5 2.268,8
32,5 30 - 35 2 65 2.112,5
37,5 35 - 40 1 37,5 1.406,3
207,5 6.293,8

Luego:

207,5
X 35Y 40   29,642
7

6.293,8
  29,642 2  20,46  4,523
7

4,523
 CV ( X 35Y 40 )   0,1526  15,26%
29,642

Por lo tanto el grupo más homogéneo son los matrimonios cuya edad de la mujer es menor a
25 años, ya que su coeficiente de variación es menor.

2. ¿CÓMO SE RELACIONAN LAS VARIABLES?


En este segmento se explicarán tres conceptos básicos de la estadística bivariada muy importantes
para determinar cómo se pueden relacionar las variables, llamadas medidas de correlación, cuya
técnica permite justamente determinar si existe o no relación entre dos o más variables.

2.1. COVARIANZA
La covarianza entre dos variables es una medida estadística para determinar el tipo de relación
entre dichas variables. Se la identificará como: S xy

S xy  XY  X  Y

IACC
10
SEMANA 5– ESTADÍSTICA

Observaciones:

 La covarianza pertenece a los números reales.

 Si S  0  La relación entre la variable x e y es directa, es decir, si una de las variables


xy
aumenta la otra también o si una de ellas disminuye la otra también.

 Si S  0  La relación entre la variable x e y es inversa, es decir, si una de las variables


xy
aumenta la otra disminuye o si una de ellas disminuye la otra aumenta.

 Si S  0  No existe relación entre la variable x e y.


xy

Ejemplo:

Una empresa desea estudiar la relación entre la edad de sus trabajadores y los días no trabajados.
Considerar:

X = edad.

Y = N° de días no trabajados.

Los datos son:

Edad de los N° días no trabajados


trabajadores 0–6 6 – 12 12 – 18
20 – 25 0 4 1
25 – 30 12 6 0
30 – 40 3 4 6
40 – 50 1 2 8
Al completar la tabla con los totales, se calculan los promedios:

IACC
11
SEMANA 5– ESTADÍSTICA

De este modo:

22,5  5  27,5  18  35  13  45  11 1.557,5


Edad    33,14
47 47

3  16  9  16  15  15 417
Dias    8,8723
47 47

Para el promedio de la multiplicación de las variables, observe la siguiente tabla:

Edad N° días no trabajados


0–6 6 – 12 12 – 18 Total fila Mc (Edad)
20 – 25 0/0 4 / 810 1 / 337,5 5 22,5
25 – 30 12 / 990 6 / 1.485 0/0 18 27,5
30 – 40 3 / 315 4 / 1.260 6 / 3.150 13 35
40 – 50 1 / 135 2 / 810 8 / 5.400 11 45
Total columna 16 16 15 N  47
Mc (N° días no 3 9 15
trabajados)

Donde los números destacados se obtienen multiplicando la Mc de X, Mc de Y y la frecuencia (por


ejemplo: 990 = 27,5 * 3 * 12)

0  810  337,5  990  1485  0  315  1260  3150  135  810  5400
Edad  Días   312,61
47

 S xy  XY  X  Y  312,61  33,14  8,8723  18,58  0

Entonces, se puede concluir que la relación es directa, pues, si la edad de los trabajadores
aumenta, los días no trabajados también.

2.2. COEFICIENTE DE CORRELACIÓN


En una distribución bivariada (bidimensional) puede ocurrir que las dos variables tengan algún tipo
de relación entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es
muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor
será su peso. El coeficiente de correlación mide el grado de intensidad de esta posible relación
entre las variables.

IACC
12
SEMANA 5– ESTADÍSTICA

Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir,
si se representara en un gráfico los pares de valores de las dos variables, la nube de puntos se
aproximaría a una recta). No obstante, puede que exista una relación que no sea lineal, sino
exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal no mediría
correctamente la intensidad de la relación de las variables, por lo que convendría utilizar otro tipo
de coeficiente más apropiado.

S
xy
rxy 
S S
x y

Observaciones:

 El coeficiente de correlación pertenece al intervalo:


1  r 1
xy

 Si r 1
xy

La relación entre la variable x e y es lineal con


pendiente positiva, es decir, la nube de
puntos puede aproximarse a una línea recta
con pendiente positiva (una recta creciente).
Por ejemplo, altura y peso: los alumnos más
altos suelen pesar más.

 Si r  1 
xy

La relación entre la variable x e y es lineal con


pendiente negativa, es decir, la nube de
puntos puede aproximarse por una línea recta
con pendiente negativa (una recta
decreciente). Por ejemplo, peso y velocidad:
los alumnos más gordos suelen correr menos.

IACC
13
SEMANA 5– ESTADÍSTICA

 Si r 0
xy

Significa que no existe relación lineal entre la


variable x e y. Aunque podría existir otro tipo
de correlación (parabólica, exponencial, etc.).

Ejemplo:

La siguiente tabla muestra el número de trabajadores y las utilidades (en millones de $) de un


grupo de 56 empresas. Considerar:

X = N de trabajadores.
Y = utilidades (en millones de $).

N° de Utilidades
trabajadores (en millones de $)
1–4 4–8 8 – 12 ni MCi
0 – 100 12 / 1.500 6 / 1.800 0/0 18 50
100 – 200 6 / 2.250 3 / 2.700 1 / 1.500 10 150
200 – 300 4 / 2.500 5 / 7.500 3 / 7.500 12 250
300 – 400 0/0 6 / 12.600 10 / 35.000 16 350
nj 22 20 14 N  56

MC j 2,5 6 10

Calculando el coeficiente de correlación ( r ).


xy

 X  50 18  150 10  250 12  350 16  11.000  196,428


56 56

IACC
14
SEMANA 5– ESTADÍSTICA

2,5  22  6  20  10 14 315


 Y   5,625
56 56
2,5  50 12  6  50  6  10  50  0  2,5 150  6  6 150  3  10 150 1  2,5  250  4
 6  250  5  10  250  3  2,5  350  0  6  350  6  10  350 10
 XY 
56
74.850
  1.336,607
56

Por lo tanto:
S  XY  X  Y  S  1.336 ,607  196 ,428  5,625
xy xy

S  231,6995
xy

Entonces la covarianza indica que existe relación directa entre el número de trabajadores y las
utilidades de las empresas, es decir, a mayor número de trabajadores, mayor cantidad de
utilidades).

2.980 .000  11.000  2


s     14.630 ,102  120 ,955
x 56  56 

2.257 ,5  315  2
s     8,672  2,945
y 56  56 

231,6995
 r   0,65
xy 120 ,955  2,945

El coeficiente de correlación indica que existe relación lineal entre el número de trabajadores y las
utilidades, con pendiente positiva.

2.3. COEFICIENTE DE DETERMINACIÓN


El coeficiente de determinación es un instrumento de medición estadística que sirve para conocer
cuánto influye la variable x (independiente) en la y (dependiente).

IACC
15
SEMANA 5– ESTADÍSTICA

2
 S 
2  xy 
rxy  
 S x S y 
 

Es decir, al calcular el coeficiente de correlación, se eleva al cuadrado.

Siguiendo el ejemplo anterior:

231,6995
rxy   0,65
120 ,955  2,945
231,6995
rxy  ( ) 2  0,42
120 ,955  2,945

Luego, el coeficiente de determinación indica que el 42% de las utilidades son influenciadas por la
cantidad de trabajadores o que el 42% de los trabajadores tiene influencias sobre las utilidades.

3. ESTADÍSTICA BIVARIADA CON EXCEL


Para desarrollar algunos ejemplos en Excel se ocupará la base de datos que se encuentra en el
archivo Excel de esta semana (Contenidos Semana 5.xlsx) y se contestará lo siguiente:

Ejemplo 1:

Construir una tabla que cuente los datos clasificados por rango de estatura y nivel
socioeconómico.

a) ¿Cuántas personas tienen una estatura sobre 161 cm y hasta 179 cm?

b) ¿Cuántas personas tienen una estatura de a lo más 170 cm y poseen un nivel socioeconómico
bajo o medio?

c) ¿Qué porcentaje de personas son de nivel socioeconómico medio o alto?

d) De las personas que tienen una estatura desde 152 cm y hasta 170 cm, ¿qué porcentaje poseen
un nivel socioeconómico bajo?

IACC
16
SEMANA 5– ESTADÍSTICA

Solución:

Para desarrollar este ejercicio, se debe construir una tabla dinámica que presente las variables
descritas, esto es:

Cuenta de ID Nivel socioeconómico


Rango Estatura Bajo Medio Alto Total general
152 - 161 59 122 47 228
161 - 170 56 119 40 215
170 - 179 11 25 21 57
Total general 126 266 108 500

a) ¿Cuántas personas tienen una estatura sobre 161 cm y hasta 179 cm?

Para resolver esto, se debe filtrar la variable Rango Estatura según la o las filas que se deban
ocupar:

Cuenta de ID Nivel socioeconómico


Rango Estatura Bajo Medio Alto Total general
161 - 170 56 119 40 215
170 - 179 11 25 21 57
Total general 67 144 61 272

Entonces, hay 272 personas que tienen una estatura sobre 161 cm y hasta 179 cm.

b) Para saber ¿cuántas personas tienen una estatura de a lo más 170 cm y poseen un nivel
socioeconómico bajo o medio?

Al realizar los filtros se tiene:

Cuenta de ID Nivel socioeconómico


Rango Estatura Bajo Medio Total general
152 - 161 59 122 181
161 - 170 56 119 175
Total general 115 241 356

Hay 356 personas que miden a lo más 170 cm y son de nivel socioeconómico bajo o medio.

c) Ahora ¿qué porcentaje de personas son de nivel socioeconómico medio o alto?

Al realizar los filtros se ordenan los datos como porcentaje del total:
Cuenta de ID Nivel socioeconómico
Rango Estatura Bajo Medio Alto Total general
152 - 161 11,80% 24,40% 9,40% 45,60%
161 - 170 11,20% 23,80% 8,00% 43,00%
170 - 179 2,20% 5,00% 4,20% 11,40%
Total general 25,20% 53,20% 21,60% 100,00%

Por tanto, el 74,8% (53,2% + 21,6%) de las personas son de nivel socioeconómico medio o alto.

IACC
17
SEMANA 5– ESTADÍSTICA

d) Y de las personas que tienen una estatura desde 152 cm y hasta 170 cm, ¿qué porcentaje
poseen un nivel socioeconómico bajo?

Al realizar los filtros se ordenan los datos como porcentaje del total:

Cuenta de ID Nivel socioeconómico


Rango Estatura Bajo Medio Alto Total general
152 - 161 13,32% 27,54% 10,61% 51,47%
161 - 170 12,64% 26,86% 9,03% 48,53%
Total general 25,96% 54,40% 19,64% 100,00%

Entonces el resultado arroja que el 25,96% de los que miden desde 152 cm y hasta 170 cm,
tienen un nivel socioeconómico bajo.

Ejemplo 2:

Construir una tabla que cuente con los datos clasificados por rango de peso y rango de estatura.

a) ¿Cuántas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179 cm?

b) De las personas que miden a lo más 170 cm, ¿qué porcentaje pesa más de 68,5 kg?

c) ¿Con respecto a qué variable la muestra presenta menos variabilidad? Justifique.

Cuenta de ID Rango Estatura


Rango peso 152 - 161 161 - 170 170 - 179 Total general
51,3 - 59,9 106 39 0 145
59,9 - 68,5 111 88 17 216
68,5 - 77,1 11 88 40 139
Total general 228 215 57 500

Solución:

a) La primera pregunta es ¿cuántas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179
cm?

Se obtiene que:

Cuenta de ID Rango Estatura


Rango peso Total general
Total general 0

Entonces, no hay personas que pesan entre 51,3 y 59,9 kg, y que midan entre 170 y 179 cm.

b) Luego, se obtiene la siguiente tabla de acuerdo a los datos obtenidos:

IACC
18
SEMANA 5– ESTADÍSTICA

Cuenta de ID Rango Estatura


Rango peso 152 - 161 161 - 170 Total general
51,3 - 59,9 23,93% 8,80% 32,73%
59,9 - 68,5 25,06% 19,86% 44,92%
68,5 - 77,1 2,48% 19,86% 22,35%
Total general 51,47% 48,53% 100,00%
Aproximadamente un 22,35% de los que miden a lo más 170 cm, pesan más de 68,5 kg.

c) Finalmente para responder qué variable presenta menos variabilidad:

Promedio de Peso (kg) Promedio de Estatura (cm)


Rango peso Total Rango Estatura Total
51,3 - 59,9 57,7 152 - 161 159
59,9 - 68,5 63,4 161 - 170 165
68,5 - 77,1 71,5 170 - 179 173
Total general 64,0 Total general 163

Desvest de Peso (kg) Desvest de Estatura (cm)


Rango peso Total Rango Estatura Total
51,3 - 59,9 1,8 152 - 161 2,2
59,9 - 68,5 2,6 161 - 170 2,6
68,5 - 77,1 2,1 170 - 179 1,8
Total general 5,7 Total general 5,3

CV (peso) = 8,9% CV (estatura) = 3,3%

Otra manera para responder la pregunta de variabilidad, es con el resumen de estadística


descriptiva, de la función análisis de datos.

Para calcular la covarianza y coeficiente de correlación se debe digitar las siguientes fórmulas:

Covarianza:

=COVAR(DATOS_DE_X ; DATOS_DE_Y)

Coeficiente de correlación:

=COEF.DE.CORREL(DATOS_DE_X; DATOS_DE_Y)

IACC
19
SEMANA 5– ESTADÍSTICA

COMENTARIO FINAL
En esta semana se aprendió como introducción el estudio de la estadística bivariada, ya
que es el comienzo de las aplicaciones más comunes de esta área en, por ejemplo,
medicina, psicología, y especialmente en economía y econometría. Sin lugar a dudas, estas
áreas serán beneficiadas con estos conocimientos y herramientas estadísticas aplicadas en
la vida del futuro profesional, que no solo las necesitará, sino que sacará mucho provecho
en su diario quehacer al obtener valiosos resultados inapelables.

IACC
20
SEMANA 5– ESTADÍSTICA

REFERENCIAS
Anderson, D.; Sweeney, D. y Williams, T. (2008). Estadística para administración y economía, 10ª

edición. México: Cengage Learning.

Devore, J. (1998). Probabilidad y estadística para ingeniería y ciencias. México: International

Thomson Editores.

Levin, R.; Rubin, D.; Balderas, M.; Del Valle, J. C. y Gómez, R. (2004). Estadística para

administración y economía. 7ª edición. México: Pearson, Prentice-Hall.

Ross, S. (1997). A first course in probability. Berkeley: Universidad de California.

IACC
21
SEMANA 5– ESTADÍSTICA

PARA REFERENCIAR ESTE DOCUMENTO, CONSIDERE:

IACC
22
SEMANA 5– ESTADÍSTICA

IACC (2018). Estadística bivariada. Estadística. Semana 5.

IACC
23
SEMANA 5– ESTADÍSTICA

IACC
24

Potrebbero piacerti anche