Sei sulla pagina 1di 20

INTRODUCCIÓN

La línea divisoria entre un estudio univariado y uno bivariado radica en que éste último busca
estrictamente analizar dos variables en conjunto, que bien podríamos denotar como “X” y “Y”
buscando probar relaciones simples de causalidad o asociación.

El fin básico del análisis bivariado es la investigación de la relación entre dos conjuntos de
datos, como pares de observaciones tomadas de una misma muestra o individuo.

En estadística una variante específica de los estudios bivariados recibe el nombre de “análisis
correlacional” simple, a través del cual se busca demostrar que existe una relación
significativa directa o inversa entre dos variables. Existe una correlación directa entre dos
variables cuando un aumento en la “variable control” (independiente) provoca un cambio
similar en la “variable resultado” (dependiente). En simples palabras los estudios
bivariados miden la relación entre dos variables (Cansino, 2019).
En este caso de estudio se ilustra de forma práctica la utilidad de un estudio estadístico
bivariado aplicado a los negocios.

1. PLANTEAMIENTO DEL PROBLEMA

El administrador de una cadena de almacenes departamentales le gustaría desarrollar un


modelo para predecir las ventas semanales (en miles de dólares) de cada tienda. Se
seleccionó una muestra de 20 almacenes de todos los que conforman la cadena.

2. OBJETIVO DEL EXPERIMENTO

Objetivo General

 Desarrollar un modelo para predecir las ventas semanales de cada tienda.

Objetivo Específico

 Seleccionar una muestra del total de almacenes que conforman la cadena.


 Determinar el total de ventas por semana de cada almacén en la muestra.
 Determinar el total de clientes por semana en cada almacén en la muestra.
 Procesar estadísticamente los datos obtenidos.
 Realizar un análisis estadístico bivariado
3. HIPÓTESIS

4. ANÁLISIS DESCRIPTIVO DE LAS VARIABLES EXCEL Y SPSS

5. ANÁLISIS DE REGRESIÓN LINEAL

6. CONCLUSIONES

7. INFOGRAFÍA – BIBLIOGRAFÍA

Cansino M. (2019). Diferencias entre análisis bivariado y multivariado. En: Cuida tu dinero. Recuperado
de: https://www.cuidatudinero.com/13103865/diferencias-entre-analisis-bivariado-y-multivariado
PROBLEMA 1
El administrador de una cadena de almacenes departamentales le gustaría desarrollar un modelo para
predecir las ventas semanales (en miles de dólares) de cada tienda. Se seleccionó una muestra de 20
almacenes de todos los que conforman la cadena. a continuación, la tabla de datos:
Ventas Semanales
Almacenes Clientes (miles $) 12 872 9.43

1 907 11.2 13 924 9.46

2 926 11.05 14 607 7.64

3 506 6.84 15 452 6.92

4 741 9.21 16 729 8.95

5 789 9.42 17 794 9.33

6 889 10.8 18 844 10.23

7 874 9.45 19 1010 11.77

8 510 6.73 20 621 7.41

9 529 7.24 10 420 6.12

11 679 7.63

1. Describir cada uno de sus datos Explique


CLIENTES VENTAS SEMANALES (MILES $)

Media 731.15 Media 8.81


Error típico 40.22 Error típico 0.37
Mediana 765.00 Mediana 9.27
Moda #N/A Moda #N/A
Desviación estándar 179.85 Desviación estándar 1.64
Varianza de la muestra 32347.50 Varianza de la muestra 2.70
Curtosis -1.20 Curtosis -1.02
Coeficiente de asimetría -0.33 Coeficiente de asimetría 0.06
Rango 590.00 Rango 5.65
Mínimo 420.00 Mínimo 6.12
Máximo 1010.00 Máximo 11.77
Suma 14623.00 Suma 176.11
Cuenta 20.00 Cuenta 20.00

EXPLICACIÓN
La estadística descriptiva nos indica que los 20 almacenes, reciben en promedio 731 clientes y tienen 8,81
ventas por semana. La mediana de los clientes nos dice que la mitad de la cantidad de clientes están por
encima de 765 y la otra mitad por debajo de 765, de igual manera en las ventas la mediana indica que la mitad
de las ventas están por encima de 9,27 y la otra mitad por debajo de 9,27.
La desviación estándar de los datos de los clientes nos indica que hay 179 de desviación de los datos con
respecto a 731 que es el valor de la media, y en la venta la desviación con respecto a la media que es de 8,81
es de 1,61.
La curtosis de ambas variables es negativa, esta nos indica el grado de concentración de los datos en la
región central de la distribución, siendo ambos menores de 3 es de forma platicurtica.
La asimetría es negativa para los datos de la variable cliente y asimétrica positiva para la variable ventas
semanales.
2. Muestre el diagrama de dispersión de sus datos

Con el diagrama de dispersión podemos tener una idea a simple vista de la relación de causalidad que
existe entre las dos variables. También nos indica si la relación es directa o inversamente proporcional
En este caso a mayor cantidad de clientes mayor venta, la relación es de proporcionalidad directa.

3. Muestre los gráficos de probabilidad normal de sus datos. Explique

HISTOGRAMA
VENTAS SEMANALES

HISTOGRAMA
CLIENTES
DISTRIBUCIÓN NORMAL VENTAS SEMANALES
0.3

0.25

0.2

0.15

0.1

0.05

0
0 2 4 6 8 10 12 14

4. ¿Cuál es su variable dependiente?


La variable dependiente son las ventas semanales, se observa el aumento de las ventas conforme aumenta
los clientes
5. ¿Cuál son sus variables independientes?
La variable independiente son los clientes, los clientes determinan el crecimiento de las ventas y esta
variable no es influenciada, al menos en este modelo.

6. Analice los coeficientes de regresión

Coeficientes
Intercepción 2.3106
Variable X 1 0.0089

VENTAS SEMANALES = 0.0089X(CLIENTES) +2.3106


Y= 0.0089X+2.3106

RESPONDE AL MODELO LINEAL: Y= a+ bx


Donde:
a= 2.3106, término independiente, es la ordenada en el origen y corresponde a la altura donde la recta corta
el eje de la ordenada.

b.= es la pendiente de la recta, también llamado coeficiente de regresión y denota el incremento que se
produce en las ventas, cuando la variable cliente se incrementa en una unidad. En el caso particular de este
modelo por cada incremento de una unidad de la variable cliente, las ventas se incrementan en 0.0089
unidades. Como el coeficiente de regresión es positivo, hay una relación de proporcionalidad directa, debido
que al aumentar la variable clientes, también aumenta la variable ventas semanales.
7. Explique los coeficientes tanto los positivos como los negativos
El coeficiente de regresión b puede ser mayor que cero indica una relación de proporcionalidad directa, el
aumento de la variable x provoca un aumento en la variable y.
El coeficiente de regresión b pude ser menor que cero lo cual indica una relación de proporcionalidad
inversa, cuando x aumenta y disminuye.
8. Cuál es el valor de intersección. ¿Qué significado tiene para usted?

Intersección con el eje de las Y, es el término


independiente y si se prolonga la recta de
regresión hacia el eje de las ordenadas, se
observa que el valor es de 2, corresponde al
término independiente en la ecuación de
regresión. Y este valor nos indica el incremento
en unidades de la variable y cuando aumenta la
variable x en una unidad.

El modelo nos dice que, si no entra ningún cliente a los almacenes, las ventas semanas estarán por el orden
de los 2,433

9. Cuantos grados de libertad tiene su problema. Explique.


Los grados de libertad son los números de valores que pueden ser asignados arbitrariamente, en el ejemplo
observamos 19 grados de libertad

10. Cuál es el coeficiente de determinación (R^2)

Coeficiente de determinación R^2 0.944271882

Es el coeficiente R de Pearson elevado al cuadrado, no indica la proporción de la variación en Y explicada


por X. Así podemos decir que las ventas semanales son explicadas en un 97% por la variable clientes.

11. ¿Cuáles son las principales características del coeficiente de determinación múltiple? (R)

Coeficiente de correlación múltiple 0.971736529

El coeficiente de determinación múltiple (Pearson) mide el grado de asociación lineal entre dos variables X e

Y, en este caso las ventas semanales versus clientes. Puede variar de -1 a 1 donde -1 implica una relación

negativa perfecta y 1 una relación positiva perfecta. La relación clientes versus ventas semanales tienen un

R=0.97 implica una relación positiva muy fuerte entre ambas variables.
12. Pruebe el Modelo. Planteando las hipótesis correspondientes. Utilizando la distribución F.

Y=0.0089X +2.32
Ventas = 0.008729338X +2.423044396

Si el número de clientes es 506 cuanto serán las ventas.

Ventas= 2.423 + .00873 (506) = 6.84

Si el número de ventas es de 907 cuanto serán las ventas.

Ventas = 2.423 + 0.00873(907) = 10.34

Si no entra ningún cliente, si x=0 las ventas están por el orden 2,320 miles.

Hi: la variable ventas es dependiente del número de clientes.

H0: la variable ventas no es dependiente del número de clientes.

ANOVA
df SS MS F Significancia F
Regresión 1 46.8335409 46.8335409 186.2188 6.20621E-11
Residual 18 4.526954104 0.25149745
Total 19 51.360495

Como se puede ver en el análisis de regresión, la F es de 186.22, la significancia de F menor de 0.05 por lo
que con un nivel significancia estadística de 5%, se rechaza H0 y por tanto la variable venta es dependiente
del número de clientes.

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 2.323840499 0.497803387 4.668189407 0.0002
Variable X 1 0.008914258 0.000662086 13.46389894 7.7454E-11

H0: Reg = 0 H0: B1 = 0


H1: Reg ≠ 0 H1: B1 ≠ 0

Mediante este contraste se comprueba si, de forma global, el modelo lineal es apropiado para
modelizar los datos. En nuestro ejemplo, se muestra un valor del estadístico de contraste F de
186.2188 con un p_valor = 6.20621E-11. Deduciendo que a un nivel de significación del 5%, (p_
valor < 0.05), rechazamos la hipótesis nula, y podemos concluir que el modelo lineal es adecuado
para nuestro conjunto de datos.

13. Evalúe los coeficientes de regresión y corra el nuevo modelo. Muestre su nueva Ecuación.

Almacenes Clientes Ventas Semanales x.y x2


(miles $)

1 907 11.20 10158.4 822649

2 926 11.05 10232.3 857476

3 506 6.84 3461.04 256036

4 741 9.21 6824.61 549081

5 789 9.42 7432.38 622521


6 889 10.08 8961.12 790321

7 874 9.45 8259.3 763876

8 510 6.73 3432.3 260100

9 529 7.24 3829.96 279841

10 420 6.12 2570.4 176400

11 679 7.63 5180.77 461041

12 872 9.43 8222.96 760384

13 924 9.46 8741.04 853776

14 607 7.64 4637.48 368449

15 452 6.92 3127.84 204304

16 729 8.95 6524.55 531441

17 794 9.33 7408.02 630436

18 844 10.23 8634.12 712336

19 1010 11.77 11887.7 1020100

20 621 7.41 4601.61 385641

sumatoria 14623 176.11 134127.9 11306209

Y = b + mx
m = ∑xy – (∑x) (∑y) /n = 134127.9- 128762.8
∑x2 – (∑x)2 11306209 – 10691606
m= 0.008729
b = ∑y/n – m ∑x/n
b = 8.8055 - = 0.08729 * 6.382456
b = 2.423044
y = 2.423044 + 0.008729x
GRÁFICO 1 GRÁFICO 2
VENTAS SEMANALES VS VENTAS SEMANASLES VS CLIENTES,
CLIENTES DATOS AJUSTADOS

14 12

12 10
10 8
8
6
6
4
4 y = 0.0089x + 2.3238
R² = 0.9097 y = 0.0089x + 2.3238
2 2
R² = 1
0 0
0 500 1000 1500 0 200 400 600 800 1000 1200

En los diagramas de dispersión con sus respectivas líneas de tendencia, observamos en el primer gráfico
puntos más dispersos, con respecto a las líneas de tendencia, en el gráfico número 2 observamos los puntos
que coinciden en mayor número con la línea de tendencia. Obsérvese los coeficientes de determinación, el
cual mide la bondad del ajuste, en gráfico uno R2 = 0.90 y una recta mejor ajustada evidenciado por R2 =1
PROBLEMA 2 ANALISIS MULTIVARIANTE. REGRESIÓN LINEAL MÚLTIPLE
El Gerente de una compañía para realizar el reporte anual al presidente de la misma, requiere presentar
un análisis del personal asalariado, la empresa tiene más de 1000 empleados y decide hacer una muestra
de 20 y estos son los datos:

Antigüedad
Salario (mensual) Meses) Edad Género Puesto
Y X1 X2 X3 X4
1769 93 42 1 0
1740 104 33 1 0
1941 104 42 1 1
2367 126 57 1 1
2467 98 30 1 1
1640 99 49 1 1
1756 94 35 1 0
1706 96 46 0 1
1767 124 56 0 0
1200 73 23 0 1
1706 110 67 0 1
1985 90 36 0 1
1555 104 53 0 0
1749 81 29 0 0
2056 106 45 1 0
1729 113 55 0 1
2186 129 46 1 1
1858 97 39 0 1
1819 101 43 1 1
1350 91 35 1 1
¿Influyen las 4 variables en el Salario?
El modelo que se desea construir: (Género: 0 femenino, 1 Masculino); (Puesto: 0 Administrativo, 1
Técnico).

Salario Mensual = b0 +b1 Antigüedad+ b2Edad+ b3 Género+b4 Puesto


1. Describir cada uno de sus datos… Explique
2. Muestre el diagrama de dispersión de sus datos
3. Muestre los gráficos de probabilidad normal de sus datos. Explique
4. ¿Cuál es su variable dependiente?
5. ¿Cuál son sus variables Independientes?
6. Analice los coeficientes de regresión
7. Explique los coeficientes tanto positivos como negativos si los hay.
8. Cuál es el valor de la intersección. ¿Qué significado tiene para usted?
9. ¿Cuántos grados de libertad tiene su problema? Explique.
10. ¿Cuál es el Coeficiente de Determinación?
11. ¿Cuáles son las principales características del Coeficiente de Determinación Múltiple?
12. Pruebe el Modelo. Planteando las hipótesis correspondientes. Utilizando la distribución F.
13. Evalúe los coeficientes de regresión y corra el nuevo modelo. Muestre su nueva Ecuación.

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.664974689
Coeficiente de determinación R^2 0.442191337
R^2 ajustado 0.29344236
Error típico 252.4495253
Observaciones 20

Coeficientes
Intercepción 454.1347944
Variable X 1 17.72229425
Variable X 2 -12.4458469
Variable X 3 86.93745973
Variable X 4 76.41861703

ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 4 757818.758 189454.689 2.972735316 0.054170722
Residuos 15 955961.442 63730.7628
Total 19 1713780.2
PROBLEMA 3. PROBABILIDAD
En cierta ciudad el porcentaje de personas que leen los periódicos A, B, y C y sus combinaciones es como
sigue
A= 9.8% A y B =5.1%
B= 22.9% A y C = 3.75 A,B, y C= 2.4%
C=12.1% B Y C=6.0%

2.70
3.35 13.9

2.4

1.35 3.6

4.75

a. ¿Qué porcentaje de la población lee alguno de los periódicos?


La población que lee alguno de los 3 periódicos, está contenido en el diagrama de Ven, el periódico
A: 3.35% A Y B: 2.70% A, B Y C: 2.4%
B: 13.9% A Y C: 1.35%
C: 4.75% B Y C: 3.6%

El 32.05% de la población al menos lee alguno de los tres periódicos.

PROBLEMA 4. Un saco contiene 3 bolas rojas, 4 blancas y 5 azules, todas del mismo tamaño y material.
Si el experimento consiste en extraer 3 de estas bolas, una a una, sin reposición.
a. ¿Cuál es la probabilidad de obtener una de cada color?

3R TOTAL DE BOLAS: 12
4B
5A
a. P = Prba+Pabr+Pbar+Prab+Parb+Pbra
P= 3/12*4/11*5/10 + 5/12*4/11*3/10 + 4/12*5/11*3/10 + 3/12*5/11*4/10 + 5/12*3/11*4/10 +
4/12*3/11*5/10
P = 3/11

b. Que las tres sean rojas.


P= 3/12*2/11*1/10
P = 1/220

PROBLEMA 5 Una encuesta de 34 estudiante mostró que estos tienen las siguientes especialidades:
Contabilidad 10
Finanzas 5
Economía 3
Administración 6
Logística 10

Suponga que elige un estudiante y observa su especialidad


a. ¿Cuál es la probabilidad de que un estudiante tenga una especialidad en Finanzas?

P= 5/34 o 0.147

b. ¡Qué concepto de probabilidad utilizó para hacer este cálculo?


La ley de la probabilidad simple que dice que la probabilidad de que ocurra un evento es igual a el
evento probable entre el número total de eventos.

PROBLEMA 7. Un operador de máquinas debe llevar a cabo 4 verificaciones de seguridad antes de arrancar
la máquina, no importa el orden en el que realice las verificaciones.
a. ¿De cuántas formas puede realizar las verificaciones?

4P4 = 4! = 24 = 24
(4-4)! 1

PROBLEMA 8. Un encuestador ha formulado 15 preguntas diseñadas para medir el desempeño del


Presidente, el encuestador seleccionará 10 de las preguntas
a. ¡cuántas distribuciones de las 10 preguntas se pueden formar tomando en cuenta el orden?
El número de variaciones n=10 y m=15

V m, n = m! = 15! = 10,897,286,400
(m-n)! (15-10)!

PROBLEMA 9. Se realiza una encuesta para consumidores que visitan una tienda, las preguntas van en
función de las cantidades relativas que van a la tienda (con frecuencia, ocasionalmente o nunca) y con el
hecho de si la tienda está ubicada en un lugar conveniente, (Si, No)
Lugar Conveniente
Visitas Si No Total
Con Frecuencia 60 20 80
Ocasionalmente 25 35 60
Nunca 5 50 55
Total 90 105 195

a. ¿El número de visitas y la ubicación del lugar son variables independientes? De la razón e
Interprete.
La variable lugar conveniente es la variable independiente, ya que esta es la que va a condicionar
las visitas, que es la variable dependiente. Obsérvese que cuando el opinan que el el lugar si es
conveniente las visitas son más frecuentes, y cuando opinan que el lugar no es conveniente las
visitas son menos numerosas.

b. Dibuje un diagrame del árbol y determine las probabilidades conjuntas.


DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL

La última novela de un autor ha tenido un gran éxito, hasta el punto de que el 80% de
los lectores ya la han leído. Un grupo de 4 amigos son aficionados a la lectura:
¿Cuál es la probabilidad de que en el grupo hayan leído la novela 2 personas?
Solución:

¿Y cómo máximo 2?
Solución:

DISTRIBUCIÓN DE PROBABILIDAD DE POISSON

Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba
a) cuatro cheques sin fondo en un día dado
b) 10 cheques sin fondos en cualquiera de dos días consecutivos?

Solución: propuesta A
x = variable que nos define el número de cheques sin fondo que llegan al banco en
un día cualquiera
l = 6 cheques sin fondo por día
e = 2.718

Solución de la propuesta B
x= variable que nos define el número de cheques sin fondo que llegan al banco en
dos días consecutivos
l = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días
consecutivos

DISTRIBUCIÓN DE PROBABILIDA CONTINUA VALOR ESPERADO


Andrés crea el siguiente juego para su amigo Claudio. Coloca en una urna 2 bolitas
rojas, 3 bolitas negras y 1 bolitas blancas. Le ofrece sacar dos bolitas una a
continuación de la otra con el siguiente convenio; si es que salen dos bolitas rojas él
le pagará $2.400, si sale solo una roja Claudio perderá $300 y si no sale ninguna roja
también perderá $400. Por lo tanto, ¿Le conviene participar a Claudio?
Para responder esta pregunta vamos a calcular el valor esperado de este juego:

Ahora calculamos la esperanza tomando como valor de la variable aleatoria las


ganancias o pérdidas del juego:

Que la esperanza de este juego sea negativa, quiere decir que el juego es injusto, o
sea, que, si Claudio accede a jugar este juego muchas veces, en promedio perderá
aproximadamente $160 por cada juego.

DISTRIBUCIÓN DE PROBABILIDAD NORMAL


En una ciudad se estima que la temperatura máxima en el mes de junio sigue una
distribución normal, con media 23° y desviación típica 5°. Calcular el número de días
del mes en los que se espera alcanzar máximas entre 21° y 27°
MUESTREO
Suponga que estamos investigando sobre el porcentaje de alumnos que trabajan de
una población de 20 alumnos de la Universidad de Talca.
Base de datos de la población:

Elija una muestra aleatoria simple de tamaño n=4 de esta población. Use la tabla de
números aleatorios adjunta, empiece en la fila 1 columna 1 y continúe seleccionando
hacia la derecha. Indique los pasos para elegir la muestra.

Respuesta: Primero: Asignamos número a cada alumno del 1 al 20:


Segundo:
Buscamos en la tabla de números aleatorios 4 números, de dos dígitos, entre el 1 y
el 20, sin repetir.

Los números seleccionados son: 10, 1, 11, 20.


Por lo tanto, la muestra está compuesta por:
*10: Victoria que SI trabaja.
*1: Juan que SI trabaja.
*11: María que NO trabaja.
*20: Marcelo que SI trabaja.

DISTRIBUCIÓN MUESTRAL DE LA MEDIA


En la tabla siguiente se ven las muestras, las medias de las muestras y los errores
muestrales:
La media de los errores muestrales es e, es:

ESTIMACIONES
En una muestra aleatoria simple de tamaño 3 de una variable aleatoria normal de
media μ y desviación típica 1, se consideran los estimadores para μ:

Estudiamos cuál de ellos tiene menor error cuadrático medio:


Para compararlos, resolvemos la desigualdad que es cierta si |μ|
>1.725 .
Por tanto, si sabemos que |μ| >1.725, el estimador U3 tiene menor ECM; si |μ| >1.725,
el estimador U4 tiene menor ECM.

Potrebbero piacerti anche