Sei sulla pagina 1di 12

i

Trabajo colaborativo
Intervalos de confianza

Bastidas Castillo Mónica Dayana


Chavarro Mahecha Luis Jerónimo
Mejía Montoya Omar Andrés
Rivas Hurtado Luisa María
Rodríguez Giraldo Tatiana María

Abril 2020

Institución Universitaria Politécnico Grancolombiano


Facultad de ingeniería y ciencias básicas
Ingeniería Industrial
Estadística Inferencial
Manuel Alvarado Martínez
ii

Tabla de Contenido

OBJETIVOS ....................................................................................................................... 1
DESCRIPCIÓN .................................................................................................................. 2
DESARROLLO DEL TRABAJO COLABORATIVO ...................................................... 3
Bibliografía ....................................................................................................................... 10
1

OBJETIVOS
• Comprender el procedimiento para construir intervalo de confianza para estimar
la diferencia de dos promedios poblacionales e interpretarlo.
• Identifica variables constantes y parámetros, y las relaciones que pueden existir
entre ellos y su representación matemática.
• Desarrolla la estimación de parámetros mediante el uso de intervalos de confianza.
2

DESCRIPCIÓN

El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las


transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el
comportamiento de compra del cliente frente a diferentes productos. Específicamente, el
problema que estamos tratando de predecir la variable dependiente (el monto de la
compra) con la ayuda de la información contenida en las otras variables.

Las variables del archivo adjunto son las siguientes:

Tabla 1. Variables para la elaboración del trabajo.


User_ID Identificador único del comprador

Product_ID Identificador único del producto.

Gender Sexo del comprador

Age Edad del comprador dividida en contenedores

Occupation Ocupación del comprador.

City_Category Lugar de residencia del comprador.

Stay_In_Current_City_Years Número de años en la ciudad actual.

Marital_Status Estado civil del comprador

Product_Category_1 Categoría de producto de compra

Product_Category_2 El producto puede pertenecer a otra categoría

Product_Category_3 El producto puede pertenecer a otra categoría

Purchase Valor de la compra en dólares

Adjunto está el archivo en Excel con los datos de cada variable.


3

DESARROLLO DEL TRABAJO COLABORATIVO


Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:
1. Realice un histograma y explique la forma y la curtosis según el contexto.

Se organizaron los datos en la siguiente tabla de frecuencias:


Tabla 2. Tabla de frecuencias variable (Purchase)
INTERVALO DE CLASE Marca de Frecuencia Frecuencia Frecuencia
Lim. Inferior Lim. Superior Clase absoluta acumulada relativa
185 1.374 779 8.116 8.116 1,51%
1.375 2.564 1.969 24.059 32.175 4,48%
2.565 3.753 3.159 29.015 61.190 5,40%
3.754 4.943 4.349 28.224 89.414 5,25%
4.944 6.133 5.539 68.837 158.251 12,81%
6.134 7.323 6.728 61.270 219.521 11,40%
7.324 8.513 7.918 69.602 289.123 12,95%
8.514 9.702 9.108 35.438 324.561 6,59%
9.703 10.892 10.298 39.408 363.969 7,33%
10.893 12.082 11.488 39.674 403.643 7,38%
12.083 13.272 12.677 18.703 422.346 3,48%
13.273 14.462 13.867 5.791 428.137 1,08%
14.463 15.651 15.057 30.782 458.919 5,73%
15.652 16.841 16.247 33.258 492.177 6,19%
16.842 18.031 17.437 1.973 494.150 0,37%
18.032 19.221 18.626 11.912 506.062 2,22%
19.222 20.411 19.816 23.138 529.200 4,30%
20.412 21.600 21.006 6.061 535.261 1,13%
21.601 22.790 22.196 10 535.271 0,00%
22.791 23.961 23.376 2.306 537.577 0,43%
Suma 537.577 Porcentaje 100,00%

POBLACION (N) 537.577


VALOR M INIM O Xi 185
VALOR M AXIM O Xj 23.961
RANGO 23.776
N° INTERVALOS 20
AM PLITUD DE CLASE 1.189
DIFERENCIA 1

COEFICIENT E DE
ASIMET RIA
0,62
CURTOSIS -0,34
4

A partir de la tabla anterior se realizó el siguiente histograma:

Forma:
• El coeficiente de asimetría es igual a 0.62 por ende el histograma tiene una
asimetría positiva >0, pues la cola de la distribución se alarga hacia la derecha lo
que indica que la media es mayor que la mediana.
• La curtosis es igual a -0.34 tiene una distribución Platicúrtica <0, lo que quiere
decir que hay poca concentración de datos en la media.

2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de


variación e interprete los resultados.

Los datos de estadística descriptiva obtenidos fueron los siguientes:

DATOS ES TADIS TICA DES CRIPTIVA

M EDIA 9.334
M EDIANA 8.062
M ODA 6.855
DESV.ESTANDAR 4.981
COEF. VARIACION 0,53
5

Interpretación de los resultados:


• El valor que se ubica en la mitad de las ventas es de $ 8062 USD.
• El valor de la compra que más se repitió fue de $ 6855 USD.
• El valor promedio de gasto en el black-friday es de $ 9334 USD.
• La desviación entre los datos es muy alta ya que es de 4981 USD.
• El coeficiente de variación, que informa acerca de la dispersión relativa de un
conjunto de datos es de 53% lo cual puede indicar que la muestra no es la
adecuada y los datos no son fiables.

3. En relación con las variables dadas en la tabla anterior, responda y justifique los
resultados:
3.1.¿Cuál es la categoría de edades que más realiza compras en el black-
friday?
Esta operación se realizó mediante la organización y filtración de datos de las
variables edad y valor de la compra en dólares obteniendo como resultado lo
siguiente:
EDAD VALOR DE COMPRA No. de compras
0-17 $ 132.659.006 14707
18-25 $ 901.669.280 97634
26-35 $ 1.999.749.106 214690
36-45 $ 1.010.649.565 107499
46-50 $ 413.418.223 44526
51-55 $ 361.908.356 37618
55+ $ 197.614.842 20903
Total general $ 5.017.668.378 537577

Se identifica que la edad que más realiza compras se encuentra entre los 26-35 años,
con un total en compras de 214690 de las 537577 y el valor total de $1.999.749.106
USD.
6

3.2.¿Cuál es promedio de gatos de la categoría de la edad que más compra?


Para realizar este procedimiento se usó la herramienta análisis de datos de la edad de
26-36 años y el resultado fue el siguiente:

Purchase

Media 9314,59
Error típico 10,7351219
Mediana 8043
Moda 7167
Desviación estándar 4974,08141
Varianza de la muestra 24741485,9
Curtosis -0,36322637
Coeficiente de asimetría 0,63257606
Rango 23776
Mínimo 185
Máximo 23961
Suma 1999749106
Cuenta 214690

Lo anterior nos arrojó el resultado de la media que indica el promedio es igual a


$9315 USD.
7

3.3.¿La proporción de hombres que compran es mayor que la de mujeres?


𝑥
Para la solución de este punto aplicamos la fórmula: 𝑝 = 𝑁 donde x es el numero de

veces que se ha presentado la variable de interés y N el, el numero de datos total de la


muestra, obteniendo de esta manera los siguientes datos.

VALOR TOTAL DE LAS


$ 5.017.668.378
COMPRAS
POBLACION (N) 537.577

POBLACION DE MUJERES 132.197


POBLACION DE
405.380
HOMBRES
PROMEDIO GENERAL 9.334

MUJERES (x) HOMBRES (x)


CANTIDAD DE
132.197 405.380
POBLACION
VALOR DE LAS COMPRAS $1.164.624.021 $3.853.044.357

PROPORCIÓN 25% 75% 100%

• En resumen efectivamente la proporción de hombre que compran es mayor que


las mujeres ya que este corresponde al 75% del conjunto total de datos de la
población.

3.4.¿Cuánto es el promedio de gasto de los hombres y las mujeres?

El promedio de gastos de los hombres y las mujeres es igual a:


MUJERES HOMBRES

PROMEDIO DE GASTOS $8.810 $9.505

• El género femenino durante el BlackFriday fue de 8810 USD.


• El género masculino durante el BlackFriday fue de 9505 USD.
8

4. Intervalos de confianza
4.1.Proponga una alternativa para determinar el tamaño de una muestra
para la variable compra (Purchase).
• Se relaciona las dos propuestas:

POBLACIÓN FINITA POBLACIÓN INFINITA


Se considerada finita por tener un número Ligada a la teoría que indica que una
limitado de elementos y por conocer el muestra es infinita cuando tiene más de
número de esta por ende se utilizaría la 100.000 elementos la formula a utilizar es
siguiente formula: la siguiente:
𝑍2 ∗ 𝑁 ∗ 𝑝 ∗ 𝑞 𝑍2 ∗ 𝑝 ∗ 𝑞
𝑛= 2 𝑛=
𝑒 ∗ (𝑁 − 1) + (𝑍 2 ∗ 𝑝 ∗ 𝑞) 𝑒2

n= Tamaño de muestra buscado

Z= Parámetro estadístico que depende el Nivel de confianza (NC)

p= Probabilidad de que ocurra el evento estudiado (Se desconoce 50%)

q= (1-p) = Probabilidad de que no ocurra el evento (Se asigna 50%)

e= Error de estimación máximo aceptado.

N= Tamaño de la población ya conocemos la población (537577) (Aplica para población finita)

• Los resultados aplicando la formula fueron los siguientes con un nivel de


confianza del 95% y error de estimación máximo de 5%:

POBLACIÓN FINITA POBLACIÓN INFINITA


N 537577 Z 1,96
Z 1,96 P 50%
P 50% Q 50%
Q 50% e 5%
e 5% 0,96
=
516289 0,00
=
1345 Tamaño de muestra
Tamaño de muestra 384
384

Se identifica que no hay ninguna diferencia en la aplicación de las fórmulas,


9

4.2.Asumiendo que los datos son normales, calcule un Intervalo de confianza


al 95% para la diferencia de los gastos para los hombres y mujeres e
interprete el resultado obtenido.

Para resolver este problema hallaremos el intervalo de confianza para la diferencia de


medias al 95% y comprobaremos si dicho intervalo contiene el valor de 0.

• Se calcula el intervalo de confianza para la varianza definido por:

𝜎12 𝜎22
̅̅̅1 − 𝑋̅2 ) ± 𝑍√
(𝑋 +
𝑛1 𝑛2

• El intervalo de confianza será entonces:

50512 47212
(9505 − 8810) ± 1.96√ +
405380 132197

𝟔𝟔𝟓. 𝟏𝟗 < 𝝁𝟏 − 𝝁𝟐 < 𝟕𝟐𝟒. 𝟖𝟒

El intervalo de diferencia de medias esta entre 665.19 y 724.84 con una confiabilidad del
95% como este intervalo no contiene el valor 0 y las diferencias son positivas, se puede
decir que los hombres gastan más que las mujeres.
10

Bibliografía
Jordi Olle Sanchez. (17 de Abril de 2020). Conceptos claros. Obtenido de Intervalo de
confianza: https://conceptosclaros.com/intervalo-confianza/

Mario Orlando Suárez Ibujes. (30 de Marzo de 2020). Monografias. Obtenido de Medidas
de forma: https://poli.instructure.com/groups/158205/discussion_topics/156636

Matematicas. (29 de Marzo de 2020). 100CIA.SITE. Obtenido de Curtosis:


https://100cia.site/index.php/matematicas/item/3481-que-es-la-curtosis-en-
estadistica

Universo de formulas. (27 de Marzo de 2020). Universo de formulas. Obtenido de


Estadistica descriptiva asimetria y curtosis:
https://www.universoformulas.com/estadistica/descriptiva/asimetria-curtosis/

Potrebbero piacerti anche