Sei sulla pagina 1di 2

Ejercicio para la primera práctica calificada de EST218 Estadística para Ingeniería (2018-

II)

Para que una compañía de seguros de salud tenga ganancias, necesita recaudar más en primas
anuales de lo que gasta en atención médica a sus beneficiarios. Como resultado, las aseguradoras
invierten una gran cantidad de tiempo y dinero en el desarrollo de modelos que pronostican con
precisión los gastos médicos para la población asegurada.

Los gastos médicos son difíciles de estimar porque las condiciones más costosas son raras y
aparentemente aleatorias. Aun así, algunas condiciones son más prevalentes para ciertos
segmentos de la población. Por ejemplo, el cáncer de pulmón es más probable entre los fumadores
que entre los no fumadores, y la enfermedad cardíaca puede ser más probable entre los obesos.

Haciendo un análisis a los datos de pacientes se podría estimar los gastos promedio de atención
médica para dichos segmentos de la población. Estas estimaciones se pueden usar para crear
tablas actuariales que establecen el precio de las primas anuales más altas o más bajas,
dependiendo de los costos de tratamiento esperados.

En el libro de Brett Lantz, Machine Learning with R (2015), se describe un conjunto de datos
simulados de gastos médicos para pacientes en los Estados Unidos, donde dicha información fue
creada utilizando estadísticas demográficas de la Oficina del Censo de EE. UU. El conjunto de datos
que se encuentra en el archivo insurance.csv en la intranet, tiene 1338 observaciones y 7
variables:

X1 – edad del asegurado principal (age).


X2 – género del asegurado principal, femenino, masculino (sex).
X3 – Índice de masa corporal del asegurado principal, índice objetivo de peso corporal (kg/m^2)
usando la relación de altura a peso, idealmente de 18.5 a 24.9 (bmi).
X4 – Número de niños cubiertos por el seguro de salud (children)
X5 – Fumador (smoker).
X6 – Área residencial del asegurado en los EE. UU., noreste, sureste, suroeste, noroeste. (region).
Y1 – Costos médicos facturados en un año por el seguro de salud (charges).

Use R para realizar lo siguiente:

a) Importe los datos en R con el nombre de datos, con el comando

datos = read.csv("insurance.csv") # Colocar la ruta del archivo

o también puede importar los datos usando

datos = read.csv(file.choose())

en este caso debe buscar el archivo en el cuadro de diálogo.

b) Realice la tabla de distribución de frecuencias y el histograma de la variable Y1. Considere 7


intervalos de clase.
c) Realice la tabla de distribución de frecuencias y el histograma de la variable X3. Considere 8
intervalos de clase.
d) Realice la tabla de distribución de frecuencias y un gráfico adecuado para la variable X4
e) Realice la tabla de distribución de frecuencias y un gráfico apropiado para la variable X5
f) Calcule todas las estadísticas descriptivas de la variable Y1 para cada nivel de X2.
g) Calcule todas las estadísticas descriptivas estudiadas en clase de la variable Y1 para cada
valor de X5.
h) Realice un diagrama de cajas para comparar la distribución de la variable Y1 en cada nivel
de X5.
i) Calcule todas las estadísticas descriptivas estudiadas en clase de la variable Y1 para cada
valor de X6.
j) Realice un diagrama de cajas para comparar la distribución de la variable Y1 según X4.

El día de la primera práctica calificada cada estudiante debe llevar impresos los resultados
de los análisis anteriores para responder las preguntas que se haga al respecto.

Potrebbero piacerti anche