Sei sulla pagina 1di 13

Instituto Tecnológico Autónomo de

México

Estadística Aplicada II
Proyecto Final

Profesor:
Víctor Aguire

Alumnos:
Mauricio Vueltiflor 131077
Diego Ibarra 155201
Augusto Brogno 152037

15 de Mayo del 2019


Índice
1. Pregunta de interés. 2

2. Marco teórico. 2

3. Signos esperados de los coeficientes. 3

4. Base de datos. 4

5. Proceso de modelado. 5
5.1. Análisis exploratorio. . . . . . . . . . . . . . . . . . . . . . . . . . 5
5.2. Ajuste del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.3. Análisis de observaciones atípicas. . . . . . . . . . . . . . . . . . 7
5.4. Aplicación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . 8

6. Conclusiones. 11

1
1. Pregunta de interés.

En el presente proyecto se busca estimar una función del consumo de cigarros


diarios de las personas en conjunto. Esto con el objetivo de responder a la
pregunta ¿qué factor o factores son los que más influyen en que una persona
tenga un mayor o menor nivel de consumo de cigarros diarios que otra? La
respuesta puede ser de utilidad para generar campañas de publicidad dirigida
a un segmento particular de la población, ya sea para promocionar el consumo
del cigarro o dejarlo.

2. Marco teórico.

De un conjunto de variables que son rasgos distintivos entre las personas y


características de su entorno, se busca hallar cuáles son las que más influyen
en que las personas fumen. Entonces consideramos como variable dependiente
al número de cigarros fumados diariamente (cigs) y nos interesa encontrar los
efectos por separado sobre la variable objetivo de:

la edad de la persona (age).

años de escolaridad (educ).

precio del paquete de cigarros (cigpric).

si la persona es blanca o no (white).

ingreso anual(income).

si el estado de residencia tiene restricciones sobre fumar en restaurantes


(restaurn).

Ya que la mayoría de las personas no fuman, la variable dependiente, cigs, es


cero para la mayoría de las observaciones. En este escenario un modelo lineal no
es lo ideal para la predicción de la variable cigs ya que tiende a predecir que no
fuman. Aún así, podemos tener hallazgos sobre las variables que más influyen
en que una persona fume usando un modelo lineal [1].

El modelo lineal tiene la siguiente forma:

cigs = β0 + β1 age + β2 educ + β3 cigpric + β4 white + β5 income + β6 restaurn + i

2
donde las βi0 s son los efectos ceteris paribus de cada una de las variables sobre
el número de cigarros fumados diariamente por la persona i. El término i es el
error de la estimación que puede suponerse que se distribuye normal.

3. Signos esperados de los coeficientes.

Primeramente, cabe aclarar que utilizaremos los logaritmos de las variables


ingreso anual y precio del paquete de cigarros. Esto para controlar la variabilidad
dada por las diferentes escalas de estos datos [3].

Para β5 , el coeficiente del ingreso (income), esperamos que sea positivo ya


que, a mayor ingreso, mayor número de cigarros consumidos. Para el precio
del paquete de cigarros (cigpric), esperamos que ocurra lo contrario, que el
signo del coeficiente β3 sea negativo. Esto es, a mayor el precio del paquete,
se reduce el número de cigarros consumidos. Otro enfoque para β3 es que los
cigarros son un bien con una demanda inelástica, esto es, sin importar cuál sea
su precio, los individuos consumirán la misma cantidad de cigarros [2]. Entonces,
sin importar el signo de β3 , la influencia del precio de cigarro sobre su consumo
no será significativa.

Para la variable educación (educ), esperamos un coeficiente β2 negativo.


Nuevamente esto es porque, conforme un individuo tiene más años de educación,
entonces es más conciente de los riesgos y por lo tanto fuma menos.

Para la variable binaria que determina si una persona es blanca o no (white),


no hay un motivo para pensar que su coeficiente β4 debiera tener un signo u
otro. Esperaremos a realizar el ajuste para observar si hay alguna tendencia.
Para la variable edad (age), esperamos un signo positivo para su coeficiente β1 .

Finalmente, para la variable dicotómica que indica si hay o no restricciones


sobre fumar en restaurantes en donde reside la persona (restaurn), esperamos
que su coeficiente β6 tenga un signo negativo, ya que entre menos espacios haya
para fumar menos lo hará.

3
4. Base de datos.

La base de datos que utilizamos contiene 807 observaciones. Cada observa-


ción contiene:

Cigs: número de cigarros fumados por el individuo en un día.

Age: la edad de la persona en años.

Education: nivel de escolaridad del individuo en años.

CigPric: precio del paquete de cigarros en centavos de dólar.

White: si la persona es blanca o no.

Income: ingreso anual en dólares.

Restaurn: si el estado de residencia tiene restricciones sobre fumar en


restaurantes.

La base de datos fue obtenida de [1].

Figura 1: Primeras seis filas de la base de datos.

4
5. Proceso de modelado.

5.1. Análisis exploratorio.

Figura 2: Diagrama de caja.

En este diagrama de caja graficamos la variabilidad de los datos en la varia-


ble de cigarros diarios fumados cigs. Esto nos muestra que la gran mayoría de
los encuestados se comporta de manera homogénea y solo algunos pocos datos
atípicos fuman una gran cantidad de cigarros diarios.

Figura 3: Diagrama de dispersión.

En este diagrama graficamos el logaritmo del ingreso contra el número de

5
cigarros fumados diariamente. Observamos que si bien el promedio de cigarros
aumenta por cada nivel de ingreso sucesivo, en realidad dichos promedios se
mantienen muy cercanos entre sí, sin embargo, lo que sí aumenta considerable-
mente conforme aumenta el ingreso es la varianza en la cantidad de cigarros
consumidos, lo cual nos dice que entre mayor sea el ingreso, más laxo se vuelve
las personas en su gasto, y unas pocas pueden destinar más dinero a consumir
cigarros.

5.2. Ajuste del modelo.

Ahora procedemos a realizar un primer ajuste. Como lo mencionamos an-


teriormente, desde el inicio utilizaremos los logaritmos de las variables income
y cigpric. Además agregamos el efecto al cuadrado de la edad, ya que espera-
mos que el efecto ceteris paribus de dicha variable no se mantenga constante
conforme las edades incrementan. A continuación presentamos una tabla con
las variables, y lo arrojado por el ajuste lineal: ordenada al origen, coeficientes
de las variables, errores estándar y valores p. También mostramos la matriz de
varianzas y covarianzas Ω.

Figura 4: Primer ajuste.

Figura 5: Matriz Ω.

Para un nivel de significancia del 95 %, ni el precio del paquete de cigarros ni

6
el ingreso anual del individuo tienen una influencia estadísticamente significati-
va sobre el número de cigarros diarios consumidos: sus valores p son 0,881619
y 0,1458966 respectivamente, claramente mayores a 0,05. Además de que sus
efectos serían pequeños para fines prácticos. Por ejemplo, un aumento del 10 %
en el ingreso provocaría un incremento de 0,869015397
100 ∗ 10 = 0,0869015397 ciga-
rros (menos de una décima parte de cigarro) por día. La magnitud del efecto
del precio es similar. El efecto white tampoco es significativo.

Un año más de educación (la variable es estadísticamente significativa) re-


duce el número de cigarros fuamdos diariamente por aproximadamente medio
cigarro. Como habíamos esperado, el consumo de cigarros esta relacionado con
la edad de forma cuadrática: el consumo aumenta con la edad hasta llegar a
0,774502130
los 2(0,009068603) = 42,7023947349 años. A partir de ahí, el consumo decrece
conforme aumenta la edad. Ambos efectos son estadísticamente significativos.
La imposición de restricciones para fumar dentro de restaurantes reduce el con-
sumo de cigarros por casi tres cigarros al día (la variable restaurn también es
estadísticamente significativa).

5.3. Análisis de observaciones atípicas.

Ahora procedemos a remover las observaciones atípicas. En la Figura 2 mos-


tramos el diagrama de caja, en el cuál se observan dichos valores fuera de los
brazos. Para manejar esto, primero contamos cuántos valores atípicos existen
(m) y obtenemos los índices (i ∈ [1, 807]) donde se encuentran. Después creamos
m vectores de ceros (n = 807), y luego procedemos a asociar cada uno de ellos
a un valor atípico, introduciendo un 1 en la posición dada por el índice i. Por
ejemplo, la observación 74 es un valor atípico, por lo tanto el primero de los
m será un vector de ceros a excepción de un 1 en la posición 74. Después de
crear estos vectores, los concatenamos a la matriz X y realizamos nuevamente
el ajuste:

Figura 6: Observaciones atípicas.

7
Figura 7: Ajuste del modelo agregando los vectores asociados a las observaciones
atípicas.

5.4. Aplicación del modelo.

Nuevamente el precio del paquete de cigarros y el ingreso anual del individuo


son variables estadísticamente no significativas: sus valores p son: 0,4965285 y
0,1451897 respectivamente. El efecto white se mantiene sin ser significativo.

Un año más de educación (la variable vuelve a ser estadísticamente sig-


nificativa) mantiene su influencia reduciendo el número de cigarros fumados
diariamente por aproximadamente medio cigarro. Como en el ajuste sin re-
mover observaciones atípicas, el consumo de cigarros esta relacionado con la
edad de forma cuadrática: el consumo aumenta con la edad hasta llegar a los
0,61937196
2(0,00733677) = 42,2101251641 años.

Figura 8: Efecto cuadrático de la edad sobre el consumo de cigarros.

A partir de ahí, el consumo decrece conforme aumenta la edad. Ambos efec-

8
tos son estadísticamente significativos. La imposición de restricciones para fumar
dentro de restaurantes reduce el consumo de cigarros por poco más de dos ciga-
rros al día. El efecto negativo de las restricciones para fumar sobre el consumo
de cigarros se reduce un poco (la variable restaurn también es estadísticamente
significativa).

Empezaremos por interpretar los intervalos de confianza para las estimacio-


nes de los efectos céteris páribus de educ y restaurn. A partir del ajuste del
modelo agregando los vectores asociados a las observaciones atípicas tenemos
que el intervalo de confianza al 95 % para el efecto céteris páribus de educ está
dado aproximadamente por

−0,53346363 ± 1,96 ∗ (0,140416353) = [−0,80867968188, −0,25824757812]

Esto significa que, por cada año de educación del encuestado, el efecto céteris
páribus sobre la cantidad de cigarros diarios consumidos es que esta se reducirá
entre 0.8 y 0.25 cigarros con una confianza del 95 %.

Así mismo, el intervalo de confianza para el efecto céteris páribus de restaurn


está dado aproximadamente por

−2,32816259 ± 1,96 ∗ (0,894602036) = [−4,08158258056, −0,57474259944]

Esto significa que, si hay restricciones para fumar en los restaurantes del esta-
do de residencia del encuestado, el efecto céteris páribus sobre la cantidad de
cigarros diarios consumidos será a lo más de 4 cigarros menos y a lo menos de
medio cigarro menos, con una confianza del 95 %.

Ahora probaremos una hipótesis sobre una combinación lineal de paráme-


tros. Queremos ver si el efecto ceteris paribus de la educación, que sabemos que
es negativo, no es neutralizado por el efecto ceteris paribus de la edad, que es
positivo. Esto es:

H0 : β1 + β2 = 0 vs H1 : β1 + β2 6= 0

Nuestro estadístico de prueba es:

βˆ1 + βˆ2 0,61937 − 0,53346


tcalc = q = = 0,4906
0,1751
V ˆar(β1 + β2 )

9
Con un nivel de significancia del 95 %, nuestra región de rechazo es RRH0 =
{|tcalc | > 1,96}. Nuestro valor p es:

P (|N (0, 1)| ≥ tcalc ) = 0,62237

Como no caemos en la región de rechazo y además el valor p es mayor a 0,05,


no se rechaza H0 , esto es, no hay evidencia de que el efecto de la educación sea
igual que el efecto inverso de la edad.

Se realizó la prueba de significancia global del modelo y esta arrojó los si-
guientes resultados:

Figura 9: tcalc y valor p de la prueba global de significancia.

La prueba es significativa y por lo tanto el modelo tiene significancia global.


Al no haber ninguna indeterminación en el cálculo de las matrices de varianzas
y covarianzas, no hay evidencia de multicolinealidad.

Al realizar todas las posibles interacciones entre variables ningún efecto cru-
zado fue significativo. la mas cercana a tener un valor p siginificativo fue la
siguiente:

Figura 10: ajuste modelo con variable cruzada

10
Figura 11: grafica efectos cruzados

Finalmente realizamos una prueba de hipótesis de exclusión de variables.


Decidimos excluir las variables significativas para comprobar la consistencia de
las variables no significativas. Esto es, por separado los logaritmos del precio y
del ingreso, y la variable white no son significativos. En su conjunto, después
de una prueba de significancia global de un modelo que sólo contiene a estas
variables, hubo consistencia ya que dicha prueba resultó negativa.

Figura 12: tcalc y valor p de la prueba global de significancia con exclusión de


variables.

6. Conclusiones.

Regresion 1.

Se encontró que las variables Education, Age, Age2 y Restaurant fueron


significativas, esto excluye a variables como LIncome, y LCigPric lo cual es
consistente con nuestras hipotesis sobre la elascticidad del precio (al ser una
sustancia aditiva).

Edad al cuadrado, Age2 .

Respecto a la variable de edad al cuadrado, Age2 , fue muy útil para poder
capturar el efecto cuadrático que tiene la edad sobre el consumo de cigarros.

11
Se observó que conforme la edad aumenta (a partir de la mayoría de edad que
tienen los encuestados), el consumo diario de cigarros tiende a aumentar hasta
un máximo, que calculamos en 42 años aproximadamente, para después tender
a disminuir conforme la edad aumenta.

Regresion 2 (Atipicos).

El cambio en el modelo no aporto informacion distinta a la del primer mo-


delo. Obtuvimos un valor p () significativo en la Prueba de significancia general.
Se realizo una prueba de hipotesis lineal H0: Education+Age = 0 vs H1: Edu-
cation+Age 6= 0 donde no se rechaza la hipotesis nula, entonces concluimos que
el efecto (no cuadratico) de la edad es inverso a el efecto de la educacion.

Regresion 3.

No se encontró un efecto cruzado significativo entre nuestras variables, inclu-


sive después de realizar un ajuste para datos atipicos (pero hicimos una grafica
muy linda)

Referencias

[1] M.Woolrdige, Jeffrey.Introductory Econometrics: A Modern Approach.


South-Western CENGAGE Learning. 2013.

[2] M. Parkin, E. Loría. Microeconomía. Versión para latinoamérica. Pearson


Education, México, 2010. Novena edición.

[3] Corey, C. G., Holder-Hayes, E., Nguyen, A. B., Delnevo, C. D., Ros-
tron, B. L., Bansal-Travers. (2018). U.S. adult cigar smoking pat-
terns, purchasing behaviors, and reasons for use according to ci-
gar type: Findings from the Population Assessment of Tobacco and
Health (PATH) Study, 2013-14.. 15-05-19, de RTI International Si-
tio web: https://www.rti.org/publication/us-adult-cigar-smoking-patterns-
purchasing-behaviors-and-reasons-use-according-cigar

12

Potrebbero piacerti anche