Sei sulla pagina 1di 17

Abstracto

Los datos recopilados de Kelly Blue Book para varios cientos de automóviles usados de General Motors
(GM) permiten a los estudiantes desarrollar un modelo de regresión multivariable para determinar los
valores del automóvil en función de una variedad de características como kilometraje, marca, modelo,
tamaño del motor, estilo interior y control de crucero Los estudiantes aprenden a mirar parcelas
residuales para verificar la heterocedasticidad, la normalidad, la autocorrelación y la multicolinealidad,
así como explorar técnicas para la selección de variables y desarrollar variables especialmente
construidas.

Introducción
Este documento discute el desarrollo de un modelo de regresión multivariable para predecir el precio
minorista de los automóviles General Motor (GM) de 2005. Los libros de texto estadísticos suelen ofrecer
muchos pequeños conjuntos de datos elegidos para ilustrar una variedad de cuestiones y técnicas que un
usuario de regresión debería conocer. Aunque los conjuntos de datos pequeños pueden ofrecer la ventaja
de un enfoque nítido en cuestiones particulares, su enfoque estrecho también conlleva desventajas.
Trabajar con un conjunto de datos grande y ricamente estructurado puede proporcionar a los estudiantes
un tipo de experiencia que no es posible con una sucesión de conjuntos de datos más pequeños. En
consecuencia, muchos cursos usan proyectos para garantizar que los estudiantes experimenten el
desafío de la construcción de modelos y la oportunidad de sintetizar los elementos de regresión
aprendidos uno a la vez a partir de conjuntos de datos más pequeños. Sin embargo, los estudiantes a
menudo pueden tener dificultades para adaptarse desde la tarea tradicional a un proyecto de
investigación real que requiere pasar de una pregunta de investigación a un modelo estadístico, recopilar
y limpiar adecuadamente los datos, la construcción y evaluación apropiadas del modelo, así como
comunicar efectivamente sus resultados. La estructura de este conjunto de datos permite a los
estudiantes trabajar durante todo el proceso de creación y evaluación del modelo, proporcionando así
una práctica guiada antes de abordar un gran conjunto de datos por sí mismos. Esto cierra la brecha entre
los problemas de tarea cortos y enfocados y la naturaleza abierta de un proyecto.

Este conjunto de datos fue creado con el fin de proporcionar un rico ejemplo interdisciplinario que sirva
de guía a través del proceso completo de un proyecto de análisis de regresión múltiple. El precio de los
automóviles es un ejemplo de interés general para los estudiantes y no requiere conocimientos
especializados. Este contexto es lo suficientemente común como para ayudar a muchos estudiantes en su
comprensión conceptual de los problemas sustantivos relacionados con la regresión.

Para este conjunto de datos, se seleccionó una muestra representativa de más de ochocientos mil autos
GM de 2005, luego el precio minorista se calculó a partir de las tablas provistas en la Edición Central 2005
del Kelly Blue Book (ver la Sección 11). A los estudiantes se les proporciona un conjunto de datos que
contiene las siguientes variables:

Precio: precio minorista sugerido del auto GM 2005 usado en excelentes condiciones. La condición de un
auto puede afectar mucho el precio. Todos los automóviles en este conjunto de datos tenían menos de un
año de antigüedad cuando se los valoró y se consideraron en excelentes condiciones.

· Kilometraje: cantidad de millas que el auto ha sido conducido

· Marca: fabricante del automóvil como Saturno, Pontiac y Chevrolet

· Modelo: modelos específicos para cada fabricante de automóviles como Ion, Vibe, Cavalier
· Recorte (del automóvil): tipo específico de modelo de automóvil, como SE Sedan 4D, Quad Coupe 2D

· Tipo: tipo de cuerpo como sedán, coupé, etc.

· Cilindro: cantidad de cilindros en el motor

· Litro: una medida más específica del tamaño del motor

· Puertas: cantidad de puertas

· Crucero: variable indicadora que representa si el auto tiene control de crucero (1 = crucero)

· Sonido: variable de indicador que representa si el auto tiene altavoces actualizados (1 = actualizado)

· Cuero: variable indicadora que representa si el auto tiene asientos de cuero (1 = cuero) Precio: precio
minorista sugerido del auto GM 2005 usado en excelentes condiciones. La condición de un auto puede
afectar mucho el precio. Todos los automóviles en este conjunto de datos tenían menos de un año de
antigüedad cuando se los valoró y se consideraron en excelentes condiciones.

· Kilometraje: cantidad de millas que el auto ha sido conducido

· Marca: fabricante del automóvil como Saturno, Pontiac y Chevrolet

· Modelo: modelos específicos para cada fabricante de automóviles como Ion, Vibe, Cavalier

· Recorte (del automóvil): tipo específico de modelo de automóvil, como SE Sedan 4D, Quad Coupe 2D

· Tipo: tipo de cuerpo como sedán, coupé, etc.

· Cilindro: cantidad de cilindros en el motor

· Litro: una medida más específica del tamaño del motor

· Puertas: cantidad de puertas

· Crucero: variable indicadora que representa si el auto tiene control de crucero (1 = crucero)

· Sonido: variable de indicador que representa si el auto tiene altavoces actualizados (1 = actualizado)

· Cuero: variable indicadora que representa si el auto tiene asientos de cuero (1 = cuero)

Primero se les pide a los estudiantes que usen una regresión lineal simple para explorar la relación
intuitiva entre las millas recorridas y el precio minorista. El valor de R-Sq de esta relación es del 2%, pero
después de una mirada más cercana a los residuos, una transformación y una selección de variable
apropiada, los estudiantes pueden desarrollar un modelo de regresión múltiple muy sólido. Además, los
estudiantes aprenden que no siempre hay un solo "mejor" modelo al realizar análisis de datos.

Los estudiantes trabajan a través de este conjunto de datos en un laboratorio guiado paso a paso en
grupos de 2 o 3 como parte de un proyecto final en un curso introductorio de estadísticas. Si bien parte
del trabajo se realiza fuera de la clase, se deben planificar aproximadamente dos sesiones de clase en
un laboratorio de computación para que los estudiantes trabajen en el laboratorio y hagan preguntas.
Este curso tiene un requerimiento de cálculo y actualmente está usando el texto al estilo de taller de
Chance y Rossman, Investigating Statistical Concepts, Applications and Methods. Los estudiantes han
sido introducidos a la regresión lineal simple y la inferencia para la regresión lineal simple antes de ser
presentados a este conjunto de datos. Después de que los alumnos pasen por este laboratorio guiado, se
les pide que realicen un análisis de regresión multivariable y creen un póster de investigación sobre un
conjunto de datos diferente en un contexto completamente diferente al de su proyecto final. Este
conjunto de datos también se usa como módulo de laboratorio en un segundo curso de estadísticas. El
único requisito previo para este segundo curso de estadística es un curso introductorio de estilo AP.

La necesidad de regresión múltiple: retroceder el precio


en el kilometraje
Antes de desarrollar un modelo de regresión múltiple complejo con varias variables, los estudiantes
comienzan con una revisión rápida del modelo de regresión lineal simple haciendo una pregunta:
"¿Vale más la cantidad de autos con menor millaje?" Claramente, parece razonable esperar una relación
entre el millaje (el número de millas que ha conducido el automóvil) y el valor minorista. Por lo tanto,
los estudiantes intentan ajustar un modelo de regresión lineal simple que relacione el precio con el
millaje y obtenga los siguientes resultados:

Ecuación 1: Precio = 24723 - 0.17 Kilometraje

La estadística t para el coeficiente de pendiente (b1): t = -4.09 (valor de p


<0.001)

R-Sq: 2.0%
Estos resultados pueden conducir a algunas buenas preguntas de revisión, tales como:

1) En general, ¿qué le sucede al precio cuando hay una milla más en el automóvil?

2) ¿El hecho de que b1 sea pequeño (-0.17) significa que el kilometraje no es muy importante? Los
estudiantes a menudo malinterpretan la magnitud de b1 como una medida de importancia. Aquí los
estudiantes tienen una idea de la importancia de la escala. Por ejemplo, "¿Cómo cambia el precio si dos
automóviles son idénticos, excepto que uno tiene 60,000 millas más?" Los estudiantes ven que b1 = -0.17
puede ser significativo ya que el kilometraje tiene mucha variabilidad.

3) ¿El kilometraje te ayuda a predecir el precio? ¿Qué te dice el valor p?

4) ¿El kilometraje te ayuda a predecir el precio? ¿Qué te dice el valor de R-Sq?

Los ejemplos de libros de texto tradicionales generalmente tienen datos que se ajustan muy bien, con
altos valores de p R-sq y bajos. Para este ejemplo, sin embargo, muchos estudiantes sienten que
simultáneamente el pequeño valor p y el pequeño valor R-Sq envían mensajes contradictorios sobre el
modelo. El valor p para b1 indica que el millaje es una variable importante, pero el valor R-Sq muestra
que el modelo no representa gran parte de la variación en los precios minoristas. Esto también ilustra
que siempre es mejor tomar unos minutos para visualizar cualquier conjunto de datos en lugar de
centrarse únicamente en un valor p. El diagrama de dispersión en la Figura 1 y el valor R-Sq sugieren
que incluir otras variables explicativas en el modelo de regresión podría ayudar a explicar mejor la
variación en el precio minorista.
Figura 1: Diagrama de dispersión del precio minorista y el millaje

Esta trama también proporciona un buen punto de partida para discutir la importancia de verificar
valores atípicos y observaciones influyentes. El diagrama de dispersión revela un conjunto de puntos
de datos con precios minoristas superiores a $ 52,000 que no parecen caer en el grupo general de
datos. Los estudiantes identifican estos autos como todos Cadillac XLR-V8 (un convertible de techo
rígido), claramente un automóvil que tiende a ser más caro que el promedio. Esto se usa como un
ejemplo para mostrar a los estudiantes que los valores atípicos potenciales no deben eliminarse
automáticamente del conjunto de datos. También tenga en cuenta que el precio de los 10 vehículos
Cadillac XLR-V8 tiene una fuerte relación lineal con el kilometraje (R-Sq = .99). La diferencia en R-
Sq (99% aquí versus solo 2% para la información completa) ilustra un fenómeno importante: la fuerza
de la relación puede ser altamente dependiente del conjunto de casos, y si son homogéneos o
heterogéneos, con respecto a el predictor, y con respecto a las otras variables que no son parte del
modelo.

3. Técnicas de selección de variables


Si el objetivo de desarrollar un modelo de regresión es describir o predecir el precio minorista de un
automóvil, uno de los principales problemas es determinar qué variables incluir en el modelo (y cuáles
omitir). Claramente, todas las posibles variables explicativas podrían incluirse, pero a menudo resulta en
un modelo engorroso que es difícil de entender. Por otro lado, un modelo que incluye solo una o dos
variables explicativas puede proporcionar predicciones sustancialmente diferentes que el modelo
complejo. Esta tensión entre encontrar un modelo simple y encontrar un modelo que mejor explique la
respuesta es lo que hace que sea difícil encontrar el "mejor" modelo. Este conjunto de datos brinda la
oportunidad de analizar las técnicas de selección de variables para encontrar modelos que proporcionen
un alto valor de R-Sq al tiempo que limiten el número de variables, como el Cp de Mallows, el criterio de
información de Akaike o la regresión por pasos.

Por ejemplo, la mejor técnica de subconjuntos en Minitab proporciona el resultado que se muestra en la
Figura 2. En este punto del laboratorio aún no se han discutido las variables ficticias, por lo que el
resultado se restringe a las variables explicativas binarias y cuantitativas. Esta salida incluyó lo siguiente
de Minitab:

C
My L
il C e
liLDrSa
eniouot
adtoiuh
Mallows geersne
Vars R-Sq R-Sq(adj) C-p S errsedr
1 32.4 32.3 172.0 8133.2 X
1 31.2 31.1 189.7 8207.0 X
2 38.4 38.2 87.6 7768.2 X X
2 36.8 36.6 110.4 7867.8 X X
3 40.4 40.2 61.0 7646.8 X X X
3 40.2 40.0 63.1 7655.9 X X X
4 42.3 42.0 36.2 7530.6 X X X X
4 41.9 41.6 41.0 7552.4 X X X X
5 43.7 43.3 17.4 7440.5 X X X X X
5 43.0 42.6 27.4 7486.1 X X X X X
6 44.6 44.2 6.8 7387.1 X X X X X X
6 43.8 43.4 18.2 7439.5 X X X X X X

Figure 2: Output from the best subsets technique in Minitab. Only the best two models for each
number of variables (Vars.) are displayed.

Las siguientes definiciones se toman directamente de la ayuda de Minitab:

· "Vars" enumera el número de predictores en cada modelo.

· R-Sq describe la proporción de variación en los datos de respuesta explicados por los predictores
en el modelo.

· Adj. R-Sq es una versión modificada de R que se ajustó para el número de predictores en el
modelo. Es similar a elegir un modelo con la MSE más pequeña.

· Mallows Cp es una medida del error en el mejor modelo de subconjunto, relativo al error que
incorpora todas las variables. Los modelos adecuados son aquellos para los que Cp es
aproximadamente igual al número de parámetros en el modelo (incluida la constante), y / o Cp es
mínimo.
· S es la desviación estándar del término de error en el modelo

· Las columnas de predicción, una para cada predictor, son las últimas columnas de la tabla. Estas
columnas indican si el predictor correspondiente está incluido en el modelo. Los predictores
incluidos en el modelo están marcados con una X.

Un buen modelo debe tener R alta y R ajustado, small s, y Cp cerca del número de predictores
contenidos en el modelo.

Mallows Cp se usa para comparar modelos con un número similar de predictores (Vars). Al usar
Mallows Cp para seleccionar un modelo con un número específico de predictores, se debe elegir
un modelo donde Mallows Cp esté lo más cerca posible del número de predictores (incluida la
constante) en el modelo. Varios textos [p. Draper y Smith (1981), Neter et. al., (1985), y Ramsey y
Schefer (2002)] y documentos [p. Mallows, (1973) y Hocking, (1976)] discuten estas técnicas con
más detalle. En la Figura 2, si un alumno desea seleccionar un modelo con seis variables
explicativas, la fila resaltada tiene los mejores valores de Cp y R-Sq. Esta fila resaltada corresponde
al uso de Kilometraje, Cilindro, Puertas, Crucero, Sonido y Cuero como variables explicativas. La
mejor ecuación de regresión de subconjuntos sugerida es:

Ecuación 2: Precio = 7323 - 0.171 Kilometraje + 3200 Cilindro - 1463 Puertas + 6206 Crucero - 2024
Sonido + 3327 Cuero

Predictor Coef SE Coef T P


Constant 7323 1771 4.14 0.000
Mileage -0.17052 0.03186 -5.35 0.000
Cyl 3200.1 203.0 15.77 0.000
Doors -1463.4 308.3 -4.75 0.000
Cruise Control 6205.5 651.5 9.53 0.000
Premiun Sound -2024.4 570.7 -3.55 0.000
Leather 3327.1 597.1 5.57 0.000

S = 7387.11 R-Sq = 44.6% R-Sq(adj) = 44.2%

Este modelo tiene un valor R-Sq mucho mejor que la Ecuación 1 y parece que todas las variables
explicativas en este modelo son importantes. Sin embargo, como se muestra en las siguientes
secciones, el simple uso de una técnica de selección de variables no garantiza el "mejor" modelo
de regresión.

4. Metas de Regresión Múltiple

A menudo, los ejemplos en cursos de estadística describen técnicas iterativas para encontrar el
modelo que mejor describe las relaciones o mejor predice una variable de respuesta. Este
conjunto de datos también puede demostrar cómo los modelos de regresión multivariante
pueden usarse para confirmar teorías. Los objetivos más comunes de la regresión múltiple son:

1) Describa: desarrolle un modelo para describir la relación entre las variables explicativas y la
variable de respuesta.

2) Predecir: use un conjunto de datos de muestra para hacer predicciones. Se puede usar un
modelo de regresión para predecir valores de respuesta de variables explicativas dentro del rango
de nuestros datos de muestra.

3) Confirmar: a menudo se desarrollan teorías sobre variables individuales, como la confirmación


de qué variables, o combinación de variables, deben incluirse en el modelo. La regresión se puede
usar para determinar si la contribución de cada variable explicativa en un modelo captura gran
parte de la variabilidad en la variable de respuesta.

Las técnicas utilizadas pueden depender de los objetivos del análisis. El enfoque cuando se usan
técnicas de selección de variables iterativas no es la importancia de cada variable explicativa, sino
cuán bien encaja el modelo general. Sin embargo, si el objetivo es confirmar una teoría, se deben
usar otros métodos.

Este conjunto de datos proporciona un ejemplo de cómo un economista puede usar el análisis de
regresión múltiple para formular una hipótesis enfocada basada en la teoría. Esto incluye
determinar si la asociación entre variables explicativas específicas y la respuesta podría deberse al
azar. Por ejemplo, un economista puede optar por probar si el kilometraje se debe utilizar para
predecir el precio minorista o si los automóviles con más cilindros cuestan más. Confirmar una
teoría es similar a la prueba de hipótesis. Las técnicas de selección de variables iterativas prueban
cada variable, o combinación de variables, varias veces y, por lo tanto, los valores p no son
confiables. El nivel de significancia indicado para una estadística t solo es válido si los datos se usan
para una prueba única. Si se realizan múltiples pruebas para encontrar la mejor ecuación, el valor
p reportado por el software para cada prueba para un componente individual no es válido porque
se realizaron numerosas pruebas no independientes.

También se desarrollan teorías sobre el tipo de relación que existe, como "los automóviles con
menor kilometraje valen más". En estas situaciones, los economistas están probando si el signo del
coeficiente de regresión es consistente con su hipótesis. También se pueden probar teorías más
específicas, como "el precio minorista disminuye linealmente con el millaje". En estas situaciones,
se necesita una prueba de hipótesis para determinar si los coeficientes de regresión son
significativos, por lo tanto, las variables seleccionadas para usar en la ecuación de regresión deben
basarse en la teoría. Con frecuencia, las variables que se considerarían prácticamente importantes
en un modelo se eliminan de manera inapropiada en estas técnicas iterativas automatizadas. Si
bien los predictores altamente correlacionados tienden a no incluirse en un modelo sugerido, la
multicolinealidad no se aborda específicamente en el Cp de Mallows, el criterio de información de
Akaike o la regresión por pasos. Como se discutió en la sección de multicolinealidad, las variables
excluidas del mejor modelo sugerido de subconjuntos, como Liter, aún pueden estar altamente
correlacionadas con la variable de respuesta. El texto agotado de Mosteller, Fieinberg y Rourke
(1983) proporciona una agradable discusión sobre los objetivos de ajustar modelos de regresión.

5. Explorando patrones

Antes de que la ecuación 2 se considere aceptable, se recomienda a los estudiantes que verifiquen
las suposiciones del modelo. Si bien la salida de Minitab indica que cada uno de estos seis
predictores es significativo, los gráficos residuales que se muestran en la Figura 3 revelan que
claramente todavía hay violaciones de los supuestos del modelo. Por lo tanto, las pruebas de
hipótesis no deben tomarse al pie de la letra.

Términos de error distribuido normalmente: el histograma y la gráfica de probabilidad normal de


residuos muestran que los términos de error no se distribuyen normalmente: en particular, hay
una cola superior larga, que corresponde a los puntos exteriores visibles en la gráfica de regresión
de la figura 1.

Heteroscedasticidad (varianza no constante): el gráfico de valores Residual vs. Equipado muestra


cierta agrupación y la variabilidad de los residuos depende del valor ajustado. Hay más variabilidad
en torno a la línea de regresión cuando los precios son más altos. Considere una porción vertical
de la Figura 1, por ejemplo, el rectángulo formado para incluir todos los valores Y cuando el millaje
oscila entre 15000 y 16000 millas. Observar la distribución de los valores de y dentro de las
divisiones verticales muestra un alto grado de asimetría. A menudo, tales distribuciones
condicionales asimétricas para Y | X sugieren la transformación a raíces, registros o recíprocos. Los
estudiantes pueden intentar transformaciones sugeridas de los datos y luego crear diagramas
residuales similares para los datos transformados. En este conjunto de datos, la variable
transformada, TPrice = log (price), es útil para abordar las violaciones de los supuestos del modelo.

Figura 3: Gráficos residuales para la Ecuación 2.

Residuos versus orden en los datos: La figura 3 aborda otro aspecto interesante de este conjunto de
datos en el patrón fuerte en los residuos ordenados, aunque no hay una variable de tiempo (todos
los datos se basan en autos GM 2005). Si bien los diagramas de secuencia solo tienen sentido en la
verificación del modelo cuando hay un orden significativo de los datos, las representaciones
residuales versus ordenadas en las Figuras 3 y 4 han sido muy útiles para que los estudiantes
perciban la necesidad de incluir variables explicativas adicionales en el modelo de regresión. La
gráfica residual versus orden que se muestra en la Figura 4 ayuda a enfatizar el patrón que surge
debido a que la Marca y el Modelo de los autos están listados en orden alfabético. Los autos con la
misma marca y modelo tienden a tener precios minoristas similares. Aunque las variables
indicadoras aún no se han discutido, los estudiantes entienden que incluir a Make como una variable
explicativa podría reducir en gran medida los valores residuales.
Figura 4: una gráfica residual versus orden utilizando la Ecuación 1: Precio = 24723 - 0.17
Kilometraje.

En este momento, debe quedar claro que el simple hecho de conectar datos en un paquete de
software y utilizar una técnica de selección de variables iterativas no creará de manera confiable el
"mejor" modelo. Las siguientes secciones discuten las técnicas para abordar las violaciones del
modelo a fin de crear un mejor modelo de regresión.

6. Variables Explicativas Especialmente Construidas

Los clusters en la Figura 4 se identifican fácilmente a partir de la lista de los datos. La marca de estos
autos 2005 (Buick, Cadillac, Chevrolet, Pontiac, SAAB y Saturno) están relacionados con el precio, y
los estudiantes ven la necesidad de incorporar variables categóricas en sus modelos.

Para incorporar variables categóricas en un modelo de regresión, los estudiantes tienen la


oportunidad de crear variables ficticias, también llamadas variables indicadoras. La creación de
variables ficticias es un proceso de mapeo de una columna de datos categóricos en varias columnas
de datos 0 y 1. En este conjunto de datos, se pueden crear variables ficticias para Make, Model, Trim
y Type. Usando la variable Make a modo de ejemplo, los seis valores posibles (Buick, Cadillac,
Chevrolet, Pontiac, SAAB y Saturno) se pueden recodificar utilizando seis variables ficticias: una para
cada una de las seis Marcas de automóvil. Por ejemplo, la variable ficticia para Buick tendrá el valor
1 para un automóvil que es un Buick y 0 para cualquier automóvil que no sea un Buick.
Recuerde que para incluir Make en su totalidad en el modelo, no incluimos las seis variables ficticias;
cinco son suficientes Hay redundancia completa en la sexta variable ficticia. En los siguientes
modelos de regresión, Saturno fue arbitrariamente excluido del modelo. El coeficiente de pendiente
para una variable ficticia es una estimación de la cantidad promedio (de la variable de respuesta)
por la cual un "1" para esa variable ficticia excederá el valor de referencia, que en este caso es
Saturno.

7. Multicolinealidad

Muchos estudiantes ya pueden haber notado que los potentes autos deportivos tienen precios más
altos. En este conjunto de datos hay dos medidas del tamaño del motor, la cantidad de cilindros
(cilindro) y el volumen de desplazamiento (litro). Existe una fuerte relación entre estas dos variables.
Observe que la Ecuación 2 incluía el Cilindro pero no incluía el Litro. Los estudiantes pueden haber
supuesto que Liter simplemente no fue útil para predecir el precio. El siguiente ejercicio es
beneficioso para ayudar a los estudiantes a comprender los impactos de variables explicativas
altamente correlacionadas.

Se desarrollan tres modelos de regresión con este conjunto de datos para predecir el precio
minorista: (1) Kilometraje y Litro, (2) Kilometraje y Cilindro, y (3) Kilometraje, Litro y Cilindro. Los
valores de R-Sq para los tres modelos son similares; sin embargo, Litro y Cilindro son medidas del
tamaño del motor. Los valores R-Sq y las pruebas t para los coeficientes de regresión muestran que
Liter es significativo para predecir el Precio minorista en el Modelo 1. De manera similar, el Cilindro
es significativo en el Modelo 2. Sin embargo, el Modelo 3 solo muestra Litro como significativo. Los
estudiantes tienen la oportunidad de ver que un predictor útil de la variable de respuesta a veces
no se puede registrar como estadísticamente significativo. Los estudiantes aprenden la importancia
de identificar la presencia de multicolinealidad y reconocer que los coeficientes no son confiables
cuando existen.

Los estudiantes también aprenden que no existe el "mejor" modelo de regresión. A menudo,
determinar si ciertas variables se incluyen en un modelo de regresión multivariante depende de los
objetivos del estudio. Si los coeficientes no se interpretan, las variables explicativas altamente
correlacionadas que contribuyen al modelo, como Litro y Cilindro, podrían mantenerse en el
modelo. Sin embargo, una de estas variables redundantes debería eliminarse del modelo si el
objetivo es confirmar si una variable explicativa está asociada con una respuesta (es decir, probar
una hipótesis). Es importante señalar que los investigadores que utilizan una técnica de regresión
iterativa podrían haber concluido incorrectamente que el cilindro no es importante para predecir el
precio minorista. En el siguiente análisis, Cylinder se eliminará de los datos, ya que Cylinder y Litre
son medidas del tamaño del motor, pero Litre es más preciso.

Las técnicas iterativas se pueden utilizar para sugerir el siguiente modelo cuando se usan variables
dummy para Make, TPrice = log (price) y para eliminar Cylinder.
Ecuación 3: TPrice = 3.98 - 0.000003 Kilometraje + 0.0997 Litro + 0.0400 Buick + 0.249Cadillac -
0.00937 Chev + 0.0136 Pontiac + 0.345 SAAB

Predictor Coef SE Coef T P


Constant 3.97991 0.00928 429.05 0.000
Mileage -0.00000348 0.00000022 -15.61 0.000
Liter 0.099725 0.002000 49.87 0.000
Buick 0.039969 0.009200 4.34 0.000
Cadillac 0.249303 0.009726 25.63 0.000
Chev -0.009372 0.007336 -1.28 0.202
Pontiac 0.013613 0.008116 1.68 0.094
SAAB 0.345305 0.008236 41.93 0.000

S = 0.0515753 R-Sq = 91.7% R-Sq(adj) = 91.6%

Esto muestra una clara mejora con respecto a la Ecuación 1 y 2. El R-Sq es mucho mejor y los
patrones en los gráficos residuales correspondientes que se muestran en la Figura 5 están muy
atenuados.

Figura 5: Gráficos de Minitab de los residuos para la Ecuación 3: TPrice = 3.98 - 0.000003
Kilometraje + 0.0997 Litro + 0.0400 Buick + 0.249 Cadillac - 0.00937 Chev + 0.0136 Pontiac
+ 0.345 SAAB. El histograma y el diagrama de probabilidad normal muestran que los
términos de error no se distribuyen normalmente. La gráfica de Residuals vs. Fitted valores
se ve mejor, pero algunos grupos todavía son visibles. La gráfica Residuals vs. Order
también muestra algunos patrones sistemáticos, pero son mucho menos pronunciados que
antes.
También se anima a los estudiantes a probar otros modelos al incluir variables adicionales en el
modelo. Incluir las otras variables en el conjunto de datos mejorará algo el valor de R-Sq. Además,
incluir las otras variables creará un modelo que se ajuste a las suposiciones de regresión. La ecuación
4 usando Hacer, Recortar, Millaje, Litro, Puertas, Crucero, Sonido y Cuero parecería ser un modelo
razonable. La salida de Minitab para este modelo sugerido se da a continuación. Tenga en cuenta
que Minitab y SPSS (aunque no se muestran aquí) eliminarán automáticamente una de las variables
ficticias Trim, Coup, porque está altamente correlacionada con otras variables explicativas. La
ecuación de regresión correspondiente es:

Ecuación 4: TPrice = 3.92 - 0.000004 Kilometraje + 0.0958 Litro + 0.0335 Puertas + 0.00752 Crucero
+ 0.00522 Sonido + 0.00626 Cuero + 0.0417 Buick + 0.233 Cadillac - 0.0133 Chev - 0.00042 Pontiac
+ 0.281 SAAB + 0.138 Conv - 0.0890 Hatchback - 0.0711 Sedán

Predictor Coef SE Coef T P


Constant 3.91811 0.01231 318.26 0.000
Mileage -0.00000358 0.00000017 -21.02 0.000
Liter 0.095762 0.001721 55.64 0.000
Doors 0.033527 0.003518 9.53 0.000
Cruise 0.007517 0.004009 1.88 0.061
Sound 0.005223 0.003170 1.65 0.100
Leather 0.006260 0.003397 1.84 0.066
Buick 0.041653 0.007441 5.60 0.000
Cadillac 0.233034 0.007944 29.33 0.000
Chev -0.013315 0.005950 -2.24 0.026
Pontiac -0.000421 0.006519 -0.06 0.949
SAAB 0.281098 0.007481 37.58 0.000
Conv 0.137819 0.007306 18.86 0.000
Hatchback -0.088989 0.008164 -10.90 0.000
Sedan -0.071149 0.006019 -11.82 0.000

S = 0.0393651 R-Sq = 95.2% R-Sq(adj) = 95.1%

El R-Sq y R-Sq (adj) son ligeramente más altos en la Ecuación 4 y la Figura 6 a continuación muestra
que las suposiciones del modelo parecen estar satisfechas. Si las técnicas iterativas no se usaron y
las suposiciones del modelo se mantienen, sería razonable usar la prueba de hipótesis para realizar
la inferencia sobre cada uno de los coeficientes de regresión
Figura 6: Gráficos residuales para la Ecuación 4: un modelo de regresión multivariante para predecir
el tiempo con Make, Trim, Mileage, Litre, Doors, Cruise, Sound y Leather como variables explicativas.
Los residuos parecen ser homoscedásticos y siguen más de cerca una distribución normal. La prueba
de normalidad de Kolmogorov-Smirnov (K-S) dio como resultado un valor p = 0.13. La gráfica residual
vs. orden tiene mucho menos agrupamiento. Los estudiantes pueden considerar incluir el Modelo
como un predictor, pero el conjunto correspondiente de variables ficticias es muy grande, y
agregarlas al modelo no mejora el R-Sq.

8. Interacción y términos para la curvatura

Los estudiantes también tienen la oportunidad de crear términos cuadráticos e interacciones en su


modelo de regresión, como Kilometraje * Litro, Litro * Litro, Kilometraje * Cilindro y Cilindro *
Cilindro.
Ninguno de los términos cuadráticos o de interacción mejora notablemente el modelo descrito
anteriormente. Sin embargo, los beneficios de un modelo cuadrático se pueden demostrar
comparando Price = bo + b1Cylinder y Price = bo + b1Cylinder + b2Cylinder ^ 2.

La línea de puntos periféricos identificados en la Figura 1 puede proporcionar una demostración


interesante de los términos de interacción. La pendiente ajustada para predecir el precio del
kilometraje es -.48 para los 10 Cadillac LXR-V8, mucho más pronunciada que la -.17 encontrada en
la Ecuación 1 usando el conjunto de datos en su conjunto. Esto muestra que la depreciación de estos
autos de alta gama es de casi 50 centavos por milla, en comparación con los 17 centavos por milla
cuando se utiliza el conjunto de datos completo. Observe que la ecuación 4 muestra que Cadillac,
Litre y convertible están todos en el modelo final. Cada una de estas variables tiende a representar
autos de alta gama. Esto puede motivar a los estudiantes a intentar desarrollar términos de
interacción adicionales que pueden crear un modelo aún mejor.

9. Conclusión
Este conjunto de datos proporciona un ejemplo de economía real que es de interés para los
estudiantes y al mismo tiempo no requiere un conocimiento profundo de la teoría económica.
Hemos utilizado este conjunto de datos como una introducción guiada a la regresión multivariante
que alienta a los estudiantes a probar varios modelos y demostrar la importancia de verificar los
supuestos del modelo.

Esta actividad de laboratorio guiada alienta a los estudiantes a pensar como un estadístico cuando
trabajan con técnicas de regresión avanzadas. Si bien este conjunto de datos y laboratorio se
crearon originalmente para ser utilizados en un segundo curso de estadísticas, también hemos
utilizado este laboratorio como parte de un proyecto final para estudiantes talentosos en clases
introductorias de estadística. Este conjunto de datos y laboratorio son particularmente útiles para
los estudiantes que planean realizar investigaciones en economía.

Este es uno de los varios módulos de laboratorio que estamos desarrollando para enfatizar el
proceso de análisis de datos relevante para estudiantes de ciencias y ciencias sociales. Esto ayuda a
los estudiantes y futuros investigadores en muchos campos a comprender las condiciones bajo las
cuales se deben realizar los estudios y les da el conocimiento para discernir cuándo se deben usar
las técnicas apropiadas.

10. Disponibilidad
El conjunto de datos, el material impreso del laboratorio para estudiantes con instrucciones de
Minitab y las notas de los instructores para esta actividad están disponibles en
http://web.grinnell.edu/individuals/kuipers/stat2labs/topics.html.

11. Kelly Blue Book Data

Kelly Blue Book ha sido un recurso para la fijación precisa de precios de vehículos durante más de
80 años. El sitio web, www.kbb.com, también es un recurso gratuito en línea para calcular el precio
minorista estimado. De acuerdo con los representantes de Kelly Blue Book, no existe un solo modelo
de regresión o base de datos que se use para calcular sus estimaciones. Tienen una serie muy
compleja de bases de datos y modelos que se combinan y ponderan para determinar el precio de
varias regiones geográficas

Apéndice A
Descripción de datos

NOMBRE: Datos del automóvil 2005

TIPO: Regresión múltiple

TAMAÑO: 810 observaciones, 12 variables

RESUMEN DESCRIPTIVO:

Los datos recopilados de Kelly Blue Book para varios cientos de automóviles GM usados en 2005
permiten a los estudiantes desarrollar un modelo de regresión multivariante para determinar el
valor de su auto en función de una variedad de características como kilometraje, marca, modelo,
tamaño del motor, estilo interior y control de velocidad. Los estudiantes aprenden a mirar parcelas
residuales y verificar la heterocedasticidad, la autocorrelación y la multicolinealidad.

FUENTES:

Para este conjunto de datos, se seleccionó una muestra representativa de más de ochocientos
automóviles GM de 2005, luego se desarrolló un algoritmo siguiendo la edición central de 2005 del
Kelly Blue Book para estimar el precio minorista.
DESCRIPCIONES DE VARIABLES:

Precio: precio minorista sugerido del auto GM 2005 usado en excelentes condiciones. La condición
de un auto puede afectar mucho el precio. Todos los automóviles en este conjunto de datos tenían
menos de un año de antigüedad cuando se los valoró y se consideraron en excelentes condiciones.

Kilometraje: cantidad de millas que el automóvil ha sido conducido

Marca: fabricante del automóvil como Saturno, Pontiac y Chevrolet

Modelo: modelos específicos para cada fabricante de automóviles como Ion, Vibe, Cavalier

Trim (del automóvil): tipo específico de modelo de automóvil, como SE Sedan 4D, Quad Coupe 2D

Tipo: tipo de cuerpo como sedán, coupé, etc.

Cilindro: cantidad de cilindros en el motor

Litro: una medida más específica del tamaño del motor

Puertas: cantidad de puertas

Crucero: variable indicadora que representa si el automóvil tiene control de crucero (1 = crucero)

Sonido: variable indicadora que representa si el auto tiene altavoces actualizados (1 = actualizado)

Cuero: variable indicadora que representa si el automóvil tiene asientos de cuero (1 = cuero)

12. Agradecimientos

El programa de Curso, Currículo y Mejora de Laboratorio proporcionó apoyo parcial para este
trabajo en la National Science Foundation bajo DUE 0510392. Me gustaría agradecer a Tom Moore
y Linda Collins por su contribución a este proyecto. También agradezco al editor y a dos revisores
anónimos por sus útiles sugerencias.

Potrebbero piacerti anche