Sei sulla pagina 1di 2

Estadstica para documentacin

PRCTICA: Regresin simple


Los datos que contiene el fichero BIBLIO94C.sf3 se refieren a bibliotecas
pblicas situadas en distintas provincias de Espaa. En cada caso se indica
el nombre de la provincia (Centros), el n de volmenes por habitante
(VolH), el n de volmenes por prestatario (VolP), el n de prestatarios por
habitante (PresH) y el n de prstamos por habitante (LectH). Adems se
incluyen dos variables categricas: Region, que indica la posicin de cada
provincia dentro del conjunto de Espaa, y Sala, que indica si la biblioteca
en cuestin tiene o no sala de lectura. Responde a las siguientes preguntas
utilizando cuando sea necesario el programa Statgraphics.
Vamos a estudiar la posiblidad de predecir la variable LectH a partir de
PresH. Para ello, responde a las siguientes preguntas.
1. Estudia la existencia o no de correlacin lineal entre las variables
LectH y PresH, a partir del diagrama de dispersin, y de los
coeficientes de correlacin de Pearson y Spearman.
2. Cunto vale la covarianza? Qu indica su signo?
3. Estudia de nuevo la correlacin lineal, imponiendo la restriccin de
que PresH<0,9 (en Seleccin, escribe PresH<0,9). Por qu crees
que esto es recomendable (SUGERENCIA: mira el diagrama de
dispersin)? Justifica, a partir del nuevo diagrama de dispersin y del
valor del coeficiente de correlacin, porque el modelo mejora en este
caso. En lo que sigue, realiza los clculos con estos datos.
4. Escribe la ecuacin del modelo lineal que proporciona Statgraphics
para explicar la variable LectH a partir de PresH. Con este modelo,
qu valor de LectH cabra esperar para un valor de PresH de 067?
5. Hay algn modelo mejor que el lineal?
6. Calcula los residuos atpicos. A qu bibliotecas corresponden?
7. Guarda los residuos. Comprueba que NO se satisface la hiptesis de
normalidad para los residuos. Desde la ventana correspondiente al
contraste de normalidad, a la derecha, puedes ver en el grfico que la
razn est en los datos correspondientes a las bibliotecas con residuos
atpicos (AVILA y LUGO).
8. Realiza otra vez el estudio de correlacin lineal (Dependencia +
Regresin Simple) imponiendo las restricciones PresH<09 &
Centros<>VILA & Centros<>LUGO (es decir, excluyendo ahora
las bibliotecas con residuos atpicos). Aumenta el coeficiente de
correlacin? Vuelve a guardar los residuos, y comprueba que ahora s
se satisfacen las hiptesis de normalidad y aleatoriedad.
9. Diras a un nivel del 5% que existe correlacin lineal entre ambas
variables? En qu medida est explicando este modelo la variabilidad
de la variable LectH (recuerda que el porcentaje de variablidad
explicada es el R-cuadrado)? Confirma el valor del R-cuadrado la idea
de que el modelo lineal es una buena opcin, en este caso?

10.Escribe la ecuacin de la recta de regresin que proporciona ahora


Statgraphics para predecir la variable LectH a partir de PresH.
Crees que se podra eliminar algn parmetro? Cmo quedara el
modelo, entonces?
11.A partir de los coeficientes de Pearson y Spearman, contrasta de
nuevo a un nivel del 5% la existencia de una relacin lineal entre las
variables.
12.Da una estimacin puntual y un intervalo de confianza del 95% para el
n de prestamos por habitante en una biblioteca en que haya un
prestatario por cada diez habitantes.
El fichero clase98.sf3 contiene datos sobre las medidas anatmicas (pie,
tobillo, brazo, espalada, peso, estatura, etc.) de varios individuos, junto con
algunas otras variables (sexo, grupo sanguneo). Vamos a estudiar, a partir
de estos datos, la relacin entre la variable Estatura, y la variable Pie.
Utiliza, en lo que sigue, un nivel de significacin del 4%.
13.Calcula una recta de regresin que explique Estatura, a partir de
Pie. Diras a un nivel del 4% que existe una relacin del tipo
Y a bX entre ambas variables? Explica qu contrastes de hiptesis,
de los que muestra la pantalla de Statgraphics en la que te
encuentras, estn apoyando esta afirmacin.
14.Estima la covarianza entre ellas. Calcula los coeficientes de
correlacin de Pearson y Spearman. Qu contrastes de hiptesis
sobre estos coeficientes estn apoyando la existencia de correlacin
lineal entre las variables, al nivel de significacin fijado?
15.Comprueba que los residuos son aleatorios y de media prxima a cero.
Cul es el mayor residuo que observas?
16.Qu porcentaje de variabilidad de la variable Estatura est
explicando el modelo? (Recuerda que este porcentaje se corresponde
con el Coeficiente de Determinacin R-cuadrado). Crees que podra
utilizarse algn otro modelo mejor que el lineal?
17.Qu estatura cabra esperar para un individuo que calzara un 44? Da
una estimacin puntual y un intervalo de confianza del 95%.
18.Cul es el dato ms influyente? Identifcalo en el diagrama de
dispersin.

Potrebbero piacerti anche