Los datos que contiene el fichero BIBLIO94C.sf3 se refieren a bibliotecas pblicas situadas en distintas provincias de Espaa. En cada caso se indica el nombre de la provincia (Centros), el n de volmenes por habitante (VolH), el n de volmenes por prestatario (VolP), el n de prestatarios por habitante (PresH) y el n de prstamos por habitante (LectH). Adems se incluyen dos variables categricas: Region, que indica la posicin de cada provincia dentro del conjunto de Espaa, y Sala, que indica si la biblioteca en cuestin tiene o no sala de lectura. Responde a las siguientes preguntas utilizando cuando sea necesario el programa Statgraphics. Vamos a estudiar la posiblidad de predecir la variable LectH a partir de PresH. Para ello, responde a las siguientes preguntas. 1. Estudia la existencia o no de correlacin lineal entre las variables LectH y PresH, a partir del diagrama de dispersin, y de los coeficientes de correlacin de Pearson y Spearman. 2. Cunto vale la covarianza? Qu indica su signo? 3. Estudia de nuevo la correlacin lineal, imponiendo la restriccin de que PresH<0,9 (en Seleccin, escribe PresH<0,9). Por qu crees que esto es recomendable (SUGERENCIA: mira el diagrama de dispersin)? Justifica, a partir del nuevo diagrama de dispersin y del valor del coeficiente de correlacin, porque el modelo mejora en este caso. En lo que sigue, realiza los clculos con estos datos. 4. Escribe la ecuacin del modelo lineal que proporciona Statgraphics para explicar la variable LectH a partir de PresH. Con este modelo, qu valor de LectH cabra esperar para un valor de PresH de 067? 5. Hay algn modelo mejor que el lineal? 6. Calcula los residuos atpicos. A qu bibliotecas corresponden? 7. Guarda los residuos. Comprueba que NO se satisface la hiptesis de normalidad para los residuos. Desde la ventana correspondiente al contraste de normalidad, a la derecha, puedes ver en el grfico que la razn est en los datos correspondientes a las bibliotecas con residuos atpicos (AVILA y LUGO). 8. Realiza otra vez el estudio de correlacin lineal (Dependencia + Regresin Simple) imponiendo las restricciones PresH<09 & Centros<>VILA & Centros<>LUGO (es decir, excluyendo ahora las bibliotecas con residuos atpicos). Aumenta el coeficiente de correlacin? Vuelve a guardar los residuos, y comprueba que ahora s se satisfacen las hiptesis de normalidad y aleatoriedad. 9. Diras a un nivel del 5% que existe correlacin lineal entre ambas variables? En qu medida est explicando este modelo la variabilidad de la variable LectH (recuerda que el porcentaje de variablidad explicada es el R-cuadrado)? Confirma el valor del R-cuadrado la idea de que el modelo lineal es una buena opcin, en este caso?
10.Escribe la ecuacin de la recta de regresin que proporciona ahora
Statgraphics para predecir la variable LectH a partir de PresH. Crees que se podra eliminar algn parmetro? Cmo quedara el modelo, entonces? 11.A partir de los coeficientes de Pearson y Spearman, contrasta de nuevo a un nivel del 5% la existencia de una relacin lineal entre las variables. 12.Da una estimacin puntual y un intervalo de confianza del 95% para el n de prestamos por habitante en una biblioteca en que haya un prestatario por cada diez habitantes. El fichero clase98.sf3 contiene datos sobre las medidas anatmicas (pie, tobillo, brazo, espalada, peso, estatura, etc.) de varios individuos, junto con algunas otras variables (sexo, grupo sanguneo). Vamos a estudiar, a partir de estos datos, la relacin entre la variable Estatura, y la variable Pie. Utiliza, en lo que sigue, un nivel de significacin del 4%. 13.Calcula una recta de regresin que explique Estatura, a partir de Pie. Diras a un nivel del 4% que existe una relacin del tipo Y a bX entre ambas variables? Explica qu contrastes de hiptesis, de los que muestra la pantalla de Statgraphics en la que te encuentras, estn apoyando esta afirmacin. 14.Estima la covarianza entre ellas. Calcula los coeficientes de correlacin de Pearson y Spearman. Qu contrastes de hiptesis sobre estos coeficientes estn apoyando la existencia de correlacin lineal entre las variables, al nivel de significacin fijado? 15.Comprueba que los residuos son aleatorios y de media prxima a cero. Cul es el mayor residuo que observas? 16.Qu porcentaje de variabilidad de la variable Estatura est explicando el modelo? (Recuerda que este porcentaje se corresponde con el Coeficiente de Determinacin R-cuadrado). Crees que podra utilizarse algn otro modelo mejor que el lineal? 17.Qu estatura cabra esperar para un individuo que calzara un 44? Da una estimacin puntual y un intervalo de confianza del 95%. 18.Cul es el dato ms influyente? Identifcalo en el diagrama de dispersin.