Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
3. ESTADSTICA DESCRIPTIVA
En este captulo se vern las tcnicas que se usan para la organizacin y presentacin de datos en tablas y grficas, as como el clculo de medidas estadsticas. Se considerarn solamente datos univariados y bivariados.
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
edad 21 18 19 20 21 20 22 20 20 20 21 20 20 21 21 21 20 20 22 20 22 23 21 20 21 20 22 21
sexo escuela programa f pbl biol f priv mbio f priv biot f priv mbio m pbl pmed m pbl mbio m pbl pmed m priv pmed m priv pmed f pbl pmed f priv mbio m priv mbio f pbl mbio f pbl mbio f priv biol f priv pmed f pbl eagr f priv mbio f priv pmed f priv mbio f priv biol m pbl eagr m priv pmed f pbl mbio f pbl mbio f priv mbio f pbl mbio f priv pmed
creditos gpa familia hestud htv 119 3.60 3 35 10 15 3.60 3 30 10 73 3.61 5 5 7 * 2.38 3 14 3 114 3.15 2 25 25 93 3.17 3 17 6 120 2.15 5 20 10 * 3.86 5 15 5 94 3.19 4 10 2 130 3.66 6 20 33 97 3.35 1 15 20 64 3.17 4 30 2 * 3.23 2 5 3 98 3.36 4 15 10 113 2.88 5 15 3 124 2.80 5 20 10 * 2.50 4 10 5 * 3.46 4 18 5 120 2.74 2 10 15 95 3.07 3 15 12 125 2.20 3 20 10 13 2.39 3 10 8 118 3.05 4 10 10 118 3.55 5 38 10 106 3.03 5 36 35 108 3.61 3 20 10 130 2.73 5 15 2 128 3.54 3 18 5
12
13
14
15
16
17
3.3.1 Grficas de Barras Las grficas de barras pueden ser verticales u horizontales. Las grficas de barras se obtienen eligiendo la opcin Bar Chart del men Graph. Si se desea una grfica de barras verticales simple, entonces se elige la opcin de Counts of unique variables como el significado de las barras y simultneamente la opcin Simple.
19
20
Para obtener grficas circulares se usa la opcin Pie Chart del men Graph.
21
22
23
Ejemplo 3.4.
Luego el stem-and leaf ser de la siguiente manera:
Interpretacin: El uso del stem-and-leaf es exactamente igual al del Histograma, la nica diferencia est en que del stem-and-leaf se pueden recuperar los datos muestrales, pero de un histograma no se puede hacer. En este ejemplo el stem-and-leaf es asimtrico a la izquierda, no tiene mucha variabilidad ni outliers.
25
26
x
i 1
27
x
i 1
Ejemplo 3.6. Supongamos que los siguientes datos representan el precio de 9 casas en miles. 74, 82, 107, 92, 125, 130, 118, 140, 153 Hallar el precio promedio de las casas.
x 74 82 107 92 125 130 118 140 153 113.4 9
En este caso la media da una idea errnea del centro de la distribucin, la presencia del outlier ha afectado la media. Slo dos de las 10 casas tienen precio promedio mayor de 152,100.
29
A) El valor de la media debe estar entre el mayor dato y el menor dato. B) Si a cada dato de la muestra se le suma (o resta) una constante entonces, la media queda sumada (o restada) por dicha constante. C) Si a cada dato de la muestra se le multiplica (o divide) por una constante entonces, la media queda multiplicada (o dividida) por dicha constante. La mediana es un valor que divide a la muestra en dos partes aproximadamente iguales. Es decir, como un 50 por ciento de los datos de la muestra sern menores o iguales que la mediana y el restante 50 por ciento son mayores o iguales que ella. Para calcular la mediana primero se deben ordenar los datos de menor a mayor. Si el nmero de datos es impar, entonces la mediana ser el valor central. Si el nmero de datos es par entonces, la mediana se obtiene promediando los dos valores centrales.
Edgar Acuna Universidad de Puerto Rico 30
Ordenando los datos en forma ascendente, se tiene: 74, 82, 92, 107, 118, 125, 130, 140, 153. En este caso el nmero de datos es impar as que la mediana resulta ser 118 que es el quinto dato ordenado.
A diferencia de la media, la mediana no es afectada por la presencia de valores anormales. Asi, la mediana para los datos del ejemplo 3.7, donde hay un nmero par de datos, la mediana resulta ser el promedio de los dos valores centrales: =121.5 y el dato anormal 500 no afecta el valor de la mediana. Cuando la distribucin es asimtrica hacia la derecha, la mediana es menor que la media. Si hay asimetra hacia la izquierda entonces la mediana es mayor que la media y cuando hay simetra, ambas son iguales.
Edgar Acuna Universidad de Puerto Rico 31
33
(x
i 1
x)
Sin embargo esto siempre daria CERO porque la suma de las desviaciones con respecto a la media es siempre CERO.
34
(x
i 1
x )2
n 1
Se divide por n-1 y no por n, porque se puede demostrar tericamente que cuando se hace esto s2 estima ms eficientemente a la varianza poblacional La desviacin estndar es la raz cuadrada positiva de la varianza y tiene la ventaja que est en las mismas unidades de medida que los datos. Se representa por s. De por si sola la desviacin estndar no permite concluir si la muestra es muy variable o poco variable. Al igual que la varianza es usada principalmente para comparar la variabilidad entre grupos.
Edgar Acuna Universidad de Puerto Rico 35
( x 3s, x 3s)
El criterio debe ser usado con precaucin, puesto que la media, la varianza y la desviacin estndar son afectadas por la presencia de outliers. Ejemplo 3.14. Dada la siguiente muestra 59, 62, 73, 79, 68, 77, 69, 71, 66, 98, 75 Determinar si 98 es un outlier. Solucin: Como 72.45 y s=10.43. Se tiene que si un dato cae fuera del intervalo (41.15, 103.75) ser considerado un outlier, 98 cae dentro de dicho intervalo por lo tanto no es outlier.
Edgar Acuna Universidad de Puerto Rico 38
39
40
3.5.4
Tambin es posible obtener un resumen grfico del conjunto de datos eligiendo Stat-> Basic Statistics -> Graphical Summary. Los resultados que ofrece Minitab son: Finalmente, tambin es posible obtener medidas estadsticas, eligiendo la secuencia CALCColumns Statistics.
42
3.5.4
Tambin es posible obtener un resumen grfico del conjunto de datos eligiendo Stat-> Basic Statistics -> Graphical Summary. Finalmente, tambin es posible obtener medidas estadsticas, eligiendo la secuencia CALCColumns Statistics.
43
44
lados de la caja representan los cuartiles. Si la Mediana est bien al centro de la caja, entonces hay simetria. Si la Mediana est ms cerca a Q3 que a Q1 entonces la asimetra es hacia la izquierda, de lo contrario la asimetra es hacia la derecha. Si la caja no es muy alargada entonces se dice que no hay mucha variabilidad.
Edgar Acuna Universidad de Puerto Rico 45
46
Ejemplo 3.16
Supongamos que deseamos establecer si hay relacin entre las variables tipo de escuela superior y la aprobacin de la primera clase de matemticas que toma el estudiante en la universidad, usando los datos de 20 estudiantes que se muestran abajo: Est escuela aprueba Est escuela aprueba 1 priv si 11 pbl si 2 priv no 12 priv no 3 pbl no 13 pbl no 4 priv si 14 priv si 5 pbl si 15 priv si 6 pbl no 16 pbl no 7 pbl si 17 priv no 8 priv si 18 pbl si 9 pbl si 19 pbl no 10 priv si 20 priv si
Edgar Acuna Universidad de Puerto Rico
48
Ejemplo 3.17.
Los siguientes datos se han recopilados para tratar de establecer si hay relacin entre el Sexo del entrevistado y su opinin con respecto a una ley del Gobierno.
Usar MINITAB para construir una tabla de contingencia y responder adems las siguientes preguntas: a) Qu porcentaje de los entrevistados son mujeres que se abstienen de opinar? b) De los entrevistados varones. Qu porcentaje est en contra de la ley? De los entrevistados que estn a favor de la ley. Qu porcentaje son varones? De los que no se abstienen de opinar Qu porcentaje son varones?
Edgar Acuna Universidad de Puerto Rico 50
Ejemplo 3.17.
Los siguientes datos se han recopilados para tratar de establecer si hay relacin entre el Sexo del entrevistado y su opinin con respecto a una ley del Gobierno.
Usar MINITAB para construir una tabla de contingencia y responder adems las siguientes preguntas: a) Qu porcentaje de los entrevistados son mujeres que se abstienen de opinar? b) De los entrevistados varones. Qu porcentaje est en contra de la ley? De los entrevistados que estn a favor de la ley. Qu porcentaje son varones? De los que no se abstienen de opinar Qu porcentaje son varones?
Edgar Acuna Universidad de Puerto Rico 51
Solucin:
En este caso se entra la columna c3 (conteo ) en la ventanita correspondiente a Frequencies are in que aparece en la ventana de dialogo de Cross Tabulation . Los resultados sern como sigue:
Cuando se tiene dos variables categricas se pueden hacer grficas de barras agrupadas ("bars in clusters") o en partes componentes ("stacked bars") para visualizar la relacin entre ellas.
Edgar Acuna Universidad de Puerto Rico 52
Ejemplo 3.20
Hallar una grfica de partes componentes para comparar los estudiantes (por programa) segn el tipo de escuela de donde proceden, usando datos del ejemplo 3.1. Solucin: Bajo la opcin de Graphs -> Bar Chart, las opciones que se muestran en la figura 3.37.
Figura 3.38. Grfica de barras en partes componentes para la variable Programa segn Escuela
Edgar Acuna Universidad de Puerto Rico 54
3.7.2 Conjunto de datos que contienen una variable cualitativa y otra cuantitativa
La forma estndar de presentar los datos es en columnas donde cada columna representa un valor de la variable cualitativa y los valores dentro de cada columna representan valores de la variable cuantitativa. En general el objetivo es comparar los valores de la variable cualitativa segn los valores de la variable cuantitativa, esto se lleva a cabo con una tcnica llamada anlisis de varianza (ver captulo 10). La grfica ms adecuada para representar este tipo de informacin es el "Boxplot".
55
56
57
Ejemplo 3.22
Es bien frecuente tener datos de una variable para un perodo de tiempo (dias, meses o aos), estos tipos de datos son llamados series cronolgicas o series temporales. Para este tipo de datos se pueden hacer grficos de barras (aunque stas son inadecuadas si el perodo de tiempo es muy grande) y grficas lineales. Las siguientes grficas se refieren al nmero de visitantes a Puerto Rico desde 1950 hasta 1998.
58
La correlacin varia entre -1 y 1. Un valor de r cercano a 0 indica una relacin lineal muy pobre entre las variables. Un valor cercano a 1 indica que hay una buena relacin lineal entre la variable y adems al aumentar una de ellas la otra tambin aumenta. Un valor cercano a 1 indica una buena relacin lineal pero al aumentar el valor de una de las variables la otra disminuye.
Edgar Acuna Universidad de Puerto Rico 59
Ejemplo 3.23.
El dueo de una empresa que vende carros desea determinar si hay relacin lineal entre los aos de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan los aos de experiencia (X) y las unidades de carros vendidas al ao (Y), de 10 vendedores de la empresa.
Solucin:
Haciendo uso de la calculadora de MINITAB. Se obtienen los siguientes resultados
Edgar Acuna Universidad de Puerto Rico 60
En MINITAB, el coeficiente de correlacin se puede obtener eligiendo la opcin correlation del submen Basic Statistics del men Stat.
Edgar Acuna Universidad de Puerto Rico 61
r=.984
Y
140 130
r=-.993
30
120 110
Y
20
100 90
10 80 0 5 10 15 20 25 10 20 30 40
90
14
r=.005
Y Y
80 9
r=.107
70
10
15
62
r=.371
Y
30
r=.319
60 40 20
20
10 0 0 5 10 15 20 25 0 10 20 30 40 50 60
90 80 70 60
45 40
r=.984
Y
35 30 25 20 15 10 5 0
r=.974
50 40 30 20 10 0 0 10 20 30 40
10
15
20
25
63
En MINITAB, es posible obtener simultneamente, el scatterplot, el coeficiente R2 y la lnea de regresin. Para esto, se sigue la secuencia Stat Regression Fitted line Plot
65
Ejemplo 3.25.
Supongamos que se desea establecer una relacin entre la nota que un estudiante obtiene en la parte de aprovechamiento matemtico de ingreso (CEEB) y el Promedio acadmico al final de su primer ao de universidad (GPA). Se toma una muestra de 15 estudiantes y se obtiene los siguientes datos:
Obtener el diagrama de dispersin de los datos, la ecuacin de la lnea de regresin y trazar la lnea encima del diagrama de dispersin.
66
3.25
GPA
3.00
2.75
Interpretacin: El coeficiente de determinacin es .121 y como la pendiente de la lnea de regresin es positiva resulta ser que la correlacin es .11, esto indica una pobre relacin lineal entre las variables CEEB y GPA. O sea que es poco confiable predecir GPA basado en el CEEB usando una lnea.
Interpretacin: La pendiente 0.00109 indica que por cada punto adicional en el College Board el promedio del estudiante subira en promedio en 0.00109, o se podra decir que por cada 100 puntos ms en el College Board el promedio acadmico del estudiante subira en .109. Por otro lado, si consideramos que es imposible que un estudiante sea admitido sin tomar el College Board, podemos decir que no tiene sentido interpretar el intercepto.
67
Prediccin
Uno de los mayores usos de la lnea de regresin es la prediccin del valor de la variable dependiente dado un valor de la variable predictora. Esto se puede hacer fcilmente sustituyendo el valor dado de X en la ecuacin. Por ejemplo, supongamos que deseamos predecir el promedio acadmico de un estudiante que ha obtenido 600 puntos en la parte matemtica del examen de ingreso. Sustituyendo x =600 en la ecuacin de la lnea de regresin se obtiene Y=2.21+.00109*600=2.21+.654=2.864. Es decir que se espera que el estudiante tenga un promedio acadmico de 2.86. MINITAB tambin tiene una opcin que permite hacer predicciones pero, esto ser tratado en el captulo 9 del texto.
68