Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
GUIA 1
MaxU = 6 X 1 + 7 X 2 s.a 2X 1 + 3 X 2 24 2X 2 + X 2 16 X2 6 X 1 0, X 2 0
EL PROBLEMA QUE RESUELVE EL COMPUTADOR.
Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades. Este caso se lleva a cabo mediante el uso de variables de holgura y excedente. Regla: Cualquier restriccin puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restriccin se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo. En nuestro problema,: la forma estndar con restricciones de igualdad del modelo es:
MaxU = 6 X 1 + 7 X 2 s.a 2X 1 + 3 X 2 + H 1 = 24 2X 2 + X 2 + H 2 = 16 X2 + H3 = 6 X 1 0, X 2 0, H 1 0 , H 2 0, H 2 0
La formulacin de este problema se presenta en una hoja de clculo. Abrir el archivo planilla problema 1 PL de Excel. La parte superior de la figura muestra los nmeros, mientras que la parte media muestra las frmulas utilizadas en la hoja de clculo. Los valores para las dos variables de decisin, nmero de unidades de los productos A y B, estn en las celdas B2 y C2 respectivamente. Se da una solucin que
muestra un programa de produccin de una unidad de cada producto que claramente no es la ptima. Los coeficientes para la funcin objetivo estn en las celdas B4 y C4, y la funcin objetivo se encuentra en la celda F4. Los coeficientes para las restricciones de tiempo de la mquina y del lmite de mercado del producto B, estn desde la celda B7 hasta la celda C9, y el uso total se halla en la columna D. Por ejemplo, la celda D7 contiene la cantidad total de tiempo de la mquina 1, utilizada para este plan de produccin (5 horas). La capacidad ficticia o no utilizada se muestra en la columna G.
Un primer paso para resolver el problema es ingresar al programa Solver que se encuentra en el men de herramientas de Excel. Es decir hacer clic en el encabezado Herramientas y luego en la opcin Solver. En la pantalla aparecer la caja de dilogo que se muestra en la figura. La celda objetivo es la que contiene la funcin objetivo; en este caso F4, que se agrega a la celda de la caja de dilogo digitando en ella o haciendo clic en la celda correspondiente de la hoja de clculo. Puede maximizarse o minimizarse si se elige la categora apropiada para marcar. Las celdas de cambio estn en la terminologa de Excel para las variable de decisin. Hacer clic en la celda de esa caja de dilogo y escribir B2:C2 o destacar las celdas de las variables de decisin en las hojas de clculo. A continuacin se agregan las restricciones. Al hacer clic en las casilla que dice Add...(Agregar) aparece la caja de dilogo Add Constraint (Agregar restriccin). La primer restriccin que se incorpora es la de que todas las variables de decisin deben ser mayores que cero. Es importante hacerlo, ya que de otro modo Solver, no asume valores no negativos. Digitar en las celdas B2:C2 o destacar las celdas de las variables de decisin en las hojas de clculo, y seleccionar > = 0 Luego hacer clic en Add. Aparece ahora una segunda caja de dilogo, Add Constraint. En la casilla Cell Referente resaltar o digitar en las celdas D7:D9. Estas celdas contienen la cantidad total del tiempo usado de la mquina y la cantidad total del producto B, los factores que estn restringidos. En la caja del lado derecho, resaltar o digitar las celdas F7:F9, estos son los valores al lado derecho que dan los valores de restriccin. A continuacin, hacer clic en el botn OK para indicar que se han ingresado todas las restricciones. Debe aparecer la caja de dilogo Parmetros de Solver como se muestra en la figura.
Sigue un paso final, decirle a Solver que ste es un problema de programacin lineal. Para ello hay que hacer clic en Opciones. Activar botn de Asumir Modelo Lineal OK. Se regresa a la caja de dilogo Parmetros de Solver. Activar botn de Solver. (Resolver)
Microsoft Excel 9.0 Informe de respuestas Hoja de clculo: [Problema 1 de produccin P Lineal version 3.xls]Hoja2 Informe creado: 21/02/03 19:59:45
Celda objetivo (Mximo) Celda Nombre $F$4 Funcin objetivo Utilidad total
Celdas cambiantes Celda Nombre $B$2 Variables de decisin Producto A $C$2 Variables de decisin Producto B
Valor original 1 1
Valor final 6 4
Restricciones Celda Nombre Valor de la celda frmula Estado Divergencia $D$7 Tiempo mquina 1 (horas) 24 $D$7<=$F$7 Obligatorio 0 $D$8 Tiempo mquina 2 (horas) 16 $D$8<=$F$8 Obligatorio 0 $D$9 Lmite de mercado del producto B 4 $D$9<=$F$9 Opcional 2 $B$2 Variables de decisin Producto A 6 $B$2>=0 Opcional 6 $C$2 Variables de decisin Producto B 4 $C$2>=0 Opcional 4
Microsoft Excel 9.0 Informe de sensibilidad Hoja de clculo: [Problema 1 de produccin P Lineal version 3.xls]Hoja2 Informe creado: 21/02/03 19:59:45
Celdas cambiantes Celda Nombre $B$2 Variables de decisin Producto A $C$2 Variables de decisin Producto B Restricciones Valor Sombra Restriccin Aumento Aumento Celda Nombre Igual precio lado derecho permisible permisible $D$7 Tiempo mquina 1 (horas) 24 2 24 4 8 $D$8 Tiempo mquina 2 (horas) 16 1 16 8 4 $D$9 Lmite de mercado del producto B 4 0 6 1E+30 2 Valor Gradiente Coeficiente Aumento Aumento Igual reducido objetivo permisible permisible 6 0 6 8 1,333333333 4 0 7 2 4
La formulacin de PL es: Sea X1=horas semanales en el primer molino X2= horas semanales en el segundo molino
(miles de dlares) (mximo del molino) (mximo del molino) (requerimientos del cliente en toneladas) (requerimientos de la poltica interna) (restricciones de no negatividad)
Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades. Este caso se lleva a cabo mediante el uso de variables de holgura y excedente. Regla: Cualquier restriccin puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restriccin se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo. En nuestro problema,: la forma estndar con restricciones de igualdad del modelo es:
(miles de dlares)
X 1 0, X 2 0 , H 1 0, H 2 0 , S1 0, S 2 0 (restricciones de no negatividad)
Molino 1 Horas semanales Costo Restricciones Horas disponibles molino 1 Horas disponibles molino 1 Requerimientos del cliente (tone Poltica de requerimiento 1 20
1 3 -1 1 4 1
1 1 7 0
40 60 175 0
10
11
Nombre
Valor original 60
Celdas cambiantes Celda Nombre $B$2 Horas semanales Molino 1 $C$2 Horas semanales Molino 2
Valor original 1 1
Valor final 25 25
Restricciones Celda Nombre $D$7 Horas disponibles molino 1 $D$8 Horas disponibles molino 1 $D$9 Requerimientos del cliente (toneladas) $D$10 Poltica de requerimiento $B$2 Horas semanales Molino 1 $C$2 Horas semanales Molino 2
Microsoft Excel 9.0 Informe de sensibilidad Hoja de clculo: [Problema molinos.xls]Hoja2
Celdas cambiantes Celda Nombre $B$2 Horas semanales Molino 1 $C$2 Horas semanales Molino 2 Restricciones Celda $D$7 $D$8 $D$9 $D$10 Nombre Horas disponibles molino 1 Horas disponibles molino 1 Requerimientos del cliente (toneladas) Poltica de requerimiento Valor Sombra Restriccin Aumento Igual precio lado derecho permisible 25 0 40 1E+30 25 0 60 1E+30 175 8.571428571 175 105 0 5.714285714 0 43.75 Aumento permisible 15 35 175 26.25 Valor Igual 25 25 Gradiente reducido 0 0 Coeficiente Aumento Aumento objetivo permisible permisible 20 10 60 40 1E+30 13.33333333
12
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
I.
Cuando nos enfrentamos por primera vez a la realizacin de un anlisis estadstico la mxima preocupacin es profundizar en la tcnica estadstica seleccionada, sin .embargo, existe una etapa previa incluso ms compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados. La depuracin de los datos o deteccin de problemas ocultos en los datos supondr un gran avance en la consecucin de resultados lgicos consistentes. Dichos problemas se pueden subsanar comenzando por una inspeccin visual de las representaciones grficas de los datos, completndose con un anlisis de datos ausentes o perdidos y de los casos atpicos (conocidos bajo la denominacin de outliers).
13
depender de la distancia entre las observaciones. Tambin se representa la distancia entre la mayor y la menor de las observaciones mediante unas lneas que salen de la caja denominadas bigotes. En este tipo de grfico los casos atpicos se pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja. Diagrama de caja simple: Contiene un nico diagrama de caja para cada categora o variable del eje de categoras. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la categora o variable. Diagrama de caja agrupado: Tipo de grfico en el que un grupo de diagramas de caja representa cada categora o variable del eje de categoras. Los diagramas de caja dentro de cada agrupacin vienen definidos por una variable de definicin distinta.
718
15
15
10
691 1.366 244 5 620 596 702 693 688 765 1.476
10 1.404
804 244 5 620 596 821 621 1.448 695 693 688 765
735
Blanca
Negra
Otra
735
Blanca
Negra
Otra
14
Deteccin de variables con categoras mal codificadas En muchos archivos de datos se detectan problemas en variables nominales con categoras en formato cadena sin un cdigo asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las variables y observar si las categoras presentan errores de digitacin, como por ejemplo la variable sexo podra presentar problemas si las categoras estn mal digitadas; Hombre, HOMBRE, hombre representan a la misma categora, sin embargo en una tabla de frecuencia aparecern como categoras diferentes. Para solucionar este problema se recomienda recodificar automticamente asignndole a las categoras de la variable un cdigo numrico y luego con recodificar en distinta variable asignar correctamente los cdigos.
15
97= No procede, 98= No sabe, 99= No contesta 997= No procede, 998= No sabe, 999= No contesta Se utilizan estos cdigos cuando no son parte de los posibles datos de la variable. El SPSS tiene un men especial para tratar los valores perdidos. El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.
Deteccin de outliers
Al examinar los datos recabados despus de un proceso muestral el investigador puede detectar la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentndose de este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como outliers o atpicos. El objetivo ante esta situacin es identificar esa diferencia sustancial entre el valor real de la variable criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la poblacin de la cual se extrae la muestra. Los casos atpicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los datos o al codificar. Pero tambin pueden ser consecuencia de un evento extraordinario que hace destacar esa observacin. Este acontecimiento anormal puede tener o no una explicacin. En cualquiera de estas situaciones, una vez que: los outliers el analista debe juzgar qu es lo ms apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas del anlisis. Estas decisiones han de justificarse, dado que determinados casos atpicos: aunque diferentes a la mayor parte de la muestra, pueden contener informacin representativa de un segmento dominante. No obstante, habr situaciones donde lo ms acertado sea su supresin porque pueden distorsionar seriamente los tests estadsticos dados los problemas que presentan. La deteccin de los casos atpicos desde una perspectiva univariable pasa por la observacin de aquellos casos que caigan fuera de los rangos de la distribucin. Si lo que se pretende es evaluar conjuntamente pares de variables se utilizar el grfico de dispersin. Este mtodo bivariable permite identificar los casos atpicos al venir representado como puntos aislados. Por su parte, la deteccin multivariable supone evaluar cada observacin a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de cada observacin en un espacio multidimensional respecto del centro medio de las observaciones. Cuando se descubren errores Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir errores de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto, entonces se pueden codificar esos reactivos como valores perdidos y se excluirn de los anlisis. Es importante mencionar que la funcin Valores Perdidos de SPSS puede realizar esta tarea.
16
Otras herramientas muy tiles para limpiar los datos Recodificar automticamente: El cuadro de dilogo Recodificacin automtica le permite convertir los valores numricos y de cadena en valores enteros consecutivos. Si los cdigos de la categora no son secuenciales, las casillas vacas resultantes reducen el rendimiento e incrementan los requisitos de memoria de muchos procedimientos. Adems, algunos procedimientos no pueden utilizar variables de cadena y otros requieren valores enteros consecutivos para los niveles de los factores. La nueva variable, o variables, creadas por la recodificacin automtica conservan todas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no tienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor. Los valores de cadena se recodifican por orden alfabtico, con las maysculas antes que las minsculas. Los valores perdidos se recodifican como valores perdidos mayores que cualquier valor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no perdidos, el valor perdido mnimo se recodificar como 11, y el valor 11 ser un valor perdido para la nueva variable. Recodificar en la misma variable /distinta variable El cuadro de dilogo Recodificar en las mismas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo, podra agrupar los salarios en categoras que sean rangos de salarios. El cuadro de dilogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva. Puede recodificar variables numricas en variables de cadena y viceversa. Si selecciona mltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numricas y de cadena. Una vez que se han limpiado los datos podemos pasar a la parte ms interesante del proceso, el anlisis de datos.
17
II.
Considere el archivo archivo APotable (errores).sav correspondiente a una muestra aleatoria de hogares de la regin Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Realice un anlisis inicial de los datos.
Solucin: Anlisis inicial de datos a) Realizar una tabla para verificar informacin ( para esto se debe tener la informacin original) Analizar/Informes/resmenes de casos. Limitar los casos a los primeros 15. Todas las variables.
Resmenes de casosa Identificador de la comuna donde se encuentra el hogar 13101 13101 13101 13101 13101 13101 13102 13102 13102 13102 13102 13102 13103 13103 13103 15 Longitud del frente del terreno 4,99 5,42 6,16 6,77 8,54 8,87 3,94 6,81 7,03 8,06 9,59 10,88 4,58 5,86 6,59 15
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total N
Nmero de caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Identificador del Hogar 10807 15565 11416 11358 4626 11492 16134 9456 10964 11461 3352 6357 11788 13035 14675 15
Consumo de Agua Potable 233,80 207,40 183,00 198,80 233,00 199,00 208,40 141,36 170,88 186,20 288,72 249,84 210,40 220,80 194,00 15
Ingreso del Hogar 618086 348340 335000 389295 182600 481151 150750 242961 182970 452108 384921 263990 266167 215000 428000 15
Comuna m3 libres donde se (no encuentra construido el hogar s) SANTIAGO 74,54 SANTIAGO 63,41 SANTIAGO 54,24 SANTIAGO 63,79 SANTIAGO 85,99 SANTIAGO 70,91 INDEPEN 58,93 DENCIA INDEPEN 57,00 DENCIA INDEPEN 61,58 DENCIA INDEPEN 62,11 DENCIA INDEPEN 105,82 DENCIA INDEPEN 60,97 DENCIA CONCHAL 62,02 I CONCHAL 71,26 I CONCHAL 60,92 I 15 15
m3 edificados 49,92 54,22 61,59 67,67 85,42 88,74 39,36 68,08 70,28 80,61 95,94 108,81 45,79 58,64 65,89 15
ii) Realizar tablas de frecuencia para las variables nominales y ordinales que Ud desea analizar
18
Comuna donde se encuentra el hogar Frecuencia CERRILLOS 20 CERRO NAVIA 8 CONCHALI 6 EL BOSQUE 17 ESTACION CENTRAL 4 HUECHURABA 16 INDEPENDENCIA 6 LA CISTERNA 17 LA FLORIDA 9 LA GRANJA 6 LA PINTANA 3 LA REINA 10 Las CONDES 1 LAS CONDES 17 LO BARNECHEA 12 LO ESPEJO 13 LO PRADO 11 MACUL 6 Maipu 1 MAIPU 23 UOA 5 PEDRO AGUIRRE 15 CERDA PENALOLEN 1 PEALOLEN 16 PROVIDENCIA 8 PUDAHUEL 22 QUILICURA 15 QUINTA NORMAL 14 RECOLETA 12 RENCA 18 SAN JOAQUIN 13 SAN MIGUEL 7 SAN RAMON 8 SANTIAGO 6 VITACURA 19 Total 385 Porcentaje 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 ,3 4,4 3,1 3,4 2,9 1,6 ,3 6,0 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje vlido 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 ,3 4,4 3,1 3,4 2,9 1,6 ,3 6,0 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje acumulado 5,2 7,3 8,8 13,2 14,3 18,4 20,0 24,4 26,8 28,3 29,1 31,7 31,9 36,4 39,5 42,9 45,7 47,3 47,5 53,5 54,8 58,7 59,0 63,1 65,2 70,9 74,8 78,4 81,6 86,2 89,6 91,4 93,5 95,1 100,0
Vlidos
De la tabla se observan dos errores con las comunas Maip y las Condes. Este error se debe a que no se digit con un cdigo identificador. Es aconsejable asignar un cdigo numrico. Para solucionar este problema se debe recodificar automticamente y luego recodificar en la misma variable. Transformar/recodificacin automtica/ Variable: comuna Variable nueva : comurec
19
Aadir nuevo nombre Recodificar empezando por primer valor Aceptar Se crea una nueva variable comurec con cdigo numrico. En utilidades variables se identifican los cdigos de cada etiqueta correspondiendo 13 Las Condes 14 LAS CONDES 19 Maipu 20 MAIPU Transformar/recodificar /en la misma variable Considere la variable comurec Valores antiguos y nuevos Valor antiguo:13 Valor nuevo: 14 Aadir Valor antiguo:19 Valor nuevo: 20 Aadir Continuar aceptar Vuelva a realizar tablas de frecuencias de comurec
Comuna donde se encuentra el hogar Frecuencia CERRILLOS 20 CERRO NAVIA 8 CONCHALI 6 EL BOSQUE 17 ESTACION CENTRAL 4 HUECHURABA 16 INDEPENDENCIA 6 LA CISTERNA 17 LA FLORIDA 9 LA GRANJA 6 LA PINTANA 3 LA REINA 10 LAS CONDES 18 LO BARNECHEA 12 LO ESPEJO 13 LO PRADO 11 MACUL 6 MAIPU 24 UOA 5 PEDRO AGUIRRE 15 CERDA PENALOLEN 1 PEALOLEN 16 PROVIDENCIA 8 PUDAHUEL 22 QUILICURA 15 QUINTA NORMAL 14 RECOLETA 12 RENCA 18 SAN JOAQUIN 13 SAN MIGUEL 7 SAN RAMON 8 SANTIAGO 6 VITACURA 19 Total 385 Porcentaje 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 4,7 3,1 3,4 2,9 1,6 6,2 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje vlido 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 4,7 3,1 3,4 2,9 1,6 6,2 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje acumulado 5,2 7,3 8,8 13,2 14,3 18,4 20,0 24,4 26,8 28,3 29,1 31,7 36,4 39,5 42,9 45,7 47,3 53,5 54,8 58,7 59,0 63,1 65,2 70,9 74,8 78,4 81,6 86,2 89,6 91,4 93,5 95,1 100,0
Vlidos
iii)
Realizar tablas con valores extremos y diagramas de caja. Esto nos permitir verificar si los casos los valores atpicos existen o han sido mal ingresados.
20
Valores extremos Nmero del caso 378 370 385 46 375 238 205 330 314 290 Valor 901,60 571,68 560,64 513,48 505,60 125,04 129,48 129,76 129,84 135,52
Valores extremos Nmero del caso 207 40 146 342 372 72 104 210 45 341 Valor 1141600 1602365 1512608 1126072 1060366 18260 20000 22825 22825 33044
Mayores
Menores
1 2 3 4 5 1 2 3 4 5
Valores extremos Nmero del caso 385 370 46 376 378 338 332 314 303 282 Valor 22 12 11 11 11 3 3 3 3 3a
Mayores
Menores
1 2 3 4 5 1 2 3 4 5
21
Menu Analizar /Explorar/ Variables: Consumo agua potable, Ingreso del hogar, y No habitantes del hogar Estadsticos/ Valores atpicos Grficos Diagrama de caja para cada una de las variables mencionadas. Para cada variable se debera verificar si la informacin de los valores atpicos est bien registrada. Corregir en el caso que sea posible o filtrar los casos muy extremos para no sesgar los anlisis.
iv)
Cuando existen columnas (variables como identificador de otra variable) como el caso de la variable identificador de comuna y comurec, se debe verificar si se corresponden. Para esto puede ordenar id-comuna en forma ascendente y ver si se corresponde visualmente con la comurec. Otra forma es crear una variable de cadena donde concatene los dos codigos (correspondiente a id-comuna y comurec). Esto le permitir ver en una tabla de frecuencia si las variables se corresponden. En el ejemplo hay dos cdigos que se corresponden con 13107 lo cual acusa error. 13107 y 23 13107 y 24 Se debe corregir.
Sintaxis del procedimiento STRING concat (A13). COMPUTE concat = CONCAT(STRING(id_comun,F11.0),STRING(comurec,F2.0)) . EXECUTE .
22
concat Frecuencia 6 6 6 4 12 8 1 16 12 8 5 10 6 17 9 14 5 3 8 7 19 17 15 13 16 20 24 14 11 22 18 18 15 385 Porcentaje 1,6 1,6 1,6 1,0 3,1 2,1 ,3 4,2 3,1 2,1 1,3 2,6 1,6 4,4 2,3 3,6 1,3 ,8 2,1 1,8 4,9 4,4 3,9 3,4 4,2 5,2 6,2 3,6 2,9 5,7 4,7 4,7 3,9 100,0 Porcentaje vlido 1,6 1,6 1,6 1,0 3,1 2,1 ,3 4,2 3,1 2,1 1,3 2,6 1,6 4,4 2,3 3,6 1,3 ,8 2,1 1,8 4,9 4,4 3,9 3,4 4,2 5,2 6,2 3,6 2,9 5,7 4,7 4,7 3,9 100,0 Porcentaje acumulado 1,6 3,1 4,7 5,7 8,8 10,9 11,2 15,3 18,4 20,5 21,8 24,4 26,0 30,4 32,7 36,4 37,7 38,4 40,5 42,3 47,3 51,7 55,6 59,0 63,1 68,3 74,5 78,2 81,0 86,8 91,4 96,1 100,0
Vlidos
1310134 13102 7 13103 3 13104 5 1310529 1310625 1310723 1310724 1310815 13109 2 1311021 1311112 1311218 13113 8 13114 9 1311531 1311610 1311711 1311833 1311932 1312035 13121 4 1312222 1312316 13124 6 13125 1 1312620 1312728 1312817 1312926 1313014 1313130 1313227 Total
23
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 3
SEXO
SEXO
EDAD
EDAD
P02
P11_04
99,00="NSNR"
NSE
GRUPOSSOCIOECONMICOS(BASEESOMAR)
24
2.- Considere el archivo caso Datos jvenes 2.sav (ya corregido de acuerdo a lo anterior) y realice los siguientes grficos. 2-1) Realice un grfico que muestre la frecuencia y porcentaje de encuestados por REGION 2-2) Realice un grfico que muestre la frecuencia de jvenes que estn inscritos o no en los registros electorales agrupados por SEXO 2-3) Realice un grfico que muestre la media de edad por sexo. 2-4) Realice un grfico que permita visualizar la forma de la distribucin de la edad de los encuestados. 2-5) Realice un grfico que permita visualizar para la variable Edad los descriptivos; cuartiles, Rango intercuartil, valores atpicos y extremos. Luego repita el grfico pero para Edad por REGION agrupados por SEXO y compare.
3) Realice las siguientes tablas: 3-1) Una tabla con los siguientes descriptivos para Edad: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis. 3-2) Una tabla con los siguientes descriptivos tanto para hombres como para mujeres y por regin: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis. 3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos 3-4) Una tabla de frecuencia de SEXO segmentada por REGION 3-5) Una tabla que muestre nmero de observaciones por REGION y SEXO 3-6) Una tabla por regin, identificando por folio los cinco valores mayores y cinco valores menores de la variable P11_04: EN UN DA NORMAL CUNTAS HORAS, EN PROMEDIO, DEDICAS A LOS SIGUIENTES MEDIOS DE COMUNICACIN? -PORTALES DE INTERNET DISTINTOS A LOS DIARIOS 3-7) Exportar todas las tablas anteriores del visor de resultados a Excel
4) Clculo de porcentajes Nota Previa: Porcentajes: parecen inofensivos pero son peligrosos Los porcentajes se pueden prestar a confusiones y malentendidos, por lo que no estar de ms revisar algunos ejemplos. Siempre se debe tener en cuenta respecto a qu se calcula el porcentaje. Veamos un ejemplo: un gel suele venderse en botellas de 750 cc y ahora, por el mismo precio, la botella es de 1000 cc. Qu porcentaje de gel estn regalando? Depende de sobre qu valor se calcule el porcentaje: sobre el contenido inicial se regala el 33%, y sobre el final, el 25%. Tambin se debe distinguir entre porcentajes y puntos porcentuales. As, si se dice que los beneficios de una empresa han pasado de un 2 a un 4% han aumentado 2 puntos porcentuales (pero no un 2%!) Igualmente se debe distinguir entre porcentajes basados en niveles y porcentajes basados en cambios de nivel. El siguiente ejemplo aclara esta cuestin. Un vendedor vendi el ao pasado por valor de 10 millones de euros. Su objetivo para este ao era aumentar su facturacin en un 6%. El vendedor ha logrado vender slo por valor de 10,3 millones. Qu porcentaje de objetivo ha logrado?
25
Si el objetivo es el incremento, slo consigue el 50 %, pero si se interpreta que el objetivo era vender 10,6 y ha vendido 10,3, ha logrado el 97,2%. Por ltimo, tambin hay que tener cuidado cuando se realizan operaciones con porcentajes: 1. Si el precio de un producto se aumenta el 20 % y despus disminuye tambin el 20 %, cmo queda el precio final respecto al inicial? No se queda como estaba, disminuye un 4%. Si el precio inicial era X, el final ser (X+0,2X)-0,2(X+0,2X)=X-0,04X. 2. Un producto est formado por 10 componentes y cada componente aumenta su coste un 2%, cunto aumenta el coste del producto? Aumenta un 2%. No importa que haya unos componentes muy caros y otros muy baratos. Si no lo ve claro haga las cuentas y se convencer. 3. Si Juan gana un 1000% ms que Pedro, gana 11 veces ms (no 10). Si gana un 100% ms gana el doble, si gana un 200% ms, el triple, etc. No es lo que parece: la paradoja de Simpson Cuando se dan porcentajes globales comparando grupos que a su vez contienen varias partes, puede parecer que ocurre una cosa cuando en realidad est ocurriendo otra. Este fenmeno se conoce con el nombre de paradoja de Simpson. Veamos un ejemplo. Una gran compaa abre una nueva fbrica creando 250 puestos de trabajo en los departamentos de compras, montaje y almacn. En total se presentan 355 hombres y 325 mujeres, de los cuales son admitidos 190 hombre (el 53%) y 60 mujeres (el 18,5%). Se comprueba que el nivel de preparacin de hombres y mujeres es similar entre los aspirantes a cada departamento. Podemos asegurar que se ha discriminado a las mujeres? La respuesta es no. Los datos son los siguientes:
Aspirantes Admitidos Hombres Mujeres Hombres Mujeres 25 100 5 250 25 180 80 200 5 355 325 190 %Admitidos Hombres Mujeres 20 25 72 80 6,25 7,5 53,5 18,5
25 20 15 60
En realidad, en todos los departamentos la proporcin de admitidos ha sido mayor entre las mujeres. La clave est en que al departamento que ofrece ms plazas se han presentado muchos hombres y pocas mujeres, mientras que en los que ofrecen menos plazas ocurre lo contrario. Y una curiosidad para terminar este apartado de porcentajes: Analice la noticia obtenida desde un peridico el 65% de los jvenes de 10 a 17 aos admite que accede a videojuegos para mayores de edad. El texto de la noticia aclara de dnde sale el 65%: del 50% de los chicos y del 15% de las chicas! (qu porcentaje hubiera dado si se tratara del 50 % de chicos y del 60% de las chicas?) Referencia: La certeza absoluta y otras ficciones de Pere Grima. 2010 RBA Coleccionables. Ejercicios 4-1) Qu porcentaje respecto al total de la muestra representan los jvenes que estn inscritos en los registros electorales?. Qu porcentaje de los inscritos en los registros electorales son hombres?. Qu porcentaje de las mujeres no estn inscritas en los registros electorales? Qu porcentaje respecto al total de la muestra representan los jvenes que no estn inscritos en los registros electorales y son mujeres?.
26
4-2) Respecto al total de hombres qu porcentaje est inscrito en los registros electorales y pertenece al grupo socioeconmico ABC1?. Respecto al total de hombres del grupo D, qu porcentaje no est inscrito en los registros electorales?. Respecto al total de mujeres qu porcentaje no est inscrito en los registros electorales y pertenece al grupo socioeconmico C2?. Respecto al total de mujeres que no estn inscritas en los registros electorales , qu porcentaje pertenece al grupos C3?.
SOLUCION
En primer lugar para hacer ms eficiente el anlisis se recomienda crear un conjunto con slo las variables que interesa analizar. Para esto ir a Utilidades/definir conjuntos de variables/ Nombre del conjunto: CONJUNTO 1/ variables FOLIO, REGION, SEXO, EDAD, P02, P11_04, NSE/Aadir conjunto/Cerrar. Luego para utilizar el conjunto ir a Utilidades/ Utilizar conjuntos de variables/ activar NEWVARIABLES y CONJUNTO 1/Aceptar.
Ahora para explorar y depurar el archivo de datos es recomendable explorar las variables en Datos / Definir propiedades de variables /seleccionar las variables REGION, SEXO, EDAD, P02, P11_04, NSE/ se observa para cada variable la frecuencia, valores, etiquetas y otras propiedades. Se observa que se debe depurar cada variable excepto NSE Para depurar la variable REGION que est definida como cadena ir a Transformar/ Recodificacin automticamente/seleccionar la variable REGION / nuevo nombre regionrec/ menor valor/ aceptar GET FILE='F:\Ao 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=REGION /INTO regionrec /PRINT. REGION into regionrec (Regin) Old Value New Value Value Label RM V VIII 1 RM 2 V 3 VIII
Ahora la variable es numrica y cada regin tiene un cdigo asignado. Para cambiar el cdigo ir a Transformar/ recodificar en la misma variable/valores antiguos y nuevos/ Valor antiguo: 1 asignar valor nuevo 13 Aadir Valor antiguo: 2 asignar valor nuevo 5 Aadir Valor antiguo: 3 asignar valor nuevo 8 Aadir
27
Para depurar la variable SEXO que est definida como cadena ir a Transformar/ Recodificacin automtica/seleccionar la variable SEXO/ nuevo nombre sexor/ menor valor/ aceptar Ir a Datos/Definir propiedades de variables/sexor/ cambiar etiquetas/ h por HOMBRE y m por MUJER/Aceptar GET FILE='F:\Ao 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=SEXO /INTO sexor /PRINT. SEXO into sexor (SEXO) Old Value New Value Value Label h m 1 h 2 m
* Definir propiedades de variables. *sexor. VALUE LABELS sexor 1 'HOMBRE' 2 'MUJER'. EXECUTE.
Para depurar la variable P02 que est definida como cadena y con etiquetas mal asignados ir a Transformar/ Recodificacin automtica/seleccionar la variable P02/ nuevo nombre P02r/ menor valor/ aceptar Ir a Transformar/ Recodificar en la misma variable/seleccionar la variable P02r/ valor antiguo 1 asigne valor nuevo 2 y al valor antiguo 3 asigne el valor nuevo 4. Esto depura los datos obteniendo una nueva tabla de frecuencia como sigue. Ir a Vista de variable y eliminar las etiquetas 1 y 3
AUTORECODE VARIABLES=P02 /INTO PO2r /PRINT. P02 into PO2r (ACTUALMENTE, ESTS O NO ESTS INSCRITO EN LOS REGISTROS
28
ELECTORALES?) Old Value New Value Value Label Est Inscrito 1 EST INSCRITO 2 No est inscrito 3 NO EST INSCRITO Est Inscrito EST INSCRITO No est inscrito 4 NO EST INSCRITO
Para depurar la variable P11_04 Se observa en Datos/Definir propiedades de variables/ que hay tres valores fuera de rango. Para cambiarlos se debe ir a editor de datos y al odenar ascendentemente se selecciona el valor 8 y se cambia por 18, luego se ordena descendentemente y los valores 188 por 18 y 299 por 29. 2) Grficos 2-1) Grficos/Generador de grficos/sectores/REGION
29
2-3) Grficos/ Cuadros de dilogo antiguos/Barras / Simple/Resmenes para grupos de casos/Definir/Las barras representan Mean(EDAD)/ Eje de categoras : SEXO
30
2-5) Grficos/ Generador de grficos/ Diagrama de cajas/ Seleccionar Simple/ Eje Y: EDAD
Grficos/ Generador de grficos/ Diagrama de cajas/seleccionar Agrupados/ Eje Y: EDAD/EjeX: REGION/ Agrupados por SEXO
31
3) Tablas 3-1) Analizar/estadsticos descriptivos/ Frecuencias/ Edad / Estadisticos; Media, Mediana, Minimo, mximo, DEsv Estndar, asimetra, curtosis
3-2) Analizar/Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupacin SEXO y REGION/Estadsticos: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis.
32
Nota Si adems se quieren calcular los cuartiles se puede segmentar el archivo por SEXO y REGION y luego ir al men de frecuencias y solicitar los descriptivos anteriores y los cuartiles. ( Ayuda Ir a Datos/Segmentar archivos/ Comparar los grupos/ Seleccionar las variables SEXO y REGION
3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos Utilidades/Panel de control de SGR ( Sistema de gestin de resultados) Seleccionar Tablas/ OLAP Cubles / Layered Reports/ Nuevo conjunto de datos/: ArchivoOLAP y luego aadir/ Aceptar
33
Luego ir a Men: Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupacin SEXO y REGION/Estadsticos: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis. Aceptar Volver a Utilidades Utilidades/Panel de control de SGR ( Sistema de gestin de resultados) activar Terminar todo. Aceptar. Aparecer el archivo
34
3-4) Datos/ Segmentar archivo/ Comparar los grupos/ variable de segmentacin REGION /Aceptar Analizar/Estadsticos Descriptivos/frecuencias / SEXO/ activar la tabla de frecuencia
3-5) Sacar la segmentacin: Datos/segmentar archivo/Restablecer Analizar/Estadsticos Descriptivos/ tablas de contingencia/ Casillas: Recuentos Observado
35
3-6) Previamente se debe verificar si en la variable P11_04 el valor 99 est definido como perdido. Analizar/ Explorar/ Lista de dependientes: P11_04/ Lista de Factores: Regin/Etiquetar los casos mediante: Folio/ Estadsticos: valores atpicos (nota: Muestra los cinco valores mayores y menores y parecen como valores extremos pero en rigor no necesariamente son valores atpicos ni extremos)
36
3-7) Primero se debe limpiar el visor de resultados dejando exclusivamente lo que se quiere exportar. Luego ir a Archivo/ exportar resultados / seleccionar tipo Excel/ Examinar guardar en Escritorio / VISOR/ Aceptar. Abrir desde Escritorio los resultados exportados
4) Tablas 4-1) Analizar/ Estadsticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: Sexo/ Casillas: Porcentajes Filas, columnas y Total. El 20,7% de la muestra representan los jvenes que estn inscritos en los registros electorales. El 53,6% de los inscritos en los registros electorales son hombres. El 77,9% de las mujeres no estn inscritas en los registros electorales El 39,1% de la muestra representan los jvenes que no estn inscritos en los registros electorales y son mujeres.
37
4-2) Analizar/ Estadsticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: NSE/ Capa: SEXO/Casillas: Porcentajes Filas, columnas y Total. Respecto al total de hombres el 3,2 % est inscrito en los registros electorales y pertenece al grupo socioeconmico ABC1. Respecto al total de hombres del grupo D, el 88% no est inscrito en los registros electorales. Respecto al total de mujeres el 12,4% no est inscrito en los registros electorales y pertenece al grupo socioeconmico C2. Respecto al total de mujeres que no estn inscritas en los registros electorales, el 39,9% pertenece al grupos C3.
38
39
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 4
Variable PAS POBLAC DENSIDAD URBANA RELIG ESPVIDAF ESPVIDAM ALFABET INC_POB MORTINF PIB_CAP REGIN
Etiqueta Pas Poblacin x 1000 Habitantes x Km2 Habitantes en ciudades (%) Religin mayoritaria Esperanza de vida Femenina Esperanza de vida Masculina Alfabetizacin (%) Aumento de poblacin (% anual) Mortalidad infantil (Muertes por 1000 nacimientos vivos) Producto interno bruto per cpita Regin Econmica 1 = OCDE 2 = Europa Oriental 3 = Asia / Pacfico 4 = Africa 5 = Oriente Medio 6 = Amrica Latina Ingesta diaria de caloras Casos de SIDA Tasa de natalidad (por 1.000 habitantes) Tasa de mortalidad (por 1.000 habitantes) Casos de SIDA por 100.000 habitantes Log(10) de PIB_CAP Log(10) de TASASIDA Tasa nacimentos/defunciones Nmero promedio de hijos Log(10) de POBLAC --
CALORAS SIDA TASA_NAT TASA_MOR TASASIDA LOG_PIB LOGTSIDA NAC_DEF FERTILID LOG_POB CREGRANO
40
Hombres alfabetizados (%) Mujeres alfabetizadas (%) Clima predominante 1 = Desierto 2 = Arido / Desierto 3 = Arido 5 = Tropical 6 = Mediterrneo 7 = Martimo 8 = Templado 9 = Artico / Templado 10 = Artico
Para su informe debe considerar por lo menos los siguientes puntos: a) Tres grficos distintos con su interpretacin. b) Tablas de frecuencia c) Tablas de contingencia d) Valores Outliers ( Valores extremos) e) Medidas de tendencia central f) Medidas de dispersin g) Cubos OLAP h) Puntuaciones z Solucin Caso Mundo 95 Comenzaremos el estudio determinando la frecuencia de las variables nominales; Regin Econmica, Religin Predominante y Clima Predominante de los pases
Region or economic group Valid OECD East Europe Pacific/Asia Africa Middle East Latn America Total Frequency 21 14 17 19 17 21 109 Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0 Valid Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0
La tabla de frecuencia muestra el nmero de pases por Regin econmica. Se observan dos regiones con la mayor frecuencia, (21 pases) las que corresponden a la Regin OECD (Organizacin para la Cooperacin y el Desarrollo Econmico) y a la Regin de Latino Amrica, correspondiendo al 19,3% del total de pases. La menor frecuencia se observa en Europa del este con 14 pases de un total de 109 pases. El grfico siguiente muestra la frecuencia y porcentaje de pases por Religin predominante.
41
Se observa que 41 pases que representan el 37,6% del total de pases considerados son predominantemente de la Religin Catlica y 27 pases son predominantemente de la religin Musulmana representando el 24,8% del total de pases considerados. (Nota: Graficar/sectores (pie)/ Resumen para grupos de casos/N de casos/Religin Predominante/ En el editor de grficos se pide texto, valor y porcentaje y se colapsa los sectores a mayores del 5%.) La tabla de frecuencia para Religin Predominante muestra complementariamente al grfico anterior que las religiones con menor frecuencia son las religiones Hind, Juda, Taosta y Tribal
Predominant religion
Valid
Animist Buddhist Catholic Hindu Jewish Muslim Orthodox Protstnt Taoist Tribal Total
Missing Total
Percent 3,7 6,4 37,6 ,9 ,9 24,8 7,3 14,7 1,8 ,9 99,1 ,9 100,0
Valid Percent 3,7 6,5 38,0 ,9 ,9 25,0 7,4 14,8 1,9 ,9 100,0
Al cruzar las variables Regin y Religin podemos observar en la tabla de contingencia que la Religin Predominante Animista pertenece a pases de frica. La religin predominante Catlica se encuentra en todas las regiones excepto en la Regin de Oriente donde la religin predominante es la
42
OECD Predominant religion Animist Buddhist Catholic Hindu Jewish Muslim Orthodox Protstnt Taoist Tribal
10
20
1 10
Total
21
21
Total 4 7 41 1 1 27 8 16 2 1 108
En relacin al Clima Predominante se observa que las mayores frecuencias corresponden a los climas Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente respecto al total de datos vlidos.
Predominant climate Frequency 7 5 6 5 32 10 4 34 4 107 2 109 Percent 6,4 4,6 5,5 4,6 29,4 9,2 3,7 31,2 3,7 98,2 1,8 100,0 Valid Percent 6,5 4,7 5,6 4,7 29,9 9,3 3,7 31,8 3,7 100,0
Valid
Missing Total
desert arid / desert arid otro tropical mediterranean maritime temperate arctic / temp Total System
Ahora consideremos la poblacin, densidad y habitantes que viven en ciudades. Podemos observar del grfico correspondiente a la mediana de poblacin por regin econmica que el 50% de los pases de Asia / Pacfico tienen una poblacin mayor o igual a 59.400.000 habitantes, valor notablemente alto en relacin a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes
43
10400
9600
7900
Latn America
Coherente con lo anterior se observa que la mayor densidad por regin econmica corresponde a la Regin Asia/Pacfico con un valor promedio de 802 habitantes por Km2, la que es considerablemente superior a la densidad promedio del resto de regiones las que oscilan entre 127 y 62 habitantes por km2 correspondiendo esta ltima a la regin de frica
Media de densidad por Regin Econmica
1000
800
802
600
400
200 108 0 OECD 127 77 Pacific/Asia East Europe Africa 62 Middle East Latn America
88
44
20
30
40
50
60
70
80
En relacin al porcentaje de personas que viven en ciudades, se observa del grfico que el mayor porcentaje promedio corresponde a la Regin OECD con un 75% en promedio. Es considerable la diferencia con la Regin de Africa donde el promedio de poblacin urbana es del 29%, seguido de Asia/pacfico con un promedio del 45%. Podemos complementar la informacin anterior con Cubos Olap, los que muestran por grupos, los estadsticos que se necesiten conocer. Especficamente los Cubos siguientes muestran para la Regin OECD y Africa , el nmero de pases el que corresponde a 21 y 18 pases respectivamente. Se observa la media para cada una de las variables consideradas y la desviacin estndar que muestra cunto se desvan los datos, en promedio respecto a la media. Al considerar el cubo correspondiente a la regin OECD se observan los valores mnimo y mximo, es sorprendente observar que existen pases con una densidad de 2,3 habitantes por km2 y de 366 personas por km2. Al considerar la poblacin, dentro de los pases del OECD se puede apreciar un valor mnimo de 263.000 habitantes en oposicin al valor mximo de 260.800.000 habitantes. El mayor porcentaje de poblacin urbana corresponde al 96% y el nor corresponde al 34%.
OLAP Cubes Region or economic group: OECD Predominant climate: Total Predominant religion: Total Population in thousands 21 33085,10 57148,25 263 260800 10400,00 Number of people / sq. kilometer 21 107,981 107,936 2,3 366,0 80,000 People living in cities (%) 21 74,71 14,89 34 96 77,00
45
OLAP Cubes Region or economic group: Africa Predominant climate: Total Predominant religion: Total Population in thousands 18 18415,83 24331,33 959 98100 8900,00 Number of people / sq. kilometer 18 63,700 79,823 2,4 311,0 39,500 People living in cities (%) 18 28,17 14,70 5 47 24,50
Al considerar el cubo correspondiente a la regin de frica se observa una media de poblacin considerablemente ms baja que la media de la Regin OECD y que la variabilidad en la variable poblacin del 132% es ms baja que si se compara con la regin del OECD cuyo coeficiente de variabilidad es del 172,7%. Por otra parte se observa para la poblacin urbana un mnimo de 5% siendo el porcentaje mximo del 47%, valores muy bajos si se compara con la regin del OECD. Al igual que la regin OECD se observa un valor mnimo de densidad de 2,4 habitantes por km2, en oposicin al mximo cuya densidad es de 311 habitantes por km2. Para identificar a qu pases corresponden estos valores mximos y mnimos se puede solicitar los valores extremos (outliers) que muestra los cinco valores mayores y menores.
Extreme Values Region or economic group: OECD Number of people / sq. kilometer Case Number Highest 1 2 3 4 5 1 2 3 4 5 70 11 101 42 56 4 49 21 74 71 COUNTRY Netherlan ds Belgium UK Germany Italy Australia Iceland Canada Norway New Zealand Value 366,0 329,0 237,0 227,0 188,0 2,3 2,5 2,8 11,0 13,0
Extreme Values Region or economic group: Africa Number of people / sq. kilometer Case Number 85 18 73 40 103 14 39 22 90 109 COUNTRY Rwanda Burundi Nigeria Gambia Uganda Botswana Gabon Cent. Afri.R Somalia Zambia Value 311,0 216,0 102,0 86,0 76,0 2,4 4,2 5,0 10,0 11,0
Highest
Lowest
Lowest
1 2 3 4 5 1 2 3 4 5
Nota: Analizar /Explore/ variables /Factor Regin econmica/etiquetar por pas/Estadsticos/ Outliers Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetizacin El grfico siguiente muestra la media de esperanza de vida femenina y masculina por Regin Econmica. Se observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la regin del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 aos para mujeres y hombres respectivamente. Es notable la diferencia con frica donde se observa
46
que el promedio de esperanza de vida es muy baja siendo la media de 54 y 51 aos para mujeres y hombres respectivamente.
Media de las variables Esperanza de Vida Femenina y Masculina por Regin Econmica
90
80
80 76 74 68 67 63
Media esper de Vida
70
72 67
72 66
60
50
54 51 Femenina Masculina OECD Pacific/Asia East Europe Africa Middle East Latn America
Media
40
Regin Econmica
(Nota: Graficar/Barras/agrupados. Resumen para variables individuales/Media de las variables Esperanza de vida fem y masculina/ eje de categoras Regin Econmica) La tabla siguiente identifica los pases con mayor y menor esperanza de vida
Valores Extremos ( Outliers considerando todos los pases) Case Number 94 57 38 21 56 103 1 22 109 97 55 57 26 49 47 103 97 22 85 45 COUNTRY Switzerland Japan France Canada Italy Uganda Afghanistan Cent. Afri.R Zambia Tanzania Israel Japan Costa Rica Iceland Hong Kong Uganda Tanzania Cent. Afri.R Rwanda Haiti Value 82 82 82 81 ,a 43 44 44 45 45 76 76 76 76 ,b 41 41 41 43 43
Highest
Lowest
Highest
Lowest
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
a. Only a partial list of cases with the value 81 are shown in the table of upper extremes. b. Only a partial list of cases with the value 75 are shown in the table of upper extremes.
El siguiente grfico apilado compara la tasa de natalidad y mortalidad por regin econmica, mostrando que las mayores tasas corresponden a la regin de Africa, las que indican que en promedio nacen 42 por cada 1000 habitantes y mueren en promedio 15 por cada 1000 habitantes. La menor tasa de natalidad en promedio corresponde a la Regin del OECD
47
10 13
Mean
2 0
N= 21 13 16 19 17 21
Pacific/Asia Africa
48
Descriptives Fertility: average number of kids OECD Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 1,746 1,751 1,800 6,150E-02 ,248 1,3 2,1 ,8 ,495 -,081 -1,192 East Statistic 1,889 1,886 1,840 1,772E-02 ,133 1,7 2,2 ,5 ,190 ,530 ,932 Region or economic group Pacific/As Africa Statistic 3,383 3,298 3,065 3,226 1,796 1,4 6,9 5,5 2,795 ,791 -,563 Statistic 6,081 6,088 6,290 1,285 1,134 3,8 8,2 4,4 1,380 -,586 ,119 Middle Statistic 4,724 4,721 4,000 2,356 1,535 2,8 6,7 3,9 3,165 ,231 -1,812 Latn Statistic 3,336 3,280 3,080 1,115 1,056 1,8 5,9 4,2 1,655 ,827 ,332
Como complemento de la informacin vemos que la tabla siguiente muestra las medidas de tendencia central y de dispersin para todas las variables consideradas en este apartado.
Descriptives Average female life Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 69,89 70,67 74,00 115,241 10,74 43 82 39 12,75 -1,048 ,054 Average male life Statistic 64,71 65,37 67,00 88,926 9,43 41 76 35 12,75 -1,020 ,171 Birth rate per 1000 Statistic 26,154 25,754 25,500 154,112 12,414 10,0 53,0 43,0 21,000 ,416 -1,163 Death rate per 1000 Statistic 9,64 9,31 9,00 18,400 4,29 2 24 22 4,00 1,283 1,754 Numbe r of aids cases / Statistic 24,8271 16,8072 5,5512 2482,6 49,8252 ,00 326,75 326,75 23,2434 3,498 15,008 Fertility: average number Statistic 3,558 3,475 3,065 3,605 1,899 1,3 8,2 6,9 3,170 ,665 -,933 People who read Statistic 77,95 79,74 87,50 532,862 23,08 18 100 82 36,75 -,955 -,250
Si consideramos slo los pases de la Regin OECD y Africa observamos cmo cambian las medidas de tendencia central y dispersin observando en todas las variables que los pases de la Regin de frica estn con ndice muy por debajo de los de la Regin OECD. Si queremos reconocer qu pases en esas regiones tienen los cinco valores mximos y mnimos los podemos apreciar de la tabla de valores extremos.
49
Descriptives Region or economic group: OECD Average female Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 80,10 80,11 80,00 1,390 1,18 78 82 4 2,00 -,201 -,827
Average male life Statistic 73,71 73,74 74,00 1,314 1,15 71 76 5 1,50 -,256 ,519
Birth rate per 1000 Statistic 12,952 12,944 13,000 2,748 1,658 10,0 16,0 6,0 2,000 ,302 -,512
Death rate per Statistic 9,63 9,65 10,00 1,633 1,28 7 12 5 2,00 -,169 -,492
Number of aids Statistic 29,1052 23,6322 15,8713 1131,049 33,6311 3,10 157,94 154,84 24,2397 3,090 11,201
Fertility: average Statistic 1,746 1,751 1,800 6,150E-02 ,248 1,3 2,1 ,8 ,495 -,081 -1,192
People who read Statistic 97,67 98,22 99,00 11,333 3,37 85 100 15 2,00 -3,027 10,370
Nota; Analizar/ explore/esperanza de vida femenina y masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc/ Factor Regin /etiquetar por pas/ estadsticos-outliers. Al editar la grfica se borra lo que no se quiere mostrar
Descriptives Region or economic group: Africa Average female Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 54,26 54,01 55,00 63,649 7,98 43 70 27 12,00 ,425 -,434
Average male life Statistic 50,79 50,49 51,00 52,731 7,26 41 66 25 11,00 ,352 -,458
Birth rate per 1000 Statistic 42,000 42,389 44,000 41,111 6,412 28,0 49,0 21,0 5,000 -1,256 ,452
Death rate per Statistic 14,74 14,71 14,00 25,538 5,05 6 24 18 7,00 ,126 -,847
Number of aids Statistic 75,7491 66,0056 36,3077 7641,570 87,4161 ,13 326,75 326,61 112,6254 1,562 2,587
Fertility: average Statistic 6,081 6,088 6,290 1,285 1,134 3,8 8,2 4,4 1,380 -,586 ,119
People who read Statistic 47,26 47,29 50,00 319,094 17,86 18 76 58 34,00 ,012 -,964
Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de mortalidad, fertilidad, tasa sida y alfabetizacin respecto al resto de pases de la base de datos consideramos las puntuaciones z, las que nos muestran que Chile en; a) esperanza de vida femenina est sobre la media en 0,74 desviaciones estndares b) esperanza de vida masculina est sobre la media en 0,65 desviaciones estndares c) tasa de natalidad est bajo la media en 0,23 desviaciones estndares. d) tasa de mortalidad est bajo la media en 0,83 desviaciones estndares e) fertilidad ( promedio de hijos por familia) est bajo la media en 0,55 desviaciones estndares f) tasa sida est bajo la media en 0,37 desviaciones estndares g) alfabetizacin ( % de personas que saben leer) est sobre la media en 0,64 desviaciones estndares
50
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 5
Enunciado Suponga que usted es un asesor del Ministerio de Educacin y debe preparar un informe en relacin a los rendimientos de los estudiantes de enseanza media del ao 2006. Entre los diversos informes que debe realizar se le ha pedido que sugiera qu colegios premiar con un estmulo por los resultados de la prueba SIMCE de los segundos medios. El SIMCE es el sistema nacional de medicin de resultados de aprendizaje del Ministerio de Educacin de Chile. Su propsito principal es construir al mejoramiento de la calidad y equidad de la educacin, informando sobre el desempeo de los alumnos y alumnas en algunas reas del curriculum nacional y relacionndolos con el contexto escolar y social en el que ellos aprenden. Las pruebas SIMCE evalan el logro de los Objetivos Fundamentales y Contenidos Mnimos Obligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a travs de una prueba comn que se aplica a nivel nacional, una vez al ao, a los estudiantes que cursan un determinado nivel educacional. Hasta el 2005 la aplicacin de las pruebas se alternaron entre 4 Bsico, 8 Bsico y 2 Medio. Desde el 2006, las pruebas evalan todos los aos el nivel del 4 Bsico y se alternan los niveles de 8 Bsico y 2 Medio. (Fuente: Resultados nacionales SIMCE 2006. MINEDUC) Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2 Medio del 2006. Algunas de las variables de inters son:
ETIQUETA DE VARIABLE Identificador del establecimiento Nombre de la Regin Nombre de la comuna Dependencia
ETIQUETA DEVALOR
CP: Corporacin Privada MC; Corporacin Municipal MD; DAEM (Departamento de Administracin de Educacin Municipal) PP: Particular Pagado PS: Particular Subvencionado 1= Rural 2=Urbano
4
TP P
51
Despus de mltiples reuniones con expertos en educacin, usted ha llegado a definir junto con los expertos un criterio para premiar a las escuelas; crear grupos homogneos de escuelas y definir puntajes de corte para cada grupo. De esta forma se estar distinguiendo a los colegios que se destacan entre colegios con similares caractersticas. El premio se otorgar a los colegios con puntajes promedios mayores o iguales al percentil 75 (para cada grupo). Los grupos homogneos se definieron en base a dos criterios: la dependencia del establecimiento definido como Municipal, Privado y Subvencionado y la caracterizacin del establecimiento Rural y Urbano Los grupos homogneos definidos por el grupo experto son, 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano Usted como asesor del Ministerio de Educacin debe aplicar los criterios definidos con los expertos para crear los grupos de colegios homogneos e identificar cules son los establecimientos premiados realizando distintas comparaciones por dependencia, caracterizacin y zona (Norte, Central y Sur). Adems debe determinar si existen diferencias significativas para los puntajes promedios de la SIMCE por caracterizacin y por dependencia Para realizar su anlisis deber lograr los siguientes objetivos especficos desglosados en tareas elementales 1. Limpiar y ordenar la base de inters para el anlisis a) Crear la variable Dependencia considerando slo tres categoras: Municipalizado, Privado y Subvencionado b) Crear la variable zona considerando Zona Norte, Centro y Sur c) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica y lenguaje d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto deber crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segn corresponda. e) Determinar para cada grupo el percentil 75. f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criterio mencionado 1=SI recibe premio y 0=NO recibe premio. 2. Realizar un anlisis descriptivo de los datos a) Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu porcentaje representan del total? Qu tipo de dependencia se observa con mayor y menor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia?. b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos?. c) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de los Municipalizados y Rurales? d) Qu porcentaje representa el total de colegios premiados respecto al total de colegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Qu porcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiados son de la zona
52
Norte,Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu porcentaje del total son premiados y del Sur?. e) Qu porcentaje de los colegios premiados son urbanos? Qu porcentaje de los colegios rurales son premiados? Qu porcentaje de colegios resultaron premiados por grupo? f) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana?. Realice un grfico que permita observar la forma de la distribucin de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems un diagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar? g) Determine mediante una grfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemticas es similar si se compara los segmentos rural y urbano h) Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de la distribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, y muestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo. i) Realice un grfico considerando a todos los colegios en estudio y otro grfico considerando slo el segmento de premiados, que permitan observar la posicin del grupo en relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.
a) Crear la variable Dependencia considerando slo tres categoras: Municipalizado, Privado y Subvencionado En primer lugar observamos que la variable de dependencia ddcia de la base de datos viene con formato cadena o string. Recodificaremos automticamente y luego llevaremos las cinco categoras slo a tres categoras. Para esto ir al men Transformar/ recodificacin automtica/ AUTORECODE VARIABLES=ddcia /INTO depend /PRINT. Old Value New Value Value Label CP MC MD PP PS 1 Corporacin Privada 2 Corporacin Municipal 3 DAEM 4 Particular Pagado 5 Particular Subencionado
Para crear tres categoras juntaremos las categoras Corporacin Municipal y DAEM en Municipalizado y las categoras Corporacin Privada y Particular pagado en Privado Para esto ir al men Transformar/Recodificar en distinta variable RECODE
53
depend (4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia . VARIABLE LABELS dependencia 'Tipo de dependencia'. EXECUTE . En definicin de la variable Asignar etiquetas de valor a los cdigos 1 al 3 1= Municipalizado 2=Privado 3=Subvencionado b) Crear la variable zona considerando Zona; Norte, Centro y Sur En primer lugar se observa que la variable Regin viene en formato de cadena. Se recodificar automticamente. AUTORECODE VARIABLES=region /INTO reg /PRINT En el visor de resultados se puede observar los cdigos de cada categora Old Value New Value Value Label
Regin de Aisn del General 1 Regin de Aisn del General Carlos Ibaez del Campo 1 Carlos Ibaez del Campo Regin de Antofagasta 2 Regin de Antofagasta Regin de Atacama 3 Regin de Atacama Regin de Coquimbo 4 Regin de Coquimbo Regin de la Araucana 5 Regin de la Araucana Regin de Los Lagos 6 Regin de Los Lagos Regin de Magallanes y de la 7 Regin de Magallanes y de la Antrtica Chilena 7 Antrtica Chilena Regin de Tarapac 8 Regin de Tarapac Regin de Valparaso 9 Regin de Valparaso Regin del Biobo 10 Regin del Biobo Regin del Libertador General 11 Regin del Libertador General Bernardo O' Higgins 11 Bernardo O' Higgins Regin del Maule 12 Regin del Maule Regin Metropolitana 13 Regin Metropolitana Para crear las categoras de zona se recodificar en distintas variables RECODE reg (1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona . VARIABLE LABELS zona 'zona'. EXECUTE . En definicin de variables 1= Norte 2= Centro
54
3= Sur c) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica y lenguaje Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o cadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar en vista de variables el tipo String a numrico. Para crear la variable puntprom seleccione Transformar/Calcular Variable destino: puntprom Tipo: numrico Etiqueta: Promedio de Matemticas y Lenguaje Expresin: MEAN(prom_len,prom_mat) Sintaxis de puntprom COMPUTE puntprom = MEAN(prom_len,prom_mat) . VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y matemticas. EXECUTE . d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto deber crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segn corresponda. Para crear la variable de grupo primero recodificaremos automticamente la variables ruralida a cdigo numrico con nombre caract Donde caract=1 Rural caract=2 Urbano Sintaxis AUTORECODE VARIABLES=ruralida /INTO caract /PRINT. Ahora formamos los seis grupos segn criterio dado Creacin de la variable grupo *** Sintaxis Grupo ***. IF (dependencia = 1 & caract = 1) grupo = 1 . IF (dependencia = 1 & caract = 2) grupo = 2 . IF (dependencia = 2 & caract = 1) grupo = 3 . IF (dependencia = 2 & caract = 2) grupo = 4 . IF (dependencia = 3 & caract = 1) grupo = 5 . IF (dependencia = 3 & caract = 2) grupo = 6 . EXECUTE . Luego en la definicin de variables en valores se define: 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural
55
6: Subvencionado y Urbano e) Determinar para cada grupo el percentil 75. Para el clculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Analizar/Frecuencias [Estadsticos]: Percentil 75 Sintaxis SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /PERCENTILES= 75 /ORDER= ANALYSIS . No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos. f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criterio mencionado 1=SI recibe premio y 0=NO recibe premio. Se consider el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)
Estadsticos puntaje promedio entre lenguaje y matemticas Municipalizado y Rural N Vlidos Perdidos Percentiles 75 Municipalizado y Urbano N Vlidos Perdidos Percentiles 75 Privado y Rural N Vlidos Perdidos Percentiles 75 Privado y Urbano N Vlidos Perdidos Percentiles 75 Subvencionado y Rural N Vlidos Perdidos Percentiles 75 Subvencionado y Urbano N Vlidos Perdidos Percentiles 75 68 0 225,6250 587 0 246,0000 19 0 322,0000 388 0 324,0000 86 0 246,3750 1171 0 286,0000
*** Sintaxis Premio ***. IF (grupo = 1 & puntprom >= 225.625) premio = 1 . IF (grupo = 1 & puntprom < 225.625) premio = 0 . IF (grupo = 2 & puntprom >= 246) premio = 1 . IF (grupo = 2 & puntprom < 246) premio = 0 . IF (grupo = 3 & puntprom >= 322.5) premio = 1 . IF (grupo = 3 & puntprom < 322.5) premio = 0 . IF (grupo = 4 & puntprom >= 324) premio = 1 . IF (grupo = 4 & puntprom < 324) premio = 0 . IF (grupo = 5 & puntprom >= 246.375) premio = 1 . IF (grupo = 5 & puntprom < 246.375) premio = 0 . IF (grupo = 6 & puntprom >= 286) premio = 1 . IF (grupo = 6 & puntprom < 286) premio = 0 . VARIABLE LABELS premio 'premio (SI=1, NO=0)' .
56
EXECUTE . En definicin de variables se agrega la etiqueta de valor 1=SI 0=NO 2. a) Realizar un anlisis descriptivo de los datos Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu porcentaje representan del total? Qu tipo de dependencia se observa con mayor y menor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia? Se debe realizar una tabla de frecuencias de la variable caract, dependencia y grupo. Analizar/ frecuencias. Sintaxis del procedimiento: FREQUENCIES VARIABLES=dependencia tipo grupo /ORDER= ANALYSIS .
Caracterizacin del establecimiento Frecuencia 173 2146 2319 Porcentaje 7,5 92,5 100,0 Porcentaje vlido 7,5 92,5 100,0 Porcentaje acumulado 7,5 100,0
Vlidos
Tipo de dependencia Frecuencia 655 407 1257 2319 Porcentaje 28,2 17,6 54,2 100,0 Porcentaje vlido 28,2 17,6 54,2 100,0 Porcentaje acumulado 28,2 45,8 100,0
Vlidos
grupo Frecuencia 68 587 19 388 86 1171 2319 Porcentaje 2,9 25,3 ,8 16,7 3,7 50,5 100,0 Porcentaje vlido 2,9 25,3 ,8 16,7 3,7 50,5 100,0 Porcentaje acumulado 2,9 28,2 29,1 45,8 49,5 100,0
Vlidos
Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total
De la tabla de frecuencia, se observa que existen 2146 colegios de tipo urbano y 173 colegios de tipo Rural representando el 92,5% y 7,5 % respectivamente sobre el total de colegios considerados en la base de datos. Por otra parte de la tabla de frecuencia de dependencia se tiene que la mayor frecuencia se presenta en los establecimientos subvencionados representando el 54,2% del total y la menor frecuencia en los establecimientos Privados representando el 17,6% del total.
57
Respecto a los grupos homogneos el de mayor frecuencia es el grupo de Subvencionado y Urbano representando aproximadamente la mitad de los colegios considerados en estudio, le sigue el grupo de Municipalizados y Urbanos representando un cuarto de los colegios en estudio. b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos? Para responder esta pregunta se debe crear rangos de puntajes en base al puntaje de Matemticas. Transformar/Recodificar/en distinta variable Ingresar la variable prom_mat y definir variable nueva rangmat (notar que la variable prom_mat es una variable de nmeros enteros) Sintaxis del procedimiento: RECODE prom_mat (Lowest thru 250=1) (251 thru 300=2) (301 thru Highest=3) INTO rangmat. VARIABLE LABELS rangmat 'rangos de puntajes en matematicas'. EXECUTE . . En la ventana de definicin de variables considerar la variable rangmat y en valores definir cada rango como: 1 =Hasta 250 2 = 251-300 3= superior a 300 Luego realizar una tabla de frecuencias de la variable rangmat
rangos de puntajes en matematicas Frecuencia 1169 658 492 2319 Porcentaje 50,4 28,4 21,2 100,0 Porcentaje vlido 50,4 28,4 21,2 100,0 Porcentaje acumulado 50,4 78,8 100,0
Vlidos
En la tabla de frecuencia se puede apreciar la cantidad de colegios por rangos de puntajes en matemticas Se puede observar que aproximadamente la mitad de los colegios en estudio obtuvieron un puntaje promedio en matemticas menor o igual a 250 puntos. Un poco ms de la quinta parte de los colegios obtiene un puntaje superior a 300 puntos. c) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de los Municipalizados y Rurales? En primer lugar se debe crear dos rangos para la variable prom_len; Hasta 300 puntos y Superior a 300 puntos. Transformar/Recodificar/en distinta variable
58
Ingresar la variable prom_len y definir variable nueva rangleng (notar que la variable prom_len es una variable de nmeros enteros) Sintaxis del procedimiento RECODE prom_len (Lowest thru 300=1) (301 thru Highest=2) INTO rangleng . VARIABLE LABELS rangleng 'rangos de puntajes en lenguaje'. EXECUTE .
En la ventana de definicin de variables considerar la variable rangleng y en valores definir cada rango como: 1 =Hasta 300 2 = superior a 300 Luego realizar una tabla de frecuencias de la variable rangleng De la tabla de frecuencias se puede observar que el 13,8% de los colegios obtuvieron un puntaje superior a 300 puntos.
rangos de puntajes en lenguaje Frecuencia 1999 320 2319 Porcentaje 86,2 13,8 100,0 Porcentaje vlido 86,2 13,8 100,0 Porcentaje acumulado 86,2 100,0
Vlidos
Para responder cuntos de estos colegios son Municipalizados y Urbanos, se puede seleccionar a rangleng igual a 2 que corresponde a los puntajes superiores a 300 puntos y luego pedir una tabla de contingencia para las variables dependencia y tipo. Datos/Seleccionar casos Sintaxis del procedimiento USE ALL. COMPUTE filter_$=(rangleng = 2). VARIABLE LABEL filter_$ 'rangleng = 2 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . CROSSTABS /TABLES=dependencia BY caract /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .
59
Tabla de contingencia Tipo de dependencia * Caracterizacin del establecimiento Recuento Caracterizacin del establecimiento Rural Urbano 0 10 7 193 2 108 9 311
De la tabla de contingencia se puede apreciar que de los colegios con puntajes superiores a 300 puntos, slo 10 corresponden a Municipalizado y Urbano y ninguno a Municipalizado y Rural Otra forma de responder a esta pregunta podra ser solicitando una tabla de contingencia para dependencia y tipo con una capa dada por la variable rangleng (para esto seleccionar todos los casos) Sintaxis del procedimiento CROSSTABS /TABLES=dependencia BY tipo BY rangleng /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .
Tabla de contingencia Tipo de dependencia * Caracterizacin del establecimiento * rangos de puntajes en lenguaje Recuento rangos de puntajes en lenguaje Hasta 300 Caracterizacin del establecimiento Rural Urbano 68 577 12 195 84 1063 164 1835 0 10 7 193 2 108 9 311
Superior a 300
De esta forma se obtiene el mismo resultado. Si se quiere mostrar una tabla focalizada a la respuesta, se puede pivotar editando la tabla y moviendo al pivote de rangos de puntajes al extremo superior izquierdo. De esta forma se puede obtener la siguiente tabla.
60
Tabla de contingencia Tipo de dependencia * Caracterizacin del establecimiento * rangos de puntajes en lenguaje Recuento rangos de puntajes en lenguaje: Superior a 300 Caracterizacin del establecimiento Rural Urbano 0 10 7 193 2 108 9 311
d) Qu porcentaje representa el total de colegios premiados respecto al total de colegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Qu porcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiados son de la zona Norte, Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu porcentaje del total son premiados y del Sur? Para responder a estas preguntas se puede considerar tablas de frecuencia y de contingencia. En primer lugar solicitaremos una tabla de frecuencia de premio
premio (SI=1, NO=0) Frecuencia 1730 589 2319 Porcentaje 74,6 25,4 100,0 Porcentaje vlido 74,6 25,4 100,0 Porcentaje acumulado 74,6 100,0
Vlidos
NO SI Total
De la tabla de frecuencias se obtiene que el 25,4% del total de colegios resulta premiado. Para saber qu porcentaje de los colegios Municipalizados resultaron premiados, y qu porcentaje de los colegios premiados son Subvencionados podemos realizar una tabla de contingencia de la variable dependencia versus premio solicitando el porcentaje fila y columna. CROSSTABS /TABLES=dependencia BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL . De la tabla se observa que de los colegios Municipalizados el 25, 3% resultaron premiados y que del total de premiados el 54% corresponde a Subvencionados
61
Tabla de contingencia Tipo de dependencia * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 489 166 74,7% 28,3% 302 74,2% 17,5% 939 74,7% 54,3% 1730 74,6% 100,0% 25,3% 28,2% 105 25,8% 17,8% 318 25,3% 54,0% 589 25,4% 100,0%
Tipo de dependencia
Municipalizado
Privado
Subvencionado
Total
Recuento % de Tipo de dependencia % de premio (SI=1, NO=0) Recuento % de Tipo de dependencia % de premio (SI=1, NO=0) Recuento % de Tipo de dependencia % de premio (SI=1, NO=0) Recuento % de Tipo de dependencia % de premio (SI=1, NO=0)
Total 655 100,0% 28,2% 407 100,0% 17,6% 1257 100,0% 54,2% 2319 100,0% 100,0%
De la misma forma para saber los porcentajes en relacin a la zona podemos realizar una tabla de contingencia de zona versus premio solicitando los porcentajes fila, columna y total
CROSSTABS /TABLES=zona BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .
62
Tabla de contingencia zona * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 209 72 74,4% 25,6% 12,1% 9,0% 1076 75,9% 62,2% 46,4% 445 71,7% 25,7% 19,2% 1730 74,6% 100,0% 74,6% 12,2% 3,1% 341 24,1% 57,9% 14,7% 176 28,3% 29,9% 7,6% 589 25,4% 100,0% 25,4%
zona
Norte
Centro
Sur
Total
Recuento % de zona % de premio (SI=1, NO=0) % del total Recuento % de zona % de premio (SI=1, NO=0) % del total Recuento % de zona % de premio (SI=1, NO=0) % del total Recuento % de zona % de premio (SI=1, NO=0) % del total
Total 281 100,0% 12,1% 12,1% 1417 100,0% 61,1% 61,1% 621 100,0% 26,8% 26,8% 2319 100,0% 100,0% 100,0%
Se obtiene que de los colegios premiados el 12,2% corresponde a la zona Norte, el 57,9% corresponde a la zona Centro y el 29,9% corresponde a la zona Sur. Ahora respecto a los colegios de la zona Centro el 24,1% resulta premiado y respecto al total de colegios el 7,6% son premiados y de la zona Sur. e) Qu porcentaje de los colegios premiados son urbanos? Qu porcentaje de los colegios rurales son premiados? Qu porcentaje de colegios resultaron premiados por grupo? En forma anloga a la pregunta anterior se puede resolver con una tabla de contingencia de premio versus tipo y premio versus grupo Sintaxis del procedimiento CROSSTABS /TABLES=tipo grupo BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .
Tabla de contingencia Caracterizacin del establecimiento * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 131 42 75,7% 7,6% 5,6% 1599 74,5% 92,4% 69,0% 1730 74,6% 100,0% 74,6% 24,3% 7,1% 1,8% 547 25,5% 92,9% 23,6% 589 25,4% 100,0% 25,4%
Rural
Urbano
Total
Recuento % de Caracteri zacin del establecimiento % de premio (SI=1, NO=0) % del total Recuento % de Caracteri zacin del establecimiento % de premio (SI=1, NO=0) % del total Recuento % de Caracteri zacin del establecimiento % de premio (SI=1, NO=0) % del total
Total 173 100,0% 7,5% 7,5% 2146 100,0% 92,5% 92,5% 2319 100,0% 100,0% 100,0%
63
De la tabla se obtiene que de los colegios premiados, el 92,9% son urbanos y del total de colegios rurales el 24,3 % son premiados De la tabla de contingencia de grupo versus premio se puede ver que el criterio utilizado para premiar a los mejores colegios segn su rendimiento SIMCE otorg casi equitativamente el 25% de colegios premiados por grupo.
Tabla de contingencia grupo * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 51 17 75,0% 25,0% 2,9% 2,2% 438 74,6% 25,3% 18,9% 15 78,9% ,9% ,6% 287 74,0% 16,6% 12,4% 65 75,6% 3,8% 2,8% 874 74,6% 50,5% 37,7% 1730 74,6% 100,0% 74,6% 2,9% ,7% 149 25,4% 25,3% 6,4% 4 21,1% ,7% ,2% 101 26,0% 17,1% 4,4% 21 24,4% 3,6% ,9% 297 25,4% 50,4% 12,8% 589 25,4% 100,0% 25,4%
Total 68 100,0% 2,9% 2,9% 587 100,0% 25,3% 25,3% 19 100,0% ,8% ,8% 388 100,0% 16,7% 16,7% 86 100,0% 3,7% 3,7% 1171 100,0% 50,5% 50,5% 2319 100,0% 100,0% 100,0%
grupo
Municipalizado y Rural
Municipalizado y Urbano
Privado y Rural
Privado y Urbano
Subvencionado y Rural
Subvencionado y Urbano
Total
Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total
f) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana? Realice un grfico que permita observar la forma de la distribucin de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems un diagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar? Para responder a la pregunta se puede solicitar en explorar una tabla de valores extremos de puntaje promedio por tipo, identificando por zona, y en grficos pedir el histograma y diagrama de cajas.
64
EXAMINE VARIABLES=puntprom BY caract /ID= zona /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
Valores extremos Mayores Caracterizacin del establecimiento Rural Nmero del caso 2011 2016 2010 2015 2012 2090 2052 2170 2203 2093 zona Centro Centro Centro Centro Sur Centro Centro Centro Centro Centro Valor 351,50 334,50 330,50 324,50 322,00a 357,50 352,50 352,50 350,50 348,50
Urbano
1 2 3 4 5 1 2 3 4 5
a. En la tabla de valores extremos mayores slo se muestra una lista parcial de los casos con el valor 322,00.
De esta forma se obtiene que los colegios de mayor puntaje promedio tanto en los colegios de tipo rural como de tipo urbano se encuentran en la zona Centro, excepto el colegio con el quinto mejor puntaje de tipo rural que recae en la zona Sur (aunque existen otros puntajes con 322 puntos en promedio) En los histogramas se puede observar la forma de la distribucin de los puntajes promedios para los colegios de tipo rural y los de tipo rrbano En el histograma correspondiente a los colegios de tipo rural se puede apreciar una asimetra positiva con puntajes mas sesgados hacia puntajes bajos y con varios colegios con puntajes en el extremo superior ( casos extremos y atpicos). Claramente no es una distribucin simtrica, y adems algo levantada denotando que es leptocurtica, por tanto no se asemeja a una distribucin normal.
Histograma
para tipo= Rural 40
30
Frecuencia
20
10
65
En cambio la distribucin de los puntajes de los colegios de tipo urbano se observa bastante simtrica sin puntajes claramente extremos y/o atpicos, pero no es clara la forma de una curva normal.
Histograma
para tipo= Urbano 120
100
Frecuencia
80
60
40
20 Mean = 259,9103 Std. Dev. = 39,09525 N = 2.146 200,00 225,00 250,00 275,00 300,00 325,00 350,00
0 175,00
Diagrama de caja para puntaje promedio por tipo de colegio Rural y Urbano
250,00
200,00
Rural
Urbano
El diagrama de cajas por tipo rural y urbano nos muestra claramente las diferencias en ambas distribuciones. Se observa que la mediana de puntajes de los colegios rurales (lnea horizontal negra) est cerca de los 220 puntos lo que indica que la mitad de este tipo de colegios tiene un puntaje promedio inferior o igual al valor de la mediana que en este caso es 221 puntos. Se observan varios valores atpicos y un valor extremo en la parte superior de puntajes. Los puntajes de los colegios
66
rurales en general estn ms abajo que si comparamos con los puntajes de colegios urbanos. Se observa que la mediana de los colegios urbanos est sobre los 250 puntos. Especficamente la mediana es 255 puntos lo que indica que el 50% de los colegios urbanos tienen puntajes inferiores o iguales a 255 puntos. No se observan valores extremos ni atpicos.
g) Determine mediante una grfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemticas es similar si se compara los segmentos rural y urbano Para realizar esta grfica se selecciona Grafico/barras/Para distintas variables/Agrupado GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /MISSING=LISTWISE .
300
Media
200
291,3
235,5
226,6
100
Tipo de dependencia
Del grfico se observa que tanto para lenguaje como para matemticas los colegios privados tiene mejores resultados observndose sin embargo diferencias en casi 15 puntos a favor del promedio de matemticas. Los colegios subvencionados presentan puntajes intermedios si comparamos los privados y los municipalizados con puntajes en torno a 257 puntos en matemticas y con una diferencia de solo 2 puntos a favor del puntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajes promedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favor de lenguaje.
67
Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano hacemos un grfico de barras agrupados seleccionando resmenes para grupos de casos GRAPH /BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract
Media de puntajes promedios en lenguaje por dependencia agrup caracterizacin Rural y Urbano
300
Carac esta
250
Media prom_len
200
150
272,9 237,1 221,3
100
50
Se observa una clara diferencia entre los grupos con caracterizacin rural y urbana, notndose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajo en los colegios rurales en relacin a los colegios urbanos. Para comparar el comportamiento en los resultados de ambas pruebas por dependencia entre la caracterizacin de Rural y Urbano es conveniente hacer un grfico en dos paneles. Para esto vamos a grficos de barras agrupados y seleccionar resumen para distintas variables GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /PANEL ROWVAR=caract ROWOP=CROSS /MISSING=LISTWISE .
68
Media de puntajes de lenguaje y matemticas por dependencia para colegios urbanos y rurales
prom_len 300 prom_mat
Urbano
Media
200
292,2 237,1 307 261,4 259,3
100
228,5
300
Media
Rural
200
272,9 286,8 234 224,7
100
221,3
210,6
Tipo de dependencia
El grfico nos muestra un comportamiento muy similar por dependencia entre los urbanos y rurales en cuanto a que los puntajes promedios ms altos se observan en los colegios privados, los puntajes intermedios en los subvencionados y los puntajes ms bajos en los municipalizados. En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los puntajes de los colegios rurales. h) Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de la distribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, y muestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo. Interprete los estadsticos para el grupo de municipalizados y rurales. Para responder a esta pregunta hay varios posibles procedimientos. Una forma posible es realizar un cubo OLAP para la variable puntprom con variable de agrupacin grupo. Analizar/ Reporte/ Cubo OLAP Sintaxis del procedimiento OLAP CUBES puntprom BY grupo /CELLS=COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT /TITLE='OLAP Cubes'.
69
Para dejar la forma de la tabla siguiente se puede editar el cubo, mover el pivote de grupo, al lado superior derecho, el pivote de estadsticos, al lado inferior izquierdo y el pivote variable al lado superior izquierdo.
Estadsticos descriptivos para el puntaje promedio entre matemticas y lenguaje de la prueba SIMCE por grupo puntaje promedio entre lenguaje y matemticas grupo Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total N 68 587 19 388 86 1171 2319 Media 215,9265 232,8169 279,8947 299,6224 229,3547 260,3335 257,6511 Mediana 215,7500 228,0000 277,5000 311,0000 225,2500 260,0000 252,0000 Mnimo 181,00 185,00 213,00 187,50 181,00 179,00 179,00 Mximo 257,00 348,00 351,50 357,50 322,00 337,00 357,50 Desv. tp. 15,49103 27,32073 43,41933 34,06601 29,31110 33,95561 39,45891 Asimetra ,216 1,156 ,129 -,892 ,971 ,026 ,320 Curtosis -,111 1,845 -1,616 ,017 1,015 -,856 -,920 % del total de N 2,9% 25,3% ,8% 16,7% 3,7% 50,5% 100,0%
Medias. Analizar/ Comparar medias/ medias Sintaxis del procedimiento MEANS TABLES=puntprom BY grupo /CELLS COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT
Una segunda forma de lograr esta tabla de forma inmediata es utilizando el men
Para dejar la misma forma de la tabla anterior se puede transponer filas y columnas desde el men Pivotar una vez editada la tabla.
Informe puntaje promedio entre lenguaje y matemticas grupo Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total N 68 587 19 388 86 1171 2319 Media 215,9265 232,8169 279,8947 299,6224 229,3547 260,3335 257,6511 Mediana 215,7500 228,0000 277,5000 311,0000 225,2500 260,0000 252,0000 Mnimo 181,00 185,00 213,00 187,50 181,00 179,00 179,00 Mximo 257,00 348,00 351,50 357,50 322,00 337,00 357,50 Desv. tp. 15,49103 27,32073 43,41933 34,06601 29,31110 33,95561 39,45891 Asimetra ,216 1,156 ,129 -,892 ,971 ,026 ,320 Curtosis -,111 1,845 -1,616 ,017 1,015 -,856 -,920 % del total de N 2,9% 25,3% ,8% 16,7% 3,7% 50,5% 100,0%
Una tercera forma sera segmentar el archivo previamente por la variable grupo y luego pedir en el men frecuencias los estadsticos solicitados. Sintaxis procedimiento 3 SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN SKEW KURT /ORDER= ANALYSIS .
70
De la tabla de estadsticos realizada en el punto anterior se puede observar que en promedio los puntajes de los colegios del grupo de municipalizados y rurales alcanzan un valor de 215,92 puntos, con una variabilidad relativamente baja de 15,49 puntos, es decir los puntajes se desvan en promedio respecto a la media en 15,49 puntos, calculado en base a 68 colegios, los que representan un 2,9% del total de colegios considerados en el estudio. Se observa que la mediana est cercana a la media de los datos (caracterstica de distribuciones cercanas a distribuciones simtricas), e indica que el 50% de los colegios obtiene un puntaje menor o igual a 215,75 puntos, con puntajes que oscilan entre 181 puntos y 257 puntos, puntajes muy bajos si se compara con los dems grupos de colegios. Se observa la curtosis negativa y muy cercana a cero, esto significa que la curva es muy similar a la normal en cuanto a que se asemeja mucho a una curva mesocurtica (caracterstica de la curva normal). La asimetra es positiva muy cercana a cero por tanto se asemeja bastante a una curva simtrica. En sntesis se puede apreciar una distribucin con un buen ajuste a una normal. Esto se puede apreciar en el histograma correspondiente. (Para verificar el ajuste a una normal se puede ver el estadstico de Kolmogorov- Smirnov).
Histograma
para grupo= Municipalizado y Rural 25
20
Frecuencia
15
10
i) Realice un grfico considerando a todos los colegios en estudio y otro grfico considerando slo el segmento de premiados, que permitan observar la posicin del grupo en relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete. Para esto realizaremos un diagrama de cajas por grupo. EXAMINE VARIABLES=puntprom BY grupo /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS NONE /CINTERVAL 95 /MISSING LISTWISE
71
/NOTOTAL.
Diagramas de cajas para los puntajes promedios SIMCE por grupo de colegios
350,00
300,00
514
19 250,00
Privado y Urbano
grupo
Del grfico se puede apreciar que los mayores puntajes se concentran en los colegios privados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puede ver que los puntajes ms bajos se concentran en los colegios municipalizados y rurales presentando la menor de las medianas y es el grupo que presenta la menor variabilidad en los puntajes, es decir son bastante homogneos en cuanto al resultado promedio SIMCE, mostrando slo un caso sobre los 250 puntos en promedio. Se observa que el grupo de municipalizados urbanos a pesar de tener la mayora de los colegios concentrados en puntajes bajos es el nico grupo que presenta varios colegios con puntajes atpicos y un extremo en la parte alta de puntajes. Respecto a los subvencionados se ve clara diferencia entre los urbanos y rurales donde hay una marcada diferencia a puntajes ms bajos en los colegios rurales. Para obtener el diagrama de cajas para los premiados, primero se selecciona a los colegios que obtuvieron premio y una vez filtrada la base se procede a realizar la grfica. USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Es claro que la posicin de cada grupo en general se mantiene en relacin a la grfica analizada anteriormente. Los puntajes de los premiados con mayor puntaje se concentran en los privados,
72
observndose muy concentrados, bastante homogneos entre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del grupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es el que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajes atpicos superiores en el rango de puntajes del grupo de los privados. El 50% de los colegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75) del grupo de municipalizados urbanos se comporta de una manera muy similar a los colegios que se encuentran en la caja del rango intercuartil del grupo de subvencionados rurales. Se observa mas notoriamente la diferencia en los puntajes de los colegios premiados que pertenecen al grupo de los subvencionados rurales y los que pertenecen a los subvencionados urbanos.
Diagrama de cajas para los puntajes promedios de los colegios premiados por grupo
360,00 2.090 2.008 2.004 340,00 2.006 2.000 2.003 2.011
2.211
320,00
300,00
280,00
260,00
19
240,00
220,00
Privado y Urbano
grupo
Si consideramos la base de datos como si fuera la poblacin de colegios que rinde la SIMCE, podramos decir que claramente se observa diferencias significativas entre las medias de puntajes entre los diferentes grupos de colegios. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE considerando todos los colegios en estudio. Para comparar dispersin o variabilidad entre distribuciones diferentes se calcula el coeficiente de variacin que se calcula en base a la desviacin estndar y la media. Indica la magnitud relativa de la desviacin estndar en comparacin con la media de la distribucin, expresada como porcentaje.
73
Se calcula como.
C.V =
.100
Para esto se puede pedir una tabla con los estadsticos bsicos media y desviacin estndar y luego en otra columna se puede calcular el coeficiente de variacin en base a la frmula anterior.
Informe puntaje promedio entre lenguaje y matemticas Coeficiente de Variacin 7,17 11,73 15,51 11,37 12,78 13,04 15,31
grupo Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total
De la tabla podemos observar que el grupo de colegios municipalizados y rurales es el que tiene menor variabilidad relativa, concepto que se pudo apreciar en los diagramas de caja. El grupo de los colegios que presentan mayor variabilidad en puntajes son los grupos Privado y Rural y el grupo Subvencionado y Urbano.
74
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 6
Se muestra un diagrama para cada opcin Arch1 Archivofundido Arch2 Identificador var1 Identificador var1 var2 Identificador var2 w D s . L s x A t . F t y B w D . x z C x A H y y B J z z C K Tabla1: Vincular archivos uno a uno*Ambos archivos proporcionan casos*
L F H J K
Note que en cada aparicin de la variable que vincula (aqu identificador) da como resultado un caso en el archivo final. Si un pas tiene un caso en un archivo y perdido en el otro archivo (s,t,w), el identificador se retiene en el archivo combinado y se le asigna valores perdidos por el sistema a las variables numricas que no contienen informacin.
5
TP
75
D A B C
. H J K
L F H J K
Tabla2. El que no es un conjunto de datos activo es una tabla de claves El procedimiento a travs de una tabla de claves (o uno a muchos, o archivo de claves) permite vincular un nico caso de un archivo de tabla de claves a ms de un caso en el segundo archivo. Se muestra un diagrama de este procedimiento en la tabla 2.
D A B C
L F H J K
L F H J K
Tabla2. El conjunto de datos activo es una tabla de claves. Importancia de ordenar Para cualquier tipo de procedimiento para fundir los archivos deben estar ordenados por la variable clave. Si los archivos no estn ordenados la vinculacin falla. Importancia del tipo de archivo. Para fundir los archivos agregando variables, ambos archivos deben estar definidos en SPSS. Esto significa que cada archivo debe estar guardado como archivo de datos de SPSS en el Editor de Datos. Advertencia acerca de los nombres de las variables Es importante usar nombres nicos de nombres de variables para ambos archivos. Si se utiliza el mismo nombre de variable en ambos archivos, SPSS retendr slo un conjunto de valores de datos. Aunque en el cuadro de dilogo de Fundir archivo Aadir variables se puede renombrar variables, es conveniente chequear antes que los nombres de las variables no coincidan.
Antes de fundir los archivos Personas con licencia mdica (arch1).sav y Diagnstico-licencia mdica (arch2).sav debemos dejar la variable clave para la fundici[on en este caso rutpac definidas en el mismo formato y forma. 1) Utilice la funcin CONCAT para concatenar (unir) el rut y el guin rut en una sola variable
76
CONCAT(expr_cadena,expr_cadena[,..]). Cadena. Devuelve una cadena que es la concatenacin de todos los argumentos, que deben ser cadenas. Esta funcin requiere dos o ms argumentos. En modo de pgina de cdigo, si expr_cadena es una variable de cadena, utilice RTRIM si slo desea el valor de cadena real sin el relleno por la derecha de la anchura de la variable definida. Por ejemplo, CONCAT(RTRIM(var_cadena1), RTRIM(var_cadena2)). Solucin: Transformar/Calcular variable/ Variable de destino: rutpac/Tipo y etiqueta: Tipo cadena ,anchura 15, etiqueta: rut paciente Sintaxis STRING rutpac (A15). COMPUTE rutpac=CONCAT(RTRIM(rut),"-",RTRIM(guionrut)). VARIABLE LABELS rutpac 'rut paciente'. EXECUTE. Fundicin DATOS&FUNDIR ARCHIVO A;ADIR VARIABLES SELECCIONAR OPCION Ambos archivos
Ejercicios
a) Determine el diagnstico que con mayor frecuencia se presenta en hombres y en mujeres. Analizar/ Estadsticos descriptivos/Tablas de contingencia: Fila Diagnostico, columna Sexo
77
b) Muestre un grfico que permita visualizar nmero de licencias por ocupacin agrupado por sexo. Comente. Grficos generador de grficos barras agrupadas
78
Se observa tanto para hombres como para mujeres una bajsima cantidad de licencias en la categora Ejecutivos Se puede apreciar un bajo nmero de licencias en la categoras en las categoras Ejecutivo, Profesional como Oficinista presentndose en ambas categoras mayor nmero de licencias en mujeres. La categora de ocupacin operarios, artesanos presenta mayor cantidad de licencias, observndose 43 licencias en hombres y 26 licencias en mujeres. Con una gran diferencia se presenta la categora Otros que agrupa todo el resto de ocupaciones no mencionadas anteriormente mostrando mayor cantidad en mujeres que en hombres. c) Calcular una variable que muestre los das de licencia mdica del empleado (Explique el procedimiento o muestre la sintaxis). Calcule los estadsticos descriptivos bsicos de la variable creada considerando los cuartiles. La variable dias Dias de licencia se calcul segn la sintaxis COMPUTE dias=CTIME.DAYS(fecha_t2 - fecha_i2)+1 . VARIABLE LABELS dias 'dias de licencia medica'. EXECUTE.
79
d) Determine para hombres y mujeres los estadsticos; nmero de casos (N), media, mediana, desviacin estndar, mnimo, mximo de las variables edad. Grafique un histograma de edad para hombres y mujeres. Comente los resultados Qu puede decir de la variabilidad de las edades para el grupo de hombres en comparacin con el grupo de las mujeres? i) Clculo de la edad Transformar/Asistente para fechas y horas/Realizar clculos con fechas y horas/Calcular el nmero de unidades de tiempo entre dos fechas/Fecha 1: $TIME Fecha 2: fechnac/ Unidad: aos/ truncar a entero/ variable de resultado: edad , etiqueta de variable: edad del paciente/pegar la sintaxis en la ventana de sintaxis. * Asistente de fecha y hora: edad. COMPUTE edad=DATEDIF($TIME, fechnac, "years"). VARIABLE LABEL edad "edad del paciente". VARIABLE LEVEL edad (SCALE). FORMATS edad (F5.0). VARIABLE WIDTH edad(5). EXECUTE. Nota: Otra forma es usar funciones Primero cambiar el formato de fecha en la definicin de la variable en formato dd.mm.yyyy Para SPSS las fechas se contabilizan por una serie en la cual cada da esta valorado en 86400 (son los segundos por da). En men transformar / Calcular: Variable destino: edad2
80
Expresin numrica:
(DATE.DMY(18,2,2011)-fechanac)/(365.25*86400)6
Use funcin DATE.DMY(DD,MM,YY) Observe que se insert una nueva columna con la variable edad2 Se debe truncar la variable edad2 Variable destino: edadent Expresin numrica: TRUNC(edad2) Sintaxis COMPUTE edad2=(DATE.DMY(18,2,2011)-fechnac) / (365.25*86400). EXECUTE. COMPUTE edadent=TRUNC (edad2). EXECUTE. Observacin: Otra forma de calcular la edad Crear una nueva variable llamada TODAY (que guardar la fecha de hoy da). La variable $TIME es una variable del sistema en SPSS que guarda el dato fecha de hoy como un valor. La funcin XDATE.DATE convierte el valor de $TIME en un formato que SPSS puede reconocer como una fecha. Calcular TODAY=XDATE:DATE($TIME) (este valor representa el nmero de segundos desde que comienza el calendario Gregoriano Transformar Calcular Edad=(CTIME:DAYS(TODAY-fechanacimiento))/365.25 CTIME.DAYS(valortiempo) Numrico. Devuelve el nmero de das, incluyendo fracciones de da, que hay en valortiempo, el cual debe ser un nmero o una expresin en formato de tiempo de SPSS, tal como el resultado de las funciones TIME.xxx. ii) Considerando la variable edad realizamos un cubo OLAP ANALIZAR Informes Cubos Olap
Para Hombres: La base considera 319 licencias de hombres cuya edad promedio es aprox 54 aos con una desviacin promedio respecto a la media de casi 12 aos. La edades oscilan entre 40 y 81 aos correspondiendo el 50% de licencias a hombres menores o iguales a 49 aos. Para Mujeres: La base considera 333 licencias de mujeres cuya edad promedio es 54 aos con una desviacin promedio respecto a la media de casi 12 aos. La edades oscilan en un rango similar al de hombres entre 40 y 82 aos correspondiendo el 50% de licencias a mujeres menores o iguales a 48 aos. En los histogramas se pueden observar las formas de la distribucin de edad.
6
81
CV =
Para mujeres:
CV =
Del clculo anterior se aprecia mayor variacin relativa ( pero leve) en la distribucin de edades de los hombres respecto al de las mujeres.
Segunda Parte: Trabajo con otras funciones 1) Utilice las siguientes funciones de CONVERSION para las variables rutpers y rut NUMBER(expr_cadena, formato). Numrico. Devuelve el valor de la expresin de cadena expr_cadena como un nmero. El segundo argumento, formato, es el formato numrico utilizado para leer expr_cadena. Por ejemplo, NUMBER(cadena_Fecha, FECHA11) convierte las cadenas que contienen fechas del formato general dd-mmm-aaaa a un valor numrico de segundos que representa esa fecha. (Para mostrar el valor como fecha, utilice el comando FORMATS o PRINT FORMATS.) Si la cadena no se puede leer con el formato, esta funcin devuelve los valores perdidos por el sistema. STRING(expr_num, formato) Cadena. Devuelve la cadena que resulta de convertir expr_num en una cadena, de acuerdo con el formato especificado. STRING(-1,5,F5.2) devuelve el valor de cadena "1,5". El segundo argumento debe ser un formato para la escritura de un valor numrico. Solucin: Transformar/Calcular variable/ Variable de destino: rtperscad/Tipo y etiqueta: Tipo Cadena, etiqueta: rut persona en cadena; anchura 15
82
Sintaxis: DATASET ACTIVATE Conjunto_de_datos1. STRING rutperscad (A15). COMPUTE rutperscad=STRING(rut_pers,F10.0). VARIABLE LABELS rutperscad 'rut persona en cadena'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutnum/Tipo y etiqueta: Tipo Numricos, etiqueta: rut en formato numrico Sintaxis COMPUTE rutnum=NUMBER(rut,F10). VARIABLE LABELS rutnum 'rut en formato numerico'. EXECUTE. 2) Considere la variable rutpac y utilice las funciones LTRIM, CHAR.INDEX y CHAR.SUBSTR para calcular la variable rutpac2 sin el guion rut LTRIM(expr_cadena[, carcter]). Cadena. Devuelve expr_cadena de la que se elimina cualquier instancia inicial de carcter. Si no se especifica char, se eliminan los blancos iniciales. El carcter debe evaluarse como un nico carcter. CHAR.INDEX(cadena, subcadena[, divisor]). Numrico. Devuelve un nmero que indica la posicin del carcter de la primera ocurrencia de la subcadena dentro de la cadena. El tercer argumento opcional, divisor, es un nmero de caracteres usado para dividir subcadena en cadenas distintas. Cada subcadena se usa para realizar bsquedas y la funcin devuelve la primera aparicin de cualquier subcadena. Por ejemplo, CHAR.INDEX(var1, 'abcd') devolver el valor de la posicin inicial de la cadena completa "abcd" en la variable de cadena var1; CHAR.INDEX(var1, 'abcd', 1) devolver el valor de la posicin de la primera aparicin de cualquier valor de la cadena; y CHAR.INDEX(var1, 'abcd', 2) devolver el valor de la primera aparicin de "ab" o "cd". El divisor debe ser un entero positivo y debe dividir exactamente la longitud de la subcadena. Devuelve 0 si la subcadena no aparece dentro de la cadena. CHAR.SUBSTR(expr_cadena,pos[,longitud]). Cadena. Devuelve una subcadena que empieza en la posicin del carcter pos de expr_cadena. El tercer argumento opcional representa el nmero de caracteres de la subcadena. Si se omite el argumento opcional longitud, devuelve la subcadena que comienza en la posicin del carcter pos de expr_cadena hasta el final de expr_cadena. Por ejemplo CHAR.SUBSTR('abcd', 2) devuelve 'bcd' y CHAR.SUBSTR('abcd', 2, 2) devuelve 'bc'. Solucin Transformar/Calcular variable/ Variable de destino: rutpacl/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente con LTRIM
83
STRING rutpacl (A12). COMPUTE rutpacl=LTRIM(rutpac). VARIABLE LABELS rutpacl rut paciente con LTRIM. EXECUTE.
Transformar/Calcular variable/ Variable de destino: rut2/Tipo y etiqueta: Tipo numrico, etiqueta: numero de caracteres de rut
Sintaxis COMPUTE rut2=CHAR.INDEX(rutpacl,"-"). VARIABLE LABELS rut2 'numero de caracteres de rut'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutpac2/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente2
STRING rutpac2 (A10). COMPUTE rutpac2=CHAR.SUBSTR(rutpacl,1,rut2-1). VARIABLE LABELS rutpac2 'rut paciente 2'. EXECUTE. 3) Considere la variable edad calculada en la seccin anterior. Calcule la edad el ao, mes y dia de la semana. XDATE.YEAR(valorfecha). Numrico. Devuelve el ao (un entero de cuatro dgitos) a partir de un valor numrico que represente una fecha. El argumento puede ser un nmero, una variable con formato de fecha o una expresin evaluable a una fecha. XDATE.MONTH(valorfecha). Numrico. Devuelve el mes (un entero entre 1 y 12) a partir de un valor numrico que representa una fecha. El argumento puede ser un nmero, una variable con formato de fecha o una expresin evaluable a una fecha. XDATE.WKDAY(valorfecha). Numrico. Devuelve el nmero del da de la semana (un entero entre 1, domingo, y 7, sbado) a partir de un valor numrico que represente una fecha. El argumento puede ser un nmero, una variable con formato de fecha o una expresin evaluable a una fecha.
84
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
85
/N_BREAK=N. EXAMINE VARIABLES=n_break BY sexo /ID= delito_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
Extreme Valuesb N_BREAK Highest Sexo del interno F Case Number 1 2 3 M 1 2 3 4 5 69 58 55 56 70 53 59 51 Primera mencin de delito TRAFICO ILEGAL DE ESTUPEFACIENTES ROBO CON VIOLENCIA ROBO CON INTIMIDACION ROBO CON INTIMIDACION TRAFICO ILEGAL DE ESTUPEFACIENTES ROBO CON FUERZA ROBO CON VIOLENCIA ROBO Value 24 5 4 200 133 114 64 55
b. The requested number of extreme values exceeds the number of data points. A smaller number of extremes is displayed.
AUTORECODE VARIABLES=u_.penal /INTO upenal /PRINT. AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR1.sav' /BREAK=cod._uni sexo /edad_c_1 = MEAN(edad_cum) /region_1 = FIRST(region) /upenal_1 = FIRST(upenal) /casos=N. SORT CASES BY sexo . SPLIT FILE LAYERED BY sexo . EXAMINE VARIABLES=casos /ID= upenal_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
86
CASOS
Mayores
Menores
CASOS
Mayores
Menores
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Nombre de la unidad CPF. SANTIAGO CP. ARICA CCP. IQUIQUE CCP. CONCEPCION CDP. OVALLE CDP. CASTRO CDP. ILLAPEL CCP. COPIAPO CDP. CALAMA CDP. LOS ANGELES CDP. SANTIAGO SUR CP. ARICA CCP. COLINA I CP. VALPARAISO CCP. COLINA II CDP. PORVENIR CET. CONCEPCION CDP. PUERTO AYSEN CET. METROPOLITANO CCP. SAN FERNANDO
Valor 11 5 5 3 .a 1 1 1 1 .b 130 63 63 54 49 1 1 1 1 .b
a. En la tabla de valores extremos mayores slo se muestra una lista parcial de los casos con el valor 1. b. En la tabla de valores extremos menores slo se muestra una lista parcial de los casos con el valor 1.
AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR2 .sav' /BREAK=cod._uni /N_BREAK=N. USE ALL. COMPUTE filter_$=(n_break = 2). VARIABLE LABEL filter_$ 'n_break = 2 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . AGGREGATE /OUTFILE='D:\MGPP 2004\SPSS\AGR3 .sav' /BREAK=pais sexo /a_os_1 = MIN(a_os) /a_os_2 = MAX(a_os) /a_os_3 = MEAN(a_os) /N_BREAK=N.
87
*** Generacin de Cubos OLAP *** . OLAP CUBES edad_cum a_os BY region BY sexo BY pais /CELLS=COUNT MEAN STDDEV MEDIAN MIN MAX NPCT /TITLE='OLAP Cubes'.
OLAP Cubes Regin de la unidad: Total Sexo del interno: Total NOmbre del pas: Total N Mean Std. Deviation Median Minimum Maximum % of Total N Edad al iniciar condena 973 21,79 16,22 24,00 0 70 100,0% Pena en aos 649 8,91 45,15 5,00 2 1154 100,0% OLAP Cubes Regin de la unidad: Total Sexo del interno: M NOmbre del pas: Total N Mean Std. Deviation Median Minimum Maximum % of Total N Edad al iniciar condena 936 21,51 16,09 24,00 0 67 96,2% Pena en aos 615 9,09 46,38 5,00 2 1154 94,8%
88
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 8
considerando la produccin de cobre y oro. Para esto considere para cada ao la produccin total, la media de produccin mensual, la variabilidad, la mnima y mxima produccin. 4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo. 5) Genere un grfico que muestre para cada ao la produccin promedio mensual de cobre 6) Genere un grfico que muestre para cada ao la produccin media mensual de cobre, la mnima y mxima produccin mensual y la variabilidad de produccin de cobre 7) Considerando los aos 2009 y 2010 genere un archivo con estadsticas agregadas por mes para la produccin de oro. Para esto considere la media de produccin mensual , la mnima y mxima produccin, la desviacin estndar y el coeficiente de variabilidad de la produccin de oro.
89
SOLUCION 1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual. Solucin: Archivo /abrir/datos
Ajuste en vista de variables los decimales a 2 y guardar con el nombre produccin minera 2009-2010 mensual
90
2) Calcule una variable que muestre solo el ao y otra que muestre solo el mes.
Para calcular el mes Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresin de cadena: CHAR.SUBSTR(AoyMes,6). Pegar/ ejecutar/Aceptar. DATASET ACTIVATE Conjunto_de_datos1. STRING mes (A10). COMPUTE mes=CHAR.SUBSTR(AoyMes,6). VARIABLE LABELS mes 'mes'. EXECUTE. Para calcular el ao Transformar /calcular variable/ variable de destino: ao, tipo; cadena, anchura 4/expresin de cadena: CHAR.SUBSTR(AoyMes,1,4). Pegar/ ejecutar/Aceptar STRING ao (A4). COMPUTE ao=CHAR.SUBSTR(AoyMes,1,4). VARIABLE LABELS ao 'ao'. EXECUTE. Para pasar a formato numrico ir a vista de variables y cambiar formato de cadena a numrico, cambiar adems en medida de nominal a escala 3) Genere un archivo con estadsticas agregadas de produccin para el ao 2009 y 2010 considerando la produccin de cobre y oro. Para esto considere para cada ao la produccin total, la media de produccin mensual , la variabilidad, la mnimo y mxima produccin Datos/ Agregar/variable de segmentacin : ao/Resmenes de variables /Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino) /Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino) /Cobretdefino_min 'Mnima prod de cobre'=MIN(Cobretdefino) /Cobretdefino_max 'Mxima prod de cobre'=MAX(Cobretdefino) /Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino) /Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino) /Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino) /Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino) /Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino) /Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino) Activar nmero de casos: casos Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD
91
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo. Datos/ transponer DATASET ACTIVATE Conjunto_de_datos10. FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd Orokgdefino_sum Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd /NEWNAME=ao. Se genera un nuevo archivo sin ttulo. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/ informes Resmenes de casos./limitar a los primeros 11 casos.
92
5) Genere un grfico que muestre para cada ao la produccin mensual de cobre Considere el archivo AGRPROD.sav /ir a grficos /cuadros de dilogo antiguos/ barras/ simple/ valores individuales de casos/ las barras representan: Cobretdefino_mean, varaible:ao
Otra forma Considere el archivo prod minera 2009-2010. Ir a grficos /cuadros de dilogo antiguos/ barras/ simple/ resmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de categoras : ao
93
6) Genere un grfico que muestre para cada ao la produccin media mensual de cobre, la mnima y mxima produccin mensual y la variabilidad de produccin de cobre Ir a grficos /cuadros de dilogo antiguos/ barras/ agrupados/ resmenes para distintas variables/ las barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino), eje de categoras : ao. Aceptar
7) Considerando los aos 2009 y 2010 genere un archivo con estadsticas agregadas por mes para la produccin de oro. Para esto considere la media de produccin mensual, la mnima
94
y el coeficiente de variabilidad de la
Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el nombre AGRPRODMES.sav Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100 El resultado se puede ver en el archivo agregado
95
96
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C GUIA 9
Se realiz una encuesta dirigida a personas activas en el mbito laboral, con el objeto de conocer algunas caractersticas de sta y conocer qu ha sucedido con la evolucin de los sueldos. Para tal efecto, se tom una muestra de 470 personas activas. Los datos entregados por los entrevistados se depositaron en el archivo caso encuesta laboral (aplicacin IPC). Usando los antecedentes que residen en la base de datos antes sealada y los datos de IPC anual ( base Dic 1998=100) responda las siguientes preguntas. Considere Ao 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 IPC 71,68 78,09 84,49 90,10 95,54 100,00 102,31 106,94 109,76 112,86 114,07 116,84
a) Elaborar un cuadro que muestre los siguientes estadsticos descriptivos: Mnimo, Mximo, Media, Mediana y desviacin estndar, del sueldo promedio inicial, del sueldo promedio inicial expresado en pesos del ao 2004 y sueldo promedio actual por categora laboral ***Sintaxis IPC***. IF (contrato = 93) IPC = 71.68 . IF (contrato = 94) IPC = 78.09 . IF (contrato = 95) IPC = 84.49 . IF (contrato = 96) IPC = 90.10 . IF (contrato = 97) IPC = 95.54 . IF (contrato = 98) IPC = 100 . IF (contrato = 99) IPC = 102.31 . IF (contrato = 2000) IPC = 106.94 . IF (contrato = 2001) IPC = 109,76 . IF (contrato = 2002) IPC = 112.86 .
97
Sintaxis Utilizada para Actualizacin del sueldo Inicial en moneda de dic del 2004
COMPUTE suel2004 = (sueldini / IPC) * 116.84 . EXECUTE .
MEANS TABLES=sueldini sueld suel2004 BY catlab /CELLS COUNT MIN MAX MEAN MEDIAN STDDEV .
Informe Sueldo actual ( en pesos del 2004) 142 227146,40 846719,98 380863,4484 366611,8709 120759,16120 285 136965,55 467245,90 272755,6075 263933,6151 61964,72683 43 336507,91 1386998,08 765540,9758 751059,4599 237648,82763 470 136965,55 1386998,08 350502,5952 304926,2635 177517,26027 sueldo inicial en pesos del 2004 142 229440,81 855272,71 384609,4015 370315,0211 121893,4700 285 139760,77 476781,53 278291,0066 269320,0154 63258,53212 43 326706,71 1346600,08 743243,6659 729183,9416 230727,0171 470 139760,77 1346600,08 352950,9564 311149,2484 171214,0115
Tcnico
Directivo
Total
N Mnimo Mximo Media Mediana Desv. tp. N Mnimo Mximo Media Mediana Desv. tp. N Mnimo Mximo Media Mediana Desv. tp. N Mnimo Mximo Media Mediana Desv. tp.
Sueldo inicial 142 166500 570000 287285,56 268000,00 78070,001 285 135000 300000 201469,74 202500,00 34432,401 43 236250 1199700 535590,70 495000,00 163393,602 470 135000 1199700 257965,59 225000,00 119195,691
98
B) Considere por separado cada categora laboral . Realice un grfico para la media de los sueldos iniciales (moneda nominal) por ao de contrato. Luego realice un grfico para la media de los sueldos actuales .
IF (contrato < 2000) contrat = contrato + 1900 . VARIABLE LABELS contrat 'ao de contrato' . EXECUTE . IF (contrato >= 2000) contrat = contrato . VARIABLE LABELS contrat 'ao de contrato' . EXECUTE .
400000
300000
474000
200000
308566 266417 284400 323438 282825 263325 236250 285253 252450 315750 303750
100000
0 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
ao de contrato
99
200000
150000
236200 219164
100000
201600 206074
216750
50000
0 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
ao de contrato
400000,00
300000,00
457066,08 429922,46
474000,00
200000,00
304592,24
100000,00
0,00 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
ao de contrato
100
300000,00
200000,00 350.097,47 290.227,40 285.172,34 248.386,80 100000,00 235.960,79 199.390,81 216.163,53 241.614,46 220.913,26 237.097,01 181.817,54 216.750,00
0,00 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
ao de contrato
800000,00
600000,00
951475,06 867436,55
400000,00
829656,02
788603,62
200000,00
0,00 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
ao de contrato
101
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C GUIA 10
Grfico de dispersin
400
Zambia 300 Uganda 200 Ruanda Rep. C. Africana 100 Estados Unidos Barbados Kenia
R = 0,0257
Alfabetizacin (%)
2.-Considere el archivo Estudio Morfologa.sav. a) Determine si las variables estatura, peso y coeficiente intelectual estn correlacionadas significativamente e interprete. Para esto seleccione Analizar/Correlaciones/Divariadas Variables:ci, estatura y peso Seleccionar [Correlacin de Pearson], [Prueba de significacin bilateral], [Marcar las correlaciones significativas].
102
Correlaciones Cociente intelectual 1 . 149 ,081 ,325 149 ,001 ,988 148 ESTATURA ,081 ,325 149 1 . 150 ,600** ,000 149 PESO ,001 ,988 148 ,600** ,000 149 1 . 149
Cociente intelectual
ESTATURA
PESO
Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N
Diagrama de Dispersin La forma de una relacin se puede estudiar visualmente a partir de la nube de puntos generada en el Grfico de Dispersin: b) Realice un grfico de dispersin entre peso y estatura Seleccione Grficos/Dispersin/Dispersin Simple Eje Y: peso Eje X: estatura Establecer marcas por: sexo Etiquetar mediante: iden Edite la grfica y ajuste la nube por una recta de regresin, muestre el R2 e interprete.
100
80
70
SEXO
Mujer Hombre
60
PESO
50 Total Population 40 120 140 160 180 200 220 240 260 280 R = 0,3606
ESTATURA
c) Descubra qu puntos estn alejados de la nube y fltrelos para volver a hacer el grfico de dispersin, compare ahora el R2 e interprete. USE ALL. COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31). VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
103
SEXO
Mujer Hombre
PESO
50 Total Population 40 140 150 160 170 180 190 200 R = 0,7182
ESTATURA
Se han filtrado los casos 27, 31 y 93
d) Realice un grfico de dispersin superpuesto. Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos. Seleccione el par estatura - peso y el par ci - peso
200
104
e) Realice un grfico de dispersin matricial. El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener con las variables que se especifiquen. Elegir el tipo matricial como tipo de grfica de dispersin y seleccionar y transferir las variables a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar. Como hay tres variables habr tres parejas de relaciones (con cuatro variables habr seis parejas).
Cociente intelectual
ESTATURA
PESO
SEXO
Mujer Hombre
f) Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error tpico de estimacin
Resumen del modelo R cuadrado corregida ,716 Error tp. de la estimacin 6,4593
Modelo 1
R ,847(a)
R cuadrado ,718
El coeficiente R mide la fuerza de asociacin lineal entre estatura y peso, la cual es considerable. El R2 0,718 indica que la variacin en el peso se explica en un 71,8% por la variable estatura. Una forma de estimar el error estndar del estimador es basndose en los residuos;
n2 El error estndar de la estimacin es una medida de cun inexacto podra ser la prediccin y mide la dispersin con respecto a una recta promedio, denominada recta de regresin.
S Y ,X =
105
ANOVAb Modelo 1 Suma de cuadrados 15309,683 6008,032 21317,715 gl 1 144 145 Media cuadrtica 15309,683 41,722 F 366,941 Sig. ,000a
Cuando se trata de una regresin simple la prueba ANOVA se reduce a la prueba individual Test T donde H0: 1 = 0 g) Estime la ecuacin de regresin
Coeficientesa Coeficientes no estandarizados B Error tp. -92,138 8,816 ,999 ,052 Coeficientes estandarizad os Beta ,847
Modelo 1
(Constante) ESTATURA
t -10,451 19,156
donde
Y = -92,13 + 0,999X
Y = Peso X = Estatura
h) Pruebe la hiptesis nula H0: 1 = 0 para la estatura y el peso. Existe una relacin significativa entre la estatura y el peso? En el SPSS ver la tabla coeficientes que result en el ejercicio b) y observar el valor del estadgrafo t (asociado a la pendiente de la regresin) y su nivel de significancia. Dado que la sig < 0,01 se rechaza la hiptesis nula H0: 1 = 0. Concluimos entonces que existe una relacin significativa entre la estatura y el peso. i) Interprete la pendiente de la ecuacin de regresin. La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en promedio el peso aumenta en 0,999 unidades. Nota: Inferencias sobre la Pendiente. A fin de poder utilizar una ecuacin de regresin para efectos de estimacin o prediccin, primero debemos determinar si en la poblacin parece existir una relacin entre las dos variables o si la relacin observada en la muestra pudo ocurrir por azar. En ausencia de toda relacin en la poblacin, por definicin la pendiente de la lnea de regresin de la poblacin sera de cero 1=0. En consecuencia, la hiptesis nula que se prueba usualmente es H0: 1=0. La hiptesis nula tambin puede formularse como una prueba de una cola, en cuyo caso la hiptesis alternativa no es simplemente que existe relacin entre las dos variables, sino adems que esta relacin es de un tipo especfico (directa o inversa). Un valor hipottico de la pendiente se prueba calculando una estadstica t y usando n-2 grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuacin de regresin se incluyen dos estimaciones paramtricas, b0 y b1. La frmula estndar es:
106
t=
donde s = b1
b1 ( 1 )o sb1
SY , X
nX
Sin embargo, cuando, como ocurre por lo general, la hiptesis nula es que la pendiente es cero, la frmula se simplifica y enuncia como
b t= 1 sb1
El intervalo de confianza para la pendiente de la poblacin 1, en el que los grados de libertad asociados con t son n-2, se elabora de la siguiente manera:
+ b1 tsb1
Definicin de grados de libertad: Los grados de libertad indican el nmero de valores libres de variar en la muestra que sirve de base al intervalo de confianza.
j) Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresin lineal/ Estadsticos/Intervalos de confianza. En la tabla de resultados coeficientes del SPSS observe los lmites inferior y superior del intervalo de confianza para b1 al 95%.
Coeficientesa Coeficientes no estandarizados Modelo 1 B -92,138 ,999 Error tp. 8,816 ,052 Coeficientes estandarizad os Beta ,847 t -10,451 19,156 Sig. ,000 ,000 Intervalo de confianza para B al 95% Lmite superior Lmite inferior -109,564 -74,712 ,896 1,102
(Constante) ESTATURA
Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102 As con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y 1,102 con una confianza de 95%.
Coeficientesa Coeficient es estandari zados Beta ,984 t ,297 17,596 Sig. ,772 ,000
(Constante) INGRESO
Intervalo de confianza para B al 95% Lmite superior Lmite inferior -13,834 18,092 ,752 ,970
k) Determine los valores pronosticados y los residuos usando la ecuacin de regresin desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione Guardar en el cuadro de dilogo Regresin lineal y en el cuadro de dilogo siguiente considere valores pronosticados no
107
tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformacin de cada valor pronosticado a su forma tipificada). Adems considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.
Observacin: Si en la regresin lineal queremos llevar a cabo inferencias y partimos de los estadsticos obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos: Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para valores fijos de la independiente o independientes del mismo X. Independencia de las observaciones Linealidad en la relacin entre las variables.
l) Considere Grficos del cuadro de dilogo Regresin lineal para realizar los siguientes grficos: Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para contrastar la igualdad de las varianzas. Nota: Si no hay ningn patrn sistemtico claramente definido en los datos y los residuales fluctan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos concluir que se cumple el requisito de linealidad en la relacin entre las variables. Este grfico puede igualmente servirnos para contrastar hasta qu punto el principio de igualdad de
108
varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es ms o menos constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario. Los residuos tipificados-grfico de prob. normal. Nota: El grfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable se distribuye normalmente los puntos representados forman una lnea recta diagonal
Grfico P-P normal de regresin Residuo tipificado Variable dependiente: PESO 1,0
3
,8
,5
-1
,3
-2 -3 -3 -2 -1 0 1 2 3
0,0 0,0
Pruebas de normalidad Kolmogorov-Smirnov Shapiro-Wilk Estadstico gl Sig. Estadstico gl ,044 146 ,200* ,992 146
a
Standardized Residual
Sig. ,601
Regresin Lineal Simple Comenzaremos el anlisis de las regresiones partiendo por el modelo de regresin lineal simple (simple = una variable independiente). Este modelo es slo un punto de partida en el estudio del anlisis de regresin puesto que generalmente interesar estudiar simultneamente ms de una variable predictora,. Utilizando el archivo Datos de empleados.sav buscaremos determinar la existencia de una relacin entre la variable salario (salario actual) como variable dependiente y la variable salini (salario inicial) como variable independiente o predictora. Para esto desde el men se debe seleccionar Analizar/Regresin/Lineal. Variable Dependiente: salario Variable Independiente: salani De esta forma se obtienen los siguientes resultados: Tabla 1
109
Resumen del modelo R cuadrado corregida .774 Error tp. de la estimacin $8,115.356
Modelo 1
Tabla 2
ANOVAb Suma de cuadrados 1.068E+11 3.109E+10 1.379E+11 Media cuadrtica 1.07E+11 65858997
Modelo 1
gl 1 472 473
F 1622.118
Sig. .000a
Tabla3
Coeficientesa Coeficientes estandarizad os Beta .880
Modelo 1
t 2.170 40.276
Bondad de ajuste La primera informacin que se obtiene se refiere al coeficiente de correlacin mltiple (R) y a su cuadrado. Puesto que el modelo de regresin slo incluye dos variables, el coeficiente de correlacin mltiple no es otra cosa que el valor absoluto del coeficiente de correlacin de Pearson entre esas dos variables. Su cuadrado (R2) es el coeficiente de determinacin:
R2 = 1
(Los residuos son las diferencias existentes entre las puntuaciones observadas y los pronsticos obtenidos con la recta). Adems del porcentaje de mejora en los pronsticos, R2 expresa la proporcin de varianza de la variable dependiente que est explicada por la variable independiente. En el ejemplo (ver Tabla 1), R toma un valor muy alto (su mximo es 1); y R2 indica que el 77,5% de la variabilidad del salario actual est explicada por, depende de, o est asociada al salario inicial. Es importante sealar en este momento que el anlisis de regresin no permite afirmar que las relaciones detectadas sean de tipo causal: nicamente es posible hablar de relacin y de grado de relacin. Debe quedar muy claro desde el principio que una relacin, por s sola, nunca implica causalidad. R cuadrado corregida es una correccin a la baja de R2 que se basa en el nmero de casos y de variables independientes:
2 Rcorregida = R 2 p (1 R 2 ) / ( n p 1)
(p se refiere al nmero de variables independiente). En una situacin con pocos casos y mucha variables independiente, R2 es un estimador algo optimista (artificialmente alto) del verdadero coeficiente de correlacin poblacional. En tal caso, el valor de R2 corregida ser sensiblemente ms bajo que el de R2. En el ejemplo, como hay 474 casos y una sola variable independiente, los dos valores de R2 (el corregido y el no corregido) son prcticamente iguales.
110
El error tpico de la estimacin (Se) es la desviacin tpica de los residuos, es decir, la desviacin tpica de las distancias existentes entre las puntuaciones en la variable dependiente (Yi) y los pronsticos efectuados con la recta de regresin (i), aunque no exactamente, pues la suma de las distancias al cuadrado estn divididas por n-2 Error tpico de estimacin = Se =
(Y Y ) / ( n 2 )
2 i i
En realidad, este error tpico es la raz cuadrada de la media cuadrtica residual de la Tabla. Representa una medida de la parte de variabilidad de la variable dependiente que no est explicada por la recta de regresin. En general, cuanto mejor es el ajuste, ms pequeo es este error tpico. La tabla resumen del ANOVA (Tabla 2) informa sobre si existe o no relacin significativa entre la variable independiente y la dependiente. El estadstico F permite contrastar la hiptesis nula de que el valor poblacional de R es cero (que en el modelo de regresin simple equivale a contrastar la hiptesis de que la pendiente de la recta de regresin vale cero). El nivel crtico (Sig.) indica que, si se supone que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que R, en esta muestra, tome el valor 0,88. Lo cual implica que el valor poblacional de R es mayor que cero y que, en consecuencia, puede afirmarse que ambas variables estn linealmente relacionadas. Ecuacin de Regresin La Tabla 3 muestra los coeficientes de la recta de regresin. La columna etiquetada Coeficientes no estandarizados contiene los coeficientes de regresin parcial que definen la ecuacin de regresin en puntuaciones directas. El coeficiente no estandarizado correspondiente a la constante es el origen de la recta de regresin (B0). Recibe el nombre de constante porque, segn se ver es la constante del modelo de regresin:
B0 = Y B1 X
y el coeficiente no estandarizado correspondiente a salario inicial es la pendiente de la recta de regresin (B1):
B1 =
X Y X Y n X ( X )
i i i
2 i
Pronstico en salario = 1928,206 + 1,909 salini Es decir, a cada valor de salini le corresponde un pronstico en salario basado en un incremento constante (1928,206) ms 1,909 veces el valor de salini.
Coeficientes de Regresin Estandarizados Los coeficientes Beta (coeficiente de regresin parcial estandarizados) son los coeficientes que definen la ecuacin de regresin cuando sta se obtiene tras estandarizar las variables originales, es decir, tras convertir las puntuaciones directas en tpicas. Se obtiene de la siguiente manera:
siguiente manera:
B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada unidad de cambio de la variable independiente (salini). Segn esto, la ecuacin de regresin queda de la
1 = B1 ( S x / S y ) .
En el anlisis de regresin simple, el coeficiente de regresin estandarizado correspondiente a la nica variable independiente presente en la ecuacin coincide exactamente con el coeficiente de correlacin de Pearson. En regresin mltiple, segn se ver enseguida, los coeficientes de regresin estandarizados permiten valorar la importancia relativa de cada variable independiente dentro de la ecuacin.
111
Prueba de Significacin Finalmente, los estadsticos t y sus niveles crticos (Sig.) permiten contrastar las hiptesis nulas de que los coeficientes de regresin valen cero en la poblacin. Estos estadsticos t se obtienen dividendo los coeficientes de regresin B0 y B1 entre sus correspondientes errores tpicos:
tB 0 =
siendo:
B0 SB 0
X2
tB1 =
B1 SB 1 Se
S B 0 = Se
1 + n
( X
X)
S B1 =
( X
X)
Estos estadsticos t se distribuyen segn el modelo de probabilidad t de Student con n-2 grados de libertad. Por tanto, pueden utilizarse para decidir si un determinado coeficiente de regresin es significativamente distinto de cero y, en consecuencia, en el caso de B1, si la variable independiente est significativamente relacionada con la dependiente. Puesto que en regresin simple se trabaja con una nica variable independiente, el resultado del estadstico t (Tabla 3) es equivalente al del estadstico F de la tabla resumen del ANOVA (Tabla 2). De hecho, en regresin simple, t2 = F. A partir de los resultados de anlisis (ver Tabla 3), pueden establecerse las siguientes conclusiones: El origen poblacional de la recta de regresin (0) es significativamente distinto de cero (generalmente, contrastar la hiptesis 0 = 0 carece de utilidad, pues no contiene informacin sobre la relacin entre Xi e Yi). La pendiente poblacional de la recta de regresin (el coeficiente de regresin 1 correspondiente a salini) es significativamente distinta a cero, lo cual permite afirmar que entre salario y salini existe relacin lineal significativa. Peligros y limitaciones relacionados con el anlisis de regresin y correlacin: En el anlisis de regresin un valor de Y no puede estimarse legtimamente si el valor de X est fuera del rango de valores que sirvi de base para la ecuacin de regresin Si la estimacin de Y implica la prediccin de un resultado que an no ha ocurrido, los datos histricos que sirvieron de base para la ecuacin de regresin quiz no sean pertinentes para eventos futuros. El uso de un intervalo de prediccin o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales Un coeficiente de correlacin significativo no indica necesariamente causalidad, sino que ms bien puede indicar una vinculacin comn con otros eventos. Una correlacin significativa no es necesariamente una correlacin importante. Dada una muestra grande una correlacin de, digamos, R = 0,1 puede ser significativamente diferente de cero con =0,05. Sin embargo, el coeficiente de determinacin de R cuadrado igual a 0,01 para este ejemplo indica que slo un 1% de la varianza en Y es estadsticamente explicado por el conocimiento de X. Tanto en los anlisis de regresin como de correlacin se parte del supuesto de un modelo lineal. Conceptos definidos en el SPSS R Mltiple: Coeficiente de correlacin entre los valores observados y pronosticados en la variable dependiente. Su valor tiene un rango de 0 a 1. Un valor pequeo indica que hay poca o ninguna relacin lineal entre la variable dependiente y las variables independientes. R cuadrado: Medida de la bondad de ajuste de un modelo lineal. En ocasiones recibe el nombre de coeficiente de determinacin. Es la proporcin de la variacin de la variable dependiente explicada
112
por el modelo de regresin. Sus valores van desde 0 a 1. Los valores pequeos indican que el modelo no se ajusta bien a los datos. R cuadrado corregida: La R cuadrado muestral tiende a estimar de manera demasiado optimista cunto de bien se ajusta el modelo en la poblacin. Habitualmente el modelo no se ajusta a la poblacin tan bien como se ajusta a la muestra de la que se ha derivado. La R cuadrado corregida intenta corregir la R cuadrado para reflejar ms estrechamente la bondad de ajuste en la poblacin. Error tpico: Medida de cunto puede variar el valor de un estadstico de contraste de muestra en muestra. Es la desviacin tpica de la distribucin muestral de un estadstico. Por ejemplo, el error tpico de la media es la desviacin tpica de las medias muestrales. Coeficiente de correlacin cero: Coef de correlaciones ordinarias, sin variables de control. Los valores del coeficiente de correlacin van de 1 a 1. El signo del coef indica la direccin de la relacin y su valor absoluto indica la fuerza Coeficiente de Correlacin Parcial: La correlacin parcial que permanece entre dos variables despus de eliminar la correlacin que es debida a su relacin mutua con las otras variables. La correlacin entre la variable dependiente y una variable indep cuando se han eliminado de ambos los efectos lineales de las otras variables independientes presentes en el modelo. La correlacin parcial se emplea para controlar el efecto de una o ms variables sobre el coeficiente de correlacion de Pearson. En la correlacin parcial se estudia la relacin entre dos variables eliminando el influjo de una o ms variables de control.
En un cierto estudio realizado en un parque de atracciones se hall una correlacin significativa y muy alta entre la temperatura y el nmero de tazas de chocolate caliente servidas , r= 0,923 p<=0,000. Lo cual es un resultado muy extrao, pues implica que cuanto mayor es la temperatura ms tazas de chocolate caliente se consumen. Sin embargo, si se controla la variable nmero de visitantes el resultado es muy diferente. Para hallar el coeficiente de correlacin parcial entre temperatura y nmero de tazas de chocolate caliente controlando el nmero de visitantes, elegir Estadsticos / correlaciones/parciales. Se seleccionan y transfieren las variables tazas y temperatura a la seccin variables, se selecciona y transfiere la variable visitant a la seccin controlando para, finalmente se pulsa el botn aceptar. La correlacin ahora es no significativa, rp=0,42 p<=0,198. Cuando hace fro, mucha gente, (de la poca gente que va) toma chocolate, pero cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente. Es decir, como en verano va mucha gente, por poca gente que tome chocolate caliente ya es mayor la cantidad que en invierno.
Nota: Peligros y limitaciones relacionados con el anlisis de regresin y correlacin 1) En el anlisis de regresin un valor de Y no puede estimarse legtimamente si el valor de X est fuera del rango de valores que sirvi de base para la ecuacin de regresin
113
2) Si la estimacin de Y implica la prediccin de un resultado que an no ha ocurrido, los datos histricos que sirvieron de base para la ecuacin de regresin quiz no sean pertinentes para eventos futuros. 3) El uso de un intervalo de prediccin o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales 4) Un coeficiente de correlacin significativo no indica necesariamente causalidad, sino que ms bien puede indicar una vinculacin comn con otros eventos. 5) Una correlacin significativa no es necesariamente una correlacin importante. Dada una muestra grande una correlacin de, digamos, r=0,1 puede ser significativamente diferente de cero con =0,05. Sin embargo, el coeficiente de determinacin de R cuadrado igual a 0,01 para este ejemplo indica que slo un 1% de la varianza en Y es estadsticamente explicado por el conocimiento de X. 6) En los anlisis tanto de regresin como de correlacin se parte del supuesto de un modelo lineal.
114
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
Los despidos y el desempleo han afectado a muchos trabajadores en los ltimos aos. En un estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relacin con la cantidad de semanas que un empleado est desempleado. La variable dependiente en el estudio es Semanas y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de su despido. En el estudio se emplearon las siguientes variables independientes: Variable edad antig profesional Etiqueta Edad del trabajador Antigedad en el ltimo empleo (en aos) 1 = S 0 = No
El archivo Desempleados2.sav contiene los datos de 50 trabajadores despedidos. Desde la pregunta a) hasta la d) no considere la variable dami profesional a) Realice un diagrama de dispersin para cada variable independiente con la variable dependiente. Qu puede observar del grfico?
SEMANAS
SEMANAS
30 20 10 10 20 30 40 50 60 Rsq = 0,7216
30 20 10 0 10 20 30 40 Rsq = 0,2164
edad
ANTIG
115
En los diagramas de dispersin se puede observar que existe una correlacin lineal positiva entre las variables. En el caso de la edad vs. semanas, la correlacin es lineal positiva alta mientras que en el caso de la antigedad vs. semanas, no se observa tan claro la linealidad. b) Determine la matriz de correlaciones. Qu puede observar?
Correlations SEMANAS 1,000 , 50 ,849** ,000 50 ,465** ,001 50 edad ,849** ,000 50 1,000 , 50 ,490** ,000 50 ANTIG ,465** ,001 50 ,490** ,000 50 1,000 , 50
SEMANAS
edad
ANTIG
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
En la matriz de correlaciones se puede observar que tanto la correlacin entre la edad y las semanas de desempleo, como la correlacin entre la antigedad y las semanas de desempleo son significativas con un nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada respectivamente) c) Ejecute la regresin lineal mltiple para obtener las tablas con las estimaciones del modelo e interprete la tabla ANOVA. Son estadsticamente significativas las variables independientes? Argumente.
ANOVAb Sum of Squares 10999,684 4176,496 15176,180
Model 1
df 2 47 49
F 61,892
Sig. ,000a
Model 1
Unstandardized Coefficients B Std. Error -17,428 5,983 1,794 ,192 ,195 ,264
El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crtico (Sig. = 0,000), es menor que 0,05, por tanto existe relacin lineal significativa.
116
Puede afirmarse, por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen ajuste a la nube de puntos. Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el coeficiente es estadsticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable antigedad es mayor a 0,05 por lo que no se rechaza la hiptesis nula de que su valor es igual a cero. d) Determine la ecuacin de un modelo donde todas las variables sean significativas. Interprete el coeficiente R y el R cuadrado.
Model Summary Adjusted R Square ,716 Std. Error of the Estimate 9,38
Model 1
Model 1
df 1 48 49
F 124,416
Sig. ,000a
Model 1
(Constant) edad
t -3,098 11,154
En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los desempleados existe una alta correlacin lineal entre las variables SEMANAS y EDAD. Por otra parte, el valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2% por la variable EDAD. e) Qu ocurre si al ltimo modelo le agrega la variable dami profesional? Interprete los coeficientes de las variables independientes del ltimo modelo.
Model Summary Adjusted R Square ,785 Std. Error of the Estimate 8,16
Model 1
117
Model 1
df 2 47 49
F 90,542
Sig. ,000a
Model 1
Unstandardized Coefficients B Std. Error -19,465 5,112 1,975 ,148 -11,512 2,834
Para este nuevo modelo se cumple que existe una relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crtico del estadstico F, puesto que es menor que 0,05. Adems, todas las variables independientes son significativas. Ante el aumento de un ao en la edad en promedio las semanas que un empleado permanece desempleado aumentan en casi 1,98 semanas, mantenindose el resto de variables constante.. Por otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona profesional, en promedio estar desempleada 11,512 semanas menos de lo que estara si no fuera profesional. Las ecuaciones son: para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD f) Para el ltimo modelo seleccionado, determine si se satisfacen las hiptesis de normalidad de los residuos y homocedasticidad.
Tests of Normality Kolmogorov-Smirnov Statistic df Sig. ,088 50 ,200*
a
Standardized Residual
Statistic ,970
Shapiro-Wilk df 50
Sig. ,407
La prueba de normalidad de Kolmogorov-Smirnov indica que se cumple la hiptesis de normalidad. (La prueba de Shapiro-Wilk es usada cuando hay menos de 50 casos. Dado que son 50 los casos analizados, se usa el valor de Kolmogorov-Smirnov).
118
-1
-2
-3 -2 -1 0 1 2 3
Este grfico muestra que se cumple la hiptesis de homocedasticidad pues los puntos se encuentran distribuidos en forma aleatoria sin seguir ningn patrn.
119
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 12
Lneas de espera I) Estudio de caso: Quick Food Quick Food es un restaurant de comida rpida que vende hamburguesas, papas fritas, y refrescos, as como un limitado nmero de productos especiales y postres. Aunque Quick Food deseara poder servir a cada uno de los clientes de manera inmediata, hay veces que llegan ms clientes de los que puede manejar el personal de servicio de alimentos de Quick Food, por lo que los clientes esperan en fila, para colocar y recibir su pedido. Quick Food est preocupado pues los mtodos que utiliza para atender a los clientes estn dando como resultado tiempos de espera excesivos. La administracin ha pedido que se haga un estudio de lnea de espera para ayudar a determinar cul es el mejor procedimiento de reducir los tiempos de espera y mejorar el servicio. En la operacin actual de Quick Food, un empleado toma el pedido al cliente, determina el costo total, acepta el dinero del cliente y entonces surte el pedido. Una vez surtido el pedido del primer cliente, el empleado toma el pedido siguiente, que ha estado esperando que lo atiendan. Cuando llegan ms clientes de los que pueden atenderse de manera inmediata, forman una lnea de espera y aguardan que la estacin de toma y surtido de pedidos quede disponible. a) Suponga que Quick Food ha analizado los datos referentes a la llegada de clientes y ha concluido que siguen una distribucin de Poisson con una tasa media de llegadas de 45 clientes por hora. Determine la probabilidad de que no ocurra ninguna llegada es un periodo de un minuto, la probabilidad de una llegada en un periodo de un minuto y la probabilidad de dos llegadas en un periodo de un minuto. b) En Quick Food, el tiempo de servicio se inicia cuando un cliente empieza a colocar su pedido con el empleado y contina hasta que dicho cliente ha recibido su pedido. Quick Food ha estudiado el proceso de toma y surtido de pedidos y ha llegado a la conclusin que el tiempo de servicio sigue una distribucin exponencial y que el nico empleado de alimentos puede procesar un promedio de 60 pedidos por hora. Determine la probabilidad de que se procese un pedido en medio minuto o menos, en un minuto o menos, o en dos minutos o menos. Ayuda:
P( tiempo de servicio t) = 1 - e -
c) Suponiendo un estado estable en la lnea de espera, determine las caractersticas de operacin para Quick Food, es decir estime; La probabilidad de que no existan unidades en el sistema Nmero promedio de clientes en la lnea de espera Nmero promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la lnea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos)
120
d) Despus de revisar las caractersticas de operacin obtenidas con el modelo de la lnea de espera, la administracin de Quick Food concluy que era deseable hacer mejoras diseadas para reducir los tiempos de espera. Generalmente, las mejoras de servicio se hacen mediante lo siguiente: 1.- Incrementar la tasa media de servicio mediante algn cambio creativo en el diseo o utilizando nueva tecnologa. 2.- Agregar canales de servicio, de manera que se puedan servir ms unidades de manera simultnea di) Suponga que al considerar la alternativa 1, la administracin de Quick Food decide ocupar un empleado surtidor de pedidos, que ayudar a quien toma los pedidos en la caja. El cliente empieza el proceso de servicio colocando el pedido con el empleado tomador de pedidos. Al recibir el pedido, el tomador de pedidos anuncia la orden por un sistema de intercomunicacin y el empleado surtidor de pedidos empieza a surtirlo. Una vez completado el pedido, quien toma los pedidos recibe el dinero, en tanto que quien surte los pedidos sigue ocupndose de la orden. Con este diseo, la administracin de Quick Food estima que la tasa media de servicio puede incrementarse de la cifra actual de 60 clientes por hora a 75 clientes por hora. Determine nuevamente las caractersticas de operacin La probabilidad de que no existan unidades en el sistema Nmero promedio de clientes en la lnea de espera Nmero promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la lnea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos
e) Suponga que la administracin desea evaluar la conveniencia de abrir una segunda estacin de procesamiento de pedidos (alternativa 2), de manera de atender simultneamente a dos clientes. Suponga que slo habr una lnea de espera y el siguiente cliente en la cola pasando al primer servidor disponible. Evalu las caractersticas de operacin de este sistema de dos canales considerando la tasa de servicio 60 clientes por hora. La probabilidad de que no existan unidades en el sistema Nmero promedio de clientes en la lnea de espera Nmero promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la lnea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos
La decisin final, con relacin a la poltica de personal en Quick Food, queda en manos de la administracin. El estudio de la lnea de espera ha puesto de manifiesto las caractersticas de operacin que pueden preverse en tres configuraciones. Un sistema de un canal, con un solo empleado; un sistema de un solo canal, con dos empleados, y un sistema de dos canales, con un empleado en cada uno de ellos. Despus de considerar estos resultados, qu accin recomendara usted? Argumente su respuesta.
121
Willow Brook National Bank opera una ventanilla de cajero para automovilistas que permite a los clientes efectuar transacciones bancarias completas sin tener que salir de su auto. En las maanas, las llegadas a la ventanilla del cajero automotriz ocurren de manera aleatoria, con una tasa media de llegadas de 24 clientes por hora, es decir 0.4 clientes por minuto. Cul es el nmero medio o esperado de clientes que llegarn en un periodo de 5 minutos? Suponga que se puede utilizar una distribucin de probabilidad Poisson para describir el proceso de llegadas. Utilice la tasa media de llegadas del inciso (a) y calcule las probabilidades de que exactamente 0, 1, 2 y 3 clientes lleguen durante un periodo de 5 minutos. c. Se espera que haya atrasos, si llegan ms de 3 clientes durante cualquier periodo de 5 minutos. Cul es la probabilidad de que ocurran estos atrasos?. En el sistema de lneas de espera de Willow Brook National Bank , suponga que los tiempos de servicio para el cajero destinado a automovilistas siguen una distribucin de probabilidad exponencial, con una tasa media de servicio de 36 clientes por hora, es decir de 0.6 clientes por minuto. Utilice una distribucin de probabilidad exponencial para responder las preguntas que siguen. a. Cul es la probabilidad de que el tiempo de servicio sea de 1 minuto o menos? b. Cul es la probabilidad de que el tiempo de servicio sea de 2 minutos o menos? c. Cul es la probabilidad de que el tiempo de servicio sea ms de 2 minutos? Utilice la operacin del cajero automotriz de un solo canal para determinar las siguientes caractersticas de operacin del sistema. a. La probabilidad de que no haya ningn cliente en el sistema. b. El nmero promedio de clientes esperando. c. El nmero promedio de clientes en el sistema. d. El tiempo promedio que ocupa un cliente esperando. e. El tiempo promedio que ocupa un cliente en el sistema. f. La probabilidad de que clientes que llegan tengan que esperar el servicio. SOLUCION 1 a) a. b.
= 5(0,4) = 2
b).
P ( x) =
x e
x!
2 x e 2 x!
P(x) 0,1353 0,2707 0,2707 0,1804 0,8571
x 0 1 2 3 Suma
122
P (tiempo de servicio 1) = 1 e ( 0, 6)1 = 0,4512 P (tiempo de servicio 2) = 1 e ( 0,6 ) 2 = 0,6988 P (tiempo de servicio > 2) = 1 0,6988 = 0,3012
3) a) b) c)
P0 = 1
clientes.
d) e) f)
= 3,33 min . ( )
1 = 5 min .
= (1 P0 ) = 0,6667
123
III) Estudio de caso: Reservaciones de avin Regional Airlines est estableciendo un nuevo sistema telefnico para manejar las reservaciones de vuelos. De las 10:00 a.m. a las 11:00 a.m. las llamadas al agente de reservaciones ocurren de manera aleatoria, con un promedio de una llamada cada 3.75 minutos. Los datos histricos de tiempos de servicio muestran que un agente de reservaciones utiliza un promedio de 3 minutos con cada cliente. Las hiptesis del modelo de lnea de espera con llegadas tipo Poisson y tiempo de servicio exponenciales parecen ser razonables para el sistema de reservacin telefnico. La administracin de Regional Airlines cree que poder ofrecer un eficiente sistema de reservaciones por telfono es importante para presentar una imagen de una aerolnea orientada al servicio. Si el sistema se implementa correctamente, Regional Airlines tendr buenas relaciones con los clientes, lo que a la larga incrementar su volumen de negocios. Sin embargo, si con frecuencia se sobrecarga el sistema de reservaciones telefnicas y los clientes tienen dificultades para entrar en contacto con un agente, una reaccin negativa por parte de los clientes puede llevar a disminuciones en los volmenes de venta. El costo de un agente de reservaciones es de 20 dlares la hora. Por lo tanto, aunque la administracin desea dar un buen servicio, no desea incurrir en el costo de aumentar demasiado el personal de operacin de reservaciones telefnicas con ms agentes de los necesarios. En una reunin de planeacin, el equipo de administracin de Regional estuvo de acuerdo en que una meta aceptable de servicio a clientes es contestar de inmediato por lo menos 85% de las llamadas que se reciban. Durante la reunin de planeacin, el vicepresidente de administracin de Regional dijo que los datos muestran que la tasa promedio de servicio para un agente es mayor que la tasa promedio de llegadas de llamadas telefnicas. La conclusin del vicepresidente es que los costos de personal podran minimizarse con un solo agente y que ste debera ser capaz de manejar las reservaciones telefnicas y. adems, tener algo de tiempo ocioso. El vicepresidente de marketing volvi a insistir en la importancia del servicio a clientes y expres su apoyo para mantener por lo menos dos agentes de reservaciones. El actual sistema de reservaciones telefnicas no permite que quienes llaman puedan esperar. Los que llamen cuando todos los agente de reservaciones estn ocupados, recibirn una seal de ocupado y sern bloqueados, dejndolos fuera del sistema. Un representante de la empresa telefnica sugiri que Regional Airlines evaluara un sistema ms grande, capaz de aceptar esperas. En el sistema ampliado, cuando un cliente llame y todos los agentes estn ocupados, recibir un mensaje grabado que le indicar que su llamada est en espera en el orden de llegada y que pronto habr un agente disponible. El cliente puede quedarse en la lnea oyendo msica de fondo mientras llega el momento que lo atienda un agente. La administracin de Regional necesitar ms informacin antes de cambiar al sistema ampliado.
Informe a la administracin
Prepare un informe a la administracin de Regional Airlines analizando el sistema de reservaciones telefnicas. Incluya en su informe la siguiente informacin. 1.Un anlisis detallado de las caractersticas de operacin del sistema de reservaciones con un agente, tal y como fue propuesto por el vicepresidente de administracin. Cul es su recomendacin, con relacin a un sistema de un solo agente? Un anlisis detallado de las caractersticas de operacin del sistema de reservaciones, basado en su recomendacin con relacin al nmero de agentes que debera utilizar Regional y si el sistema debera permitir que los clientes esperen.
2.-
124