Sei sulla pagina 1di 124

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 1

Solucin a problemas de Programacin lineal usando Excel


I) Problema: Maximizar la utilidad Una fbrica elabora dos productos A y B. Ambos requieren tiempo en dos mquinas. La primera mquina est disponible las 24 horas, mientras que la segunda tiene una disponibilidad de 16. Cada unidad del producto A requiere dos horas en cada mquina. Cada unidad del producto B requiere tres horas de tiempo en la primera mquina y una en la segunda. La utilidad incremental es de US$6 por unidad de A y US$7 por unidad de B. Suponga que el mercado limita a seis la cantidad de unidades del producto B que pueden venderse. Si el objetivo es maximizar la utilidad, cuntas unidades del producto A y cuntas del producto B podran elaborarse?

MaxU = 6 X 1 + 7 X 2 s.a 2X 1 + 3 X 2 24 2X 2 + X 2 16 X2 6 X 1 0, X 2 0
EL PROBLEMA QUE RESUELVE EL COMPUTADOR.

Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades. Este caso se lleva a cabo mediante el uso de variables de holgura y excedente. Regla: Cualquier restriccin puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restriccin se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo. En nuestro problema,: la forma estndar con restricciones de igualdad del modelo es:

MaxU = 6 X 1 + 7 X 2 s.a 2X 1 + 3 X 2 + H 1 = 24 2X 2 + X 2 + H 2 = 16 X2 + H3 = 6 X 1 0, X 2 0, H 1 0 , H 2 0, H 2 0
La formulacin de este problema se presenta en una hoja de clculo. Abrir el archivo planilla problema 1 PL de Excel. La parte superior de la figura muestra los nmeros, mientras que la parte media muestra las frmulas utilizadas en la hoja de clculo. Los valores para las dos variables de decisin, nmero de unidades de los productos A y B, estn en las celdas B2 y C2 respectivamente. Se da una solucin que

muestra un programa de produccin de una unidad de cada producto que claramente no es la ptima. Los coeficientes para la funcin objetivo estn en las celdas B4 y C4, y la funcin objetivo se encuentra en la celda F4. Los coeficientes para las restricciones de tiempo de la mquina y del lmite de mercado del producto B, estn desde la celda B7 hasta la celda C9, y el uso total se halla en la columna D. Por ejemplo, la celda D7 contiene la cantidad total de tiempo de la mquina 1, utilizada para este plan de produccin (5 horas). La capacidad ficticia o no utilizada se muestra en la columna G.

Un primer paso para resolver el problema es ingresar al programa Solver que se encuentra en el men de herramientas de Excel. Es decir hacer clic en el encabezado Herramientas y luego en la opcin Solver. En la pantalla aparecer la caja de dilogo que se muestra en la figura. La celda objetivo es la que contiene la funcin objetivo; en este caso F4, que se agrega a la celda de la caja de dilogo digitando en ella o haciendo clic en la celda correspondiente de la hoja de clculo. Puede maximizarse o minimizarse si se elige la categora apropiada para marcar. Las celdas de cambio estn en la terminologa de Excel para las variable de decisin. Hacer clic en la celda de esa caja de dilogo y escribir B2:C2 o destacar las celdas de las variables de decisin en las hojas de clculo. A continuacin se agregan las restricciones. Al hacer clic en las casilla que dice Add...(Agregar) aparece la caja de dilogo Add Constraint (Agregar restriccin). La primer restriccin que se incorpora es la de que todas las variables de decisin deben ser mayores que cero. Es importante hacerlo, ya que de otro modo Solver, no asume valores no negativos. Digitar en las celdas B2:C2 o destacar las celdas de las variables de decisin en las hojas de clculo, y seleccionar > = 0 Luego hacer clic en Add. Aparece ahora una segunda caja de dilogo, Add Constraint. En la casilla Cell Referente resaltar o digitar en las celdas D7:D9. Estas celdas contienen la cantidad total del tiempo usado de la mquina y la cantidad total del producto B, los factores que estn restringidos. En la caja del lado derecho, resaltar o digitar las celdas F7:F9, estos son los valores al lado derecho que dan los valores de restriccin. A continuacin, hacer clic en el botn OK para indicar que se han ingresado todas las restricciones. Debe aparecer la caja de dilogo Parmetros de Solver como se muestra en la figura.

Sigue un paso final, decirle a Solver que ste es un problema de programacin lineal. Para ello hay que hacer clic en Opciones. Activar botn de Asumir Modelo Lineal OK. Se regresa a la caja de dilogo Parmetros de Solver. Activar botn de Solver. (Resolver)

Microsoft Excel 9.0 Informe de respuestas Hoja de clculo: [Problema 1 de produccin P Lineal version 3.xls]Hoja2 Informe creado: 21/02/03 19:59:45

Celda objetivo (Mximo) Celda Nombre $F$4 Funcin objetivo Utilidad total

Valor original Valor final 13 64

Celdas cambiantes Celda Nombre $B$2 Variables de decisin Producto A $C$2 Variables de decisin Producto B

Valor original 1 1

Valor final 6 4

Restricciones Celda Nombre Valor de la celda frmula Estado Divergencia $D$7 Tiempo mquina 1 (horas) 24 $D$7<=$F$7 Obligatorio 0 $D$8 Tiempo mquina 2 (horas) 16 $D$8<=$F$8 Obligatorio 0 $D$9 Lmite de mercado del producto B 4 $D$9<=$F$9 Opcional 2 $B$2 Variables de decisin Producto A 6 $B$2>=0 Opcional 6 $C$2 Variables de decisin Producto B 4 $C$2>=0 Opcional 4

Microsoft Excel 9.0 Informe de sensibilidad Hoja de clculo: [Problema 1 de produccin P Lineal version 3.xls]Hoja2 Informe creado: 21/02/03 19:59:45

Celdas cambiantes Celda Nombre $B$2 Variables de decisin Producto A $C$2 Variables de decisin Producto B Restricciones Valor Sombra Restriccin Aumento Aumento Celda Nombre Igual precio lado derecho permisible permisible $D$7 Tiempo mquina 1 (horas) 24 2 24 4 8 $D$8 Tiempo mquina 2 (horas) 16 1 16 8 4 $D$9 Lmite de mercado del producto B 4 0 6 1E+30 2 Valor Gradiente Coeficiente Aumento Aumento Igual reducido objetivo permisible permisible 6 0 6 8 1,333333333 4 0 7 2 4

II) Problema de los molinos (Minimizar costo)


Una fbrica tiene dos molinos . Las variables de decisin son el nmero de horas por semana que cada uno opera. El primer molino puede operar un mximo de 40 horas y el segundo, un mximo de 60 horas por semana. Cada hora de operacin del primer molino produce 3 toneladas de producto terminado; cada hora del segundo molino produce 4 toneladas de producto. La fbrica tiene compromisos con clientes para producir por lo menos 1,75 toneladas de producto terminado. La hora de operacin del primer molino cuesta US$20000 y la del segundo, cuesta US$40000 por hora, la fbrica desea mantener los costos tan bajos como sea posible.Por razones de su poltica interna, la empresa debe operar, por lo menos, igual nmero de horas en el segundo molino que en el primero. Formular el problema y resolver

La formulacin de PL es: Sea X1=horas semanales en el primer molino X2= horas semanales en el segundo molino

MinC = 20 X 1 + 40 X 2 s.a X 1 40 X 2 60 3X 1 + 4 X 2 175 - X1 + X 2 0 X 1 0, X 2 0

(miles de dlares) (mximo del molino) (mximo del molino) (requerimientos del cliente en toneladas) (requerimientos de la poltica interna) (restricciones de no negatividad)

EL PROBLEMA QUE RESUELVE EL COMPUTADOR.

Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades. Este caso se lleva a cabo mediante el uso de variables de holgura y excedente. Regla: Cualquier restriccin puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restriccin se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo. En nuestro problema,: la forma estndar con restricciones de igualdad del modelo es:

MinC = 20 X 1 + 40 X 2 s.a X 1 + H 1 = 40 X 2 + H 2 = 60 3X 1 + 4 X 2 S1 = 175 - X1 + X 2 S 2 = 0

(miles de dlares)

X 1 0, X 2 0 , H 1 0, H 2 0 , S1 0, S 2 0 (restricciones de no negatividad)

Molino 1 Horas semanales Costo Restricciones Horas disponibles molino 1 Horas disponibles molino 1 Requerimientos del cliente (tone Poltica de requerimiento 1 20

Molino 2 1 Total 40 60 No utilizada Excedente 39 59 -168 0

1 3 -1 1 4 1

1 1 7 0

<= <= >= >=

40 60 175 0

10

11

Microsoft Excel 9.0 Informe de respuestas Hoja de clculo: [Problema molinos.xls]Hoja2

Celda objetivo (Mnimo) Celda $F$4 Costo Total

Nombre

Valor original 60

Valor final 1500

Celdas cambiantes Celda Nombre $B$2 Horas semanales Molino 1 $C$2 Horas semanales Molino 2

Valor original 1 1

Valor final 25 25

Restricciones Celda Nombre $D$7 Horas disponibles molino 1 $D$8 Horas disponibles molino 1 $D$9 Requerimientos del cliente (toneladas) $D$10 Poltica de requerimiento $B$2 Horas semanales Molino 1 $C$2 Horas semanales Molino 2
Microsoft Excel 9.0 Informe de sensibilidad Hoja de clculo: [Problema molinos.xls]Hoja2

Valor de la celda 25 25 175 0 25 25

frmula $D$7<=$F$7 $D$8<=$F$8 $D$9>=$F$9 $D$10>=$F$10 $B$2>=0 $C$2>=0

Estado Divergencia Opcional 15 Opcional 35 Obligatorio 0 Obligatorio 0 Opcional 25 Opcional 25

Celdas cambiantes Celda Nombre $B$2 Horas semanales Molino 1 $C$2 Horas semanales Molino 2 Restricciones Celda $D$7 $D$8 $D$9 $D$10 Nombre Horas disponibles molino 1 Horas disponibles molino 1 Requerimientos del cliente (toneladas) Poltica de requerimiento Valor Sombra Restriccin Aumento Igual precio lado derecho permisible 25 0 40 1E+30 25 0 60 1E+30 175 8.571428571 175 105 0 5.714285714 0 43.75 Aumento permisible 15 35 175 26.25 Valor Igual 25 25 Gradiente reducido 0 0 Coeficiente Aumento Aumento objetivo permisible permisible 20 10 60 40 1E+30 13.33333333

12

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 2 ANALISIS INICIAL DE DATOS

I.

Documento introduccin :Anlisis Inicial de los datos1

Cuando nos enfrentamos por primera vez a la realizacin de un anlisis estadstico la mxima preocupacin es profundizar en la tcnica estadstica seleccionada, sin .embargo, existe una etapa previa incluso ms compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados. La depuracin de los datos o deteccin de problemas ocultos en los datos supondr un gran avance en la consecucin de resultados lgicos consistentes. Dichos problemas se pueden subsanar comenzando por una inspeccin visual de las representaciones grficas de los datos, completndose con un anlisis de datos ausentes o perdidos y de los casos atpicos (conocidos bajo la denominacin de outliers).

Representaciones grficas para el anlisis de datos


La difusin experimentada en los ltimos aos por los programas estadsticos ha facilitando la incorporacin de mdulos especficamente diseados para la inspeccin grfica de los datos. El estudio de cada variable es fundamental para conocer sus caractersticas y comprobar si es oportuna y relevante su inclusin en el anlisis. Para ello se aconseja observar la forma de su distribucin. Esto se consigue mediante el histograma, que representa grficamente los datos mostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuar superponiendo la curva normal sobre la distribucin o realizando grficos P-P o Q-Q. Mediante el grfico de dispersin se podr examinar la relacin entre dos o ms variables. Se trata de un grfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una lnea recta se debe a la existencia de correlacin lineal. Si los puntos siguen distintas formas la relacin no podr calificarse de lineal. La inexistencia de relacin se podr constatar si la nube de puntos es aleatoria y dispersa. (Mediante correlaciones bivariadas Pearson se podr determinar mediante una prueba de hiptesis si la correlacin entre dos variables de escala es significativa). Mediante el grfico de cajas o boxplot se puede llevar a cabo un anlisis de las diferencias entre grupos, si lo que se pretende es apreciar la existencia de dos o ms grupos en una variable mtrica, como ocurre en el anlisis discriminante o en el anlisis de la varianza. Este grfico distribuye los datos de tal forma que los lmites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercer cuartil; as, la caja contiene el 50 por ciento de los datos centrales de la distribucin. La mediana se representa mediante una lnea dentro de la caja. Existir asimetra si la mediana se aproxima al final de la caja. El tamao de la caja
1
TP PT

Anlisis Estadstico Multivariable de Manuel Vivanco

13

depender de la distancia entre las observaciones. Tambin se representa la distancia entre la mayor y la menor de las observaciones mediante unas lneas que salen de la caja denominadas bigotes. En este tipo de grfico los casos atpicos se pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja. Diagrama de caja simple: Contiene un nico diagrama de caja para cada categora o variable del eje de categoras. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la categora o variable. Diagrama de caja agrupado: Tipo de grfico en el que un grupo de diagramas de caja representa cada categora o variable del eje de categoras. Los diagramas de caja dentro de cada agrupacin vienen definidos por una variable de definicin distinta.

Aos de escolarizacin por raza


899 20 634

Aos de escolarizacin por raza agrupados por sexo


634 20

Sexo del encue


Hombre Mujer

718

960 961 718

Nmero de aos de escolarizacin

Nmero de aos de escolarizacin

15

15

10

691 1.366 244 5 620 596 702 693 688 765 1.476

10 1.404

804 244 5 620 596 821 621 1.448 695 693 688 765

735

Blanca

Negra

Otra

Raza del encuestado

735

Blanca

Negra

Otra

Raza del encuestado

14

Deteccin de variables con categoras mal codificadas En muchos archivos de datos se detectan problemas en variables nominales con categoras en formato cadena sin un cdigo asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las variables y observar si las categoras presentan errores de digitacin, como por ejemplo la variable sexo podra presentar problemas si las categoras estn mal digitadas; Hombre, HOMBRE, hombre representan a la misma categora, sin embargo en una tabla de frecuencia aparecern como categoras diferentes. Para solucionar este problema se recomienda recodificar automticamente asignndole a las categoras de la variable un cdigo numrico y luego con recodificar en distinta variable asignar correctamente los cdigos.

Anlisis de datos ausentes


En este proceso de depuracin de datos (anterior a la utilizacin de los mtodos multivariables) el analista debe ser consciente de que se enfrenta a una informacin que puede no existir en determinadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqu de la existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e introducirlos en el computador, fallas del encuestador al completar el cuestionario, negacin del encuestado a responder ciertas preguntas calificadas de controvertidas Razones comunes y muy habituales en todo proceso investigador. El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y sus efectos en el tamao de la muestra disponible para el anlisis, dado que esta ausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos tericos de la investigacin no se alteran sustancialmente, una opcin sera suprimir aquellas variables y/o casos que peor se comportan respecto a los datos ausentes. En este caso el investigador deber sopesar lo que gana con la exclusin de esta informacin y lo que pierde al no contar posteriormente en el anlisis multivariante con la misma. Mediante este proceder se asegura de que su matriz de datos est completa y posee observaciones vlidas. Otra posibilidad sera la estimacin de valores ausentes empleando relaciones conocidas entre valores vlidos de otras variables y/o casos de la muestra. Por tanto, se tratara de imputar o sustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) en base a otra informacin existente en la muestra. Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el anlisis. No existe una estimacin respecto al porcentaje de missing que produce dificultades en una muestra determinada. Segn Tabachnik y Fidell (1983) ms importante que el nmero de valores missing es la existencia de un patrn de comportamiento en stos. En efecto, la presencia de missing que se distribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemtica asociada a ciertas variables puede generar distorsin en los resultados. La existencia de datos ausentes nunca debe impedir la aplicacin del anlisis multivariable o limitar la posibilidad de generalizar los resultados de una investigacin. La principal tarea del analista consistir en identificar su presencia, y desempear las acciones necesarias para minimizar sus efectos. En datos correspondientes a encuestas es habitual encontrar cdigos como los siguientes. 7= No procede, 8= No sabe , 9= No contesta

15

97= No procede, 98= No sabe, 99= No contesta 997= No procede, 998= No sabe, 999= No contesta Se utilizan estos cdigos cuando no son parte de los posibles datos de la variable. El SPSS tiene un men especial para tratar los valores perdidos. El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.

Deteccin de outliers
Al examinar los datos recabados despus de un proceso muestral el investigador puede detectar la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentndose de este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como outliers o atpicos. El objetivo ante esta situacin es identificar esa diferencia sustancial entre el valor real de la variable criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la poblacin de la cual se extrae la muestra. Los casos atpicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los datos o al codificar. Pero tambin pueden ser consecuencia de un evento extraordinario que hace destacar esa observacin. Este acontecimiento anormal puede tener o no una explicacin. En cualquiera de estas situaciones, una vez que: los outliers el analista debe juzgar qu es lo ms apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas del anlisis. Estas decisiones han de justificarse, dado que determinados casos atpicos: aunque diferentes a la mayor parte de la muestra, pueden contener informacin representativa de un segmento dominante. No obstante, habr situaciones donde lo ms acertado sea su supresin porque pueden distorsionar seriamente los tests estadsticos dados los problemas que presentan. La deteccin de los casos atpicos desde una perspectiva univariable pasa por la observacin de aquellos casos que caigan fuera de los rangos de la distribucin. Si lo que se pretende es evaluar conjuntamente pares de variables se utilizar el grfico de dispersin. Este mtodo bivariable permite identificar los casos atpicos al venir representado como puntos aislados. Por su parte, la deteccin multivariable supone evaluar cada observacin a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de cada observacin en un espacio multidimensional respecto del centro medio de las observaciones. Cuando se descubren errores Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir errores de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto, entonces se pueden codificar esos reactivos como valores perdidos y se excluirn de los anlisis. Es importante mencionar que la funcin Valores Perdidos de SPSS puede realizar esta tarea.

16

Otras herramientas muy tiles para limpiar los datos Recodificar automticamente: El cuadro de dilogo Recodificacin automtica le permite convertir los valores numricos y de cadena en valores enteros consecutivos. Si los cdigos de la categora no son secuenciales, las casillas vacas resultantes reducen el rendimiento e incrementan los requisitos de memoria de muchos procedimientos. Adems, algunos procedimientos no pueden utilizar variables de cadena y otros requieren valores enteros consecutivos para los niveles de los factores. La nueva variable, o variables, creadas por la recodificacin automtica conservan todas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no tienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor. Los valores de cadena se recodifican por orden alfabtico, con las maysculas antes que las minsculas. Los valores perdidos se recodifican como valores perdidos mayores que cualquier valor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no perdidos, el valor perdido mnimo se recodificar como 11, y el valor 11 ser un valor perdido para la nueva variable. Recodificar en la misma variable /distinta variable El cuadro de dilogo Recodificar en las mismas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo, podra agrupar los salarios en categoras que sean rangos de salarios. El cuadro de dilogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva. Puede recodificar variables numricas en variables de cadena y viceversa. Si selecciona mltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numricas y de cadena. Una vez que se han limpiado los datos podemos pasar a la parte ms interesante del proceso, el anlisis de datos.

17

II.

Anlisis inicial de datos: Agua Potable2

Considere el archivo archivo APotable (errores).sav correspondiente a una muestra aleatoria de hogares de la regin Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Realice un anlisis inicial de los datos.

Solucin: Anlisis inicial de datos a) Realizar una tabla para verificar informacin ( para esto se debe tener la informacin original) Analizar/Informes/resmenes de casos. Limitar los casos a los primeros 15. Todas las variables.
Resmenes de casosa Identificador de la comuna donde se encuentra el hogar 13101 13101 13101 13101 13101 13101 13102 13102 13102 13102 13102 13102 13103 13103 13103 15 Longitud del frente del terreno 4,99 5,42 6,16 6,77 8,54 8,87 3,94 6,81 7,03 8,06 9,59 10,88 4,58 5,86 6,59 15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total N

Nmero de caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Identificador del Hogar 10807 15565 11416 11358 4626 11492 16134 9456 10964 11461 3352 6357 11788 13035 14675 15

Consumo de Agua Potable 233,80 207,40 183,00 198,80 233,00 199,00 208,40 141,36 170,88 186,20 288,72 249,84 210,40 220,80 194,00 15

Ingreso del Hogar 618086 348340 335000 389295 182600 481151 150750 242961 182970 452108 384921 263990 266167 215000 428000 15

N de Habitantes del Hogar 5 5 5 5 5 5 5 3 4 5 6 9 5 5 5 15

Comuna m3 libres donde se (no encuentra construido el hogar s) SANTIAGO 74,54 SANTIAGO 63,41 SANTIAGO 54,24 SANTIAGO 63,79 SANTIAGO 85,99 SANTIAGO 70,91 INDEPEN 58,93 DENCIA INDEPEN 57,00 DENCIA INDEPEN 61,58 DENCIA INDEPEN 62,11 DENCIA INDEPEN 105,82 DENCIA INDEPEN 60,97 DENCIA CONCHAL 62,02 I CONCHAL 71,26 I CONCHAL 60,92 I 15 15

m3 edificados 49,92 54,22 61,59 67,67 85,42 88,74 39,36 68,08 70,28 80,61 95,94 108,81 45,79 58,64 65,89 15

a. Limitado a los primeros 15 casos.

ii) Realizar tablas de frecuencia para las variables nominales y ordinales que Ud desea analizar

Ejercicio elaborado por Sara Arancibia

18

Comuna donde se encuentra el hogar Frecuencia CERRILLOS 20 CERRO NAVIA 8 CONCHALI 6 EL BOSQUE 17 ESTACION CENTRAL 4 HUECHURABA 16 INDEPENDENCIA 6 LA CISTERNA 17 LA FLORIDA 9 LA GRANJA 6 LA PINTANA 3 LA REINA 10 Las CONDES 1 LAS CONDES 17 LO BARNECHEA 12 LO ESPEJO 13 LO PRADO 11 MACUL 6 Maipu 1 MAIPU 23 UOA 5 PEDRO AGUIRRE 15 CERDA PENALOLEN 1 PEALOLEN 16 PROVIDENCIA 8 PUDAHUEL 22 QUILICURA 15 QUINTA NORMAL 14 RECOLETA 12 RENCA 18 SAN JOAQUIN 13 SAN MIGUEL 7 SAN RAMON 8 SANTIAGO 6 VITACURA 19 Total 385 Porcentaje 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 ,3 4,4 3,1 3,4 2,9 1,6 ,3 6,0 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje vlido 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 ,3 4,4 3,1 3,4 2,9 1,6 ,3 6,0 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje acumulado 5,2 7,3 8,8 13,2 14,3 18,4 20,0 24,4 26,8 28,3 29,1 31,7 31,9 36,4 39,5 42,9 45,7 47,3 47,5 53,5 54,8 58,7 59,0 63,1 65,2 70,9 74,8 78,4 81,6 86,2 89,6 91,4 93,5 95,1 100,0

Vlidos

De la tabla se observan dos errores con las comunas Maip y las Condes. Este error se debe a que no se digit con un cdigo identificador. Es aconsejable asignar un cdigo numrico. Para solucionar este problema se debe recodificar automticamente y luego recodificar en la misma variable. Transformar/recodificacin automtica/ Variable: comuna Variable nueva : comurec

19

Aadir nuevo nombre Recodificar empezando por primer valor Aceptar Se crea una nueva variable comurec con cdigo numrico. En utilidades variables se identifican los cdigos de cada etiqueta correspondiendo 13 Las Condes 14 LAS CONDES 19 Maipu 20 MAIPU Transformar/recodificar /en la misma variable Considere la variable comurec Valores antiguos y nuevos Valor antiguo:13 Valor nuevo: 14 Aadir Valor antiguo:19 Valor nuevo: 20 Aadir Continuar aceptar Vuelva a realizar tablas de frecuencias de comurec
Comuna donde se encuentra el hogar Frecuencia CERRILLOS 20 CERRO NAVIA 8 CONCHALI 6 EL BOSQUE 17 ESTACION CENTRAL 4 HUECHURABA 16 INDEPENDENCIA 6 LA CISTERNA 17 LA FLORIDA 9 LA GRANJA 6 LA PINTANA 3 LA REINA 10 LAS CONDES 18 LO BARNECHEA 12 LO ESPEJO 13 LO PRADO 11 MACUL 6 MAIPU 24 UOA 5 PEDRO AGUIRRE 15 CERDA PENALOLEN 1 PEALOLEN 16 PROVIDENCIA 8 PUDAHUEL 22 QUILICURA 15 QUINTA NORMAL 14 RECOLETA 12 RENCA 18 SAN JOAQUIN 13 SAN MIGUEL 7 SAN RAMON 8 SANTIAGO 6 VITACURA 19 Total 385 Porcentaje 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 4,7 3,1 3,4 2,9 1,6 6,2 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje vlido 5,2 2,1 1,6 4,4 1,0 4,2 1,6 4,4 2,3 1,6 ,8 2,6 4,7 3,1 3,4 2,9 1,6 6,2 1,3 3,9 ,3 4,2 2,1 5,7 3,9 3,6 3,1 4,7 3,4 1,8 2,1 1,6 4,9 100,0 Porcentaje acumulado 5,2 7,3 8,8 13,2 14,3 18,4 20,0 24,4 26,8 28,3 29,1 31,7 36,4 39,5 42,9 45,7 47,3 53,5 54,8 58,7 59,0 63,1 65,2 70,9 74,8 78,4 81,6 86,2 89,6 91,4 93,5 95,1 100,0

Vlidos

iii)

Realizar tablas con valores extremos y diagramas de caja. Esto nos permitir verificar si los casos los valores atpicos existen o han sido mal ingresados.

20

Valores extremos Nmero del caso 378 370 385 46 375 238 205 330 314 290 Valor 901,60 571,68 560,64 513,48 505,60 125,04 129,48 129,76 129,84 135,52

Valores extremos Nmero del caso 207 40 146 342 372 72 104 210 45 341 Valor 1141600 1602365 1512608 1126072 1060366 18260 20000 22825 22825 33044

Consumo de Agua Potable

Mayores

Menores

1 2 3 4 5 1 2 3 4 5

Ingreso del HogaMayores 1 2 3 4 5 Menores 1 2 3 4 5

Valores extremos Nmero del caso 385 370 46 376 378 338 332 314 303 282 Valor 22 12 11 11 11 3 3 3 3 3a

N de Habitantes del Hogar

Mayores

Menores

1 2 3 4 5 1 2 3 4 5

a. En la tabla de valores extremos menores slo se

21

Menu Analizar /Explorar/ Variables: Consumo agua potable, Ingreso del hogar, y No habitantes del hogar Estadsticos/ Valores atpicos Grficos Diagrama de caja para cada una de las variables mencionadas. Para cada variable se debera verificar si la informacin de los valores atpicos est bien registrada. Corregir en el caso que sea posible o filtrar los casos muy extremos para no sesgar los anlisis.

iv)

Cuando existen columnas (variables como identificador de otra variable) como el caso de la variable identificador de comuna y comurec, se debe verificar si se corresponden. Para esto puede ordenar id-comuna en forma ascendente y ver si se corresponde visualmente con la comurec. Otra forma es crear una variable de cadena donde concatene los dos codigos (correspondiente a id-comuna y comurec). Esto le permitir ver en una tabla de frecuencia si las variables se corresponden. En el ejemplo hay dos cdigos que se corresponden con 13107 lo cual acusa error. 13107 y 23 13107 y 24 Se debe corregir.

Sintaxis del procedimiento STRING concat (A13). COMPUTE concat = CONCAT(STRING(id_comun,F11.0),STRING(comurec,F2.0)) . EXECUTE .

22

concat Frecuencia 6 6 6 4 12 8 1 16 12 8 5 10 6 17 9 14 5 3 8 7 19 17 15 13 16 20 24 14 11 22 18 18 15 385 Porcentaje 1,6 1,6 1,6 1,0 3,1 2,1 ,3 4,2 3,1 2,1 1,3 2,6 1,6 4,4 2,3 3,6 1,3 ,8 2,1 1,8 4,9 4,4 3,9 3,4 4,2 5,2 6,2 3,6 2,9 5,7 4,7 4,7 3,9 100,0 Porcentaje vlido 1,6 1,6 1,6 1,0 3,1 2,1 ,3 4,2 3,1 2,1 1,3 2,6 1,6 4,4 2,3 3,6 1,3 ,8 2,1 1,8 4,9 4,4 3,9 3,4 4,2 5,2 6,2 3,6 2,9 5,7 4,7 4,7 3,9 100,0 Porcentaje acumulado 1,6 3,1 4,7 5,7 8,8 10,9 11,2 15,3 18,4 20,5 21,8 24,4 26,0 30,4 32,7 36,4 37,7 38,4 40,5 42,3 47,3 51,7 55,6 59,0 63,1 68,3 74,5 78,2 81,0 86,8 91,4 96,1 100,0

Vlidos

1310134 13102 7 13103 3 13104 5 1310529 1310625 1310723 1310724 1310815 13109 2 1311021 1311112 1311218 13113 8 13114 9 1311531 1311610 1311711 1311833 1311932 1312035 13121 4 1312222 1312316 13124 6 13125 1 1312620 1312728 1312817 1312926 1313014 1313130 1313227 Total

23

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 3

Estudio de Caso: Qu opinan los jvenes3


En septiembre del 2009 se realiz una encuesta telefnica de opinin pblica a jvenes entre 18 y 29 aos de las regiones V, VIII y RM con el fin de conocer la opinin sobre las cosas que hacen y piensan en la actualidad. Fuente (Feedback y UDP). Se dise un cuestionario con 51 preguntas que se puede ver en detalle en el anexo. El archivo de datos del que usted dispone se llama caso Datos jvenes 1.sav que contiene 1000 filas (casos) y 277 columnas (variables) El objetivo del caso es explorar el archivo de datos y depurarlo, realizar distintos tipos de grficos, aplicar distintas tablas que permitan obtener porcentajes y estadsticos descriptivos e interpretar los resultados. 1.- Explore las variables que a continuacin se mencionan y defina correctamente segn corresponda. Considere el archivo caso Datos jvenes 1.sav
Nombredelavariable REGION Etiqueta REGION Valores 5=V 8=VIII 13=RM 1=Hombre 2=Mujer Modificar18="188" 18="8" 29="299"

SEXO

SEXO

EDAD

EDAD

P02

1=ESTINSCRITO ACTUALMENTE,ESTSONOESTSINSCRITOEN 2=NOESTINSCRITO LOSREGISTROSELECTORALES? 99=NSNR ENUNDANORMALCUNTASHORAS,EN PROMEDIO,DEDICASALOSSIGUIENTESMEDIOS DECOMUNICACIN?PORTALESDEINTERNET DISTINTOSALOSDIARIOS

P11_04

99,00="NSNR"

NSE

GRUPOSSOCIOECONMICOS(BASEESOMAR)

1="ABC1" 2="C2" 3="C3" 4="D"

Caso elaborado por Sara Arancibia C

24

2.- Considere el archivo caso Datos jvenes 2.sav (ya corregido de acuerdo a lo anterior) y realice los siguientes grficos. 2-1) Realice un grfico que muestre la frecuencia y porcentaje de encuestados por REGION 2-2) Realice un grfico que muestre la frecuencia de jvenes que estn inscritos o no en los registros electorales agrupados por SEXO 2-3) Realice un grfico que muestre la media de edad por sexo. 2-4) Realice un grfico que permita visualizar la forma de la distribucin de la edad de los encuestados. 2-5) Realice un grfico que permita visualizar para la variable Edad los descriptivos; cuartiles, Rango intercuartil, valores atpicos y extremos. Luego repita el grfico pero para Edad por REGION agrupados por SEXO y compare.

3) Realice las siguientes tablas: 3-1) Una tabla con los siguientes descriptivos para Edad: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis. 3-2) Una tabla con los siguientes descriptivos tanto para hombres como para mujeres y por regin: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis. 3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos 3-4) Una tabla de frecuencia de SEXO segmentada por REGION 3-5) Una tabla que muestre nmero de observaciones por REGION y SEXO 3-6) Una tabla por regin, identificando por folio los cinco valores mayores y cinco valores menores de la variable P11_04: EN UN DA NORMAL CUNTAS HORAS, EN PROMEDIO, DEDICAS A LOS SIGUIENTES MEDIOS DE COMUNICACIN? -PORTALES DE INTERNET DISTINTOS A LOS DIARIOS 3-7) Exportar todas las tablas anteriores del visor de resultados a Excel

4) Clculo de porcentajes Nota Previa: Porcentajes: parecen inofensivos pero son peligrosos Los porcentajes se pueden prestar a confusiones y malentendidos, por lo que no estar de ms revisar algunos ejemplos. Siempre se debe tener en cuenta respecto a qu se calcula el porcentaje. Veamos un ejemplo: un gel suele venderse en botellas de 750 cc y ahora, por el mismo precio, la botella es de 1000 cc. Qu porcentaje de gel estn regalando? Depende de sobre qu valor se calcule el porcentaje: sobre el contenido inicial se regala el 33%, y sobre el final, el 25%. Tambin se debe distinguir entre porcentajes y puntos porcentuales. As, si se dice que los beneficios de una empresa han pasado de un 2 a un 4% han aumentado 2 puntos porcentuales (pero no un 2%!) Igualmente se debe distinguir entre porcentajes basados en niveles y porcentajes basados en cambios de nivel. El siguiente ejemplo aclara esta cuestin. Un vendedor vendi el ao pasado por valor de 10 millones de euros. Su objetivo para este ao era aumentar su facturacin en un 6%. El vendedor ha logrado vender slo por valor de 10,3 millones. Qu porcentaje de objetivo ha logrado?

25

Si el objetivo es el incremento, slo consigue el 50 %, pero si se interpreta que el objetivo era vender 10,6 y ha vendido 10,3, ha logrado el 97,2%. Por ltimo, tambin hay que tener cuidado cuando se realizan operaciones con porcentajes: 1. Si el precio de un producto se aumenta el 20 % y despus disminuye tambin el 20 %, cmo queda el precio final respecto al inicial? No se queda como estaba, disminuye un 4%. Si el precio inicial era X, el final ser (X+0,2X)-0,2(X+0,2X)=X-0,04X. 2. Un producto est formado por 10 componentes y cada componente aumenta su coste un 2%, cunto aumenta el coste del producto? Aumenta un 2%. No importa que haya unos componentes muy caros y otros muy baratos. Si no lo ve claro haga las cuentas y se convencer. 3. Si Juan gana un 1000% ms que Pedro, gana 11 veces ms (no 10). Si gana un 100% ms gana el doble, si gana un 200% ms, el triple, etc. No es lo que parece: la paradoja de Simpson Cuando se dan porcentajes globales comparando grupos que a su vez contienen varias partes, puede parecer que ocurre una cosa cuando en realidad est ocurriendo otra. Este fenmeno se conoce con el nombre de paradoja de Simpson. Veamos un ejemplo. Una gran compaa abre una nueva fbrica creando 250 puestos de trabajo en los departamentos de compras, montaje y almacn. En total se presentan 355 hombres y 325 mujeres, de los cuales son admitidos 190 hombre (el 53%) y 60 mujeres (el 18,5%). Se comprueba que el nivel de preparacin de hombres y mujeres es similar entre los aspirantes a cada departamento. Podemos asegurar que se ha discriminado a las mujeres? La respuesta es no. Los datos son los siguientes:
Aspirantes Admitidos Hombres Mujeres Hombres Mujeres 25 100 5 250 25 180 80 200 5 355 325 190 %Admitidos Hombres Mujeres 20 25 72 80 6,25 7,5 53,5 18,5

Departamento Compras Montaje Almacn Total

Plazas 30 200 20 250

25 20 15 60

En realidad, en todos los departamentos la proporcin de admitidos ha sido mayor entre las mujeres. La clave est en que al departamento que ofrece ms plazas se han presentado muchos hombres y pocas mujeres, mientras que en los que ofrecen menos plazas ocurre lo contrario. Y una curiosidad para terminar este apartado de porcentajes: Analice la noticia obtenida desde un peridico el 65% de los jvenes de 10 a 17 aos admite que accede a videojuegos para mayores de edad. El texto de la noticia aclara de dnde sale el 65%: del 50% de los chicos y del 15% de las chicas! (qu porcentaje hubiera dado si se tratara del 50 % de chicos y del 60% de las chicas?) Referencia: La certeza absoluta y otras ficciones de Pere Grima. 2010 RBA Coleccionables. Ejercicios 4-1) Qu porcentaje respecto al total de la muestra representan los jvenes que estn inscritos en los registros electorales?. Qu porcentaje de los inscritos en los registros electorales son hombres?. Qu porcentaje de las mujeres no estn inscritas en los registros electorales? Qu porcentaje respecto al total de la muestra representan los jvenes que no estn inscritos en los registros electorales y son mujeres?.

26

4-2) Respecto al total de hombres qu porcentaje est inscrito en los registros electorales y pertenece al grupo socioeconmico ABC1?. Respecto al total de hombres del grupo D, qu porcentaje no est inscrito en los registros electorales?. Respecto al total de mujeres qu porcentaje no est inscrito en los registros electorales y pertenece al grupo socioeconmico C2?. Respecto al total de mujeres que no estn inscritas en los registros electorales , qu porcentaje pertenece al grupos C3?.

SOLUCION

En primer lugar para hacer ms eficiente el anlisis se recomienda crear un conjunto con slo las variables que interesa analizar. Para esto ir a Utilidades/definir conjuntos de variables/ Nombre del conjunto: CONJUNTO 1/ variables FOLIO, REGION, SEXO, EDAD, P02, P11_04, NSE/Aadir conjunto/Cerrar. Luego para utilizar el conjunto ir a Utilidades/ Utilizar conjuntos de variables/ activar NEWVARIABLES y CONJUNTO 1/Aceptar.

Ahora para explorar y depurar el archivo de datos es recomendable explorar las variables en Datos / Definir propiedades de variables /seleccionar las variables REGION, SEXO, EDAD, P02, P11_04, NSE/ se observa para cada variable la frecuencia, valores, etiquetas y otras propiedades. Se observa que se debe depurar cada variable excepto NSE Para depurar la variable REGION que est definida como cadena ir a Transformar/ Recodificacin automticamente/seleccionar la variable REGION / nuevo nombre regionrec/ menor valor/ aceptar GET FILE='F:\Ao 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=REGION /INTO regionrec /PRINT. REGION into regionrec (Regin) Old Value New Value Value Label RM V VIII 1 RM 2 V 3 VIII

Ahora la variable es numrica y cada regin tiene un cdigo asignado. Para cambiar el cdigo ir a Transformar/ recodificar en la misma variable/valores antiguos y nuevos/ Valor antiguo: 1 asignar valor nuevo 13 Aadir Valor antiguo: 2 asignar valor nuevo 5 Aadir Valor antiguo: 3 asignar valor nuevo 8 Aadir

27

Ir a Datos/Definir propiedades de variables/regionrec/ poner etiquetas/ RM-V y VIII respectivamente/ Aceptar

Para depurar la variable SEXO que est definida como cadena ir a Transformar/ Recodificacin automtica/seleccionar la variable SEXO/ nuevo nombre sexor/ menor valor/ aceptar Ir a Datos/Definir propiedades de variables/sexor/ cambiar etiquetas/ h por HOMBRE y m por MUJER/Aceptar GET FILE='F:\Ao 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=SEXO /INTO sexor /PRINT. SEXO into sexor (SEXO) Old Value New Value Value Label h m 1 h 2 m

* Definir propiedades de variables. *sexor. VALUE LABELS sexor 1 'HOMBRE' 2 'MUJER'. EXECUTE.

Para depurar la variable P02 que est definida como cadena y con etiquetas mal asignados ir a Transformar/ Recodificacin automtica/seleccionar la variable P02/ nuevo nombre P02r/ menor valor/ aceptar Ir a Transformar/ Recodificar en la misma variable/seleccionar la variable P02r/ valor antiguo 1 asigne valor nuevo 2 y al valor antiguo 3 asigne el valor nuevo 4. Esto depura los datos obteniendo una nueva tabla de frecuencia como sigue. Ir a Vista de variable y eliminar las etiquetas 1 y 3

AUTORECODE VARIABLES=P02 /INTO PO2r /PRINT. P02 into PO2r (ACTUALMENTE, ESTS O NO ESTS INSCRITO EN LOS REGISTROS

28

ELECTORALES?) Old Value New Value Value Label Est Inscrito 1 EST INSCRITO 2 No est inscrito 3 NO EST INSCRITO Est Inscrito EST INSCRITO No est inscrito 4 NO EST INSCRITO

RECODE PO2r (1=2) (3=4). EXECUTE. FREQUENCIES VARIABLES=PO2r /ORDER=ANALYSIS.

Para depurar la variable P11_04 Se observa en Datos/Definir propiedades de variables/ que hay tres valores fuera de rango. Para cambiarlos se debe ir a editor de datos y al odenar ascendentemente se selecciona el valor 8 y se cambia por 18, luego se ordena descendentemente y los valores 188 por 18 y 299 por 29. 2) Grficos 2-1) Grficos/Generador de grficos/sectores/REGION

2-2) Grficos /Generador de grficos/Barras/ agrupados/P02/ SEXO

29

2-3) Grficos/ Cuadros de dilogo antiguos/Barras / Simple/Resmenes para grupos de casos/Definir/Las barras representan Mean(EDAD)/ Eje de categoras : SEXO

2-4) Grficos /Generador de grficos/Histograma/ EDAD

30

2-5) Grficos/ Generador de grficos/ Diagrama de cajas/ Seleccionar Simple/ Eje Y: EDAD

Grficos/ Generador de grficos/ Diagrama de cajas/seleccionar Agrupados/ Eje Y: EDAD/EjeX: REGION/ Agrupados por SEXO

31

3) Tablas 3-1) Analizar/estadsticos descriptivos/ Frecuencias/ Edad / Estadisticos; Media, Mediana, Minimo, mximo, DEsv Estndar, asimetra, curtosis

3-2) Analizar/Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupacin SEXO y REGION/Estadsticos: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis.

32

Nota Si adems se quieren calcular los cuartiles se puede segmentar el archivo por SEXO y REGION y luego ir al men de frecuencias y solicitar los descriptivos anteriores y los cuartiles. ( Ayuda Ir a Datos/Segmentar archivos/ Comparar los grupos/ Seleccionar las variables SEXO y REGION

3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos Utilidades/Panel de control de SGR ( Sistema de gestin de resultados) Seleccionar Tablas/ OLAP Cubles / Layered Reports/ Nuevo conjunto de datos/: ArchivoOLAP y luego aadir/ Aceptar

33

Luego ir a Men: Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupacin SEXO y REGION/Estadsticos: N, Media, mediana, Mnimo, mximo, Desv estndar, asimetra y curtosis. Aceptar Volver a Utilidades Utilidades/Panel de control de SGR ( Sistema de gestin de resultados) activar Terminar todo. Aceptar. Aparecer el archivo

34

3-4) Datos/ Segmentar archivo/ Comparar los grupos/ variable de segmentacin REGION /Aceptar Analizar/Estadsticos Descriptivos/frecuencias / SEXO/ activar la tabla de frecuencia

3-5) Sacar la segmentacin: Datos/segmentar archivo/Restablecer Analizar/Estadsticos Descriptivos/ tablas de contingencia/ Casillas: Recuentos Observado

35

3-6) Previamente se debe verificar si en la variable P11_04 el valor 99 est definido como perdido. Analizar/ Explorar/ Lista de dependientes: P11_04/ Lista de Factores: Regin/Etiquetar los casos mediante: Folio/ Estadsticos: valores atpicos (nota: Muestra los cinco valores mayores y menores y parecen como valores extremos pero en rigor no necesariamente son valores atpicos ni extremos)

36

3-7) Primero se debe limpiar el visor de resultados dejando exclusivamente lo que se quiere exportar. Luego ir a Archivo/ exportar resultados / seleccionar tipo Excel/ Examinar guardar en Escritorio / VISOR/ Aceptar. Abrir desde Escritorio los resultados exportados

4) Tablas 4-1) Analizar/ Estadsticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: Sexo/ Casillas: Porcentajes Filas, columnas y Total. El 20,7% de la muestra representan los jvenes que estn inscritos en los registros electorales. El 53,6% de los inscritos en los registros electorales son hombres. El 77,9% de las mujeres no estn inscritas en los registros electorales El 39,1% de la muestra representan los jvenes que no estn inscritos en los registros electorales y son mujeres.

37

4-2) Analizar/ Estadsticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: NSE/ Capa: SEXO/Casillas: Porcentajes Filas, columnas y Total. Respecto al total de hombres el 3,2 % est inscrito en los registros electorales y pertenece al grupo socioeconmico ABC1. Respecto al total de hombres del grupo D, el 88% no est inscrito en los registros electorales. Respecto al total de mujeres el 12,4% no est inscrito en los registros electorales y pertenece al grupo socioeconmico C2. Respecto al total de mujeres que no estn inscritas en los registros electorales, el 39,9% pertenece al grupos C3.

38

39

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 4

Estudio de Caso: Caracterizacin de pases


Considere el archivo Mundo 95, que contiene variables con caractersticas de los pases del Mundo en el ao 1995. Usted debe realizar un informe donde compare los pases en por lo menos los siguientes aspectos: Poblacin, densidad, % de habitantes en ciudades, esperanza de vida, alfabetizacin (%), tasas de natalidad y mortalidad, nmero promedio de hijos por familia, tasa sida, considerando las variables nominales Regin, Religin mayoritaria y clima predominante.

Variable PAS POBLAC DENSIDAD URBANA RELIG ESPVIDAF ESPVIDAM ALFABET INC_POB MORTINF PIB_CAP REGIN

Etiqueta Pas Poblacin x 1000 Habitantes x Km2 Habitantes en ciudades (%) Religin mayoritaria Esperanza de vida Femenina Esperanza de vida Masculina Alfabetizacin (%) Aumento de poblacin (% anual) Mortalidad infantil (Muertes por 1000 nacimientos vivos) Producto interno bruto per cpita Regin Econmica 1 = OCDE 2 = Europa Oriental 3 = Asia / Pacfico 4 = Africa 5 = Oriente Medio 6 = Amrica Latina Ingesta diaria de caloras Casos de SIDA Tasa de natalidad (por 1.000 habitantes) Tasa de mortalidad (por 1.000 habitantes) Casos de SIDA por 100.000 habitantes Log(10) de PIB_CAP Log(10) de TASASIDA Tasa nacimentos/defunciones Nmero promedio de hijos Log(10) de POBLAC --

CALORAS SIDA TASA_NAT TASA_MOR TASASIDA LOG_PIB LOGTSIDA NAC_DEF FERTILID LOG_POB CREGRANO

40

ALFABMAS ALFABFEM CLIMA

Hombres alfabetizados (%) Mujeres alfabetizadas (%) Clima predominante 1 = Desierto 2 = Arido / Desierto 3 = Arido 5 = Tropical 6 = Mediterrneo 7 = Martimo 8 = Templado 9 = Artico / Templado 10 = Artico

Para su informe debe considerar por lo menos los siguientes puntos: a) Tres grficos distintos con su interpretacin. b) Tablas de frecuencia c) Tablas de contingencia d) Valores Outliers ( Valores extremos) e) Medidas de tendencia central f) Medidas de dispersin g) Cubos OLAP h) Puntuaciones z Solucin Caso Mundo 95 Comenzaremos el estudio determinando la frecuencia de las variables nominales; Regin Econmica, Religin Predominante y Clima Predominante de los pases

Region or economic group Valid OECD East Europe Pacific/Asia Africa Middle East Latn America Total Frequency 21 14 17 19 17 21 109 Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0 Valid Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0

La tabla de frecuencia muestra el nmero de pases por Regin econmica. Se observan dos regiones con la mayor frecuencia, (21 pases) las que corresponden a la Regin OECD (Organizacin para la Cooperacin y el Desarrollo Econmico) y a la Regin de Latino Amrica, correspondiendo al 19,3% del total de pases. La menor frecuencia se observa en Europa del este con 14 pases de un total de 109 pases. El grfico siguiente muestra la frecuencia y porcentaje de pases por Religin predominante.

41

Frecuencia y porcentaje de pases por Religin Predominante


Other 10,00 / 9,2% Protstnt 16,00 / 14,7% Catholic Orthodox 8,00 / 7,3% 41,00 / 37,6% Buddhist 7,00 / 6,4%

Muslim 27,00 / 24,8%

Se observa que 41 pases que representan el 37,6% del total de pases considerados son predominantemente de la Religin Catlica y 27 pases son predominantemente de la religin Musulmana representando el 24,8% del total de pases considerados. (Nota: Graficar/sectores (pie)/ Resumen para grupos de casos/N de casos/Religin Predominante/ En el editor de grficos se pide texto, valor y porcentaje y se colapsa los sectores a mayores del 5%.) La tabla de frecuencia para Religin Predominante muestra complementariamente al grfico anterior que las religiones con menor frecuencia son las religiones Hind, Juda, Taosta y Tribal
Predominant religion

Valid

Animist Buddhist Catholic Hindu Jewish Muslim Orthodox Protstnt Taoist Tribal Total

Missing Total

Frequency 4 7 41 1 1 27 8 16 2 1 108 1 109

Percent 3,7 6,4 37,6 ,9 ,9 24,8 7,3 14,7 1,8 ,9 99,1 ,9 100,0

Valid Percent 3,7 6,5 38,0 ,9 ,9 25,0 7,4 14,8 1,9 ,9 100,0

Al cruzar las variables Regin y Religin podemos observar en la tabla de contingencia que la Religin Predominante Animista pertenece a pases de frica. La religin predominante Catlica se encuentra en todas las regiones excepto en la Regin de Oriente donde la religin predominante es la

42

Musulmana con 15 pases de un total de 17 pases de la regin


Predominant religion * Region or economic group Crosstabulation Count Region or economic group East Pacific/ Middle Europe Asia East Africa 4 7 5 1 5 1 1 1 5 6 15 6 1 2 1 2 2 1 14 17 18 17 Latn America

OECD Predominant religion Animist Buddhist Catholic Hindu Jewish Muslim Orthodox Protstnt Taoist Tribal

10

20

1 10

Total

21

21

Total 4 7 41 1 1 27 8 16 2 1 108

En relacin al Clima Predominante se observa que las mayores frecuencias corresponden a los climas Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente respecto al total de datos vlidos.
Predominant climate Frequency 7 5 6 5 32 10 4 34 4 107 2 109 Percent 6,4 4,6 5,5 4,6 29,4 9,2 3,7 31,2 3,7 98,2 1,8 100,0 Valid Percent 6,5 4,7 5,6 4,7 29,9 9,3 3,7 31,8 3,7 100,0

Valid

Missing Total

desert arid / desert arid otro tropical mediterranean maritime temperate arctic / temp Total System

Ahora consideremos la poblacin, densidad y habitantes que viven en ciudades. Podemos observar del grfico correspondiente a la mediana de poblacin por regin econmica que el 50% de los pases de Asia / Pacfico tienen una poblacin mayor o igual a 59.400.000 habitantes, valor notablemente alto en relacin a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes

43

Mediana de Poblacin por Regin Econmica


70000 60000 59400 50000 40000 30000 20000 10000 0 OECD Pacific/Asia East Europe Africa

Med Population in thousands

10400

9600

9100 5500 Middle East

7900

Latn America

Region or economic group

Coherente con lo anterior se observa que la mayor densidad por regin econmica corresponde a la Regin Asia/Pacfico con un valor promedio de 802 habitantes por Km2, la que es considerablemente superior a la densidad promedio del resto de regiones las que oscilan entre 127 y 62 habitantes por km2 correspondiendo esta ltima a la regin de frica
Media de densidad por Regin Econmica
1000

Mean Number of people / sq. kilometer

800

802

600

400

200 108 0 OECD 127 77 Pacific/Asia East Europe Africa 62 Middle East Latn America

88

Region or economic group

(Nota: Graficar/Barras/simples. Resumen para grupos de casos/N de casos/ Regin Econmica)

44

Media de porcentaje de poblacin que vive en ciudades


OECD East Europe 62 45 29 66 61 75

Region or economic group

Pacific/Asia Africa Middle East Latn America

20

30

40

50

60

70

80

Mean People living in cities (%)

En relacin al porcentaje de personas que viven en ciudades, se observa del grfico que el mayor porcentaje promedio corresponde a la Regin OECD con un 75% en promedio. Es considerable la diferencia con la Regin de Africa donde el promedio de poblacin urbana es del 29%, seguido de Asia/pacfico con un promedio del 45%. Podemos complementar la informacin anterior con Cubos Olap, los que muestran por grupos, los estadsticos que se necesiten conocer. Especficamente los Cubos siguientes muestran para la Regin OECD y Africa , el nmero de pases el que corresponde a 21 y 18 pases respectivamente. Se observa la media para cada una de las variables consideradas y la desviacin estndar que muestra cunto se desvan los datos, en promedio respecto a la media. Al considerar el cubo correspondiente a la regin OECD se observan los valores mnimo y mximo, es sorprendente observar que existen pases con una densidad de 2,3 habitantes por km2 y de 366 personas por km2. Al considerar la poblacin, dentro de los pases del OECD se puede apreciar un valor mnimo de 263.000 habitantes en oposicin al valor mximo de 260.800.000 habitantes. El mayor porcentaje de poblacin urbana corresponde al 96% y el nor corresponde al 34%.
OLAP Cubes Region or economic group: OECD Predominant climate: Total Predominant religion: Total Population in thousands 21 33085,10 57148,25 263 260800 10400,00 Number of people / sq. kilometer 21 107,981 107,936 2,3 366,0 80,000 People living in cities (%) 21 74,71 14,89 34 96 77,00

N Mean Std. Deviation Minimum Maximum Median

45

OLAP Cubes Region or economic group: Africa Predominant climate: Total Predominant religion: Total Population in thousands 18 18415,83 24331,33 959 98100 8900,00 Number of people / sq. kilometer 18 63,700 79,823 2,4 311,0 39,500 People living in cities (%) 18 28,17 14,70 5 47 24,50

N Mean Std. Deviation Minimum Maximum Median

Al considerar el cubo correspondiente a la regin de frica se observa una media de poblacin considerablemente ms baja que la media de la Regin OECD y que la variabilidad en la variable poblacin del 132% es ms baja que si se compara con la regin del OECD cuyo coeficiente de variabilidad es del 172,7%. Por otra parte se observa para la poblacin urbana un mnimo de 5% siendo el porcentaje mximo del 47%, valores muy bajos si se compara con la regin del OECD. Al igual que la regin OECD se observa un valor mnimo de densidad de 2,4 habitantes por km2, en oposicin al mximo cuya densidad es de 311 habitantes por km2. Para identificar a qu pases corresponden estos valores mximos y mnimos se puede solicitar los valores extremos (outliers) que muestra los cinco valores mayores y menores.
Extreme Values Region or economic group: OECD Number of people / sq. kilometer Case Number Highest 1 2 3 4 5 1 2 3 4 5 70 11 101 42 56 4 49 21 74 71 COUNTRY Netherlan ds Belgium UK Germany Italy Australia Iceland Canada Norway New Zealand Value 366,0 329,0 237,0 227,0 188,0 2,3 2,5 2,8 11,0 13,0

Extreme Values Region or economic group: Africa Number of people / sq. kilometer Case Number 85 18 73 40 103 14 39 22 90 109 COUNTRY Rwanda Burundi Nigeria Gambia Uganda Botswana Gabon Cent. Afri.R Somalia Zambia Value 311,0 216,0 102,0 86,0 76,0 2,4 4,2 5,0 10,0 11,0

Highest

Lowest

Lowest

1 2 3 4 5 1 2 3 4 5

Nota: Analizar /Explore/ variables /Factor Regin econmica/etiquetar por pas/Estadsticos/ Outliers Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetizacin El grfico siguiente muestra la media de esperanza de vida femenina y masculina por Regin Econmica. Se observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la regin del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 aos para mujeres y hombres respectivamente. Es notable la diferencia con frica donde se observa

46

que el promedio de esperanza de vida es muy baja siendo la media de 54 y 51 aos para mujeres y hombres respectivamente.
Media de las variables Esperanza de Vida Femenina y Masculina por Regin Econmica
90

80

80 76 74 68 67 63
Media esper de Vida

70

72 67

72 66

60

50

54 51 Femenina Masculina OECD Pacific/Asia East Europe Africa Middle East Latn America

Media

40

Regin Econmica

(Nota: Graficar/Barras/agrupados. Resumen para variables individuales/Media de las variables Esperanza de vida fem y masculina/ eje de categoras Regin Econmica) La tabla siguiente identifica los pases con mayor y menor esperanza de vida
Valores Extremos ( Outliers considerando todos los pases) Case Number 94 57 38 21 56 103 1 22 109 97 55 57 26 49 47 103 97 22 85 45 COUNTRY Switzerland Japan France Canada Italy Uganda Afghanistan Cent. Afri.R Zambia Tanzania Israel Japan Costa Rica Iceland Hong Kong Uganda Tanzania Cent. Afri.R Rwanda Haiti Value 82 82 82 81 ,a 43 44 44 45 45 76 76 76 76 ,b 41 41 41 43 43

Average female life expectancy

Highest

Lowest

Average male life expectancy

Highest

Lowest

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

a. Only a partial list of cases with the value 81 are shown in the table of upper extremes. b. Only a partial list of cases with the value 75 are shown in the table of upper extremes.

El siguiente grfico apilado compara la tasa de natalidad y mortalidad por regin econmica, mostrando que las mayores tasas corresponden a la regin de Africa, las que indican que en promedio nacen 42 por cada 1000 habitantes y mueren en promedio 15 por cada 1000 habitantes. La menor tasa de natalidad en promedio corresponde a la Regin del OECD

47

Tasa de natalidad y mortalidad por regin econmica


60 15 50 40 30 20 10 0 OECD Pacific/Asia Africa Middle East Latn America East Europe 11 9 33 27

42 6 7 27 Death rate per 1000 people

10 13

Mean

13 Birth rate per 1000 people

Region or economic group


Esta informacin est muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por familia. El diagrama de caja muestra por Regin Econmica que las mayores tasas de fertilidad se concentran en la Regin de frica mostrando que la mediana representada por la lnea horizontal en las cajas se aproxima al valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los pases se encuentra en la caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por regin confirma la informacin entregada por el diagrama de caja
Diagrama de caja Fertilidad por regin econmica
10

Fertility: average number of kids

2 0
N= 21 13 16 19 17 21

OECD East Europe

Pacific/Asia Africa

Middle East Latn America

Region or economic group

48

Descriptives Fertility: average number of kids OECD Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 1,746 1,751 1,800 6,150E-02 ,248 1,3 2,1 ,8 ,495 -,081 -1,192 East Statistic 1,889 1,886 1,840 1,772E-02 ,133 1,7 2,2 ,5 ,190 ,530 ,932 Region or economic group Pacific/As Africa Statistic 3,383 3,298 3,065 3,226 1,796 1,4 6,9 5,5 2,795 ,791 -,563 Statistic 6,081 6,088 6,290 1,285 1,134 3,8 8,2 4,4 1,380 -,586 ,119 Middle Statistic 4,724 4,721 4,000 2,356 1,535 2,8 6,7 3,9 3,165 ,231 -1,812 Latn Statistic 3,336 3,280 3,080 1,115 1,056 1,8 5,9 4,2 1,655 ,827 ,332

Como complemento de la informacin vemos que la tabla siguiente muestra las medidas de tendencia central y de dispersin para todas las variables consideradas en este apartado.
Descriptives Average female life Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 69,89 70,67 74,00 115,241 10,74 43 82 39 12,75 -1,048 ,054 Average male life Statistic 64,71 65,37 67,00 88,926 9,43 41 76 35 12,75 -1,020 ,171 Birth rate per 1000 Statistic 26,154 25,754 25,500 154,112 12,414 10,0 53,0 43,0 21,000 ,416 -1,163 Death rate per 1000 Statistic 9,64 9,31 9,00 18,400 4,29 2 24 22 4,00 1,283 1,754 Numbe r of aids cases / Statistic 24,8271 16,8072 5,5512 2482,6 49,8252 ,00 326,75 326,75 23,2434 3,498 15,008 Fertility: average number Statistic 3,558 3,475 3,065 3,605 1,899 1,3 8,2 6,9 3,170 ,665 -,933 People who read Statistic 77,95 79,74 87,50 532,862 23,08 18 100 82 36,75 -,955 -,250

Si consideramos slo los pases de la Regin OECD y Africa observamos cmo cambian las medidas de tendencia central y dispersin observando en todas las variables que los pases de la Regin de frica estn con ndice muy por debajo de los de la Regin OECD. Si queremos reconocer qu pases en esas regiones tienen los cinco valores mximos y mnimos los podemos apreciar de la tabla de valores extremos.

49

Descriptives Region or economic group: OECD Average female Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 80,10 80,11 80,00 1,390 1,18 78 82 4 2,00 -,201 -,827

Average male life Statistic 73,71 73,74 74,00 1,314 1,15 71 76 5 1,50 -,256 ,519

Birth rate per 1000 Statistic 12,952 12,944 13,000 2,748 1,658 10,0 16,0 6,0 2,000 ,302 -,512

Death rate per Statistic 9,63 9,65 10,00 1,633 1,28 7 12 5 2,00 -,169 -,492

Number of aids Statistic 29,1052 23,6322 15,8713 1131,049 33,6311 3,10 157,94 154,84 24,2397 3,090 11,201

Fertility: average Statistic 1,746 1,751 1,800 6,150E-02 ,248 1,3 2,1 ,8 ,495 -,081 -1,192

People who read Statistic 97,67 98,22 99,00 11,333 3,37 85 100 15 2,00 -3,027 10,370

Nota; Analizar/ explore/esperanza de vida femenina y masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc/ Factor Regin /etiquetar por pas/ estadsticos-outliers. Al editar la grfica se borra lo que no se quiere mostrar

Descriptives Region or economic group: Africa Average female Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 54,26 54,01 55,00 63,649 7,98 43 70 27 12,00 ,425 -,434

Average male life Statistic 50,79 50,49 51,00 52,731 7,26 41 66 25 11,00 ,352 -,458

Birth rate per 1000 Statistic 42,000 42,389 44,000 41,111 6,412 28,0 49,0 21,0 5,000 -1,256 ,452

Death rate per Statistic 14,74 14,71 14,00 25,538 5,05 6 24 18 7,00 ,126 -,847

Number of aids Statistic 75,7491 66,0056 36,3077 7641,570 87,4161 ,13 326,75 326,61 112,6254 1,562 2,587

Fertility: average Statistic 6,081 6,088 6,290 1,285 1,134 3,8 8,2 4,4 1,380 -,586 ,119

People who read Statistic 47,26 47,29 50,00 319,094 17,86 18 76 58 34,00 ,012 -,964

Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de mortalidad, fertilidad, tasa sida y alfabetizacin respecto al resto de pases de la base de datos consideramos las puntuaciones z, las que nos muestran que Chile en; a) esperanza de vida femenina est sobre la media en 0,74 desviaciones estndares b) esperanza de vida masculina est sobre la media en 0,65 desviaciones estndares c) tasa de natalidad est bajo la media en 0,23 desviaciones estndares. d) tasa de mortalidad est bajo la media en 0,83 desviaciones estndares e) fertilidad ( promedio de hijos por familia) est bajo la media en 0,55 desviaciones estndares f) tasa sida est bajo la media en 0,37 desviaciones estndares g) alfabetizacin ( % de personas que saben leer) est sobre la media en 0,64 desviaciones estndares

50

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 5

Estudio de caso: Premio Colegios

Enunciado Suponga que usted es un asesor del Ministerio de Educacin y debe preparar un informe en relacin a los rendimientos de los estudiantes de enseanza media del ao 2006. Entre los diversos informes que debe realizar se le ha pedido que sugiera qu colegios premiar con un estmulo por los resultados de la prueba SIMCE de los segundos medios. El SIMCE es el sistema nacional de medicin de resultados de aprendizaje del Ministerio de Educacin de Chile. Su propsito principal es construir al mejoramiento de la calidad y equidad de la educacin, informando sobre el desempeo de los alumnos y alumnas en algunas reas del curriculum nacional y relacionndolos con el contexto escolar y social en el que ellos aprenden. Las pruebas SIMCE evalan el logro de los Objetivos Fundamentales y Contenidos Mnimos Obligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a travs de una prueba comn que se aplica a nivel nacional, una vez al ao, a los estudiantes que cursan un determinado nivel educacional. Hasta el 2005 la aplicacin de las pruebas se alternaron entre 4 Bsico, 8 Bsico y 2 Medio. Desde el 2006, las pruebas evalan todos los aos el nivel del 4 Bsico y se alternan los niveles de 8 Bsico y 2 Medio. (Fuente: Resultados nacionales SIMCE 2006. MINEDUC) Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2 Medio del 2006. Algunas de las variables de inters son:

VARIABLE Idest Regin Comuna ddca

ETIQUETA DE VARIABLE Identificador del establecimiento Nombre de la Regin Nombre de la comuna Dependencia

ETIQUETA DEVALOR

CP: Corporacin Privada MC; Corporacin Municipal MD; DAEM (Departamento de Administracin de Educacin Municipal) PP: Particular Pagado PS: Particular Subvencionado 1= Rural 2=Urbano

ruralida prom_len prom_mat

Caracterizacin del establecimiento Promedio puntaje de lenguaje Promedio puntaje de matemticas

4
TP P

Caso elaborado por Sara Arancibia

51

Despus de mltiples reuniones con expertos en educacin, usted ha llegado a definir junto con los expertos un criterio para premiar a las escuelas; crear grupos homogneos de escuelas y definir puntajes de corte para cada grupo. De esta forma se estar distinguiendo a los colegios que se destacan entre colegios con similares caractersticas. El premio se otorgar a los colegios con puntajes promedios mayores o iguales al percentil 75 (para cada grupo). Los grupos homogneos se definieron en base a dos criterios: la dependencia del establecimiento definido como Municipal, Privado y Subvencionado y la caracterizacin del establecimiento Rural y Urbano Los grupos homogneos definidos por el grupo experto son, 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano Usted como asesor del Ministerio de Educacin debe aplicar los criterios definidos con los expertos para crear los grupos de colegios homogneos e identificar cules son los establecimientos premiados realizando distintas comparaciones por dependencia, caracterizacin y zona (Norte, Central y Sur). Adems debe determinar si existen diferencias significativas para los puntajes promedios de la SIMCE por caracterizacin y por dependencia Para realizar su anlisis deber lograr los siguientes objetivos especficos desglosados en tareas elementales 1. Limpiar y ordenar la base de inters para el anlisis a) Crear la variable Dependencia considerando slo tres categoras: Municipalizado, Privado y Subvencionado b) Crear la variable zona considerando Zona Norte, Centro y Sur c) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica y lenguaje d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto deber crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segn corresponda. e) Determinar para cada grupo el percentil 75. f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criterio mencionado 1=SI recibe premio y 0=NO recibe premio. 2. Realizar un anlisis descriptivo de los datos a) Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu porcentaje representan del total? Qu tipo de dependencia se observa con mayor y menor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia?. b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos?. c) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de los Municipalizados y Rurales? d) Qu porcentaje representa el total de colegios premiados respecto al total de colegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Qu porcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiados son de la zona

52

Norte,Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu porcentaje del total son premiados y del Sur?. e) Qu porcentaje de los colegios premiados son urbanos? Qu porcentaje de los colegios rurales son premiados? Qu porcentaje de colegios resultaron premiados por grupo? f) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana?. Realice un grfico que permita observar la forma de la distribucin de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems un diagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar? g) Determine mediante una grfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemticas es similar si se compara los segmentos rural y urbano h) Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de la distribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, y muestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo. i) Realice un grfico considerando a todos los colegios en estudio y otro grfico considerando slo el segmento de premiados, que permitan observar la posicin del grupo en relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.

SOLUCION: 1. Limpiar y ordenar la base de inters para el anlisis

a) Crear la variable Dependencia considerando slo tres categoras: Municipalizado, Privado y Subvencionado En primer lugar observamos que la variable de dependencia ddcia de la base de datos viene con formato cadena o string. Recodificaremos automticamente y luego llevaremos las cinco categoras slo a tres categoras. Para esto ir al men Transformar/ recodificacin automtica/ AUTORECODE VARIABLES=ddcia /INTO depend /PRINT. Old Value New Value Value Label CP MC MD PP PS 1 Corporacin Privada 2 Corporacin Municipal 3 DAEM 4 Particular Pagado 5 Particular Subencionado

Para crear tres categoras juntaremos las categoras Corporacin Municipal y DAEM en Municipalizado y las categoras Corporacin Privada y Particular pagado en Privado Para esto ir al men Transformar/Recodificar en distinta variable RECODE

53

depend (4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia . VARIABLE LABELS dependencia 'Tipo de dependencia'. EXECUTE . En definicin de la variable Asignar etiquetas de valor a los cdigos 1 al 3 1= Municipalizado 2=Privado 3=Subvencionado b) Crear la variable zona considerando Zona; Norte, Centro y Sur En primer lugar se observa que la variable Regin viene en formato de cadena. Se recodificar automticamente. AUTORECODE VARIABLES=region /INTO reg /PRINT En el visor de resultados se puede observar los cdigos de cada categora Old Value New Value Value Label

Regin de Aisn del General 1 Regin de Aisn del General Carlos Ibaez del Campo 1 Carlos Ibaez del Campo Regin de Antofagasta 2 Regin de Antofagasta Regin de Atacama 3 Regin de Atacama Regin de Coquimbo 4 Regin de Coquimbo Regin de la Araucana 5 Regin de la Araucana Regin de Los Lagos 6 Regin de Los Lagos Regin de Magallanes y de la 7 Regin de Magallanes y de la Antrtica Chilena 7 Antrtica Chilena Regin de Tarapac 8 Regin de Tarapac Regin de Valparaso 9 Regin de Valparaso Regin del Biobo 10 Regin del Biobo Regin del Libertador General 11 Regin del Libertador General Bernardo O' Higgins 11 Bernardo O' Higgins Regin del Maule 12 Regin del Maule Regin Metropolitana 13 Regin Metropolitana Para crear las categoras de zona se recodificar en distintas variables RECODE reg (1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona . VARIABLE LABELS zona 'zona'. EXECUTE . En definicin de variables 1= Norte 2= Centro

54

3= Sur c) Crear la variable puntprom correspondiente al puntaje promedio entre matemtica y lenguaje Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o cadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar en vista de variables el tipo String a numrico. Para crear la variable puntprom seleccione Transformar/Calcular Variable destino: puntprom Tipo: numrico Etiqueta: Promedio de Matemticas y Lenguaje Expresin: MEAN(prom_len,prom_mat) Sintaxis de puntprom COMPUTE puntprom = MEAN(prom_len,prom_mat) . VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y matemticas. EXECUTE . d) Crear la variable grupo correspondiente a cada grupo homogneo. Para esto deber crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los cdigos 1 al 6 segn corresponda. Para crear la variable de grupo primero recodificaremos automticamente la variables ruralida a cdigo numrico con nombre caract Donde caract=1 Rural caract=2 Urbano Sintaxis AUTORECODE VARIABLES=ruralida /INTO caract /PRINT. Ahora formamos los seis grupos segn criterio dado Creacin de la variable grupo *** Sintaxis Grupo ***. IF (dependencia = 1 & caract = 1) grupo = 1 . IF (dependencia = 1 & caract = 2) grupo = 2 . IF (dependencia = 2 & caract = 1) grupo = 3 . IF (dependencia = 2 & caract = 2) grupo = 4 . IF (dependencia = 3 & caract = 1) grupo = 5 . IF (dependencia = 3 & caract = 2) grupo = 6 . EXECUTE . Luego en la definicin de variables en valores se define: 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural

55

6: Subvencionado y Urbano e) Determinar para cada grupo el percentil 75. Para el clculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Analizar/Frecuencias [Estadsticos]: Percentil 75 Sintaxis SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /PERCENTILES= 75 /ORDER= ANALYSIS . No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos. f) Con otra sintaxis (sintaxispremio) crear la variable premio donde segn el criterio mencionado 1=SI recibe premio y 0=NO recibe premio. Se consider el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)
Estadsticos puntaje promedio entre lenguaje y matemticas Municipalizado y Rural N Vlidos Perdidos Percentiles 75 Municipalizado y Urbano N Vlidos Perdidos Percentiles 75 Privado y Rural N Vlidos Perdidos Percentiles 75 Privado y Urbano N Vlidos Perdidos Percentiles 75 Subvencionado y Rural N Vlidos Perdidos Percentiles 75 Subvencionado y Urbano N Vlidos Perdidos Percentiles 75 68 0 225,6250 587 0 246,0000 19 0 322,0000 388 0 324,0000 86 0 246,3750 1171 0 286,0000

*** Sintaxis Premio ***. IF (grupo = 1 & puntprom >= 225.625) premio = 1 . IF (grupo = 1 & puntprom < 225.625) premio = 0 . IF (grupo = 2 & puntprom >= 246) premio = 1 . IF (grupo = 2 & puntprom < 246) premio = 0 . IF (grupo = 3 & puntprom >= 322.5) premio = 1 . IF (grupo = 3 & puntprom < 322.5) premio = 0 . IF (grupo = 4 & puntprom >= 324) premio = 1 . IF (grupo = 4 & puntprom < 324) premio = 0 . IF (grupo = 5 & puntprom >= 246.375) premio = 1 . IF (grupo = 5 & puntprom < 246.375) premio = 0 . IF (grupo = 6 & puntprom >= 286) premio = 1 . IF (grupo = 6 & puntprom < 286) premio = 0 . VARIABLE LABELS premio 'premio (SI=1, NO=0)' .

56

EXECUTE . En definicin de variables se agrega la etiqueta de valor 1=SI 0=NO 2. a) Realizar un anlisis descriptivo de los datos Cuntos establecimientos rurales y urbanos existen en el archivo de datos y qu porcentaje representan del total? Qu tipo de dependencia se observa con mayor y menor frecuencia? Qu grupo homogneo de establecimientos presenta mayor frecuencia? Se debe realizar una tabla de frecuencias de la variable caract, dependencia y grupo. Analizar/ frecuencias. Sintaxis del procedimiento: FREQUENCIES VARIABLES=dependencia tipo grupo /ORDER= ANALYSIS .
Caracterizacin del establecimiento Frecuencia 173 2146 2319 Porcentaje 7,5 92,5 100,0 Porcentaje vlido 7,5 92,5 100,0 Porcentaje acumulado 7,5 100,0

Vlidos

Rural Urbano Total

Tipo de dependencia Frecuencia 655 407 1257 2319 Porcentaje 28,2 17,6 54,2 100,0 Porcentaje vlido 28,2 17,6 54,2 100,0 Porcentaje acumulado 28,2 45,8 100,0

Vlidos

Municipalizado Privado Subvencionado Total

grupo Frecuencia 68 587 19 388 86 1171 2319 Porcentaje 2,9 25,3 ,8 16,7 3,7 50,5 100,0 Porcentaje vlido 2,9 25,3 ,8 16,7 3,7 50,5 100,0 Porcentaje acumulado 2,9 28,2 29,1 45,8 49,5 100,0

Vlidos

Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total

De la tabla de frecuencia, se observa que existen 2146 colegios de tipo urbano y 173 colegios de tipo Rural representando el 92,5% y 7,5 % respectivamente sobre el total de colegios considerados en la base de datos. Por otra parte de la tabla de frecuencia de dependencia se tiene que la mayor frecuencia se presenta en los establecimientos subvencionados representando el 54,2% del total y la menor frecuencia en los establecimientos Privados representando el 17,6% del total.

57

Respecto a los grupos homogneos el de mayor frecuencia es el grupo de Subvencionado y Urbano representando aproximadamente la mitad de los colegios considerados en estudio, le sigue el grupo de Municipalizados y Urbanos representando un cuarto de los colegios en estudio. b) Cuntos colegios obtuvieron puntajes promedio en Matemticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos? Para responder esta pregunta se debe crear rangos de puntajes en base al puntaje de Matemticas. Transformar/Recodificar/en distinta variable Ingresar la variable prom_mat y definir variable nueva rangmat (notar que la variable prom_mat es una variable de nmeros enteros) Sintaxis del procedimiento: RECODE prom_mat (Lowest thru 250=1) (251 thru 300=2) (301 thru Highest=3) INTO rangmat. VARIABLE LABELS rangmat 'rangos de puntajes en matematicas'. EXECUTE . . En la ventana de definicin de variables considerar la variable rangmat y en valores definir cada rango como: 1 =Hasta 250 2 = 251-300 3= superior a 300 Luego realizar una tabla de frecuencias de la variable rangmat
rangos de puntajes en matematicas Frecuencia 1169 658 492 2319 Porcentaje 50,4 28,4 21,2 100,0 Porcentaje vlido 50,4 28,4 21,2 100,0 Porcentaje acumulado 50,4 78,8 100,0

Vlidos

Hasta 250 251-300 Superior a 300 Total

En la tabla de frecuencia se puede apreciar la cantidad de colegios por rangos de puntajes en matemticas Se puede observar que aproximadamente la mitad de los colegios en estudio obtuvieron un puntaje promedio en matemticas menor o igual a 250 puntos. Un poco ms de la quinta parte de los colegios obtiene un puntaje superior a 300 puntos. c) Qu porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? Cuntos de ellos son Municipalizados y Urbanos? Qu puede decir de los Municipalizados y Rurales? En primer lugar se debe crear dos rangos para la variable prom_len; Hasta 300 puntos y Superior a 300 puntos. Transformar/Recodificar/en distinta variable

58

Ingresar la variable prom_len y definir variable nueva rangleng (notar que la variable prom_len es una variable de nmeros enteros) Sintaxis del procedimiento RECODE prom_len (Lowest thru 300=1) (301 thru Highest=2) INTO rangleng . VARIABLE LABELS rangleng 'rangos de puntajes en lenguaje'. EXECUTE .

En la ventana de definicin de variables considerar la variable rangleng y en valores definir cada rango como: 1 =Hasta 300 2 = superior a 300 Luego realizar una tabla de frecuencias de la variable rangleng De la tabla de frecuencias se puede observar que el 13,8% de los colegios obtuvieron un puntaje superior a 300 puntos.
rangos de puntajes en lenguaje Frecuencia 1999 320 2319 Porcentaje 86,2 13,8 100,0 Porcentaje vlido 86,2 13,8 100,0 Porcentaje acumulado 86,2 100,0

Vlidos

Hasta 300 Superior a 300 Total

Para responder cuntos de estos colegios son Municipalizados y Urbanos, se puede seleccionar a rangleng igual a 2 que corresponde a los puntajes superiores a 300 puntos y luego pedir una tabla de contingencia para las variables dependencia y tipo. Datos/Seleccionar casos Sintaxis del procedimiento USE ALL. COMPUTE filter_$=(rangleng = 2). VARIABLE LABEL filter_$ 'rangleng = 2 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . CROSSTABS /TABLES=dependencia BY caract /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .

59

Tabla de contingencia Tipo de dependencia * Caracterizacin del establecimiento Recuento Caracterizacin del establecimiento Rural Urbano 0 10 7 193 2 108 9 311

Total 10 200 110 320

Tipo de dependencia Total

Municipalizado Privado Subvencionado

Se ha considerado los puntajes superiores a 300 puntos

De la tabla de contingencia se puede apreciar que de los colegios con puntajes superiores a 300 puntos, slo 10 corresponden a Municipalizado y Urbano y ninguno a Municipalizado y Rural Otra forma de responder a esta pregunta podra ser solicitando una tabla de contingencia para dependencia y tipo con una capa dada por la variable rangleng (para esto seleccionar todos los casos) Sintaxis del procedimiento CROSSTABS /TABLES=dependencia BY tipo BY rangleng /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .
Tabla de contingencia Tipo de dependencia * Caracterizacin del establecimiento * rangos de puntajes en lenguaje Recuento rangos de puntajes en lenguaje Hasta 300 Caracterizacin del establecimiento Rural Urbano 68 577 12 195 84 1063 164 1835 0 10 7 193 2 108 9 311

Tipo de dependencia Total Tipo de dependencia Total

Municipalizado Privado Subvencionado Municipalizado Privado Subvencionado

Superior a 300

Total 645 207 1147 1999 10 200 110 320

De esta forma se obtiene el mismo resultado. Si se quiere mostrar una tabla focalizada a la respuesta, se puede pivotar editando la tabla y moviendo al pivote de rangos de puntajes al extremo superior izquierdo. De esta forma se puede obtener la siguiente tabla.

60

Tabla de contingencia Tipo de dependencia * Caracterizacin del establecimiento * rangos de puntajes en lenguaje Recuento rangos de puntajes en lenguaje: Superior a 300 Caracterizacin del establecimiento Rural Urbano 0 10 7 193 2 108 9 311

Total 10 200 110 320

Tipo de dependencia Total

Municipalizado Privado Subvencionado

d) Qu porcentaje representa el total de colegios premiados respecto al total de colegios? Qu porcentaje de los colegios Municipalizados resultaron premiados? Qu porcentaje de los colegios premiados son Subvencionados? Qu porcentaje de los premiados son de la zona Norte, Centro y Sur? Qu porcentaje de la zona Centro son premiados? Qu porcentaje del total son premiados y del Sur? Para responder a estas preguntas se puede considerar tablas de frecuencia y de contingencia. En primer lugar solicitaremos una tabla de frecuencia de premio
premio (SI=1, NO=0) Frecuencia 1730 589 2319 Porcentaje 74,6 25,4 100,0 Porcentaje vlido 74,6 25,4 100,0 Porcentaje acumulado 74,6 100,0

Vlidos

NO SI Total

De la tabla de frecuencias se obtiene que el 25,4% del total de colegios resulta premiado. Para saber qu porcentaje de los colegios Municipalizados resultaron premiados, y qu porcentaje de los colegios premiados son Subvencionados podemos realizar una tabla de contingencia de la variable dependencia versus premio solicitando el porcentaje fila y columna. CROSSTABS /TABLES=dependencia BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL . De la tabla se observa que de los colegios Municipalizados el 25, 3% resultaron premiados y que del total de premiados el 54% corresponde a Subvencionados

61

Tabla de contingencia Tipo de dependencia * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 489 166 74,7% 28,3% 302 74,2% 17,5% 939 74,7% 54,3% 1730 74,6% 100,0% 25,3% 28,2% 105 25,8% 17,8% 318 25,3% 54,0% 589 25,4% 100,0%

Tipo de dependencia

Municipalizado

Privado

Subvencionado

Total

Recuento % de Tipo de dependencia % de premio (SI=1, NO=0) Recuento % de Tipo de dependencia % de premio (SI=1, NO=0) Recuento % de Tipo de dependencia % de premio (SI=1, NO=0) Recuento % de Tipo de dependencia % de premio (SI=1, NO=0)

Total 655 100,0% 28,2% 407 100,0% 17,6% 1257 100,0% 54,2% 2319 100,0% 100,0%

De la misma forma para saber los porcentajes en relacin a la zona podemos realizar una tabla de contingencia de zona versus premio solicitando los porcentajes fila, columna y total

CROSSTABS /TABLES=zona BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .

62

Tabla de contingencia zona * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 209 72 74,4% 25,6% 12,1% 9,0% 1076 75,9% 62,2% 46,4% 445 71,7% 25,7% 19,2% 1730 74,6% 100,0% 74,6% 12,2% 3,1% 341 24,1% 57,9% 14,7% 176 28,3% 29,9% 7,6% 589 25,4% 100,0% 25,4%

zona

Norte

Centro

Sur

Total

Recuento % de zona % de premio (SI=1, NO=0) % del total Recuento % de zona % de premio (SI=1, NO=0) % del total Recuento % de zona % de premio (SI=1, NO=0) % del total Recuento % de zona % de premio (SI=1, NO=0) % del total

Total 281 100,0% 12,1% 12,1% 1417 100,0% 61,1% 61,1% 621 100,0% 26,8% 26,8% 2319 100,0% 100,0% 100,0%

Se obtiene que de los colegios premiados el 12,2% corresponde a la zona Norte, el 57,9% corresponde a la zona Centro y el 29,9% corresponde a la zona Sur. Ahora respecto a los colegios de la zona Centro el 24,1% resulta premiado y respecto al total de colegios el 7,6% son premiados y de la zona Sur. e) Qu porcentaje de los colegios premiados son urbanos? Qu porcentaje de los colegios rurales son premiados? Qu porcentaje de colegios resultaron premiados por grupo? En forma anloga a la pregunta anterior se puede resolver con una tabla de contingencia de premio versus tipo y premio versus grupo Sintaxis del procedimiento CROSSTABS /TABLES=tipo grupo BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .
Tabla de contingencia Caracterizacin del establecimiento * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 131 42 75,7% 7,6% 5,6% 1599 74,5% 92,4% 69,0% 1730 74,6% 100,0% 74,6% 24,3% 7,1% 1,8% 547 25,5% 92,9% 23,6% 589 25,4% 100,0% 25,4%

Caracterizacin del establecimiento

Rural

Urbano

Total

Recuento % de Caracteri zacin del establecimiento % de premio (SI=1, NO=0) % del total Recuento % de Caracteri zacin del establecimiento % de premio (SI=1, NO=0) % del total Recuento % de Caracteri zacin del establecimiento % de premio (SI=1, NO=0) % del total

Total 173 100,0% 7,5% 7,5% 2146 100,0% 92,5% 92,5% 2319 100,0% 100,0% 100,0%

63

De la tabla se obtiene que de los colegios premiados, el 92,9% son urbanos y del total de colegios rurales el 24,3 % son premiados De la tabla de contingencia de grupo versus premio se puede ver que el criterio utilizado para premiar a los mejores colegios segn su rendimiento SIMCE otorg casi equitativamente el 25% de colegios premiados por grupo.
Tabla de contingencia grupo * premio (SI=1, NO=0) premio (SI=1, NO=0) NO SI 51 17 75,0% 25,0% 2,9% 2,2% 438 74,6% 25,3% 18,9% 15 78,9% ,9% ,6% 287 74,0% 16,6% 12,4% 65 75,6% 3,8% 2,8% 874 74,6% 50,5% 37,7% 1730 74,6% 100,0% 74,6% 2,9% ,7% 149 25,4% 25,3% 6,4% 4 21,1% ,7% ,2% 101 26,0% 17,1% 4,4% 21 24,4% 3,6% ,9% 297 25,4% 50,4% 12,8% 589 25,4% 100,0% 25,4%

Total 68 100,0% 2,9% 2,9% 587 100,0% 25,3% 25,3% 19 100,0% ,8% ,8% 388 100,0% 16,7% 16,7% 86 100,0% 3,7% 3,7% 1171 100,0% 50,5% 50,5% 2319 100,0% 100,0% 100,0%

grupo

Municipalizado y Rural

Municipalizado y Urbano

Privado y Rural

Privado y Urbano

Subvencionado y Rural

Subvencionado y Urbano

Total

Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total Recuento % de grupo % de premio (SI=1, NO=0) % del total

f) A qu zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana? Realice un grfico que permita observar la forma de la distribucin de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre adems un diagrama de caja (boxplot) por tipo para el puntaje promedio Qu puede observar? Para responder a la pregunta se puede solicitar en explorar una tabla de valores extremos de puntaje promedio por tipo, identificando por zona, y en grficos pedir el histograma y diagrama de cajas.

64

EXAMINE VARIABLES=puntprom BY caract /ID= zona /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
Valores extremos Mayores Caracterizacin del establecimiento Rural Nmero del caso 2011 2016 2010 2015 2012 2090 2052 2170 2203 2093 zona Centro Centro Centro Centro Sur Centro Centro Centro Centro Centro Valor 351,50 334,50 330,50 324,50 322,00a 357,50 352,50 352,50 350,50 348,50

puntaje promedio entre lenguaje y matemticas

Urbano

1 2 3 4 5 1 2 3 4 5

a. En la tabla de valores extremos mayores slo se muestra una lista parcial de los casos con el valor 322,00.

De esta forma se obtiene que los colegios de mayor puntaje promedio tanto en los colegios de tipo rural como de tipo urbano se encuentran en la zona Centro, excepto el colegio con el quinto mejor puntaje de tipo rural que recae en la zona Sur (aunque existen otros puntajes con 322 puntos en promedio) En los histogramas se puede observar la forma de la distribucin de los puntajes promedios para los colegios de tipo rural y los de tipo rrbano En el histograma correspondiente a los colegios de tipo rural se puede apreciar una asimetra positiva con puntajes mas sesgados hacia puntajes bajos y con varios colegios con puntajes en el extremo superior ( casos extremos y atpicos). Claramente no es una distribucin simtrica, y adems algo levantada denotando que es leptocurtica, por tanto no se asemeja a una distribucin normal.
Histograma
para tipo= Rural 40

30

Frecuencia

20

10

0 180,00 210,00 240,00 270,00 300,00 330,00 360,00

Mean = 229,6272 Std. Dev. = 32,69127 N = 173

puntaje promedio entre lenguaje y matemticas

65

En cambio la distribucin de los puntajes de los colegios de tipo urbano se observa bastante simtrica sin puntajes claramente extremos y/o atpicos, pero no es clara la forma de una curva normal.
Histograma
para tipo= Urbano 120

100

Frecuencia

80

60

40

20 Mean = 259,9103 Std. Dev. = 39,09525 N = 2.146 200,00 225,00 250,00 275,00 300,00 325,00 350,00

0 175,00

puntaje promedio entre lenguaje y matemticas

Diagrama de caja para puntaje promedio por tipo de colegio Rural y Urbano

puntaje promedio entre lenguaje y matemticas

Centro 350,00 Centro Sur Centro Centro 300,00

250,00

200,00

Rural

Urbano

Caracterizacin del establecimiento

El diagrama de cajas por tipo rural y urbano nos muestra claramente las diferencias en ambas distribuciones. Se observa que la mediana de puntajes de los colegios rurales (lnea horizontal negra) est cerca de los 220 puntos lo que indica que la mitad de este tipo de colegios tiene un puntaje promedio inferior o igual al valor de la mediana que en este caso es 221 puntos. Se observan varios valores atpicos y un valor extremo en la parte superior de puntajes. Los puntajes de los colegios

66

rurales en general estn ms abajo que si comparamos con los puntajes de colegios urbanos. Se observa que la mediana de los colegios urbanos est sobre los 250 puntos. Especficamente la mediana es 255 puntos lo que indica que el 50% de los colegios urbanos tienen puntajes inferiores o iguales a 255 puntos. No se observan valores extremos ni atpicos.

g) Determine mediante una grfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemticas por dependencia para el grupo de colegios en estudio. Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemticas es similar si se compara los segmentos rural y urbano Para realizar esta grfica se selecciona Grafico/barras/Para distintas variables/Agrupado GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /MISSING=LISTWISE .

Media de puntajes de lenguaje y matemticas por dependencia


prom_len prom_mat

300

Media

200

291,3

306,1 259,5 256,9

235,5

226,6

100

0 Municipalizado Privado Subvencionado

Tipo de dependencia

Del grfico se observa que tanto para lenguaje como para matemticas los colegios privados tiene mejores resultados observndose sin embargo diferencias en casi 15 puntos a favor del promedio de matemticas. Los colegios subvencionados presentan puntajes intermedios si comparamos los privados y los municipalizados con puntajes en torno a 257 puntos en matemticas y con una diferencia de solo 2 puntos a favor del puntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajes promedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favor de lenguaje.

67

Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano hacemos un grfico de barras agrupados seleccionando resmenes para grupos de casos GRAPH /BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract

Media de puntajes promedios en lenguaje por dependencia agrup caracterizacin Rural y Urbano
300

Carac esta

250

Media prom_len

200

150
272,9 237,1 221,3

292,2 261,4 234

100

50

Se observa una clara diferencia entre los grupos con caracterizacin rural y urbana, notndose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajo en los colegios rurales en relacin a los colegios urbanos. Para comparar el comportamiento en los resultados de ambas pruebas por dependencia entre la caracterizacin de Rural y Urbano es conveniente hacer un grfico en dos paneles. Para esto vamos a grficos de barras agrupados y seleccionar resumen para distintas variables GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /PANEL ROWVAR=caract ROWOP=CROSS /MISSING=LISTWISE .

68

Media de puntajes de lenguaje y matemticas por dependencia para colegios urbanos y rurales
prom_len 300 prom_mat

Urbano

Media

Caracterizacin del establecimiento

200
292,2 237,1 307 261,4 259,3

100

228,5

300

Media

Rural

200
272,9 286,8 234 224,7

100

221,3

210,6

0 Municipalizado Privado Subvencionado

Tipo de dependencia

El grfico nos muestra un comportamiento muy similar por dependencia entre los urbanos y rurales en cuanto a que los puntajes promedios ms altos se observan en los colegios privados, los puntajes intermedios en los subvencionados y los puntajes ms bajos en los municipalizados. En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los puntajes de los colegios rurales. h) Determine los estadsticos bsicos de tendencia central, de dispersin y de forma de la distribucin de los puntajes promedios SIMCE para los distintos grupos homogneos, y muestre grficamente la media de los puntajes promedios SIMCE por grupo homogneo. Interprete los estadsticos para el grupo de municipalizados y rurales. Para responder a esta pregunta hay varios posibles procedimientos. Una forma posible es realizar un cubo OLAP para la variable puntprom con variable de agrupacin grupo. Analizar/ Reporte/ Cubo OLAP Sintaxis del procedimiento OLAP CUBES puntprom BY grupo /CELLS=COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT /TITLE='OLAP Cubes'.

69

Para dejar la forma de la tabla siguiente se puede editar el cubo, mover el pivote de grupo, al lado superior derecho, el pivote de estadsticos, al lado inferior izquierdo y el pivote variable al lado superior izquierdo.
Estadsticos descriptivos para el puntaje promedio entre matemticas y lenguaje de la prueba SIMCE por grupo puntaje promedio entre lenguaje y matemticas grupo Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total N 68 587 19 388 86 1171 2319 Media 215,9265 232,8169 279,8947 299,6224 229,3547 260,3335 257,6511 Mediana 215,7500 228,0000 277,5000 311,0000 225,2500 260,0000 252,0000 Mnimo 181,00 185,00 213,00 187,50 181,00 179,00 179,00 Mximo 257,00 348,00 351,50 357,50 322,00 337,00 357,50 Desv. tp. 15,49103 27,32073 43,41933 34,06601 29,31110 33,95561 39,45891 Asimetra ,216 1,156 ,129 -,892 ,971 ,026 ,320 Curtosis -,111 1,845 -1,616 ,017 1,015 -,856 -,920 % del total de N 2,9% 25,3% ,8% 16,7% 3,7% 50,5% 100,0%

Medias. Analizar/ Comparar medias/ medias Sintaxis del procedimiento MEANS TABLES=puntprom BY grupo /CELLS COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT

Una segunda forma de lograr esta tabla de forma inmediata es utilizando el men

Para dejar la misma forma de la tabla anterior se puede transponer filas y columnas desde el men Pivotar una vez editada la tabla.
Informe puntaje promedio entre lenguaje y matemticas grupo Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total N 68 587 19 388 86 1171 2319 Media 215,9265 232,8169 279,8947 299,6224 229,3547 260,3335 257,6511 Mediana 215,7500 228,0000 277,5000 311,0000 225,2500 260,0000 252,0000 Mnimo 181,00 185,00 213,00 187,50 181,00 179,00 179,00 Mximo 257,00 348,00 351,50 357,50 322,00 337,00 357,50 Desv. tp. 15,49103 27,32073 43,41933 34,06601 29,31110 33,95561 39,45891 Asimetra ,216 1,156 ,129 -,892 ,971 ,026 ,320 Curtosis -,111 1,845 -1,616 ,017 1,015 -,856 -,920 % del total de N 2,9% 25,3% ,8% 16,7% 3,7% 50,5% 100,0%

Una tercera forma sera segmentar el archivo previamente por la variable grupo y luego pedir en el men frecuencias los estadsticos solicitados. Sintaxis procedimiento 3 SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN SKEW KURT /ORDER= ANALYSIS .

70

De la tabla de estadsticos realizada en el punto anterior se puede observar que en promedio los puntajes de los colegios del grupo de municipalizados y rurales alcanzan un valor de 215,92 puntos, con una variabilidad relativamente baja de 15,49 puntos, es decir los puntajes se desvan en promedio respecto a la media en 15,49 puntos, calculado en base a 68 colegios, los que representan un 2,9% del total de colegios considerados en el estudio. Se observa que la mediana est cercana a la media de los datos (caracterstica de distribuciones cercanas a distribuciones simtricas), e indica que el 50% de los colegios obtiene un puntaje menor o igual a 215,75 puntos, con puntajes que oscilan entre 181 puntos y 257 puntos, puntajes muy bajos si se compara con los dems grupos de colegios. Se observa la curtosis negativa y muy cercana a cero, esto significa que la curva es muy similar a la normal en cuanto a que se asemeja mucho a una curva mesocurtica (caracterstica de la curva normal). La asimetra es positiva muy cercana a cero por tanto se asemeja bastante a una curva simtrica. En sntesis se puede apreciar una distribucin con un buen ajuste a una normal. Esto se puede apreciar en el histograma correspondiente. (Para verificar el ajuste a una normal se puede ver el estadstico de Kolmogorov- Smirnov).

Histograma
para grupo= Municipalizado y Rural 25

20

Frecuencia

15

10

0 180,00 200,00 220,00 240,00 260,00

Mean = 215,9265 Std. Dev. = 15,49103 N = 68

puntaje promedio entre lenguaje y matemticas

i) Realice un grfico considerando a todos los colegios en estudio y otro grfico considerando slo el segmento de premiados, que permitan observar la posicin del grupo en relacin al resto de los grupos en cuanto a los descriptivos bsicos. Interprete. Para esto realizaremos un diagrama de cajas por grupo. EXAMINE VARIABLES=puntprom BY grupo /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS NONE /CINTERVAL 95 /MISSING LISTWISE

71

/NOTOTAL.

Diagramas de cajas para los puntajes promedios SIMCE por grupo de colegios

puntaje promedio entre lenguaje y matemticas

350,00

2.008 2.004 2.006 2.009 2.007 2.211

300,00

514

19 250,00

711 200,00 776

Municipalizado Municipalizado Privado y Rural y Rural y Urbano

Privado y Urbano

Subvencionado Subvencionado y Rural y Urbano

grupo

Del grfico se puede apreciar que los mayores puntajes se concentran en los colegios privados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puede ver que los puntajes ms bajos se concentran en los colegios municipalizados y rurales presentando la menor de las medianas y es el grupo que presenta la menor variabilidad en los puntajes, es decir son bastante homogneos en cuanto al resultado promedio SIMCE, mostrando slo un caso sobre los 250 puntos en promedio. Se observa que el grupo de municipalizados urbanos a pesar de tener la mayora de los colegios concentrados en puntajes bajos es el nico grupo que presenta varios colegios con puntajes atpicos y un extremo en la parte alta de puntajes. Respecto a los subvencionados se ve clara diferencia entre los urbanos y rurales donde hay una marcada diferencia a puntajes ms bajos en los colegios rurales. Para obtener el diagrama de cajas para los premiados, primero se selecciona a los colegios que obtuvieron premio y una vez filtrada la base se procede a realizar la grfica. USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Es claro que la posicin de cada grupo en general se mantiene en relacin a la grfica analizada anteriormente. Los puntajes de los premiados con mayor puntaje se concentran en los privados,

72

observndose muy concentrados, bastante homogneos entre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del grupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es el que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajes atpicos superiores en el rango de puntajes del grupo de los privados. El 50% de los colegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75) del grupo de municipalizados urbanos se comporta de una manera muy similar a los colegios que se encuentran en la caja del rango intercuartil del grupo de subvencionados rurales. Se observa mas notoriamente la diferencia en los puntajes de los colegios premiados que pertenecen al grupo de los subvencionados rurales y los que pertenecen a los subvencionados urbanos.

Diagrama de cajas para los puntajes promedios de los colegios premiados por grupo
360,00 2.090 2.008 2.004 340,00 2.006 2.000 2.003 2.011

puntaje promedio entre lenguaje y matemticas

2.211

320,00

300,00

280,00

260,00

19

240,00

220,00

Municipalizado Municipalizado Privado y Rural y Rural y Urbano

Privado y Urbano

Subvencionado Subvencionado y Rural y Urbano

grupo

Si consideramos la base de datos como si fuera la poblacin de colegios que rinde la SIMCE, podramos decir que claramente se observa diferencias significativas entre las medias de puntajes entre los diferentes grupos de colegios. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE considerando todos los colegios en estudio. Para comparar dispersin o variabilidad entre distribuciones diferentes se calcula el coeficiente de variacin que se calcula en base a la desviacin estndar y la media. Indica la magnitud relativa de la desviacin estndar en comparacin con la media de la distribucin, expresada como porcentaje.

73

Se calcula como.

C.V =

.100

Para esto se puede pedir una tabla con los estadsticos bsicos media y desviacin estndar y luego en otra columna se puede calcular el coeficiente de variacin en base a la frmula anterior.

Informe puntaje promedio entre lenguaje y matemticas Coeficiente de Variacin 7,17 11,73 15,51 11,37 12,78 13,04 15,31

grupo Municipalizado y Rural Municipalizado y Urbano Privado y Rural Privado y Urbano Subvencionado y Rural Subvencionado y Urbano Total

N 68 587 19 388 86 1171 2319

Media 215,9265 232,8169 279,8947 299,6224 229,3547 260,3335 257,6511

Desv. tp. 15,49103 27,32073 43,41933 34,06601 29,31110 33,95561 39,45891

De la tabla podemos observar que el grupo de colegios municipalizados y rurales es el que tiene menor variabilidad relativa, concepto que se pudo apreciar en los diagramas de caja. El grupo de los colegios que presentan mayor variabilidad en puntajes son los grupos Privado y Rural y el grupo Subvencionado y Urbano.

74

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 6

Caso de Estudio: Personas con Licencias Mdicas5


Suponga que Ud es Director de Recursos Humanos de una empresa y entre sus mltiples tareas debe realizar un informe respecto a las licencias mdicas otorgadas durante el ao. En su documento debe contemplar por lo menos la siguiente informacin. Considere los archivos de datos: Personas con licencia mdica (arch1).sav y Diagnstico-licencia mdica (arch2).sav que contienen una muestra de 653 personas que han tenido licencia en el ltimo ao. Primera Parte: Fundicin de archivos Nota previa. Consideraciones acerca de los archivos a Fundir Fundicin de variables SPSS ofrece dos formas bsicas de fundir archivos agregando variables, aunque se pueden realizar con mltiples pasos una combinacin de estas formas bsicas. Las formas de fundir pueden ser uno a uno o a travs de un archivo de claves (tambin llamado tabla de claves o uno a muchos). Esta es una distincin importante entre los dos tipos diferentes de archivos a fundir que producir resultados distintos. En uno a uno cada caso en un archivo solo puede ser vinculado con un solo caso en el otro archivo viceversa. El fundir los archivos est determinado por los valores de una variable que los vincula. Se espera que cada caso en cada archivo aparezca una nica vez, si no es as, slo el primer caso de los casos duplicados ser vinculado con un nico caso del otro archivo.

Se muestra un diagrama para cada opcin Arch1 Archivofundido Arch2 Identificador var1 Identificador var1 var2 Identificador var2 w D s . L s x A t . F t y B w D . x z C x A H y y B J z z C K Tabla1: Vincular archivos uno a uno*Ambos archivos proporcionan casos*

L F H J K

Note que en cada aparicin de la variable que vincula (aqu identificador) da como resultado un caso en el archivo final. Si un pas tiene un caso en un archivo y perdido en el otro archivo (s,t,w), el identificador se retiene en el archivo combinado y se le asigna valores perdidos por el sistema a las variables numricas que no contienen informacin.
5
TP

Caso elaborado por Sara Arancibia

75

Arch1 Identificador var1 w x y z

D A B C

Archivofundido Identificador var1 var2 w D x A y B z C

. H J K

Arch2 Identificador var2 s t x y z

L F H J K

Tabla2. El que no es un conjunto de datos activo es una tabla de claves El procedimiento a travs de una tabla de claves (o uno a muchos, o archivo de claves) permite vincular un nico caso de un archivo de tabla de claves a ms de un caso en el segundo archivo. Se muestra un diagrama de este procedimiento en la tabla 2.

Arch1 Identificador var1 w x y z

D A B C

Archivofundido Identificador var1 var2 s . t . x A y B z C

L F H J K

Arch2 Identificador var2 s t x y z

L F H J K

Tabla2. El conjunto de datos activo es una tabla de claves. Importancia de ordenar Para cualquier tipo de procedimiento para fundir los archivos deben estar ordenados por la variable clave. Si los archivos no estn ordenados la vinculacin falla. Importancia del tipo de archivo. Para fundir los archivos agregando variables, ambos archivos deben estar definidos en SPSS. Esto significa que cada archivo debe estar guardado como archivo de datos de SPSS en el Editor de Datos. Advertencia acerca de los nombres de las variables Es importante usar nombres nicos de nombres de variables para ambos archivos. Si se utiliza el mismo nombre de variable en ambos archivos, SPSS retendr slo un conjunto de valores de datos. Aunque en el cuadro de dilogo de Fundir archivo Aadir variables se puede renombrar variables, es conveniente chequear antes que los nombres de las variables no coincidan.

Antes de fundir los archivos Personas con licencia mdica (arch1).sav y Diagnstico-licencia mdica (arch2).sav debemos dejar la variable clave para la fundici[on en este caso rutpac definidas en el mismo formato y forma. 1) Utilice la funcin CONCAT para concatenar (unir) el rut y el guin rut en una sola variable

llamada rutpac ( rut paciente)

76

CONCAT(expr_cadena,expr_cadena[,..]). Cadena. Devuelve una cadena que es la concatenacin de todos los argumentos, que deben ser cadenas. Esta funcin requiere dos o ms argumentos. En modo de pgina de cdigo, si expr_cadena es una variable de cadena, utilice RTRIM si slo desea el valor de cadena real sin el relleno por la derecha de la anchura de la variable definida. Por ejemplo, CONCAT(RTRIM(var_cadena1), RTRIM(var_cadena2)). Solucin: Transformar/Calcular variable/ Variable de destino: rutpac/Tipo y etiqueta: Tipo cadena ,anchura 15, etiqueta: rut paciente Sintaxis STRING rutpac (A15). COMPUTE rutpac=CONCAT(RTRIM(rut),"-",RTRIM(guionrut)). VARIABLE LABELS rutpac 'rut paciente'. EXECUTE. Fundicin DATOS&FUNDIR ARCHIVO A;ADIR VARIABLES SELECCIONAR OPCION Ambos archivos

proporcionan casos. Guardar como Archivo fundido Licencias medicas

Ejercicios
a) Determine el diagnstico que con mayor frecuencia se presenta en hombres y en mujeres. Analizar/ Estadsticos descriptivos/Tablas de contingencia: Fila Diagnostico, columna Sexo

77

b) Muestre un grfico que permita visualizar nmero de licencias por ocupacin agrupado por sexo. Comente. Grficos generador de grficos barras agrupadas

78

Se observa tanto para hombres como para mujeres una bajsima cantidad de licencias en la categora Ejecutivos Se puede apreciar un bajo nmero de licencias en la categoras en las categoras Ejecutivo, Profesional como Oficinista presentndose en ambas categoras mayor nmero de licencias en mujeres. La categora de ocupacin operarios, artesanos presenta mayor cantidad de licencias, observndose 43 licencias en hombres y 26 licencias en mujeres. Con una gran diferencia se presenta la categora Otros que agrupa todo el resto de ocupaciones no mencionadas anteriormente mostrando mayor cantidad en mujeres que en hombres. c) Calcular una variable que muestre los das de licencia mdica del empleado (Explique el procedimiento o muestre la sintaxis). Calcule los estadsticos descriptivos bsicos de la variable creada considerando los cuartiles. La variable dias Dias de licencia se calcul segn la sintaxis COMPUTE dias=CTIME.DAYS(fecha_t2 - fecha_i2)+1 . VARIABLE LABELS dias 'dias de licencia medica'. EXECUTE.

79

d) Determine para hombres y mujeres los estadsticos; nmero de casos (N), media, mediana, desviacin estndar, mnimo, mximo de las variables edad. Grafique un histograma de edad para hombres y mujeres. Comente los resultados Qu puede decir de la variabilidad de las edades para el grupo de hombres en comparacin con el grupo de las mujeres? i) Clculo de la edad Transformar/Asistente para fechas y horas/Realizar clculos con fechas y horas/Calcular el nmero de unidades de tiempo entre dos fechas/Fecha 1: $TIME Fecha 2: fechnac/ Unidad: aos/ truncar a entero/ variable de resultado: edad , etiqueta de variable: edad del paciente/pegar la sintaxis en la ventana de sintaxis. * Asistente de fecha y hora: edad. COMPUTE edad=DATEDIF($TIME, fechnac, "years"). VARIABLE LABEL edad "edad del paciente". VARIABLE LEVEL edad (SCALE). FORMATS edad (F5.0). VARIABLE WIDTH edad(5). EXECUTE. Nota: Otra forma es usar funciones Primero cambiar el formato de fecha en la definicin de la variable en formato dd.mm.yyyy Para SPSS las fechas se contabilizan por una serie en la cual cada da esta valorado en 86400 (son los segundos por da). En men transformar / Calcular: Variable destino: edad2

80

Expresin numrica:

(DATE.DMY(18,2,2011)-fechanac)/(365.25*86400)6

Use funcin DATE.DMY(DD,MM,YY) Observe que se insert una nueva columna con la variable edad2 Se debe truncar la variable edad2 Variable destino: edadent Expresin numrica: TRUNC(edad2) Sintaxis COMPUTE edad2=(DATE.DMY(18,2,2011)-fechnac) / (365.25*86400). EXECUTE. COMPUTE edadent=TRUNC (edad2). EXECUTE. Observacin: Otra forma de calcular la edad Crear una nueva variable llamada TODAY (que guardar la fecha de hoy da). La variable $TIME es una variable del sistema en SPSS que guarda el dato fecha de hoy como un valor. La funcin XDATE.DATE convierte el valor de $TIME en un formato que SPSS puede reconocer como una fecha. Calcular TODAY=XDATE:DATE($TIME) (este valor representa el nmero de segundos desde que comienza el calendario Gregoriano Transformar Calcular Edad=(CTIME:DAYS(TODAY-fechanacimiento))/365.25 CTIME.DAYS(valortiempo) Numrico. Devuelve el nmero de das, incluyendo fracciones de da, que hay en valortiempo, el cual debe ser un nmero o una expresin en formato de tiempo de SPSS, tal como el resultado de las funciones TIME.xxx. ii) Considerando la variable edad realizamos un cubo OLAP ANALIZAR Informes Cubos Olap

Para Hombres: La base considera 319 licencias de hombres cuya edad promedio es aprox 54 aos con una desviacin promedio respecto a la media de casi 12 aos. La edades oscilan entre 40 y 81 aos correspondiendo el 50% de licencias a hombres menores o iguales a 49 aos. Para Mujeres: La base considera 333 licencias de mujeres cuya edad promedio es 54 aos con una desviacin promedio respecto a la media de casi 12 aos. La edades oscilan en un rango similar al de hombres entre 40 y 82 aos correspondiendo el 50% de licencias a mujeres menores o iguales a 48 aos. En los histogramas se pueden observar las formas de la distribucin de edad.
6

Pero tiene decimales

81

Ambos histogramas muestran asimetra positiva.

Respecto la variabilidad de la edad consideraremos el coeficiente de variacin .Para hombres:

CV =

11,91 *100 = = 21,97% 54,2

Para mujeres:

CV =

11,735 *100 = = 21,69% 54,08

Del clculo anterior se aprecia mayor variacin relativa ( pero leve) en la distribucin de edades de los hombres respecto al de las mujeres.

Segunda Parte: Trabajo con otras funciones 1) Utilice las siguientes funciones de CONVERSION para las variables rutpers y rut NUMBER(expr_cadena, formato). Numrico. Devuelve el valor de la expresin de cadena expr_cadena como un nmero. El segundo argumento, formato, es el formato numrico utilizado para leer expr_cadena. Por ejemplo, NUMBER(cadena_Fecha, FECHA11) convierte las cadenas que contienen fechas del formato general dd-mmm-aaaa a un valor numrico de segundos que representa esa fecha. (Para mostrar el valor como fecha, utilice el comando FORMATS o PRINT FORMATS.) Si la cadena no se puede leer con el formato, esta funcin devuelve los valores perdidos por el sistema. STRING(expr_num, formato) Cadena. Devuelve la cadena que resulta de convertir expr_num en una cadena, de acuerdo con el formato especificado. STRING(-1,5,F5.2) devuelve el valor de cadena "1,5". El segundo argumento debe ser un formato para la escritura de un valor numrico. Solucin: Transformar/Calcular variable/ Variable de destino: rtperscad/Tipo y etiqueta: Tipo Cadena, etiqueta: rut persona en cadena; anchura 15

82

Sintaxis: DATASET ACTIVATE Conjunto_de_datos1. STRING rutperscad (A15). COMPUTE rutperscad=STRING(rut_pers,F10.0). VARIABLE LABELS rutperscad 'rut persona en cadena'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutnum/Tipo y etiqueta: Tipo Numricos, etiqueta: rut en formato numrico Sintaxis COMPUTE rutnum=NUMBER(rut,F10). VARIABLE LABELS rutnum 'rut en formato numerico'. EXECUTE. 2) Considere la variable rutpac y utilice las funciones LTRIM, CHAR.INDEX y CHAR.SUBSTR para calcular la variable rutpac2 sin el guion rut LTRIM(expr_cadena[, carcter]). Cadena. Devuelve expr_cadena de la que se elimina cualquier instancia inicial de carcter. Si no se especifica char, se eliminan los blancos iniciales. El carcter debe evaluarse como un nico carcter. CHAR.INDEX(cadena, subcadena[, divisor]). Numrico. Devuelve un nmero que indica la posicin del carcter de la primera ocurrencia de la subcadena dentro de la cadena. El tercer argumento opcional, divisor, es un nmero de caracteres usado para dividir subcadena en cadenas distintas. Cada subcadena se usa para realizar bsquedas y la funcin devuelve la primera aparicin de cualquier subcadena. Por ejemplo, CHAR.INDEX(var1, 'abcd') devolver el valor de la posicin inicial de la cadena completa "abcd" en la variable de cadena var1; CHAR.INDEX(var1, 'abcd', 1) devolver el valor de la posicin de la primera aparicin de cualquier valor de la cadena; y CHAR.INDEX(var1, 'abcd', 2) devolver el valor de la primera aparicin de "ab" o "cd". El divisor debe ser un entero positivo y debe dividir exactamente la longitud de la subcadena. Devuelve 0 si la subcadena no aparece dentro de la cadena. CHAR.SUBSTR(expr_cadena,pos[,longitud]). Cadena. Devuelve una subcadena que empieza en la posicin del carcter pos de expr_cadena. El tercer argumento opcional representa el nmero de caracteres de la subcadena. Si se omite el argumento opcional longitud, devuelve la subcadena que comienza en la posicin del carcter pos de expr_cadena hasta el final de expr_cadena. Por ejemplo CHAR.SUBSTR('abcd', 2) devuelve 'bcd' y CHAR.SUBSTR('abcd', 2, 2) devuelve 'bc'. Solucin Transformar/Calcular variable/ Variable de destino: rutpacl/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente con LTRIM

83

STRING rutpacl (A12). COMPUTE rutpacl=LTRIM(rutpac). VARIABLE LABELS rutpacl rut paciente con LTRIM. EXECUTE.

Transformar/Calcular variable/ Variable de destino: rut2/Tipo y etiqueta: Tipo numrico, etiqueta: numero de caracteres de rut

Sintaxis COMPUTE rut2=CHAR.INDEX(rutpacl,"-"). VARIABLE LABELS rut2 'numero de caracteres de rut'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutpac2/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente2

STRING rutpac2 (A10). COMPUTE rutpac2=CHAR.SUBSTR(rutpacl,1,rut2-1). VARIABLE LABELS rutpac2 'rut paciente 2'. EXECUTE. 3) Considere la variable edad calculada en la seccin anterior. Calcule la edad el ao, mes y dia de la semana. XDATE.YEAR(valorfecha). Numrico. Devuelve el ao (un entero de cuatro dgitos) a partir de un valor numrico que represente una fecha. El argumento puede ser un nmero, una variable con formato de fecha o una expresin evaluable a una fecha. XDATE.MONTH(valorfecha). Numrico. Devuelve el mes (un entero entre 1 y 12) a partir de un valor numrico que representa una fecha. El argumento puede ser un nmero, una variable con formato de fecha o una expresin evaluable a una fecha. XDATE.WKDAY(valorfecha). Numrico. Devuelve el nmero del da de la semana (un entero entre 1, domingo, y 7, sbado) a partir de un valor numrico que represente una fecha. El argumento puede ser un nmero, una variable con formato de fecha o una expresin evaluable a una fecha.

84

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 7 Estudio de caso: Reos en Gendarmera (Uso de Agregar y Sintaxis)7


Considere el archivo Gendarmera.sav correspondiente a datos de una muestra de internos del pas. Se le pide realice un informe que describa informacin bsica de esta muestra de internos, donde por lo menos debe responder las preguntas siguientes. 1. Identifique qu delito es el ms frecuente en las mujeres y cul en los hombres. Comente qu problema aprecia con los datos y explique cmo lo solucionara. 2. Muestre una tabla y una sintaxis del procedimiento que le permite obtener la respuesta. 3. Crear un archivo que permita obtener por cdigo de unidad penal y sexo; el promedio de edad de internos al iniciar la condena, regin a la que pertenece la unidad penal, nombre de la unidad penal y nmero de internos. Muestre la sintaxis correspondiente. 4. Muestre una tabla que permita identificar por sexo las cinco unidades penales que ms internos registran en la base de datos. Muestre la sintaxis 5. Crear un archivo que muestre slo las unidades penales (por cdigo de unidad penal) que registran hombres y mujeres. Muestre la sintaxis. 6. Crear un archivo que permita visualizar por nacionalidad y sexo; nmero de internos, pena mxima, pena mnima, y el promedio de pena en aos. Mostrar la sintaxis. 7. Determine los estadsticos descriptivos para las variables edad al iniciar la condena y pena en aos. Cul es el promedio de edad de internos hombres al iniciar la condena? Cul es el promedio de edad de internos mujeres de la Regin Metropolitana al iniciar la condena? Cul es el mnimo y mximo de pena en aos para hombres, y para mujeres? Muestre una tabla de donde se desprenda la respuesta. Solucin: Si se realiza una tabla de contingencia de delito versus sexo o una tabla de frecuencia segmentada por sexo, se puede apreciar la falta de cdigo por delito. Al digitar el delito en formato cadena (texto) se produce el problema de digitar de maneras distintas el mismo delito y al calcular las frecuencias no aparece correctamente el valor, dado que el SPSS los toma como delitos distintos. Lo que se debe realizar es una recodificacin automtica y luego limpiar los datos de la variable con recodificar en la misma variable (o en distinta variable) quedando la nueva variable con cdigo numrico e identificando este a un nico delito Dada la gran cantidad de categoras de delito no es adecuado mostrar la tabla de contingencia o de frecuencias para responder a la pregunta. Una forma ms eficiente es considerar Agregar por delito y sexo y luego pedir una tabla de valores extremos AGGREGATE /OUTFILE='D:\SPSS-MGPP 2004\GUIAS 2004\AGRdelito sexo.sav' /BREAK=delito_1 sexo
7
TP

Caso elaborado por Sara Arancibia

85

/N_BREAK=N. EXAMINE VARIABLES=n_break BY sexo /ID= delito_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
Extreme Valuesb N_BREAK Highest Sexo del interno F Case Number 1 2 3 M 1 2 3 4 5 69 58 55 56 70 53 59 51 Primera mencin de delito TRAFICO ILEGAL DE ESTUPEFACIENTES ROBO CON VIOLENCIA ROBO CON INTIMIDACION ROBO CON INTIMIDACION TRAFICO ILEGAL DE ESTUPEFACIENTES ROBO CON FUERZA ROBO CON VIOLENCIA ROBO Value 24 5 4 200 133 114 64 55

b. The requested number of extreme values exceeds the number of data points. A smaller number of extremes is displayed.

AUTORECODE VARIABLES=u_.penal /INTO upenal /PRINT. AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR1.sav' /BREAK=cod._uni sexo /edad_c_1 = MEAN(edad_cum) /region_1 = FIRST(region) /upenal_1 = FIRST(upenal) /casos=N. SORT CASES BY sexo . SPLIT FILE LAYERED BY sexo . EXAMINE VARIABLES=casos /ID= upenal_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.

86

Valores extremos Nmero del caso 17 1 2 11 6 14 7 5 3 10 94 18 97 39 101 92 67 89 102 46

Sexo del interno F

CASOS

Mayores

Menores

CASOS

Mayores

Menores

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

Nombre de la unidad CPF. SANTIAGO CP. ARICA CCP. IQUIQUE CCP. CONCEPCION CDP. OVALLE CDP. CASTRO CDP. ILLAPEL CCP. COPIAPO CDP. CALAMA CDP. LOS ANGELES CDP. SANTIAGO SUR CP. ARICA CCP. COLINA I CP. VALPARAISO CCP. COLINA II CDP. PORVENIR CET. CONCEPCION CDP. PUERTO AYSEN CET. METROPOLITANO CCP. SAN FERNANDO

Valor 11 5 5 3 .a 1 1 1 1 .b 130 63 63 54 49 1 1 1 1 .b

a. En la tabla de valores extremos mayores slo se muestra una lista parcial de los casos con el valor 1. b. En la tabla de valores extremos menores slo se muestra una lista parcial de los casos con el valor 1.

AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR2 .sav' /BREAK=cod._uni /N_BREAK=N. USE ALL. COMPUTE filter_$=(n_break = 2). VARIABLE LABEL filter_$ 'n_break = 2 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . AGGREGATE /OUTFILE='D:\MGPP 2004\SPSS\AGR3 .sav' /BREAK=pais sexo /a_os_1 = MIN(a_os) /a_os_2 = MAX(a_os) /a_os_3 = MEAN(a_os) /N_BREAK=N.

87

*** Generacin de Cubos OLAP *** . OLAP CUBES edad_cum a_os BY region BY sexo BY pais /CELLS=COUNT MEAN STDDEV MEDIAN MIN MAX NPCT /TITLE='OLAP Cubes'.
OLAP Cubes Regin de la unidad: Total Sexo del interno: Total NOmbre del pas: Total N Mean Std. Deviation Median Minimum Maximum % of Total N Edad al iniciar condena 973 21,79 16,22 24,00 0 70 100,0% Pena en aos 649 8,91 45,15 5,00 2 1154 100,0% OLAP Cubes Regin de la unidad: Total Sexo del interno: M NOmbre del pas: Total N Mean Std. Deviation Median Minimum Maximum % of Total N Edad al iniciar condena 936 21,51 16,09 24,00 0 67 96,2% Pena en aos 615 9,09 46,38 5,00 2 1154 94,8%

88

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 8

Caso: Produccin minera 2009-20108


Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadsticas de produccin agregada. Considere el archivo en Excel llamado Produccin minera 2009-2010. El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para calcular variables y generar nuevos archivos con agregar. 1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual. 2) Calcule una variable que muestre solo el ao y otra que muestre solo el mes 3) Genere un archivo con estadsticas agregadas de produccin para el ao 2009 y 2010

considerando la produccin de cobre y oro. Para esto considere para cada ao la produccin total, la media de produccin mensual, la variabilidad, la mnima y mxima produccin. 4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo. 5) Genere un grfico que muestre para cada ao la produccin promedio mensual de cobre 6) Genere un grfico que muestre para cada ao la produccin media mensual de cobre, la mnima y mxima produccin mensual y la variabilidad de produccin de cobre 7) Considerando los aos 2009 y 2010 genere un archivo con estadsticas agregadas por mes para la produccin de oro. Para esto considere la media de produccin mensual , la mnima y mxima produccin, la desviacin estndar y el coeficiente de variabilidad de la produccin de oro.

Caso elaborado por Sara Arancibia

89

SOLUCION 1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual. Solucin: Archivo /abrir/datos

Ajuste en vista de variables los decimales a 2 y guardar con el nombre produccin minera 2009-2010 mensual

90

2) Calcule una variable que muestre solo el ao y otra que muestre solo el mes.

Para calcular el mes Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresin de cadena: CHAR.SUBSTR(AoyMes,6). Pegar/ ejecutar/Aceptar. DATASET ACTIVATE Conjunto_de_datos1. STRING mes (A10). COMPUTE mes=CHAR.SUBSTR(AoyMes,6). VARIABLE LABELS mes 'mes'. EXECUTE. Para calcular el ao Transformar /calcular variable/ variable de destino: ao, tipo; cadena, anchura 4/expresin de cadena: CHAR.SUBSTR(AoyMes,1,4). Pegar/ ejecutar/Aceptar STRING ao (A4). COMPUTE ao=CHAR.SUBSTR(AoyMes,1,4). VARIABLE LABELS ao 'ao'. EXECUTE. Para pasar a formato numrico ir a vista de variables y cambiar formato de cadena a numrico, cambiar adems en medida de nominal a escala 3) Genere un archivo con estadsticas agregadas de produccin para el ao 2009 y 2010 considerando la produccin de cobre y oro. Para esto considere para cada ao la produccin total, la media de produccin mensual , la variabilidad, la mnimo y mxima produccin Datos/ Agregar/variable de segmentacin : ao/Resmenes de variables /Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino) /Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino) /Cobretdefino_min 'Mnima prod de cobre'=MIN(Cobretdefino) /Cobretdefino_max 'Mxima prod de cobre'=MAX(Cobretdefino) /Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino) /Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino) /Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino) /Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino) /Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino) /Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino) Activar nmero de casos: casos Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD

91

4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo. Datos/ transponer DATASET ACTIVATE Conjunto_de_datos10. FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd Orokgdefino_sum Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd /NEWNAME=ao. Se genera un nuevo archivo sin ttulo. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/ informes Resmenes de casos./limitar a los primeros 11 casos.

92

5) Genere un grfico que muestre para cada ao la produccin mensual de cobre Considere el archivo AGRPROD.sav /ir a grficos /cuadros de dilogo antiguos/ barras/ simple/ valores individuales de casos/ las barras representan: Cobretdefino_mean, varaible:ao

Otra forma Considere el archivo prod minera 2009-2010. Ir a grficos /cuadros de dilogo antiguos/ barras/ simple/ resmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de categoras : ao

93

6) Genere un grfico que muestre para cada ao la produccin media mensual de cobre, la mnima y mxima produccin mensual y la variabilidad de produccin de cobre Ir a grficos /cuadros de dilogo antiguos/ barras/ agrupados/ resmenes para distintas variables/ las barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino), eje de categoras : ao. Aceptar

7) Considerando los aos 2009 y 2010 genere un archivo con estadsticas agregadas por mes para la produccin de oro. Para esto considere la media de produccin mensual, la mnima

94

y mxima produccin, la desviacin estndar produccin de oro.

y el coeficiente de variabilidad de la

Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el nombre AGRPRODMES.sav Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100 El resultado se puede ver en el archivo agregado

95

96

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C GUIA 9

Estudio de caso: Encuesta laboral (Aplicacin IPC)

Se realiz una encuesta dirigida a personas activas en el mbito laboral, con el objeto de conocer algunas caractersticas de sta y conocer qu ha sucedido con la evolucin de los sueldos. Para tal efecto, se tom una muestra de 470 personas activas. Los datos entregados por los entrevistados se depositaron en el archivo caso encuesta laboral (aplicacin IPC). Usando los antecedentes que residen en la base de datos antes sealada y los datos de IPC anual ( base Dic 1998=100) responda las siguientes preguntas. Considere Ao 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 IPC 71,68 78,09 84,49 90,10 95,54 100,00 102,31 106,94 109,76 112,86 114,07 116,84

a) Elaborar un cuadro que muestre los siguientes estadsticos descriptivos: Mnimo, Mximo, Media, Mediana y desviacin estndar, del sueldo promedio inicial, del sueldo promedio inicial expresado en pesos del ao 2004 y sueldo promedio actual por categora laboral ***Sintaxis IPC***. IF (contrato = 93) IPC = 71.68 . IF (contrato = 94) IPC = 78.09 . IF (contrato = 95) IPC = 84.49 . IF (contrato = 96) IPC = 90.10 . IF (contrato = 97) IPC = 95.54 . IF (contrato = 98) IPC = 100 . IF (contrato = 99) IPC = 102.31 . IF (contrato = 2000) IPC = 106.94 . IF (contrato = 2001) IPC = 109,76 . IF (contrato = 2002) IPC = 112.86 .

97

IF (contrato = 2003) IPC = 114.07 . IF (contrato = 2004) IPC = 116.84 . EXECUTE .

Sintaxis Utilizada para Actualizacin del sueldo Inicial en moneda de dic del 2004
COMPUTE suel2004 = (sueldini / IPC) * 116.84 . EXECUTE .

MEANS TABLES=sueldini sueld suel2004 BY catlab /CELLS COUNT MIN MAX MEAN MEDIAN STDDEV .

Informe Sueldo actual ( en pesos del 2004) 142 227146,40 846719,98 380863,4484 366611,8709 120759,16120 285 136965,55 467245,90 272755,6075 263933,6151 61964,72683 43 336507,91 1386998,08 765540,9758 751059,4599 237648,82763 470 136965,55 1386998,08 350502,5952 304926,2635 177517,26027 sueldo inicial en pesos del 2004 142 229440,81 855272,71 384609,4015 370315,0211 121893,4700 285 139760,77 476781,53 278291,0066 269320,0154 63258,53212 43 326706,71 1346600,08 743243,6659 729183,9416 230727,0171 470 139760,77 1346600,08 352950,9564 311149,2484 171214,0115

Categora laboral Administrativo

Tcnico

Directivo

Total

N Mnimo Mximo Media Mediana Desv. tp. N Mnimo Mximo Media Mediana Desv. tp. N Mnimo Mximo Media Mediana Desv. tp. N Mnimo Mximo Media Mediana Desv. tp.

Sueldo inicial 142 166500 570000 287285,56 268000,00 78070,001 285 135000 300000 201469,74 202500,00 34432,401 43 236250 1199700 535590,70 495000,00 163393,602 470 135000 1199700 257965,59 225000,00 119195,691

98

B) Considere por separado cada categora laboral . Realice un grfico para la media de los sueldos iniciales (moneda nominal) por ao de contrato. Luego realice un grfico para la media de los sueldos actuales .

IF (contrato < 2000) contrat = contrato + 1900 . VARIABLE LABELS contrat 'ao de contrato' . EXECUTE . IF (contrato >= 2000) contrat = contrato . VARIABLE LABELS contrat 'ao de contrato' . EXECUTE .

Categora laboral: Administrativo


500000

400000

Media Sueldo inicial

300000

474000

200000
308566 266417 284400 323438 282825 263325 236250 285253 252450 315750 303750

100000

0 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

ao de contrato

99

Categora laboral: Tcnico


250000

200000

Media Sueldo inicial

150000

236200 219164

100000

210424 197932 195450

201600 206074

206321 193145 186221 179208

216750

50000

0 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

ao de contrato

Categora laboral: Administrativo


500000,00

Media Sueldo actual ( en pesos del 2004)

400000,00

300000,00

457066,08 429922,46

474000,00

200000,00

415233,44 389359,72 342420,14 323616,05 308543,91 308014,80 273062,42 267104,05

304592,24

100000,00

0,00 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

ao de contrato

100

Categora laboral: Tcnico


400000,00

Media Sueldo actual ( en pesos del 2004)

300000,00

200000,00 350.097,47 290.227,40 285.172,34 248.386,80 100000,00 235.960,79 199.390,81 216.163,53 241.614,46 220.913,26 237.097,01 181.817,54 216.750,00

0,00 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

ao de contrato

Categora laboral: Directivo


1000000,00

Media Sueldo actual ( en pesos del 2004)

800000,00

600000,00

951475,06 867436,55

400000,00

829656,02

788603,62

756630,78 693109,87 614164,86 523501,62 484862,59 495520,85

200000,00

0,00 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

ao de contrato

101

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C GUIA 10

Anlisis de correlacin y regresin lineal


Grficos de dispersin y coeficiente de correlacin 1.-Considere el archivo Mundo 95.sav Muestre un grfico de dispersin para las variables tasasida y alfabetizacin. Estn correlacionadas?. En el grfico muestre 8 pases con tasa de sida superior a 100. Determine el coeficiente de correlacin y el coeficiente de determinacin. Explique la diferencia entre estos dos coeficientes.

Grfico de dispersin
400

Casos de SIDA por 100.000 habitantes

Zambia 300 Uganda 200 Ruanda Rep. C. Africana 100 Estados Unidos Barbados Kenia

-100 0 20 40 60 80 100 120

R = 0,0257

Alfabetizacin (%)

2.-Considere el archivo Estudio Morfologa.sav. a) Determine si las variables estatura, peso y coeficiente intelectual estn correlacionadas significativamente e interprete. Para esto seleccione Analizar/Correlaciones/Divariadas Variables:ci, estatura y peso Seleccionar [Correlacin de Pearson], [Prueba de significacin bilateral], [Marcar las correlaciones significativas].

102

Correlaciones Cociente intelectual 1 . 149 ,081 ,325 149 ,001 ,988 148 ESTATURA ,081 ,325 149 1 . 150 ,600** ,000 149 PESO ,001 ,988 148 ,600** ,000 149 1 . 149

Cociente intelectual

ESTATURA

PESO

Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N

**. La correlacin es significativa al nivel 0,01 (bilateral).

Diagrama de Dispersin La forma de una relacin se puede estudiar visualmente a partir de la nube de puntos generada en el Grfico de Dispersin: b) Realice un grfico de dispersin entre peso y estatura Seleccione Grficos/Dispersin/Dispersin Simple Eje Y: peso Eje X: estatura Establecer marcas por: sexo Etiquetar mediante: iden Edite la grfica y ajuste la nube por una recta de regresin, muestre el R2 e interprete.

Grfico de dispersin simple


110 27 93 90 31

100

80

70

SEXO
Mujer Hombre

60

PESO

50 Total Population 40 120 140 160 180 200 220 240 260 280 R = 0,3606

ESTATURA

c) Descubra qu puntos estn alejados de la nube y fltrelos para volver a hacer el grfico de dispersin, compare ahora el R2 e interprete. USE ALL. COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31). VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.

103

VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FILTER BY filter_$. EXECUTE .

Grfico de dispersin simple


110 100 90 80 70 60

SEXO
Mujer Hombre

PESO

50 Total Population 40 140 150 160 170 180 190 200 R = 0,7182

ESTATURA
Se han filtrado los casos 27, 31 y 93

d) Realice un grfico de dispersin superpuesto. Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos. Seleccione el par estatura - peso y el par ci - peso

grfico de dispersin superpuesto


300 31

200

31 100 Cociente intelectual PESO ESTATURA 0 40 50 60 70 80 90 100 110 PESO

104

e) Realice un grfico de dispersin matricial. El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener con las variables que se especifiquen. Elegir el tipo matricial como tipo de grfica de dispersin y seleccionar y transferir las variables a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar. Como hay tres variables habr tres parejas de relaciones (con cuatro variables habr seis parejas).

Grfico de dispersin matricial

Cociente intelectual

ESTATURA

PESO

SEXO
Mujer Hombre

f) Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error tpico de estimacin
Resumen del modelo R cuadrado corregida ,716 Error tp. de la estimacin 6,4593

Modelo 1

R ,847(a)

R cuadrado ,718

a Variables predictoras: (Constante), ESTATURA

El coeficiente R mide la fuerza de asociacin lineal entre estatura y peso, la cual es considerable. El R2 0,718 indica que la variacin en el peso se explica en un 71,8% por la variable estatura. Una forma de estimar el error estndar del estimador es basndose en los residuos;

n2 El error estndar de la estimacin es una medida de cun inexacto podra ser la prediccin y mide la dispersin con respecto a una recta promedio, denominada recta de regresin.

S Y ,X =

105

ANOVAb Modelo 1 Suma de cuadrados 15309,683 6008,032 21317,715 gl 1 144 145 Media cuadrtica 15309,683 41,722 F 366,941 Sig. ,000a

Regresin Residual Total

a. Variables predictoras: (Constante), ESTATURA b. Variable dependiente: PESO

Cuando se trata de una regresin simple la prueba ANOVA se reduce a la prueba individual Test T donde H0: 1 = 0 g) Estime la ecuacin de regresin
Coeficientesa Coeficientes no estandarizados B Error tp. -92,138 8,816 ,999 ,052 Coeficientes estandarizad os Beta ,847

Modelo 1

(Constante) ESTATURA

t -10,451 19,156

Sig. ,000 ,000

a. Variable dependiente: PESO

donde

Y = -92,13 + 0,999X
Y = Peso X = Estatura

h) Pruebe la hiptesis nula H0: 1 = 0 para la estatura y el peso. Existe una relacin significativa entre la estatura y el peso? En el SPSS ver la tabla coeficientes que result en el ejercicio b) y observar el valor del estadgrafo t (asociado a la pendiente de la regresin) y su nivel de significancia. Dado que la sig < 0,01 se rechaza la hiptesis nula H0: 1 = 0. Concluimos entonces que existe una relacin significativa entre la estatura y el peso. i) Interprete la pendiente de la ecuacin de regresin. La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en promedio el peso aumenta en 0,999 unidades. Nota: Inferencias sobre la Pendiente. A fin de poder utilizar una ecuacin de regresin para efectos de estimacin o prediccin, primero debemos determinar si en la poblacin parece existir una relacin entre las dos variables o si la relacin observada en la muestra pudo ocurrir por azar. En ausencia de toda relacin en la poblacin, por definicin la pendiente de la lnea de regresin de la poblacin sera de cero 1=0. En consecuencia, la hiptesis nula que se prueba usualmente es H0: 1=0. La hiptesis nula tambin puede formularse como una prueba de una cola, en cuyo caso la hiptesis alternativa no es simplemente que existe relacin entre las dos variables, sino adems que esta relacin es de un tipo especfico (directa o inversa). Un valor hipottico de la pendiente se prueba calculando una estadstica t y usando n-2 grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuacin de regresin se incluyen dos estimaciones paramtricas, b0 y b1. La frmula estndar es:

106

t=
donde s = b1

b1 ( 1 )o sb1

SY , X

nX

Sin embargo, cuando, como ocurre por lo general, la hiptesis nula es que la pendiente es cero, la frmula se simplifica y enuncia como

b t= 1 sb1
El intervalo de confianza para la pendiente de la poblacin 1, en el que los grados de libertad asociados con t son n-2, se elabora de la siguiente manera:
+ b1 tsb1

Definicin de grados de libertad: Los grados de libertad indican el nmero de valores libres de variar en la muestra que sirve de base al intervalo de confianza.

j) Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresin lineal/ Estadsticos/Intervalos de confianza. En la tabla de resultados coeficientes del SPSS observe los lmites inferior y superior del intervalo de confianza para b1 al 95%.
Coeficientesa Coeficientes no estandarizados Modelo 1 B -92,138 ,999 Error tp. 8,816 ,052 Coeficientes estandarizad os Beta ,847 t -10,451 19,156 Sig. ,000 ,000 Intervalo de confianza para B al 95% Lmite superior Lmite inferior -109,564 -74,712 ,896 1,102

(Constante) ESTATURA

a. Variable dependiente: PESO

Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102 As con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y 1,102 con una confianza de 95%.
Coeficientesa Coeficient es estandari zados Beta ,984 t ,297 17,596 Sig. ,772 ,000

Coeficientes no estandarizados Modelo 1 B 2,129 ,861 Error tp. 7,164 ,049

(Constante) INGRESO

Intervalo de confianza para B al 95% Lmite superior Lmite inferior -13,834 18,092 ,752 ,970

a. Variable dependiente: CONSUMO

k) Determine los valores pronosticados y los residuos usando la ecuacin de regresin desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione Guardar en el cuadro de dilogo Regresin lineal y en el cuadro de dilogo siguiente considere valores pronosticados no

107

tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformacin de cada valor pronosticado a su forma tipificada). Adems considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.

Observacin: Si en la regresin lineal queremos llevar a cabo inferencias y partimos de los estadsticos obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos: Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para valores fijos de la independiente o independientes del mismo X. Independencia de las observaciones Linealidad en la relacin entre las variables.

l) Considere Grficos del cuadro de dilogo Regresin lineal para realizar los siguientes grficos: Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para contrastar la igualdad de las varianzas. Nota: Si no hay ningn patrn sistemtico claramente definido en los datos y los residuales fluctan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos concluir que se cumple el requisito de linealidad en la relacin entre las variables. Este grfico puede igualmente servirnos para contrastar hasta qu punto el principio de igualdad de

108

varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es ms o menos constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario. Los residuos tipificados-grfico de prob. normal. Nota: El grfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable se distribuye normalmente los puntos representados forman una lnea recta diagonal
Grfico P-P normal de regresin Residuo tipificado Variable dependiente: PESO 1,0
3

Grfico de dispersin Variable dependiente: PESO


2

,8

Regresin Residuo tipificado


,3 ,5 ,8 1,0

Prob acum esperada

,5

-1

,3

-2 -3 -3 -2 -1 0 1 2 3

0,0 0,0

Prob acum observada

Regresin Valor pronosticado tipificado

Pruebas de normalidad Kolmogorov-Smirnov Shapiro-Wilk Estadstico gl Sig. Estadstico gl ,044 146 ,200* ,992 146
a

Standardized Residual

Sig. ,601

*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significacin de Lilliefors

Regresin Lineal Simple Comenzaremos el anlisis de las regresiones partiendo por el modelo de regresin lineal simple (simple = una variable independiente). Este modelo es slo un punto de partida en el estudio del anlisis de regresin puesto que generalmente interesar estudiar simultneamente ms de una variable predictora,. Utilizando el archivo Datos de empleados.sav buscaremos determinar la existencia de una relacin entre la variable salario (salario actual) como variable dependiente y la variable salini (salario inicial) como variable independiente o predictora. Para esto desde el men se debe seleccionar Analizar/Regresin/Lineal. Variable Dependiente: salario Variable Independiente: salani De esta forma se obtienen los siguientes resultados: Tabla 1

109

Resumen del modelo R cuadrado corregida .774 Error tp. de la estimacin $8,115.356

Modelo 1

R R cuadrado .880a .775

a. Variables predictoras: (Constante), Salario inicial

Tabla 2
ANOVAb Suma de cuadrados 1.068E+11 3.109E+10 1.379E+11 Media cuadrtica 1.07E+11 65858997

Modelo 1

gl 1 472 473

Regresin Residual Total

F 1622.118

Sig. .000a

a. Variables predictoras: (Constante), Salario inicial b. Variable dependiente: Salario actual

Tabla3
Coeficientesa Coeficientes estandarizad os Beta .880

Modelo 1

(Constante) Salario inicial

Coeficientes no estandarizados B Error tp. 1928.206 888.680 1.909 .047

t 2.170 40.276

Sig. .031 .000

a. Variable dependiente: Salario actual

Bondad de ajuste La primera informacin que se obtiene se refiere al coeficiente de correlacin mltiple (R) y a su cuadrado. Puesto que el modelo de regresin slo incluye dos variables, el coeficiente de correlacin mltiple no es otra cosa que el valor absoluto del coeficiente de correlacin de Pearson entre esas dos variables. Su cuadrado (R2) es el coeficiente de determinacin:

R2 = 1

(Los residuos son las diferencias existentes entre las puntuaciones observadas y los pronsticos obtenidos con la recta). Adems del porcentaje de mejora en los pronsticos, R2 expresa la proporcin de varianza de la variable dependiente que est explicada por la variable independiente. En el ejemplo (ver Tabla 1), R toma un valor muy alto (su mximo es 1); y R2 indica que el 77,5% de la variabilidad del salario actual est explicada por, depende de, o est asociada al salario inicial. Es importante sealar en este momento que el anlisis de regresin no permite afirmar que las relaciones detectadas sean de tipo causal: nicamente es posible hablar de relacin y de grado de relacin. Debe quedar muy claro desde el principio que una relacin, por s sola, nunca implica causalidad. R cuadrado corregida es una correccin a la baja de R2 que se basa en el nmero de casos y de variables independientes:
2 Rcorregida = R 2 p (1 R 2 ) / ( n p 1)

Suma de cuadrados de los residuos Suma de cuadrados total

(p se refiere al nmero de variables independiente). En una situacin con pocos casos y mucha variables independiente, R2 es un estimador algo optimista (artificialmente alto) del verdadero coeficiente de correlacin poblacional. En tal caso, el valor de R2 corregida ser sensiblemente ms bajo que el de R2. En el ejemplo, como hay 474 casos y una sola variable independiente, los dos valores de R2 (el corregido y el no corregido) son prcticamente iguales.

110

El error tpico de la estimacin (Se) es la desviacin tpica de los residuos, es decir, la desviacin tpica de las distancias existentes entre las puntuaciones en la variable dependiente (Yi) y los pronsticos efectuados con la recta de regresin (i), aunque no exactamente, pues la suma de las distancias al cuadrado estn divididas por n-2 Error tpico de estimacin = Se =

(Y Y ) / ( n 2 )
2 i i

En realidad, este error tpico es la raz cuadrada de la media cuadrtica residual de la Tabla. Representa una medida de la parte de variabilidad de la variable dependiente que no est explicada por la recta de regresin. En general, cuanto mejor es el ajuste, ms pequeo es este error tpico. La tabla resumen del ANOVA (Tabla 2) informa sobre si existe o no relacin significativa entre la variable independiente y la dependiente. El estadstico F permite contrastar la hiptesis nula de que el valor poblacional de R es cero (que en el modelo de regresin simple equivale a contrastar la hiptesis de que la pendiente de la recta de regresin vale cero). El nivel crtico (Sig.) indica que, si se supone que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que R, en esta muestra, tome el valor 0,88. Lo cual implica que el valor poblacional de R es mayor que cero y que, en consecuencia, puede afirmarse que ambas variables estn linealmente relacionadas. Ecuacin de Regresin La Tabla 3 muestra los coeficientes de la recta de regresin. La columna etiquetada Coeficientes no estandarizados contiene los coeficientes de regresin parcial que definen la ecuacin de regresin en puntuaciones directas. El coeficiente no estandarizado correspondiente a la constante es el origen de la recta de regresin (B0). Recibe el nombre de constante porque, segn se ver es la constante del modelo de regresin:

B0 = Y B1 X
y el coeficiente no estandarizado correspondiente a salario inicial es la pendiente de la recta de regresin (B1):

B1 =

X Y X Y n X ( X )
i i i

2 i

Pronstico en salario = 1928,206 + 1,909 salini Es decir, a cada valor de salini le corresponde un pronstico en salario basado en un incremento constante (1928,206) ms 1,909 veces el valor de salini.
Coeficientes de Regresin Estandarizados Los coeficientes Beta (coeficiente de regresin parcial estandarizados) son los coeficientes que definen la ecuacin de regresin cuando sta se obtiene tras estandarizar las variables originales, es decir, tras convertir las puntuaciones directas en tpicas. Se obtiene de la siguiente manera:

siguiente manera:

B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada unidad de cambio de la variable independiente (salini). Segn esto, la ecuacin de regresin queda de la

1 = B1 ( S x / S y ) .

En el anlisis de regresin simple, el coeficiente de regresin estandarizado correspondiente a la nica variable independiente presente en la ecuacin coincide exactamente con el coeficiente de correlacin de Pearson. En regresin mltiple, segn se ver enseguida, los coeficientes de regresin estandarizados permiten valorar la importancia relativa de cada variable independiente dentro de la ecuacin.

111

Prueba de Significacin Finalmente, los estadsticos t y sus niveles crticos (Sig.) permiten contrastar las hiptesis nulas de que los coeficientes de regresin valen cero en la poblacin. Estos estadsticos t se obtienen dividendo los coeficientes de regresin B0 y B1 entre sus correspondientes errores tpicos:

tB 0 =
siendo:

B0 SB 0
X2

tB1 =

B1 SB 1 Se

S B 0 = Se

1 + n

( X

X)

S B1 =

( X

X)

Estos estadsticos t se distribuyen segn el modelo de probabilidad t de Student con n-2 grados de libertad. Por tanto, pueden utilizarse para decidir si un determinado coeficiente de regresin es significativamente distinto de cero y, en consecuencia, en el caso de B1, si la variable independiente est significativamente relacionada con la dependiente. Puesto que en regresin simple se trabaja con una nica variable independiente, el resultado del estadstico t (Tabla 3) es equivalente al del estadstico F de la tabla resumen del ANOVA (Tabla 2). De hecho, en regresin simple, t2 = F. A partir de los resultados de anlisis (ver Tabla 3), pueden establecerse las siguientes conclusiones: El origen poblacional de la recta de regresin (0) es significativamente distinto de cero (generalmente, contrastar la hiptesis 0 = 0 carece de utilidad, pues no contiene informacin sobre la relacin entre Xi e Yi). La pendiente poblacional de la recta de regresin (el coeficiente de regresin 1 correspondiente a salini) es significativamente distinta a cero, lo cual permite afirmar que entre salario y salini existe relacin lineal significativa. Peligros y limitaciones relacionados con el anlisis de regresin y correlacin: En el anlisis de regresin un valor de Y no puede estimarse legtimamente si el valor de X est fuera del rango de valores que sirvi de base para la ecuacin de regresin Si la estimacin de Y implica la prediccin de un resultado que an no ha ocurrido, los datos histricos que sirvieron de base para la ecuacin de regresin quiz no sean pertinentes para eventos futuros. El uso de un intervalo de prediccin o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales Un coeficiente de correlacin significativo no indica necesariamente causalidad, sino que ms bien puede indicar una vinculacin comn con otros eventos. Una correlacin significativa no es necesariamente una correlacin importante. Dada una muestra grande una correlacin de, digamos, R = 0,1 puede ser significativamente diferente de cero con =0,05. Sin embargo, el coeficiente de determinacin de R cuadrado igual a 0,01 para este ejemplo indica que slo un 1% de la varianza en Y es estadsticamente explicado por el conocimiento de X. Tanto en los anlisis de regresin como de correlacin se parte del supuesto de un modelo lineal. Conceptos definidos en el SPSS R Mltiple: Coeficiente de correlacin entre los valores observados y pronosticados en la variable dependiente. Su valor tiene un rango de 0 a 1. Un valor pequeo indica que hay poca o ninguna relacin lineal entre la variable dependiente y las variables independientes. R cuadrado: Medida de la bondad de ajuste de un modelo lineal. En ocasiones recibe el nombre de coeficiente de determinacin. Es la proporcin de la variacin de la variable dependiente explicada

112

por el modelo de regresin. Sus valores van desde 0 a 1. Los valores pequeos indican que el modelo no se ajusta bien a los datos. R cuadrado corregida: La R cuadrado muestral tiende a estimar de manera demasiado optimista cunto de bien se ajusta el modelo en la poblacin. Habitualmente el modelo no se ajusta a la poblacin tan bien como se ajusta a la muestra de la que se ha derivado. La R cuadrado corregida intenta corregir la R cuadrado para reflejar ms estrechamente la bondad de ajuste en la poblacin. Error tpico: Medida de cunto puede variar el valor de un estadstico de contraste de muestra en muestra. Es la desviacin tpica de la distribucin muestral de un estadstico. Por ejemplo, el error tpico de la media es la desviacin tpica de las medias muestrales. Coeficiente de correlacin cero: Coef de correlaciones ordinarias, sin variables de control. Los valores del coeficiente de correlacin van de 1 a 1. El signo del coef indica la direccin de la relacin y su valor absoluto indica la fuerza Coeficiente de Correlacin Parcial: La correlacin parcial que permanece entre dos variables despus de eliminar la correlacin que es debida a su relacin mutua con las otras variables. La correlacin entre la variable dependiente y una variable indep cuando se han eliminado de ambos los efectos lineales de las otras variables independientes presentes en el modelo. La correlacin parcial se emplea para controlar el efecto de una o ms variables sobre el coeficiente de correlacion de Pearson. En la correlacin parcial se estudia la relacin entre dos variables eliminando el influjo de una o ms variables de control.

En un cierto estudio realizado en un parque de atracciones se hall una correlacin significativa y muy alta entre la temperatura y el nmero de tazas de chocolate caliente servidas , r= 0,923 p<=0,000. Lo cual es un resultado muy extrao, pues implica que cuanto mayor es la temperatura ms tazas de chocolate caliente se consumen. Sin embargo, si se controla la variable nmero de visitantes el resultado es muy diferente. Para hallar el coeficiente de correlacin parcial entre temperatura y nmero de tazas de chocolate caliente controlando el nmero de visitantes, elegir Estadsticos / correlaciones/parciales. Se seleccionan y transfieren las variables tazas y temperatura a la seccin variables, se selecciona y transfiere la variable visitant a la seccin controlando para, finalmente se pulsa el botn aceptar. La correlacin ahora es no significativa, rp=0,42 p<=0,198. Cuando hace fro, mucha gente, (de la poca gente que va) toma chocolate, pero cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente. Es decir, como en verano va mucha gente, por poca gente que tome chocolate caliente ya es mayor la cantidad que en invierno.

Nota: Peligros y limitaciones relacionados con el anlisis de regresin y correlacin 1) En el anlisis de regresin un valor de Y no puede estimarse legtimamente si el valor de X est fuera del rango de valores que sirvi de base para la ecuacin de regresin

113

2) Si la estimacin de Y implica la prediccin de un resultado que an no ha ocurrido, los datos histricos que sirvieron de base para la ecuacin de regresin quiz no sean pertinentes para eventos futuros. 3) El uso de un intervalo de prediccin o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales 4) Un coeficiente de correlacin significativo no indica necesariamente causalidad, sino que ms bien puede indicar una vinculacin comn con otros eventos. 5) Una correlacin significativa no es necesariamente una correlacin importante. Dada una muestra grande una correlacin de, digamos, r=0,1 puede ser significativamente diferente de cero con =0,05. Sin embargo, el coeficiente de determinacin de R cuadrado igual a 0,01 para este ejemplo indica que slo un 1% de la varianza en Y es estadsticamente explicado por el conocimiento de X. 6) En los anlisis tanto de regresin como de correlacin se parte del supuesto de un modelo lineal.

114

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 11 Regresin lineal con variable dami Estudio de caso: Desempleados

Los despidos y el desempleo han afectado a muchos trabajadores en los ltimos aos. En un estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relacin con la cantidad de semanas que un empleado est desempleado. La variable dependiente en el estudio es Semanas y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de su despido. En el estudio se emplearon las siguientes variables independientes: Variable edad antig profesional Etiqueta Edad del trabajador Antigedad en el ltimo empleo (en aos) 1 = S 0 = No

El archivo Desempleados2.sav contiene los datos de 50 trabajadores despedidos. Desde la pregunta a) hasta la d) no considere la variable dami profesional a) Realice un diagrama de dispersin para cada variable independiente con la variable dependiente. Qu puede observar del grfico?

Diagrama de Dispersin entre Semanas Desempleado y Edad de la persona


90 80 70 60 50 40

Diagrama de Dispersin entre Semanas Desempleado y Antiguedad en ltimo Empleo


90 80 70 60 50 40

SEMANAS

SEMANAS

30 20 10 10 20 30 40 50 60 Rsq = 0,7216

30 20 10 0 10 20 30 40 Rsq = 0,2164

edad

ANTIG

115

En los diagramas de dispersin se puede observar que existe una correlacin lineal positiva entre las variables. En el caso de la edad vs. semanas, la correlacin es lineal positiva alta mientras que en el caso de la antigedad vs. semanas, no se observa tan claro la linealidad. b) Determine la matriz de correlaciones. Qu puede observar?
Correlations SEMANAS 1,000 , 50 ,849** ,000 50 ,465** ,001 50 edad ,849** ,000 50 1,000 , 50 ,490** ,000 50 ANTIG ,465** ,001 50 ,490** ,000 50 1,000 , 50

SEMANAS

edad

ANTIG

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

En la matriz de correlaciones se puede observar que tanto la correlacin entre la edad y las semanas de desempleo, como la correlacin entre la antigedad y las semanas de desempleo son significativas con un nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada respectivamente) c) Ejecute la regresin lineal mltiple para obtener las tablas con las estimaciones del modelo e interprete la tabla ANOVA. Son estadsticamente significativas las variables independientes? Argumente.
ANOVAb Sum of Squares 10999,684 4176,496 15176,180

Model 1

df 2 47 49

Regression Residual Total

Mean Square 5499,842 88,862

F 61,892

Sig. ,000a

a. Predictors: (Constant), ANTIG, edad b. Dependent Variable: SEMANAS

Coefficientsa Standardi zed Coefficien ts Beta ,818 ,065

Model 1

(Constant) edad ANTIG

Unstandardized Coefficients B Std. Error -17,428 5,983 1,794 ,192 ,195 ,264

t -2,913 9,318 ,739

Sig. ,005 ,000 ,464

a. Dependent Variable: SEMANAS

El estadstico F contrasta la hiptesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crtico (Sig. = 0,000), es menor que 0,05, por tanto existe relacin lineal significativa.

116

Puede afirmarse, por tanto, que el hiperplano definido por la ecuacin de regresin ofrece un buen ajuste a la nube de puntos. Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el coeficiente es estadsticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable antigedad es mayor a 0,05 por lo que no se rechaza la hiptesis nula de que su valor es igual a cero. d) Determine la ecuacin de un modelo donde todas las variables sean significativas. Interprete el coeficiente R y el R cuadrado.
Model Summary Adjusted R Square ,716 Std. Error of the Estimate 9,38

Model 1

R R Square ,849a ,722

a. Predictors: (Constant), edad ANOVAb Sum of Squares 10951,194 4224,986 15176,180

Model 1

df 1 48 49

Regression Residual Total

Mean Square 10951,194 88,021

F 124,416

Sig. ,000a

a. Predictors: (Constant), edad b. Dependent Variable: SEMANAS


Coefficientsa Standardi zed Coefficien ts Beta ,849

Model 1

(Constant) edad

Unstandardized Coefficients B Std. Error -18,179 5,868 1,863 ,167

t -3,098 11,154

Sig. ,003 ,000

a. Dependent Variable: SEMANAS

En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los desempleados existe una alta correlacin lineal entre las variables SEMANAS y EDAD. Por otra parte, el valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2% por la variable EDAD. e) Qu ocurre si al ltimo modelo le agrega la variable dami profesional? Interprete los coeficientes de las variables independientes del ltimo modelo.
Model Summary Adjusted R Square ,785 Std. Error of the Estimate 8,16

Model 1

R R Square ,891a ,794

a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad

117

ANOVAb Sum of Squares 12048,898 3127,282 15176,180

Model 1

df 2 47 49

Regression Residual Total

Mean Square 6024,449 66,538

F 90,542

Sig. ,000a

a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad b. Dependent Variable: SEMANAS

Coefficientsa Standardi zed Coefficien ts Beta ,900 -,274

Model 1

(Constant) edad Es profesional ( 1=SI, 0=NO)

Unstandardized Coefficients B Std. Error -19,465 5,112 1,975 ,148 -11,512 2,834

t -3,808 13,361 -4,062

Sig. ,000 ,000 ,000

a. Dependent Variable: SEMANAS

Para este nuevo modelo se cumple que existe una relacin lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crtico del estadstico F, puesto que es menor que 0,05. Adems, todas las variables independientes son significativas. Ante el aumento de un ao en la edad en promedio las semanas que un empleado permanece desempleado aumentan en casi 1,98 semanas, mantenindose el resto de variables constante.. Por otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona profesional, en promedio estar desempleada 11,512 semanas menos de lo que estara si no fuera profesional. Las ecuaciones son: para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD f) Para el ltimo modelo seleccionado, determine si se satisfacen las hiptesis de normalidad de los residuos y homocedasticidad.
Tests of Normality Kolmogorov-Smirnov Statistic df Sig. ,088 50 ,200*
a

Standardized Residual

Statistic ,970

Shapiro-Wilk df 50

Sig. ,407

*. This is a lower bound of the true significance. a. Lilliefors Significance Correction

La prueba de normalidad de Kolmogorov-Smirnov indica que se cumple la hiptesis de normalidad. (La prueba de Shapiro-Wilk es usada cuando hay menos de 50 casos. Dado que son 50 los casos analizados, se usa el valor de Kolmogorov-Smirnov).

118

Scatterplot Dependent Variable: SEMANAS


2

Regression Standardized Residual

-1

-2

-3 -2 -1 0 1 2 3

Regression Standardized Predicted Value

Este grfico muestra que se cumple la hiptesis de homocedasticidad pues los puntos se encuentran distribuidos en forma aleatoria sin seguir ningn patrn.

119

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 12
Lneas de espera I) Estudio de caso: Quick Food Quick Food es un restaurant de comida rpida que vende hamburguesas, papas fritas, y refrescos, as como un limitado nmero de productos especiales y postres. Aunque Quick Food deseara poder servir a cada uno de los clientes de manera inmediata, hay veces que llegan ms clientes de los que puede manejar el personal de servicio de alimentos de Quick Food, por lo que los clientes esperan en fila, para colocar y recibir su pedido. Quick Food est preocupado pues los mtodos que utiliza para atender a los clientes estn dando como resultado tiempos de espera excesivos. La administracin ha pedido que se haga un estudio de lnea de espera para ayudar a determinar cul es el mejor procedimiento de reducir los tiempos de espera y mejorar el servicio. En la operacin actual de Quick Food, un empleado toma el pedido al cliente, determina el costo total, acepta el dinero del cliente y entonces surte el pedido. Una vez surtido el pedido del primer cliente, el empleado toma el pedido siguiente, que ha estado esperando que lo atiendan. Cuando llegan ms clientes de los que pueden atenderse de manera inmediata, forman una lnea de espera y aguardan que la estacin de toma y surtido de pedidos quede disponible. a) Suponga que Quick Food ha analizado los datos referentes a la llegada de clientes y ha concluido que siguen una distribucin de Poisson con una tasa media de llegadas de 45 clientes por hora. Determine la probabilidad de que no ocurra ninguna llegada es un periodo de un minuto, la probabilidad de una llegada en un periodo de un minuto y la probabilidad de dos llegadas en un periodo de un minuto. b) En Quick Food, el tiempo de servicio se inicia cuando un cliente empieza a colocar su pedido con el empleado y contina hasta que dicho cliente ha recibido su pedido. Quick Food ha estudiado el proceso de toma y surtido de pedidos y ha llegado a la conclusin que el tiempo de servicio sigue una distribucin exponencial y que el nico empleado de alimentos puede procesar un promedio de 60 pedidos por hora. Determine la probabilidad de que se procese un pedido en medio minuto o menos, en un minuto o menos, o en dos minutos o menos. Ayuda:

P( tiempo de servicio t) = 1 - e -

c) Suponiendo un estado estable en la lnea de espera, determine las caractersticas de operacin para Quick Food, es decir estime; La probabilidad de que no existan unidades en el sistema Nmero promedio de clientes en la lnea de espera Nmero promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la lnea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos)

120

d) Despus de revisar las caractersticas de operacin obtenidas con el modelo de la lnea de espera, la administracin de Quick Food concluy que era deseable hacer mejoras diseadas para reducir los tiempos de espera. Generalmente, las mejoras de servicio se hacen mediante lo siguiente: 1.- Incrementar la tasa media de servicio mediante algn cambio creativo en el diseo o utilizando nueva tecnologa. 2.- Agregar canales de servicio, de manera que se puedan servir ms unidades de manera simultnea di) Suponga que al considerar la alternativa 1, la administracin de Quick Food decide ocupar un empleado surtidor de pedidos, que ayudar a quien toma los pedidos en la caja. El cliente empieza el proceso de servicio colocando el pedido con el empleado tomador de pedidos. Al recibir el pedido, el tomador de pedidos anuncia la orden por un sistema de intercomunicacin y el empleado surtidor de pedidos empieza a surtirlo. Una vez completado el pedido, quien toma los pedidos recibe el dinero, en tanto que quien surte los pedidos sigue ocupndose de la orden. Con este diseo, la administracin de Quick Food estima que la tasa media de servicio puede incrementarse de la cifra actual de 60 clientes por hora a 75 clientes por hora. Determine nuevamente las caractersticas de operacin La probabilidad de que no existan unidades en el sistema Nmero promedio de clientes en la lnea de espera Nmero promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la lnea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos

e) Suponga que la administracin desea evaluar la conveniencia de abrir una segunda estacin de procesamiento de pedidos (alternativa 2), de manera de atender simultneamente a dos clientes. Suponga que slo habr una lnea de espera y el siguiente cliente en la cola pasando al primer servidor disponible. Evalu las caractersticas de operacin de este sistema de dos canales considerando la tasa de servicio 60 clientes por hora. La probabilidad de que no existan unidades en el sistema Nmero promedio de clientes en la lnea de espera Nmero promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la lnea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos
La decisin final, con relacin a la poltica de personal en Quick Food, queda en manos de la administracin. El estudio de la lnea de espera ha puesto de manifiesto las caractersticas de operacin que pueden preverse en tres configuraciones. Un sistema de un canal, con un solo empleado; un sistema de un solo canal, con dos empleados, y un sistema de dos canales, con un empleado en cada uno de ellos. Despus de considerar estos resultados, qu accin recomendara usted? Argumente su respuesta.

121

II) Caso Willow Brook National Bank

Willow Brook National Bank opera una ventanilla de cajero para automovilistas que permite a los clientes efectuar transacciones bancarias completas sin tener que salir de su auto. En las maanas, las llegadas a la ventanilla del cajero automotriz ocurren de manera aleatoria, con una tasa media de llegadas de 24 clientes por hora, es decir 0.4 clientes por minuto. Cul es el nmero medio o esperado de clientes que llegarn en un periodo de 5 minutos? Suponga que se puede utilizar una distribucin de probabilidad Poisson para describir el proceso de llegadas. Utilice la tasa media de llegadas del inciso (a) y calcule las probabilidades de que exactamente 0, 1, 2 y 3 clientes lleguen durante un periodo de 5 minutos. c. Se espera que haya atrasos, si llegan ms de 3 clientes durante cualquier periodo de 5 minutos. Cul es la probabilidad de que ocurran estos atrasos?. En el sistema de lneas de espera de Willow Brook National Bank , suponga que los tiempos de servicio para el cajero destinado a automovilistas siguen una distribucin de probabilidad exponencial, con una tasa media de servicio de 36 clientes por hora, es decir de 0.6 clientes por minuto. Utilice una distribucin de probabilidad exponencial para responder las preguntas que siguen. a. Cul es la probabilidad de que el tiempo de servicio sea de 1 minuto o menos? b. Cul es la probabilidad de que el tiempo de servicio sea de 2 minutos o menos? c. Cul es la probabilidad de que el tiempo de servicio sea ms de 2 minutos? Utilice la operacin del cajero automotriz de un solo canal para determinar las siguientes caractersticas de operacin del sistema. a. La probabilidad de que no haya ningn cliente en el sistema. b. El nmero promedio de clientes esperando. c. El nmero promedio de clientes en el sistema. d. El tiempo promedio que ocupa un cliente esperando. e. El tiempo promedio que ocupa un cliente en el sistema. f. La probabilidad de que clientes que llegan tengan que esperar el servicio. SOLUCION 1 a) a. b.

= 5(0,4) = 2
b).

clientes en un periodo de 5 minutos

P ( x) =

x e
x!

2 x e 2 x!
P(x) 0,1353 0,2707 0,2707 0,1804 0,8571

x 0 1 2 3 Suma

122

c) P ( x > 3) = 1 P ( x 3) = 1 0,8571 = 0,1429 2)

P (tiempo de servicio 1) = 1 e ( 0, 6)1 = 0,4512 P (tiempo de servicio 2) = 1 e ( 0,6 ) 2 = 0,6988 P (tiempo de servicio > 2) = 1 0,6988 = 0,3012
3) a) b) c)

P0 = 1

0,4 = 1 = 0,333. 0,6 2 Lq = = 1,333 clientes. ( ) 2 2 + ( ) L =L q + = = =2 + = ( ) ( )


W q= W = Pw =

clientes.

d) e) f)

= 3,33 min . ( )
1 = 5 min .

= (1 P0 ) = 0,6667

123

III) Estudio de caso: Reservaciones de avin Regional Airlines est estableciendo un nuevo sistema telefnico para manejar las reservaciones de vuelos. De las 10:00 a.m. a las 11:00 a.m. las llamadas al agente de reservaciones ocurren de manera aleatoria, con un promedio de una llamada cada 3.75 minutos. Los datos histricos de tiempos de servicio muestran que un agente de reservaciones utiliza un promedio de 3 minutos con cada cliente. Las hiptesis del modelo de lnea de espera con llegadas tipo Poisson y tiempo de servicio exponenciales parecen ser razonables para el sistema de reservacin telefnico. La administracin de Regional Airlines cree que poder ofrecer un eficiente sistema de reservaciones por telfono es importante para presentar una imagen de una aerolnea orientada al servicio. Si el sistema se implementa correctamente, Regional Airlines tendr buenas relaciones con los clientes, lo que a la larga incrementar su volumen de negocios. Sin embargo, si con frecuencia se sobrecarga el sistema de reservaciones telefnicas y los clientes tienen dificultades para entrar en contacto con un agente, una reaccin negativa por parte de los clientes puede llevar a disminuciones en los volmenes de venta. El costo de un agente de reservaciones es de 20 dlares la hora. Por lo tanto, aunque la administracin desea dar un buen servicio, no desea incurrir en el costo de aumentar demasiado el personal de operacin de reservaciones telefnicas con ms agentes de los necesarios. En una reunin de planeacin, el equipo de administracin de Regional estuvo de acuerdo en que una meta aceptable de servicio a clientes es contestar de inmediato por lo menos 85% de las llamadas que se reciban. Durante la reunin de planeacin, el vicepresidente de administracin de Regional dijo que los datos muestran que la tasa promedio de servicio para un agente es mayor que la tasa promedio de llegadas de llamadas telefnicas. La conclusin del vicepresidente es que los costos de personal podran minimizarse con un solo agente y que ste debera ser capaz de manejar las reservaciones telefnicas y. adems, tener algo de tiempo ocioso. El vicepresidente de marketing volvi a insistir en la importancia del servicio a clientes y expres su apoyo para mantener por lo menos dos agentes de reservaciones. El actual sistema de reservaciones telefnicas no permite que quienes llaman puedan esperar. Los que llamen cuando todos los agente de reservaciones estn ocupados, recibirn una seal de ocupado y sern bloqueados, dejndolos fuera del sistema. Un representante de la empresa telefnica sugiri que Regional Airlines evaluara un sistema ms grande, capaz de aceptar esperas. En el sistema ampliado, cuando un cliente llame y todos los agentes estn ocupados, recibir un mensaje grabado que le indicar que su llamada est en espera en el orden de llegada y que pronto habr un agente disponible. El cliente puede quedarse en la lnea oyendo msica de fondo mientras llega el momento que lo atienda un agente. La administracin de Regional necesitar ms informacin antes de cambiar al sistema ampliado.

Informe a la administracin
Prepare un informe a la administracin de Regional Airlines analizando el sistema de reservaciones telefnicas. Incluya en su informe la siguiente informacin. 1.Un anlisis detallado de las caractersticas de operacin del sistema de reservaciones con un agente, tal y como fue propuesto por el vicepresidente de administracin. Cul es su recomendacin, con relacin a un sistema de un solo agente? Un anlisis detallado de las caractersticas de operacin del sistema de reservaciones, basado en su recomendacin con relacin al nmero de agentes que debera utilizar Regional y si el sistema debera permitir que los clientes esperen.

2.-

124

Potrebbero piacerti anche