Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Es grato dirigirnos a Usted para saludarle y a la vez darle la cordial bienvenida al Instituto de Informtica de la Pontificia Universidad Catlica del Per InfoPUC. En esta oportunidad usted se integra a nuestra familia del InfoPUC por medio del Curso de Extensin Stata 11 para Economistas. Durante su permanencia en el InfoPUC le pedimos el mayor compromiso para este curso de extensin, el cual ha sido diseado con un enfoque eminentemente prctico, con casos reales que complementan el aprendizaje de las herramientas de computacin y enfocados al quehacer del profesional que las empresas requieren. Sin ms por el momento nos despedimos, confiando en que lo aprendido en este curso, y en los futuros cursos que desee llevar con nosotros, le sern de gran utilidad en su desempeo profesional. Atentamente,
INDICE
1. Introduccin al STATA ............................................................................................. 7 1.1. Qu puedo hacer con STATA 11.0? ............................................................... 7 1.2. Presentaciones de STATA ............................................................................. 13 1.3. Entorno de trabajo .......................................................................................... 13 1.4. Recursos del STATA ...................................................................................... 19 1.5. Ayuda en STATA: Comandos Help, Search y Findit ....................................... 20 2. Manejo de datos .................................................................................................... 23 2.1. Creando una nueva base de datos ................................................................. 23 a. Administracin de la memoria ................................................................... 23 b. Manejo de directorios................................................................................ 24 c. Iniciar una sesin de STATA ..................................................................... 25 d. Abrir y guardar una base de datos ............................................................ 26 e. Principales comandos: .............................................................................. 26 f. Ejemplo: .................................................................................................... 27 g. Estructura de comandos ........................................................................... 30 2.2. Subconjuntos de datos: comandos if y in ................................................... 31 2.3. Generando y reemplazando variables ............................................................ 33 2.4. Uso de funciones ............................................................................................ 36 2.5. De numrico a String y viceversa ................................................................... 39 2.6. Ejercicio: Mi primer Do File ............................................................................. 43 2.7. Ejercicio: Mi primer Log File ........................................................................... 43 3. Elaboracin de Grficos .......................................................................................... 45 3.1. Caractersticas de la base de datos: ............................................................... 48 3.2. Ejercicios mediantes do files .......................................................................... 49 3.3. Histogramas y Kernels ................................................................................... 53 3.4. Do File para la elaboracin de Histogramas y Kernels ................................... 56 3.5. Box plots ........................................................................................................ 58 3.6. Comando Graph: Scatter - Twoway ................................................................ 60 4. Modelos lineales ..................................................................................................... 69 4.1. Mnimos cuadrados ordinarios ........................................................................ 69 4.2. Regresiones robustas..................................................................................... 77 4.2.1. Regresin por mnima desviacin absoluta ...................................... 79
5
INDICE
4.2.2.
Regresin robusta............................................................................ 80
5. Variable dependiente limitada................................................................................ 85 5.1. Dependiente binaria ....................................................................................... 85 5.2. Variable dependiente politmica ..................................................................... 98 5.2.1. 5.2.2. Logit multinomial .............................................................................. 98 Probit o Logit ordenado .................................................................. 103
6. Datos de panel .................................................................................................... 107 6.1. Controlando la heterogeneidad dentro de un panel ...................................... 107 6.2. Panel Dinmico ............................................................................................ 123 7. Introduccin a la programacin ............................................................................ 137 7.1. Macros local y global .................................................................................... 137 7.2. Procedimientos sistemticos: forvalues y foreach......................................... 138 7.3. Escalares y matrices .................................................................................... 140 7.3.1. Escalares ....................................................................................... 140
7.4. Matrices ........................................................................................................ 141 7.5. Modulo MATA ............................................................................................... 142 7.6. Comandos return y ereturn ........................................................................... 143 8. Anlisis de datos con diseo muestral complejo .................................................. 145 8.1. Especificacin del Diseo Muestral: SVYSET .............................................. 146
Instituto de Informtica
1. Introduccin al STATA
1.1. Qu puedo hacer con STATA 11.0?
Stata es un software de anlisis estadstico y economtrico, el cual sirve de herramienta para el anlisis de informacin en diversas disciplinas tales como las ciencias sociales, medicina y otras. Stata es un paquete de tratamiento de datos de apariencia similar a otro software estadsticos, en el sentido de ejecutar de manera secuencial comandos digitados por el usuario dentro de una sesin. Inicialmente se cre con la finalidad de analizar los datos de seccin cruzada. Sin embargo, en los ltimos aos ha alcanzado notoriedad y potencialidad abarcando campos de la micro y macro econometra. A travs del foro de discusin - Statalist y la permanente difusin de nuevos comandos que incorporan complejas tcnicas estadsticas y economtricas ha cautivado a muchos usuarios por su versatilidad y constante actualizacin. Entre las potencialidades del stata se destaca la facilidad para manipular y describir con grandes bases de datos, donde la principal restriccin es el tamao de la memoria de la computadora. Posee diversas aplicaciones predefinidas: paneles, logit, probit, etc. Asimismo, posee una excelente herramientas para realizar grficos.
Imputacin Mltiple (MI) Proporciona una serie de mtodos que permiten realizar anlisis de datos incompletos, datos que faltan algunos valores, brindando funcionalidades para las etapas de imputacin y estimacin.
Introduccin al STATA
comando mi y gua al usuario desde que inicia hasta el trmino del anlisis, es decir desde la etapa de examinar los valores faltantes hasta realiza estimaciones e inferencia sobre imputaciones mltiples
Examine.- Se utiliza para chequear los patrones de valores incompletos y determinar el mtodo de imputacin adecuado Setup.- Para establecer las caractersticas de los valores que se desea imputar. Si los datos ya han sido imputados se debe obviar esta etapa Impute.- Se utiliza para crear imputaciones. Se puede imputar una o ms variables simultneamente mediante la seleccin o combinacin de los mtodos regresin, ajuste de medias predictivas, regresiones logstica , ordinal logstica y multinomial logstica y MVN Manage.- Para realizar el manejo de los datos Estimate.- Para ajustar el modelo y combinar los resultados Test.- Para realizar test de hiptesis
Series de Tiempo multivariadas Representa o estima un amplio rango de procesos de series de tiempo multivariable. Stata 11 a diferencia de otros programas no necesita que el usuario especifique si el modelo es estacional o no, sino es automtico
Instituto de Informtica
Entre ellos estn: o Modelos de espacio de estados o Modelos de factor dinmico o Modelos GARCH multivariados donde los usuarios pueden analiza las interacciones de varias series a la vez
Datos de panel y modelos mixtos o Estructuras de error en covarianzas o Test de races unitarias o Errores estndar y BLUPs
Nueva interfaz o Manejador de variables o Vista activa de los datos o Filtros de datos y de variables o Sintaxis coloreada o Plegado de cdigo o Marcadores
Introduccin al STATA
Mtodo de los momentos generalizado (GMM) o Modelos lineares y no lineares o Estimadores en una etapa , en dos etapas e iterativos o Datos de seccin cruzada, series de tiempo y datos de panel o Variables instrumentales para datos de panel Documentacin PDF.- Donde los manuales estn integrados con el sistema de ayuda de Stata o Distribuida con cada copia de Stata o Contiene todos los manuales o Integrada con los archivos de ayuda Anlisis marginales o Estimacin de medias marginales o Mrgenes predictivos o Efectos marginales promedio Fuentes en Grficos o Itlica y negrita o Letras griegas o Smbolos matemticos o Subndices y superndices o Fuentes mltiples Regresin para riesgos en competencia.- Permite manejar modelos de duracin o supervivencia cuando los individuos se enfrentan ms de un tipo de riesgo. o Variables que varan en el tiempo o Grficos de incidencia acumulativa o Razn de sub riesgo
Variables factoriales o Interacciones o Trminos polinomiales o Creacin automtica de indicadores Estadsticas exactas o Regresin logstica para variable dependiente binaria o Regresin de Poisson para datos de conteo o Pruebas exactas y pruebas conjuntas
10 Instituto de Informtica
Entre otras funciones tiene o Diez generadores de nmeros aleatorios o Ms funciones de distribucin y de densidad o DIFBETAs, valores de desplazamiento de verosimilitud y estadsticos LMAX para regresin de Cox o Errores normales , GED y t de Student en ARCH o Test multivariados o Derivadas numricas o Arreglos asociativos o Funciones para cdigos Soundex o Programacin orientada a objetos
11
Introduccin al STATA
Figura N2: Grficos en Stata Per: Niveles del Sistema de Focalizacin de Hogares, a nivel distrital: Niveles con mayor frecuencia en cada distrito
12
Instituto de Informtica
1.2.
Presentaciones de STATA
Las diferentes presentaciones de STATA se caracterizan segn el tipo de usuario y recursos del computador. Las versiones Stata/SE, Intercooled Stata y Small Stata varan segn el tamao de la base de datos de anlisis: Stata/MP Stata: para computadoras multiprocesador y de ncleo dual Stata/SE Stata: para grandes bases de datos Intercooled Stata: versin estndar de Stata Small Stata comnmente utilizada por estudiantes.
1.3.
Entorno de trabajo
13
Introduccin al STATA
El despliegue de Stata 11 presenta cuatro ventanas diferentes: Tabla N1: Ventanas de STATA Review Aqu aparecen los comandos que han sido utilizados durante la sesin. Solo los resultados ms recientes son visibles en esta pantalla. Sirve para utilizar Stata de forma interactiva, es decir se emplea para crear las lneas de comandos y llevar a cabo las aplicaciones disponibles en el software. Nos informa sobre las variables que estn disponibles en nuestra base de datos para realizar las diversas aplicaciones Esta nos permite visualizar los resultados (outputs) de los estadsticos que pedimos calcular o de los modelos que solicitamos estimar. Figura N4: Entorno de STATA
Command
Variables
Results
Review
Comandos
Variables
14
Resultados
Instituto de Informtica
El tamao y posicin de las ventanas puede ser configurado segn las preferencias del usuario y las cuales se pueden realizar siguiendo los siguientes pasos: 1. Se selecciona el Men Edit, en la opcin Preferences, se elige General Preferences 2. En la pestaa Windowing se configura e ingresa los valores que se desea.
Tambin podemos modificar el color de fondo o las fuentes de la ventana Stata Results siguiendo los siguientes pasos: 1. En el Men Edit se selecciona la opcin Preferences 2. Se elige la opcin de General Preferences
15
Introduccin al STATA
Otras ventanas importantes son: Stata Editor permite navegar y modificar los datos como si fuese una hoja de Excel. Stata Viewer permite acceder a informacin en lnea y tambin a la ayuda del programa. Stata Graphs presenta el ltimo grfico realizado. Stata Do-file Editor es una ventana separada en Windows y funciona como un editor de textos que permite ejecutar una lista de comandos. Stata Browser permite visualizar los datos, mas no modificarlo Men de Comandos Desde la versin 8 del Stata, todos los comandos (excepto los de programacin) han sido implementados con cuadros de dilogo y se pueden acceder a ellos desde el men principal, el cual est organizado por tpicos:
16
Instituto de Informtica
Seleccionamos una opcin desde los mens Data, Graphics o Statistics y llenamos la caja o cuadro de dilogo correspondiente:
Por ejemplo, para acceder al cuadro de dilogo siguiente, utilizamos la ruta que presentamos a continuacin, la cual se encuentra en los mens desplegables: PASOS 1. 2. Seleccionar el men Statistics y elegir la opcin Linear models and related Seleccionar la opcin de Linear regression
Esta forma de trabajar con el programa de manera interactiva es lo que Stata llama GUI (Graphic User Interface), lo cual es una mejora con respecto de las versiones anteriores.
Pontificia Universidad Catlica del Per 17
Introduccin al STATA
Stata permite trabajar de manera interactiva y por medio de comandos (al igual que RATS 6), debido a que cada ventana se encuentra asociada a un comando.
La barra de Herramientas Adems, Stata presenta una barra de herramientas que permite realizar operaciones usuales como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular..
18
Instituto de Informtica
1.4.
Stata permite la actualizacin constante de sus comandos a travs programas escritos en un lenguaje llamado ado-file. Dichos comandos y las nuevas tcnicas son realizados por los propios usuarios y presentados a travs de la lista de STATA: StataList, de suscripcin gratuita.
Desde el siguiente link http://www.stata.com/statalist/, se discuten las ltimas tcnicas y rutinas programadas en Stata, dicha informacin mantiene una base de datos desde el ao 1997, todos los items posteados en StataList han sido ubicados en el Boston College Statistical Software Components (SSC).
Algunos otros recursos en la red: http://www.stata.com/ http://www.stata.com/support/faqs/ http://statcomp.ats.ucla.edu/stata/ Figura N8: Portal del STATALIST
19
Introduccin al STATA
1.5.
Comando help Este es uno de los comandos ms importantes de Stata, pues presenta la sintaxis de los comandos as como ejemplos de cmo se usan. Para pedirle ayuda a Stata sobre un comando se escribe en la ventana de comandos help seguido del nombre del comando que queramos conocer. A continuacin se muestran los siguientes ejemplos: help if help summarize help regression help tabulate
Se observa que las dos primeras letras del nombre del comando estn subrayadas, esto indica que en lugar de escribir el comando como summarize se puede escribir su (o cualquier forma intermedia).
20
Instituto de Informtica
Notemos que todo lo que va entre corchetes es optativo y que en la sintaxis de los comandos primero se ponen las variables, luego el peso, los condicionales (if) preceden a los rangos (in) y les siguen las opciones despus de un coma: [varlist] es la lista de variables. [if] Debe estar seguida de una expresin lgica para que los datos que slo cumplan con la condicin puedan ser incluidos en dicho anlisis. [in] permite se indica el rango de los datos que se desea analizar. [weight] son los pesos o ponderaciones. [options] Son las opciones de cada comando que se est utilizando
21
Introduccin al STATA
22
Instituto de Informtica
2. Manejo de datos
2.1. Creando una nueva base de datos
a. Administracin de la memoria
Las bases de datos pueden variar de tamao. Por defecto Stata nicamente lee archivos hasta de 10mb (mximo espacio de los datos) de hasta 5000 variables. Si se intenta leer un archivo ms grande sale el siguiente mensaje de error. no room to add more observations r(901); Se puede utilizar el comando memory1 para asignar suficiente memoria para el archivo. Por ejemplo si tenemos un archivo de 18 mb por lo menos debemos de asignar 20 mb (debemos de tomar en cuenta la creacin de nuevas variables). set memory 20m (20480k)
Adicionalmente el comando matsize permite establecer el nmero de variables que pueden ser incluidos en las estimaciones realizadas por Stata. El uso de este comando puede ser til en ciertas aplicaciones. Por ejemplo, si al estimar una regresin anova, aparece un error matsize too small. Este problema se puede superar mediante el comando set matsize. La mayor configuracin es de 800. set matsize 800
El comando set memory slo se puede utilizar en las versiones estndar (Stata/IC), estndar + base de datos extensas (Stata/SE) y en la versin Stata/SE + procesamiento paralelo (Stata/MP). No es aplicable en la versin para estudiantes de pregrado (Small Stata). En la versin Stata/SE el lmite de variables independientes es 11,000 (matsize) mientras que el lmite de la memoria es igual al del sistema operativo Pontificia Universidad Catlica del Per 23
Manejo de Datos
b. Manejo de directorios
Stata se instala por defecto en C:\STATA\ y guarda los datos con los que se trabaje en C:\DATA\ salvo que dicha configuracin de archivos haya sido cambiada. Para conocer con que directorio est trabajando Stata se utiliza el comando pwd
Con el comando sysdir se pueden visualizar los directorios que STATA emplea para guardar el programa y la informacin. Con el comando cd podemos cambiar de directorio donde se guardan los datos, aunque estos cambios solo sern validos por la sesin en uso. Para crear un nuevo directorio se emplea el comando mkdir:
mkdir sesion21012006
24
Instituto de Informtica
log using bitcora Por defecto se guarda en el directorio en uso y en formato SMCL (que es el que usa STATA) para presentar los resultados.
Para parar momentneamente el registro de la bitcora: log off Para reanudar el registro de la bitcora: log on Este comando ser registrado: tab rep78 Para detener la bitcora: log close Para reanudar una bitcora: log using bitcora, append Para sobrescribir una bitcora: log using bitacora, replace Para ver una bitcora: type bitacora.smcl
Si lo nico que se desea es guardar los comandos debe emplearse cmdlog. Esta opcin es especialmente til cuando lo que se busca es crear un archivo do. cmdlog using C:\infopuc\cursos\stata\sesion02\comusados
25
Manejo de Datos
Cuando se emplea el comando use, los datos se cargan a la memoria del ordenador. Para guardar los datos se debe emplear el comando save. Es recomendable no sobrescribir los datos y trabajar en un directorio diferente del donde se encuentran los datos originales. Los datos pueden ser cargados al programa utilizando el comando use seguido por la ruta en donde se encuentra la base de datos.
e. Principales comandos:
COMANDO help DESCRIPCIN Ayuda de programa stata, para comandos. log use Uso de archivos de bitcora Abrir una base de datos en stata (extensin .dta) edit Ingreso de datos por medio de ventana de Stata Editor codebook Muestra variables con estadsticos descriptivos describe Describe contenido de datos en memoria o sobre el disco
26
Instituto de Informtica
save
List
... if ...
drop
keep
label variable
label define
label values
f. Ejemplo:
El ejercicio consiste en abrir una base de datos de nombre sumaria_2008, la cual se encuentra grabada en el siguiente directorio: C:\sesion1
1. En primer lugar se indica la ruta del directorio de trabajo a travs del comando cd: cd c:\Clase 2010
27
Manejo de Datos
2. Una vez que se ha definido la carpeta de trabajo, se invocar la base de datos a travs del comando use
use sumaria_2008.dta
Al abrir la base de datos se cargar la ventana de variables. Para pedir ayuda sobre el comando se deber invocar la ayuda del Stata:
help use
3. Para conocer el contenido de las base se emplearn los comandos describe y codebook:
El comando describe es empleado para describir el contenido de datos en la memoria del computador. Brinda la siguiente informacin:
28
Instituto de Informtica
Contenido de la data: C:\Clase 2010\sumaria_2008.dta Numero de observaciones, variables Fecha y tamao de la memoria empleada Nombre de la variable, tipo de almacenaje (string o numrica), y la etiqueta de la variable
4. Otras formas de abrir una base de datos Al digitar en la lnea de comandos la siguiente sintaxis use sumaria_2008 in 1/10
Se le indica al STATA la apertura de los 10 primeros registros de la base de datos. Este tipo de rdenes se aplicar cuando se desee realizar una exploracin a la base de datos, sin necesidad de cargar la base completa.
De la misma manera, es posible aplicar filtros que indiquen que parte de la base de datos ser utilizada. En la base sumaria_2008, la variable mieperho representa el total de miembros del hogar. Por lo que s est interesado en conocer solo las caractersticas de los hogares con ms de 8 miembros, se aplicar el siguiente filtro: use sumaria_2008 if mieperho>8
29
Manejo de Datos
En muchas ocasiones, slo sern de nuestro inters alguno de las variables contenidas en la base de datos. Para ello se emplear la siguiente sintaxis:
Donde los comandos empleados son use y using, mientras que las variables de inters son conglomerado, vivienda y hogar. Como en los casos anteriores, la base de datos se denomina sumaria_2008. Cabe mencionar que no ha sido necesario incorporar el nombre del directorio, debido a que eso fue establecido lneas arriba a travs del comando cd.
g. Estructura de comandos
En funcin al anlisis de datos que se desee realizar, la estructura de la sintaxis cambiar con la finalidad de elaborar reportes segn las necesidades del investigador.
Por ejemplo, el comando summarize brinda reportes de los principales estadsticos de la base de datos. Dicho comando es empleado de las siguientes maneras:
30
Instituto de Informtica
summarize gashog2d,detail
2.2.
aritmticos:
Stata posee los siguientes conectores lgicos y relacionales, as como los operadores
<= menor o igual que == igual a > mayor que >= mayor o igual que != diferente a , tambin puede usarse ~= () parntesis para indicar el orden de evaluacin
Pontificia Universidad Catlica del Per 31
Manejo de Datos
Operadores aritmticos + Suma - Resta * Multiplicacin / Divisin ^ Potencia + Concatenacin de cadenas alfanumricas
Stata posee un conjunto de bases de datos que se encuentran instaladas en la carpeta de instalacin. La forma de llamar a dichas bases de datos es a travs del comando syuse. En este caso se har uso de la base auto.dta, la cual recoge informacin sobre el precio de automviles, dicha base est compuesta por 74 observaciones y 12 variables.
Al ejecutar dicha orden en la ventana de comandos, se solicita al STATA el reporte de los estadsticos de la variable Price, indicando las siguientes restricciones: siempre que el precio sea mayor de 1000 y menor de 6000. A travs del smbolo & se ejecutarn ambos filtros.
2.3.
A travs del comando generate se crean nuevas variable definida en base a una expresin numrica la cual puede contener otras variables. Por su flexibilidad, este es uno de los comandos ms importantes de Stata, ya que se pueden utilizar un gran nmero de operaciones lgicas, aritmticas y matemticas.
Nota: Podemos usar el trmino abreviado gen en lugar de generate Podemos hacer el mismo proceso pero ahora con la siguiente ruta en la barra de men
Manejo de Datos
Luego pulsamos en Create el cual nos va a llevar al siguiente cuadro de dilogo Ahora elegimos la opcin Mathematical y vamos a la opcin logaritmo natural ln() le damos doble clic y en los parntesis escribimos educ luego pulsamos el botn OK en ambos cuadros de dilogo y tenemos nuestra nueva variable creada.
Repetimos el proceso con la diferencia que en Generate variable escribimos ratio. Luego pulsamos Create y usando la calculadora del costado definimos nuestro ratio doble clic y nuestra nueva variable esta creada:
34
Instituto de Informtica
tt= ((educ+100)\ln(feduc-4))
Nota : Observemos que por defecto las nuevas variables que hemos creado tienen formato float. En el cuadro de dilogo expression builder podemos insertar las variables a transformar hacindoles click en la ventana de variables.
35
Manejo de Datos
2.4.
Uso de funciones
El comando egen Es una extensin del comando generate. Este comando me va a permitir calcular expresiones ms complejas, tales como: medias, desviaciones estndar, promedios mviles, variables estandarizadas, etc.
Ejemplo Generemos una serie que sea igual al valor mximo de la variable educ egen max_X =max(educ)
36
Instituto de Informtica
Pasos 1. 2. En el men Data, se selecciona la opcin de Create or change data Se elige la opcin Create new variable (extended)
En Generate variable escribimos max_X en Egen function elegimos la opcin Maximum ponemos el cursor en el casillero Expresin y le damos un clic en la ventana de variables a educ luego pulsamos OK y tenemos nuestra serie creada con el valor mximo de la variable educ
37
Manejo de Datos
Ahora para esta nueva serie repetimos el proceso anterior pero ahora elegimos la opcin Median.
Generemos una serie de precios que sea estandarizada, de media cero y varianza 1 egen std_X =std(educ),mean(0) std(1)
38
Instituto de Informtica
El comando replace Nos da la posibilidad de modificar alguna de las variables disponibles replace tt= tt\100
2.5.
a. Conversin de Variables string a Variables numricas Existen varios mtodos para convertir variables string a variables numricas. Uno de ellos es utilizando el comando destring destring [varlist] , {generate(newvarlist) | replace} Por ejemplo: destring cumple , generate(cumplenum)
Otra forma de convertir variables string a variables numricas es realizando los siguientes pasos:
39
Manejo de Datos
1. En el men Data , se debe elegir la opcin Create or Change data 2. Seleccionar la opcin Other Variable Transformation commands 3. Luego elegir la opcin Convert variables from string to numeric
Otra forma de convertir variables de cadena a variables numricas, siempre y cuando la variable de cadena no contenga nmeros almacenados como string, se puede utilizar el comando encode: La sintaxis de encode es de la siguiente manera
encode [varname] [if] [in] , generate(newvar) sysuse auto, clear encode make, generate(num)
La primera lnea abre el dataset con extensin dta que para este caso es auto. En la segunda lnea codifica la variable string make a variable numrica llamada num
40 Instituto de Informtica
Otra forma de convertir una variable string a variable numrica es mediante el comando real(s)
Si tenemos una variable Xstr su conversin a variable numrica Xnum puede ser obtenida de la siguiente forma:
Se utiliza los mismos procedimientos pero utilizando el comando tostring. La sintaxis es la siguiente
Otra forma de realizar la conversin de variables numricas a cadenas es realizando los siguientes pasos: 1. En el men Data se selecciona la opcin Create or change data 2. Se elige la opcin Other variable-transformation commands 3. Se selecciona la opcin de Convert variables from numeric to string
41
Manejo de Datos
Otro mtodo para codificar una variable numrica a string se utiliza el comando decode , el cual se basa en los principios de encode
decode varname [if] [in] , generate(newvar) Por ejemplo decode num , generate(a2)
Si quisiramos ver la lista y asignacin de los valores de las variables entonces digitamos el siguiente comando:
Podemos generar una nueva variable que contenga algn subconjunto de los nombres de las caractersticas generadas por alguna variable anterior. Por ejemplo se desea generar una variable string de nombre a2 que contiene como caractersticas los caracteres 2 a 4 de la variable make
42
Instituto de Informtica
2.6.
sysuse auto,clear generate jose = 0 generate precio2 = price2 list precio2 price Dicotmica que identifique a los carros que cuestan ms de 6000 g dico=1 if price>6000 replace dico=0 if price<=6000 Una manera rpida de crear una dicotmica: g dico2=price>6000 sum price if forei==0 sum price if forei==1 by foreign: sum Price
2.7.
clear cd c:\clase1
Manejo de Datos
use sumaria_2008 log using jose,text replace des gashog2d /*abreviatura de describe*/ sum gashog2d log close
44
Instituto de Informtica
3. Elaboracin de Grficos
A continuacin veremos cmo introducir algunos comandos bsicos en Stata 11, incluyendo histogramas, grficos de caja, ploteos y matrices de ploteos. El propsito de esta seccin es entender los fundamentos de los grficos y dar los elementos para generar y modificar estos. Usaremos el mdulo de empleo e ingresos de la 2Nacional de Hogares del ao 2007 (mdulo 500).
La base de datos se denomina enaho01a_2007_500.dta, la cual se encuentra almacenada en la carpeta C:\Clases 2010 del directorio de trabajo. Como en la mayora de aplicaciones frecuentes esto se puede hacer por dos medios:
a.
b.
Para mayor informacin de la base de datos, revisar la pgina web del Instituto Nacional de Estadstica e Informtica - INEI: www.inei.gob.pe
45
Elaboracin de Grficos
c. Se selecciona las variables las cuales se desea graficar y el tipo de grfico que se requiere
A continuacin se iniciar la seccin de grficos mediante un ejemplo, en el cual se indique las diversas opciones del editor de grficos del STATA 11
46
Instituto de Informtica
Es posible cambiar la apariencia de los grficos a travs del men del Stata Graph realizando los siguientes pasos: 1. En el Menu Edit seleccionar la opcin Apply new scheme tal como lo indica la figura
presentacin de grficos slo est limitado por la imaginacin. Los usos frecuentes de carcter exploratorio de los datos son a travs de las densidades y los diagramas de cajas
47
Elaboracin de Grficos
3.1.
La base de datos es posible descargarla desde la seccin Microdatos de la pgina web del INEI. Una vez dentro de la seccin, pulsar la tecla Enter para acceder a las bases de datos que dispone el INEI
Una vez dentro del sistema, pulsar la opcin Encuesta: Condiciones de Vida y Pobreza ENAHO, en la casilla ao sealar el 2007, y en
el periodo indicar el
periodo anual (enero diciembre), se desplegar un conjunto de bases de datos tal como se detalla a continuacin.
Para seleccionar la base de datos se escoge la fila 5 correspondiente al modulo de empleo e ingresos, y en la columna selecciona el botn de Descargar, se cuentan con las opciones para obtener la base de datos en formato de SPSS o DBF.
48 Instituto de Informtica
Posteriormente, se deber emplear un convertidor de bases de datos como el Stat Transfer o el DBMS Copy con la finalidad de migrar el formato de bases dato de SPPS o DBF hacia el STATA.
Un vez que la base de datos se encuentre en formato de STATA, se proceder a la creacin del do file conteniendo las sintaxis que permitan ejecutar los diversos tipos de grficos que permite el STATA. A continuacin se abrir una ventana vaca de do- file la cual se grabar bajo el nombre de 0_anatomia_grafico.do, tal como se muestra a continuacin. En dicho do file se realizar la digitacin de las rdenes correspondientes.
3.2.
Una vez que disponemos de la base de datos, enaho01a_2007_500.dta dentro del directorio de trabajo se proceder a completar el do file respectivo.
En primer lugar se definen aspectos del entorno de trabajo. A travs del comando Clear, se borrar de la memoria las bases de datos que estuvieran abiertas. Clear Asimismo, se procede a especificar el tamao de la memoria virtual de la PC que se dispondr para el trabajo. Debido a que la base de datos contiene ms de 65 mil variables. Como regla, se le asignar un tamao de memoria similar al tamao del archivo expresado en megabytes. set mem 100m
Es importante especificar el directorio de trabajo a travs del comando cd: cd "C:\Clases 2010"
49
Elaboracin de Grficos
A travs del comando use se abrir la base de datos, ntese que la inclusin de comentarios en el do file se realiza incluyendo el smbolo (*) al inicio de la lnea.
use "enaho01a_2007_500.dta"
Dentro de las opciones para realizar grficos es posible indicar los estilos de presentacin de los grficos predeterminados por el Programa.
A travs del comando 'Scheme' nos permite cambiar el formato del grfico. Para ver todas las posibilidades que tiene Stata incorporados digitar en la ventana de comandos: help schemes
Los siguientes tipos de esquemas se encuentran predeterminados, en el presente ejercicio se escoger la segunda opcin, la cual alude a los estilos de grficos del STATA Journal: set scheme s1color set scheme sj set scheme s1rcolor set scheme economist set scheme s2color
A continuacin se realizar el grafico del Ingreso Laboral segn sexo para ello se emplear un grafico de dispersiones tipo scatter. Se ensayarn los diversos esquemas de presentacin activando la casilla correspondiente. Las variables de trabajo son las siguientes: i524a1 p208a p207, las cuales tendrn una inspeccin a travs del comando codebook: codebook i524a1 p208a p207
50
Instituto de Informtica
51
Elaboracin de Grficos
Los filtros sobre las variables de anlisis se realizaran a travs de las siguientes sintaxis:
*Grfico 1: Ingreso en la ocupacin principal y edad de los hombres scatter i524a1 p208a if p207==1
*Grfico 2: Ingreso en la ocupacin principal y edad de los mujeres scatter i524a1 p208a if p207==2
Una vez realizados el scatter del ingreso laboral segn edad y sexo se proceder a emplear el comando twoway para realizar el grfico del ingreso laboral para ambos sexos:
*Grfico 3: Ingreso en la ocupacin principal y edad de las mujeres y los hombres twoway (scatter i524a1 p208a if p207==1) /// (scatter i524a1 p208a if p207==2)
*Grfico 5: Lo mismo que 4 tw (sc i524a1 p208a if p207==1) /// /// ///
title("Ttulo: Ingreso de la ocup. princ. y edad segn sexo") /// subtitle("Subttulo: Ingesos anualizados") xtitle("Edad") /// /// ytitle("Ingreso")
note("Nota: Elaboracin propia a partir de la ENAHO 2007") /// legend(title(Leyenda) order(1 "Hombres" 2 "Mujeres")) text(200000 80 "Comentario")
52
Instituto de Informtica
3.3.
Histogramas y Kernels
a. Histogramas hist Los Histogramas consisten en una herramienta grfica que permite ilustrar las discontinuidades de la informacin que se solucionan agrupando los datos. Lo anterior pasa por decidir cuantas barras o _CLASES_ emplear, o lo que es lo mismo decidir cunto es el ancho de banda. Como regla prctica el nmero de CLASES se aproxima por la raz cuadrada del nmero de datos empleados, en nuestro caso es aprox. igual a 256:
display sqrt(65549)
53
Elaboracin de Grficos
Histograma
El nmero de CLASES puede modificarse con la opcin bin del comando -hist. Otra opcin interesante es acompaar el grfico con la curva normal que se ajusta a los datos.
54
Instituto de Informtica
b. Kernel kdensity En trminos sencillos los kernels permiten suavizar nuestros histogramas tratando de conservar la forma de la distribucin de nuestros datos. Esto se consigue fijando ventanas alrededor de un punto y al interior ponderando los casos tal que el peso sea menor cuanto ms alejado se encuentre del punto central de la ventana, el efecto del suavizamiento se consigue al desplazar la ventana.
Al igual que los histogramas hay que elegir el nmero de barras o equivalentemente cuanto es el ancho de banda 2 Esa no es la nica decisin, tambin hay que decidir qu funcin de distribucin a usar.
Para el primer punto se suele usar la sugerencia de Silverman (1986) el cual busca minimizar el valor esperado del error al cuadrado (opcin por defecto en stata)
El kernel es la funcin de distribucin que se usa para suavizar el histograma. Bajo ciertas circunstancias se puede probar que el Kernel conocido como Epanechnikov tiene un criterio optimizador (opcin por defecto en stata)
55
Elaboracin de Grficos
3.4.
Clear
*4 etapa: Distribucin de la edad en un slo grfico tw (kdensity p208a if p207==1) (kdensity p208a if p207==2)
kdensity p208a if p207==1, name (jose1,replace) kdensity p208a if p207==2, name (jose2,replace)
*6 etapa: kdensity p208a, name(jose1,replace) title(Epanechnikov) kdensity p208a, name(jose2,replace) kernel(gauss) title(Gausiano) kdensity p208a, name(jose3,replace) kernel(cosine) title(Coseno) graph combine jose1 jose2 jose3,rows(1) graph drop _all
*7 etapa:
Pontificia Universidad Catlica del Per 57
Elaboracin de Grficos
kdensity p208a, name(jose4,replace) title("Ancho de banda ptimo",size(*.8)) kdensity p208a, name(jose5,replace) bwidth(3.558) title("Doble del Ancho de banda ptimo",size(*.8)) kdensity p208a, name(jose6,replace) bwidth(0.8895) title ("Mitad de la banda ptimo",size(*.8)) graph combine jose4 jose5 jose6,rows(1) graph drop _all
3.5.
Box plots
Junto con el histograma o los kernels, los diagramas de cajas son probablemente las herramientas grficas ms importantes para realizar un anlisis univariado
58
Instituto de Informtica
Algunas definiciones antes de empezar: Mediana o percentil 50.- Valor que divide la muestra en partes iguales Percentil 25.- Debajo de este valor se encuentra el 25% de los datos Percentil 75 .- Similar al anterior Rango intercuartilico IQR = P75 - P25 Outlier.- En un sentido ms flexible es un dato con un valor muy alejado formalmente.
A continuacin se trabajar con el do file: 2_graph box.do clear set mem 100m use "enaho01a_2007_500"
egen id=group(conglo vivienda hogar codperso) graph box i524a1, marker(1,mlabel(id)) scheme(s1color) graph drop _all
59
Elaboracin de Grficos
3.6.
Comando Graph
60
Instituto de Informtica
Comando Graph Twoway Los miembros de la familia de los grficos twoway son llamados plottypes [graph] twoway plot [if exp] [in range] [, twoway_options]
Donde plot es definido de la siguiente forma: [(] plottype varlist ..., options [)] [||]
61
Elaboracin de Grficos
Grfico Twowat Line [twoway] line varlist [if exp] [in range] [, line_options ] Opcin Combine En la misma rea de grficos, combina 2 o ms grficos (pueden ser de diferentes tipos. graph combine name [name ...] [, combine_options ] Opciones de marcador Modifica los marcadores y/o sus etiquetas para ajustarse a las preferencias del usuario. marker label option Grficos de pie Se utilizan cuando nos interesa analizar proporciones. graph pie yvars [weight] [if exp] [in range] [, options ] Grficos de barras Se pueden realizar grficos con barras verticales y horizontales.
graph bar yvars [weight] [if exp] [in range] [, options ] graph hbar yvars [weight] [if exp] [in range] [, options ]
62
Instituto de Informtica
Grfico de puntos graph dot yvars [weight] [if exp] [in range] [, options ] Grfico Twoway HIstogram twoway histogram varname [weight] [if exp] [in range] [, [discrete_options|continuous_options] common_options ] Grfico Twoway Kdensity twoway kdensity varname [if exp] [in range] [, kdensity_options line_options] Para mayores detalles, revisar el libro: Mitchel, M. (2004); A visual guide to Stata graphics, University of California, Los Angeles. A Stata Press Publication Disponible en el siguiente vnculo: http://www.stata-press.com/books/vgsg.html Ejemplos: clear net from http://www.stata-press.com/data/vgsg net install vgsg help vguse set scheme vg_s2c vguse allstates.dta twoway (scatter propval100 popden) (lfit propval100 popden)
63
Elaboracin de Grficos
twoway (scatter propval100 popden) (lfit propval100 popden) (qfit propval100 popden)
twoway (scatter propval100 popden) (mspline propval100 popden) (fpfit propval100 popden) (mband propval100 popden) (lowess propval100 popden)
64
Instituto de Informtica
65
Elaboracin de Grficos
66
Instituto de Informtica
67
Elaboracin de Grficos
vguse allstatesdc.dta twoway (lfitci ownhome pcturban80, stdf) (scatter ownhome pcturban80)
68
Instituto de Informtica
4. Modelos lineales
Probablemente en econometra el uso de modelos de regresin lineal y sus extensiones sea la metodologa ms empleada en la investigacin emprica. El conocimiento de estos y su estimacin es el objetivo de esta seccin.
Mnimos cuadrados ordinarios (MCO) es el mtodo ms popular, mientras que una variante que contempla la presencia de heterocedasticidad y corrige su presencia son los mnimos cuadrados ponderados (MCP). Mientras que los estimadores bajo MCO tienen como objetivo minimizar la suma de los errores al cuadrado, minimizar la suma de los valores absolutos de los errores nos conduce al modelo de mnima desviacin absoluta (MDA) la generalizacin de este procedimiento se conoce como regresin cuantlica.
De otro lado, la mala especificacin de un modelo, en particular la omisin de una variable relevante, podra provocar en los parmetros una situacin indeseada por los econometristas: parmetros insesgados y peor an, parmetros inconsistentes. Un procedimiento comnmente para lidiar con este problema es una regresin con variables instrumentales (VI). En lo que sigue se aborda cada uno de los temas mencionados.
4.1.
regress
Otra vez recurrimos a la ENAHO 2008 para presentar una regresin lineal simple con r6 como variable dependiente: reg r6 edad r11h
69
Modelos Lineales
Tarea 1: Interprete todos los estadsticos reportados en el output anterior teniendo en cuenta que r6 es el ingreso laboral mensual, edad son los aos cumplidos y r11h son las horas mensuales laboradas. xi: El prefijo xi: permite agregar fcilmente variables categricas en un modelo de regresin. Imagine que se plantea la hiptesis que las lneas de regresin para cada dominio geogrfico tienen distinto intercepto: xi: reg r6 edad r11h i.dominio
70
Instituto de Informtica
71
Modelos Lineales
72
Instituto de Informtica
Tarea 2: Cree las dicotmicas que sean necesario, compruebe e interprete todos los resultados anteriores.
predict
Debe tener en cuenta que cuando existe un missing en una de las variables que intervienen en la regresin, todo ese registro se pierde al realizar la estimacin as existan observaciones en el resto de variables. Si por alguna razn el objetivo es quedarse con el conjunto de variables en los cules no exista ningn missing en el conjunto de datos se puede ejecutar lo siguiente: reg r6 edad r11h keep if e(sample)
regress postestimation reg r6 edad r11h estat ovtest /*Test RESET de Ramsey (variables omitidas)*/ estat ic /*Criterios de informacin*/ estat vif /*Factor de inflacin de varianza*/
Almacenamiento de informacin
Luego de estimar una regresin el software almacena las estimaciones en objetos que luego pueden ser fcilmente empleados.
Modelos Lineales
e(N) = 45232 e(df_m) = 2 e(df_r) = 45229 e(F) = 1265.502981280802 e(r2) = .0529942555816602 e(rmse) = 370.1935843435196 e(mss) = 346857383.838377 e(rss) = 6198330958.394218 e(r2_a) = .0529523795399869 e(ll) = -331683.1548708656 e(ll_0) = -332914.5987825873 e(rank) = 3 macros: e(cmdline) : "regress r6 edad r11h" e(title) : "Linear regression" e(marginsok) : "XB default" e(vce) : "ols" e(depvar) : "r6" e(cmd) : "regress" e(properties) : "b V" e(predict) : "regres_p" e(model) : "ols" e(estat_cmd) : "regress_estat" matrices: e(b) : 1 x 3 e(V) : 3 x 3 functions:
e(sample)
74
Instituto de Informtica
Por ejemplo, usando la calculadora de Stata se puede digitar en la lnea de comandos display e(r2)- para reportar el R cuadrado de la regresin.
Tambin pueden invocarse los parmetros estimados de otra manera: Por ejemplo, en promedio el ingreso mensual para una persona que tiene 30 aos y trabaja 48 horas a la semana, asumiendo que existe causalidad en el modelo y este se encuentra correctamente especificado es:
Correlacin Serial Slo aplica cuando la fuente de datos es temporal, si ese es el caso STATA exige que los datos sean declarados como temporales con el comando -tsset-. - Durbin-Watson. Test de autocorrelacin de primer orden . tsset qtrs . regress Y X1 X2 X3 . estat dwatson
. estat dwatson
75
Modelos Lineales
Donde lag(#) especifica el orden de la autocorrelacin Heterocedasticidad Test de White . regress Y X1 X2 X3 . estat imtest, preserve white Mnimos cuadrados ponderados Comando wls0 (http://www.ats.ucla.edu/stat/stata/ado/analysis/wls0.htm para mas detalles y un ejemplo) Errores estndar corregidos por heterocedasticidad . regress Y X1 X2 X3, robust
76
Instituto de Informtica
4.2.
Regresiones robustas
Una vez que se ha establecido que existe una relacin lineal entre dos variables Y y X, todava queda la tarea de determinar cul es la mejor recta que refleja esta relacin? O lo que es lo mismo Cul es la ecuacin que describe estos datos? Ya que se observa y se asume una relacin lineal los datos deben seguir una ecuacin de la forma: Y = mX +b
El problema requiere la determinacin de los coeficientes m y b. Se podran hacer conjeturas sobre que nmeros deberan ser, pero estas deben ser "lo mejor posible. Pero, Qu se entiende por "mejor posible"?3. Lo anterior implica la descripcin de un criterio para medir el error entre "la mejor" lnea y los datos. Una vez que el criterio ha sido especificado, entonces el objetivo es reducir al mnimo este error. La lnea con el mnimo error de los datos es la "mejor" lnea.
La regresin por mnimos cuadrados ordinarios es el procedimiento ms utilizado debido a su simplicidad y facilidad de clculo. Como se sabe la medida de error de este mtodo es el cuadrado de la desviacin de los datos de la lnea de regresin respecto a los Y observados (e2). El objetivo es minimizar la sumatoria de los errores al cuadrado obtenindose "la mejor" lnea. La desventaja del mtodo es que es muy sensible a valores atpicos.
Se debe notar que a no ser que su sea una relacin lineal exacta entre X e Y, entonces ms de una lnea podra describir estos datos. Pontificia Universidad Catlica del Per 77
Modelos Lineales
Por ejemplo utilizando la base auto (que se encuentra por defecto en la carpeta Stata) en el modelo hipottico: mpg=a+m*weight se tendra:
Tarea 3: Cree el mismo grfico utilizando la opcin predict y tambin generando la variable predicha con la forma de recuperar coeficientes visto lneas arriba (_b[variable]).
El problema que presenta este mtodo es que las observaciones que se encuentren ms alejadas de la recta de ajuste reciben una mayor ponderacin. Si se decide
excluirlas, van a afectar fuertemente a los estimadores. Existen por lo menos dos formas de estimar una lnea que no est altamente influenciada por valores atpicos, estas metodologas descansan en lo que literatura se conoce como regresiones robustas.
78
Instituto de Informtica
79
Modelos Lineales
. qreg mpg weight . g mediana=_b[_cons]+_b[weight]*weight . tw (scatter mpg weight) (line mediana weight)
4.2.2.
Regresin robusta
La idea bsica de este tipo de estimacin es calcular los estimadores que minimicen la siguiente funcin: w(e)e2 Donde w(.) es una funcin de ponderacin que se introduce para reducir (e incluso eliminar) el efecto de residuos elevados. Por tanto se definen los pesos w(.) de tal forma que tomen valores pequeos para residuos grandes. El proceso de estimacin es iterativo comenzando por una regresin simple de la cual se derivan los primeros errores y tambin los primeros ponderadores que son reestimados las veces que sean necesarios para que la mxima diferencia entre el ltimo y el penltimo ponderador sea mnima.
80
Instituto de Informtica
En Stata el comando rreg permite obtener estimaciones robustas de acuerdo al siguiente procedimiento: Excluye a las observaciones que tengan una distancia de Cook mayor a uno (esto lo realiza asignando un peso de 0 a dichos registros). Utiliza dos funciones de ponderacin: Huber y Biweights, ambas funciones de ponderacin son usadas porque los ponderadores de Huber tiene problemas cuando se encuentra con outliers muy elevados mientras que Biweights algunas veces falla al converger o tiene mltiples soluciones. Los ponderadores iniciales de Huber mejoran el comportamiento del estimador Biweight.
La caracterstica del ponderador a lo Huber es que los casos con errores pequeos reciben un peso de 1, los dems casos tienen ponderadores inversamente proporcional al tamao de los residuos. De otro lado, los pesos Biweight, para errores pequeos, asignan una ponderacin que decrece exponencialmente con el tamao del error, a los dems casos se le asigna un peso de 0.
Donde: ei = yi - XiB; ui = ei/s; s = M/0.6745; M = mediana (|ei mediana(ei)|); ch y cb son constantes predeterminadas
81
Modelos Lineales
. rreg mpg weight, genwt(w) Huber iteration 1: maximum difference in weights = .79065466 Huber iteration 2: maximum difference in weights = .16435086 Huber iteration 3: maximum difference in weights = .07997553 Huber iteration 4: maximum difference in weights = .02086117 Biweight iteration 5: maximum difference in weights = .2751323 Biweight iteration 6: maximum difference in weights = .12290063 Biweight iteration 7: maximum difference in weights = .06995163 Biweight iteration 8: maximum difference in weights = .01619982 Biweight iteration 9: maximum difference in weights = .00890816
82
Instituto de Informtica
En el grfico anterior se muestra la recta de ajuste robusta acompaada de los ponderadores estimados, como se puede observar, mientras ms alejado de la recta de ajuste se encuentren los datos menor ponderacin le es asignado, llegando inclusive a ser cero.
La comparacin de las tres rectas de ajuste nos permite comprobar la menor sensibilidad de los mtodos alternativos a la regresin simple.
reg mpg weight g mco=_b[_cons]+_b[weight]*weight tw (line mco weight, clcolor(pink) clpat(dash)) /// (line mediana weight, clcolor(green) clpat(dot)) /// (line robusta weight, clcolor(blue)) (scatter mpg weight)
83
Modelos Lineales
84
Instituto de Informtica
5.
Caminos alternativos que superan los problemas anteriores se basan en estimaciones no lineales bajo la metodologa de mxima verosimilitud. Los modelos tipo probit y logit asumen que el trmino de error aleatorio siguen una distribucin normal y logstica respectivamente, su estimacin es precisamente empleando los comandos -probit- y -logit-, y como se sabe los efectos marginales, al no ser un modelo lineal, se estiman evaluando la expresin correspondiente en las medias de las variables explicativas.
dprobit, estima un modelo probit por mxima verosimilitud, pero no reporta los coeficientes como este ltimo sino que reporta el cambio en la probabilidad ante un cambio infinitesimal en las variables continuas independientes y, por defecto, reporta el cambio discreto en la probabilidad para variables dummy.
85
Si se estima con datos agrupados, vea el comando bprobit descrito en [R] glogit
Los comandos auxiliares pueden ser corridos despus de probit, logit o logistic; vea [R] logistic para una descripcin de esos comandos.
Nota Tcnica Stata interpreta el valor 0 como resultado negativo (falla), y trata todos los otros valores (excepto missing) como resultados positivos (xito). Entonces, si su variable dependiente toma el valor de 0 y 1, 0 es interpretado como falla y 1 como xito. Si su variable dependiente toma el valor de 0,1 y 2; 0 es interpretado an como falla, pero 1 y 2 son tratados como xitos.
Identificacin del modelo El comando probit tiene una caracterstica adicional y es probablemente la ms importante. Este revisa el modelo para la identificacin y si est subidentificado elimina las variables y observaciones necesarias para que proceda la estimacin.
Ejemplo . describe
86
Instituto de Informtica
. sum
87
. probit grade gpa tuce psi Iteration 0: log likelihood = -20.59173 Iteration 1: log likelihood = -13.315851 Iteration 2: log likelihood = -12.832843 Iteration 3: log likelihood = -12.818826 Iteration 4: log likelihood = -12.818803
88
Instituto de Informtica
Podemos observar que todas las variables son significativas. El modelo es globalmente significativo pues es el (Prob > chi2 = 0.0014) y el ajuste del Pseudo R2 es 0.3775, lo cual para cortes transversales es aceptable.
Con el comando predict generamos una variable donde almacenamos la probabilidad predicha de que el alumno aumente su nota:
predict probprobit, p
Graficando la probabilidad predicha contra tuce (el resultado previo obtenido en un examen de economa)
89
Graficando la probabilidad predicha contra gpa (la nota global del alumno)
Iteration 0: log likelihood = -20.59173 Iteration 1: log likelihood = -13.315851 Iteration 2: log likelihood = -12.832843 Iteration 3: log likelihood = -12.818826 Iteration 4: log likelihood = -12.818803
90
Instituto de Informtica
En este caso dF/dx se refiere al efecto marginal (en cuanto aumenta la probabilidad de que suba la nota del alumno promedio cuando las variables continuas aumentan en una unidad. Para las variables no continuas como psi, STATA calcula el cambio en la probabilidad ante un cambio discreto de una unidad (en el caso de psi, de pasar de no participar a participar en la nueva metodologa) Tambin muestra las medias y un intervalo de confianza para la prediccin.
La interpretacin es como sigue: 0.5333471 es el aumento de la probabilidad (de que aumente la nota) para un alumno medio (gpa=3.117, tuce=21.938 y psi=0.438). Del mismo modo 0.4644 es el aumento en la probabilidad (de que aumente la nota) para un alumno medio (gpa=3.117, tuce=21.938) cuando recibe el nuevo mtodo de enseanza (pasa de tuce=0 a tuce =1). No olvidar que en todos los casos se debe incorporar la constante al calculo de .
Para tratar las variables discretas del mismo modo que las continuas se emplea la opcin classic.
Iteration 0: log likelihood = -20.59173 Iteration 1: log likelihood = -13.315851 Iteration 2: log likelihood = -12.832843 Iteration 3: log likelihood = -12.818826 Iteration 4: log likelihood = -12.818803
91
Para calcular la probabilidad de un aumento de la nota para un individuo de determinadas caractersticas deben definirse estas mediante una matriz. Por ejemplo, cul es la probabilidad de que un individuo con gpa=3, que obtuvo 20 en su nota previa de economa (tuce=20) y que ha estado expuesto al nuevo mtodo de enseanza (psi=1) debemos emplear la opcin at
Iteration 0: log likelihood = -20.59173 Iteration 1: log likelihood = -13.315851 Iteration 2: log likelihood = -12.832843 Iteration 3: log likelihood = -12.818826 Iteration 4: log likelihood = -12.818803
92
Instituto de Informtica
Comando mfx
Es la manera genrica de calcular efectos marginales, y no es de uso exclusivo a este tipo de estimaciones. La ventaja es ser flexible a la hora de calcular diversos variantes de los efectos de las explicativas sobre la variable dependiente
. mfx compute
93
Calculando semielasticidades:
94
Instituto de Informtica
Comparando la capacidad del modelo lineal y el probit, se observa que ste ltimo slo es ligeramente superior al primero.
Para contrastar la bondad de ajuste es preciso tabular que tan bien predice el modelo.
Si se grafica (por ejemplo para cien puntos) el efecto de psi sobre la probabilidad de aumentar la nota, se puede graficar el efecto puro de psi sobre las medias (trazo continuo) mientras que los puntos son el efecto de psi para cada individuo en particular.
95
Por el contrario este grfico permite comparar el efecto predictivo del modelo para la variable psi.
96
Instituto de Informtica
Iteration 0: log likelihood = -521.79847 Iteration 1: log likelihood = -465.83446 Iteration 2: log likelihood = -463.72828 Iteration 3: log likelihood = -463.71437 Iteration 4: log likelihood = -463.71436
97
5.2.
5.2.1.
Logit multinomial
Una variable es nominal es aquella donde sus categoras no se pueden ordenar. Ejemplos, de lo anterior son estado civil y condicin de actividad laboral. En el modelo logit multinomial, nosotros de coeficientes resultado. (1), (2) y estimamos el conjunto
El modelo, sin embargo, no es identificado en el sentido de que hay ms de una solucin para (1), (2) y (3) que conduce a las mismas
probabilidades para y=1, y=2 y y=3. Para identificar el modelo, uno de los (1), fija (2) y (3) es arbitrariamente fijada a 0. Si arbitrariamente se (2) y (3) medirn el cambio
(1)=0, fijamos
diferiran porque tienen diferentes interpretaciones, pero las probabilidades predichas para y=1, 2 y 3 seran las mismas. Por lo tanto, cualquier parametrizacin sera una solucin.
98
Instituto de Informtica
Dado
Llamaremos este ratio como el riesgo relativo, y asumiremos despus que X y son vectores iguales a (x1,x2,x3 .. xk) y ( ),
As, el valor exponenciado de un coeficiente es un ratio de riesgo relativo para un cambio unitario en la variable correspondiente.
Ejemplo Se tienen datos acerca del tipo de seguro de salud disponible para 616 personas que sufren de depresin en Estados Unidos. El seguro es categorizado en dos planes: plan de indemnizacin y de prepago.
99
La tercera posibilidad es que no se tenga seguro alguno. Usted desea estudiar los factores demogrficos asociados a cada categora de seguro. Como introduccin a la muestra, uno de los factores demogrficos es la raza de los individuos, codificado como blanco o no blanco:
use http://www.stata-press.com/data/r8/sysdsn3
Se rechaza la hiptesis nula de que las columnas y las filas son independientes (prueba Chi cuadrado). Aunque en el cuadro el seguro aparece como Indemnity, prepaid y Uninsure, el seguro en realidad toma los valores de 1, 2 y 3. Los nombres aparecen porque las variables numricas del seguro han sido asociadas con ellos.
Cuando se estima un modelo logit multinomial, usted puede sealar a mlogit la categora base que desea utilizar o puede permitir que mlogit escoja. Para ajustar un modelo de seguro sobre nonwhite, dejando que mlogit escoja la categora base, digitamos:
100
Instituto de Informtica
101
102
Instituto de Informtica
5.2.2.
Con Z como el conjunto de variables independientes y un residuo que se asume normalmente distribuido entre las observaciones en el caso se asuma normalidad o logstica en el otro caso. Con el fin de no obtener probabilidades negativas se normaliza tanto la media como la varianza de dentro del rango [0, 1]. De esta manera, si p1, p2 y p3 son los grupos determinados endgenamente determinados por el algoritmo propuesto por Esteban y otros (1999) se tiene
describe
103
Logit ordenado
Iteration 0: log likelihood = -2995.7704 Iteration 1: log likelihood = -2846.4532 Iteration 2: log likelihood = -2844.9142 Iteration 3: log likelihood = -2844.9123
104
Instituto de Informtica
Del mismo modo el comando para el modelo probit ordenado es -oprobit-. Las siguientes lneas permiten estimar ambos modelos y compararlos: ologit warm yr89 male white age ed prst est store modelo1 oprobit warm yr89 male white age ed prst est store modelo2 est table modelo1 modelo2
105
106
Instituto de Informtica
6.
Datos de panel
En esta seccin se emplear la base nlswork.dta la misma que contiene una muestra de 4711 mujeres con trabajo remunerado de 14 a 26 aos cumplidos al ao 1968 y que fueron encuestadas a lo largo de 21 aos (1968-1988) excepto los aos 1974, 1976, 1979, 1981, 1984, y 1986. La variable dependiente en todas las estimaciones es el logaritmo del ingreso. Se recurrirn a algunos comandos que no estn cargados en Stata. Es importante entonces que antes de iniciar escribas en la lnea de comando (mientras ests conectado a Internet) las siguientes indicaciones:
use http://www.stata-press.com/data/r10/nlswork.dta des sum generate age2 = age*age generate black = (race==2)
6.1.
El enfoque ms simple de analizar datos tipo panel es omitir las dimensiones del espacio y el tiempo de los datos agrupados y slo calcular la regresin MCO usual. Este modelo se expresa como:
107
Datos de Panel
Donde i significa la i-sima unidad transversal (estado) y t el tiempo t (ao). Si tratamos de explicar la variable spend con las variables independientes de la clase pasada, basta con que indiquemos en la ventana de comandos de Stata:
reg ln_wage age age2 Efectos aleatorios La ecuacin (1) supone que el intercepto de la regresin es la misma para todas las unidades transversales. Sin embargo, es muy probable que necesitemos controlar el carcter individual de cada estado. El modelo de efectos aleatorios permite suponer que cada unidad transversal tiene un intercepto diferente. Este modelo se expresa como:
Donde
+ ui
Es decir, en vez de considerar a como fija, suponemos que es una variable aleatoria con un valor medio y una desviacin aleatoria de este valor medio. Sustituyendo en
i
+ ui (2) obtenemos:
Stata estima el modelo de efectos aleatorios con el comando xtreg, re. En nuestro ejemplo, indicamos en la ventana de comandos:
108
Instituto de Informtica
relevante entre (1) y (3). Cmo podemos saber si es necesario usar el modelo de efectos aleatorios o el de datos agrupados? Breusch y Pagan
formularon la prueba conocida como Prueba del Multiplicador de Lagrange para Efectos Aleatorios. La hiptesis nula de esta prueba es que Si
la prueba se rechaza, s existe diferencia entre (1) y (3), y es preferible usar el mtodo de efectos aleatorios4. La prueba de Breusch y Pagan se implementa en Stata con el comando xttest0 despus de la estimacin de efectos aleatorios.
Recuerde que referencialmente una Hiptesis nula se rechaza si el p-value es pequeo, menor a 0.10, por ejemplo. Pontificia Universidad Catlica del Per 109
Datos de Panel
El p-value nos indica que podemos rechazar la Ho; por lo tanto, los efectos aleatorios i u son relevantes y es preferible usar la estimacin de efectos aleatorios en vez de la agrupada.
- Efectos fijos Otra manera de modelar el carcter individual de cada estado es a travs del modelo de efectos fijos. Este modelo no supone que las diferencias entre personas sean aleatorias, sino constantes o fijasy por ello debemos estimar cada intercepto ui . Cmo podemos permitir que el intercepto vare con respecto a cada estado? Una manera es la tcnica de las variables dicotmicas de interseccin diferencial, que se expresa de la siguiente manera5
Donde es un vector de variables dicotmicas para cada estado. El modelo de efectos fijos puede ejecutarse en Stata con el comando:
Como repasamos en clase, utilizar variables dicotmicas conduce al mismo resultado que si restamos a cada observacin la media de cada estado (demeaning the data). 110 Instituto de Informtica
En relacin con el modelo (4), el (1) es un modelo restringido, pues asume un intercepto comn para todos las personas (es decir, no incluye variables dicotmicas de cada persona). Por lo tanto, podemos utilizar una prueba F restrictiva para contestar la interrogante. La hiptesis nula es que v1= v2= vi =0 (o sea, que todas las variables dicotmicas estatales son iguales cero). Si la prueba se rechaza, significa que al menos algunas variables dicotmicas s pertenecen al modelo, y por lo tanto es necesario utilizar el mtodo de efectos fijos. La prueba F de significancia de los efectos fijos se reporta automticamente con el comando xtreg, fe.
El p-value nos indica que podemos rechazar la Ho, por lo que es preferible usar el mtodo de efectos fijos al modelo agrupado.
Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F de significancia de los efectos fijos nos indican que tanto el modelo de efectos aleatorios como el de efectos fijos son mejores que el modelo agrupado. Pero cmo decidir cul de los dos usar? La respuesta depende de la posible correlacin entre el componente de error individual ui y las variables X. El modelo de efectos aleatorios supone que esta correlacin es igual a cero. Si las ui y las variables X estn correlacionadas, entonces no incluir ui en el modelo producir un sesgo de variable omitida en los coeficientes de X.
111
Datos de Panel
Hausman demostr que la diferencia entre los coeficientes de efectos fijos y aleatorios
ef
ea
nula de que ui y las variables X no estn correlacionadas. As pues, la Ho de la prueba de Hausman es que los estimadores de efectos aleatorios y de efectos fijos no difieren sustancialmente. Si se rechaza la Ho, los estimadores s difieren, y la conclusin es efectos fijos es ms
conveniente que efectos aleatorios. Si no podemos rechazar Ho, no hay sesgo de qu preocuparnos y preferimos efectos aleatorios que, al no estimar suficientes dummies, es un modelo ms eficiente. La prueba de Hausman se implementa en Stata despus de la regresin con efectos aleatorios con el comando Hausman de la siguiente manera:
. xtreg ln_wage age age2, fe . est store fijos . xtreg ln_wage age msp ttl_exp, re . hausman fijos ., sigmamore
b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic chi2(2) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 61.89 Prob>chi2 = 0.0000
112
Instituto de Informtica
. hausman fijos .
b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic chi2(2) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 60.05 Prob>chi2 = 0.0000
En nuestro ejemplo, la Ho se rechaza; es decir, la diferencia entre los coeficientes de efectos aleatorios y fijos s es sistemtica. Por lo tanto, conviene usar el mtodo de efectos fijos.
- Efectos Temporales
La incorporacin de variables dicotmicas de las personas permite modelar caractersticas de las unidades transversales (mujeres) que no cambian en el tiempo pero que s afectan el resultado de inters. Ahora bien, tambin es posible agregar variables dicotmicas temporales a nuestro modelo, es decir, una para cada ao en la muestra, que capturen eventos comunes a todos las personas durante un perodo u otrocomo una gran depresin o guerra mundial6. Agregando efectos temporales, la ecuacin anterior se transforma en:
Para hacer la distincin algunos autores suelen hablar de efectos idiosincrticos y efectos covariados. 113
Datos de Panel
Donde
Estas variables dicotmicas permitirn controlar por aquellos eventos a los que fueron sujetos todas las personas en un ao dado y, al igual que los efectos fijos, pueden reducir sesgos importantes. En Stata podemos incorporar efectos temporales a nuestro modelo de efectos fijos con el comando xi.
Al igual que con los efectos individuales, podemos realizar una prueba F para conocer la significancia conjunta de las variables dicotmicas temporales en nuestro modelo. La hiptesis nula es que
1
= 0.
con efectos fijos individuales y temporales, indicamos en la ventana de comando: . testparm _Iyear_69 - _Iyear_88 // -testparm- es similar a test( 1) _Iyear_69 = 0 ( 2) _Iyear_70 = 0 ( 3) _Iyear_71 = 0 ( 4) _Iyear_72 = 0 ( 5) _Iyear_73 = 0 ( 6) _Iyear_75 = 0 ( 7) _Iyear_77 = 0 ( 8) _Iyear_78 = 0 ( 9) _Iyear_80 = 0 (10) _Iyear_82 = 0
(11) _Iyear_83 = 0
114 Instituto de Informtica
El p-value de la prueba F nos indica que rechazamos la Ho, por lo que es posible afirmar que las variables dicotmicas temporales son
- Autocorrelacin
Es
importante
sealar
que
an
cuando
hemos
modelado
la
heterogeneidad temporal y espacial en nuestro modelo, la ecuacin (5) puede estar mal especificada en otros aspectos. Recordemos que de acuerdo con los supuestos de Gauss-Markov, los estimadores MCO son los Mejores Estimadores Lineales Insesgados (MELI) siempre y cuando los errores
eit
frecuencia estas condiciones son violadas en datos panel: con respecto a la independencia cuando los errores de diferentes unidades estn correlacionados (correlacin contempornea), o cuando los errores dentro de cada unidad se correlacionan temporalmente (correlacin serial), o ambos. Tambin con respecto a la distribucin idntica de los errores cuando la varianza no es constante (heteroscedasticidad).
En esta seccin abordaremos al problema de la correlacin serial o autocorrelacin; es decir, cuando los errores eit no son independientes con respecto al tiempo. En nuestro ejemplo, es muy probable que el nivel de ingresos en t est asociado con el nivel de ingresos en t-1.
115
Datos de Panel
Existen muchas maneras de diagnosticar problemas de autocorrelacin7. Sin embargo, cada una de estas pruebas funciona bajos ciertos supuestos sobre la naturaleza de los efectos individuales. Wooldridge desarroll una prueba muy flexible basada en supuestos mnimos que puede ejecutarse con el comando xtserial. La hiptesis nula de esta prueba es que no existe autocorrelacin; naturalmente, si se rechaza, podemos concluir que sta s existe.8 El comando xtserial requiere que se especifiquen la variable dependiente e independientes de nuestro modelo. En nuestro ejemplo, indicamos:
Muchas de las pruebas que se utilizan para diagnosticar problemas de correlacin serial en series de tiempo han sido ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo PANELAUTO y PANTEST2 tecleando en la lnea de comando: ssc install panelauto y ssc install pantest2. 8 El mtodo de Wooldridge utiliza los residuales de una regresin de primeras diferencias, observando que si uit no est serialmente correlacionado, entonces la correlacin entre los errores uit diferenciados para el periodo t y t-1 es igual a -0.5. En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una discusin ms amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press. 116 Instituto de Informtica
La prueba nos indica que tenemos un problema de autocorrelacin que es necesario corregir. Una manera de hacerlo es a travs de un modelo de efectos fijos con trmino ( ) autorregresivo de grado 1 (AR1) que controla
por la dependencia de t con respecto a t-1. El modelo AR1 con efectos fijos se especifica de la manera:
donde
los errores tienen una correlacin de primer grado, . El modelo AR1 se puede implementar con el comando xtregar: . xtregar ln_wage age age2, fe 9 - Heterocedasticidad
Cuando la varianza de los errores de cada unidad transversal no es constante, nos encontramos con una violacin de los supuestos GaussMarkov. Una forma de saber si nuestra estimacin tiene problemas de heteroscedastidad es a travs de la prueba del Multiplicador de Lagrange de Breusch y Pagan. Sin embargo, de acuerdo con Greene, sta y otras pruebas son sensibles al supuesto sobre la normalidad de los errores; afortunadamente, la prueba Modificada de Wald para Heterocedasticidad funciona an cuando dicho supuesto es violado.10
10
Para una discusin sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 598. Pontificia Universidad Catlica del Per 117
Datos de Panel
nmero de unidades transversales (mujeres en nuestro ejemplo). Naturalmente, cuando la Ho se rechaza, tenemos un problema de heteroscedasticidad. Esta prueba puede implementarse en Stata con el comando xttest3 despus de estimar el modelo de efectos fijos: . xtreg ln_wage age age2, fe . xttest3
Modified Wald test for groupwise heteroskedasticity in fixed effect regression model
La prueba nos indica que rechazamos la Ho de varianza constante y aceptamos la Ha de heteroscedasticidad. Antes de abordar cmo solucionar nuestro problema de heteroscedasticidad, resulta conveniente analizar otro problema que surge de la estimacin con datos tipo panel.
- Correlacin contempornea
Las estimaciones en datos panel pueden tener problemas de correlacin contempornea si las observaciones de ciertas unidades estn
correlacionadas con las observaciones de otras unidades en el mismo periodo de tiempo. Como discutimos en la seccin sobre heterogeneidad, las variables dicotmicas de efectos temporales se incorporan al modelo para controlar por los eventos que afectan por igual a todas las unidades (personas) en un ao dado.
118
Instituto de Informtica
La correlacin contempornea es similar, pero con la posibilidad de algunas unidades estn ms o menos correlacionadas que otras. El problema de correlacin contempornea se refiere a la correlacin de los errores de al menos dos o ms unidades en el mismo tiempo t. En otras palabras, tenemos errores contemporneamente correlacionados si existen caractersticas inobservables de ciertas unidades que se relacionan con las caractersticas inobservables de otras unidades. Por ejemplo, los errores de dos personas pueden relacionarse pero mantenerse independientes de los errores de las dems personas. Por ejemplo, si las unidades fueran departamentos de un pas, una fuerte helada podra afectar a los departamentos agrcolas, disminuyendo la produccin y por tanto el ingreso. Pero este efecto probablemente no se manifieste en los departamentos no agrcolas.
El comando xttest2 de Stata ejecuta la prueba de Breusch y Pagan para identificar problemas de correlacin contempornea en los residuales de un modelo de efectos fijos. La hiptesis nula es que existe independencia transversal (cross-sectional independence); es decir, que los errores entre las unidades son independientes entre s. Si la Ho se rechaza, entonces existe un problema de correlacin contempornea.11
Tcnicamente, el comando xttest2 prueba la hiptesis de que la matriz de correlacin de los residuales, obtenida sobre las observaciones comunes a todas las unidades transversales, es una matriz de identidad de orden N, donde N es el nmero de unidades transversales. Para una discusin de esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601. Pontificia Universidad Catlica del Per 119
Datos de Panel
- Solucin
los
problemas
de
heterogeneidad,
correlacin
Los problemas de correlacin contempornea, heteroscedasticidad y autocorrelacin que hemos examinado pueden solucionarse
conjuntamente con estimadores de Mnimos Cuadrados Generalizados Factibles (Feasible Generalizad Least Squares FGLS), o bien con Errores Estndar Corregidos para Panel (Panel Corrected Standard Errors PCSE).
12
section data, 1995) demostraron que los errores estndar de PCSE son ms precisos que los de FGLS. Desde entonces, muchos trabajos en la disciplina han utilizado PCSE en sus estimaciones para panel 13
Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse. Las opciones que ofrecen estos comandos dependen de los problemas detectados en las pruebas que hemos revisado. La tabla mostrada a continuacin presenta los comandos ante problemas de correlacin contempornea, combinaciones. heteroscedasticidad y autocorrelacin, y sus
12
Para una introduccin tcnica pero fcil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, Time-Series-Cross-Section Data: What Have We Learned in the Past Few Years?, Annual Review of Political Science, 4: 271-93 (2001).
13
Hasta la fecha, el debate entre FGLS y PCSE contina, y ya se han desarrollado algunos mtodos alternativos. Como los clculos son hechos por la computadora, y en la mayora de casos no es costoso computacionalmente vale la pena estimar ambos mtodos y comparar resultados. 120 Instituto de Informtica
Estos comandos no calculan automticamente efectos fijos, por lo que en caso de ser necesario, se debe introducir variables dicotmicas con el comando xi.
En nuestro ejemplo sobre el gasto estatal, hemos detectado problemas de heterogeneidad, autocorrelacin. heteroscedasticidad, correlacin contempornea y
el comando:
121
Datos de Panel
122
6.2.
Panel Dinmico
El modelo bsico de datos de panel dinmico es:
123
Datos de Panel
Cuando la variable dependiente (la que queremos explicar) presenta inercia en el tiempo en un contexto de datos de paneles apropiado aplicar panel dinmico.
Ejemplo de estas variables son la participacin de mercado de un banco en el mercado local, pues es razonable que si una firma control el 40% del mercado en 2003 tenga una participacin parecida en 2004. El nmero de trabajadores en una firma tambin presenta esta inercia pues los cambios tecnolgicos ni los cambios en la escala suelen ser bruscos si no que se reparten en un perodo ms de tiempo largo.
Para modelar esta inercia se agregan rezagos de la variable dependiente, pero ello hara que tengamos variables dependientes al lado derecho de la ecuacin, lo que causara un problema de endogeneidad (y por ello los parmetros seran sesgados e inconsistentes). Para que ello no ocurra debemos emplear instrumentos.
Para tratar el tema de la exogeneidad de las variables del lado derecho de la ecuacin, estas se clasificaran en endgenas, exgenas y
predeterminadas.
Pero el empleo de instrumentos se realiza mediante las condiciones de ortogonalidad del Mtodo Generalizado de Momentos.
124
Instituto de Informtica
(w, )] = 0
El Mtodo Generalizado de Momentos consiste hallar los estimadores que hagan mas cierta las condiciones de ortogonalidad, pero no en el sentido de la metodologa de Mxima Verosimilitud, pues en GMM no se supone una forma especfica para la funcin de densidad de las perturbaciones sino mas bien haciendo que las condiciones de ortogonalidad muestrales estn ms cerca de cero.
No decimos que sean cero todas las condiciones de ortogonalidad pues normalmente eso no es posible pues tenemos ms condiciones de ortogonalidad que parmetros a estimar (problema de sobre identificacin) si no que una medida ponderada de su cercana a cero sea la menor posible.
Esa medida ponderada de su cercana a cero es una forma cuadrtica (la cual es una forma de medir distancias, en este caso para que las ecuaciones de ortogonalidad).
125
Datos de Panel
Se puede demostrar que la ponderacin ptima es la matriz de covarianzas de las condiciones de ortogonalidad, de manera que las condiciones de ortogonalidad que tengan ms varianza tengan menos peso en esa medida de distancia que las condiciones de ortogonalidad que tengan menor varianza.
MGM: minimiza una forma cuadrtica que es la medida de distancia de bn (c) a cero.
STATA tendr entonces que minimizar una forma cuadrtica, en la cual la dimensin de la matriz de covarianzas de las condiciones de momentos es crucial pues conforme aumente el nmero de periodos de tiempo y el nmero de rezagos aumentar la dimensin de esta, complicando la estimacin.
Con el comando set matsize es posible fijar hasta en 800 por 800 dicha matriz.
126
Instituto de Informtica
IMPORTANTE: Observe que la interpretacin de los coeficientes no cambia debido a esta transformacin del modelo pues siguen siendo los del modelo anterior.
Tenemos dos rezagos (por lo que perdemos dos observaciones por individuo), con la diferenciacin se pierde una observacin ms por lo que el nmero de filas es de T-p-1.
Como las
xit
xit
van a servir como sus propios instrumentos, por lo que tenemos k1 columnas al final de la matriz. Asumiendo que las
it
no estn
autocorrelacionadas, para cada perodo podemos emplear los rezagos de la dependiente como instrumentos: en t=4 podemos emplear y1, y2, para t=5 podemos emplear y1, y2, y3, hasta que para t=T podemos emplear y1, y2, y3, yT-3, yT-2
127
Datos de Panel
Finalmente tenemos:
Las variables endgenas se tratan del mismo modo que las variables dependientes rezagadas (siendo los rezagos de orden p o mayores instrumentos vlidos, mientras que para las predeterminadas los rezagos p-1 o mayores son instrumentos vlidos.
Para el caso de paneles incompletos se eliminan las filas donde no hay datos y se reemplazan con ceros las columnas donde no se requieran datos.
La matriz de covarianzas de
128
Instituto de Informtica
Ejemplo:
. ds c1 ind emp indoutpt k wage n cap w yearm1 nL2 wL1 kL1 kL2 yr1976 yr1979 yr1982
ys id rec nL1
En el ejemplo la variable w es el logaritmo neperiano del salario, mientras que la variable k es el logaritmo natural stock de capital de la i-sima firma y la variable ks es el logaritmo natural del producto de la i-sima firma.
i-
sima firma. Primero estimaremos un modelo con un solo rezago de la variable dependiente:
. xtabond n w L.w
129
Datos de Panel
La hiptesis nula del contraste de Sargan es que las restricciones en exceso provenientes de la sobre identificacin (tenemos mas condiciones de ortogonalidad que parmetros a estimar) son vlidas (son muy cercanas a cero). El resultado obtenido podra deberse a la presencia de heterocedasticidad.
La existencia de autocorrelacin de primer orden en los residuos diferenciados no causa que los estimados sean inconsistentes, por lo cual el resultado obtenido no es grave. La autocorrelacin de segundo orden en los residuos rezagados si es problemtica pues podra causar que los estimados sean inconsistentes. Por ello buscaremos otras
especificaciones
130
Instituto de Informtica
131
Datos de Panel
xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) robust xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) twostep
Observar que con la opcin twostep no se rechaza la hiptesis nula del contraste de Sargan. Hasta este punto no hemos incluido variables endgenas ni variables predeterminadas en la estimacin:
La variables endgenas son las que tienen una relacin contempornea con la dependiente mientras que las predeterminadas son variables tales que los residuos estn no correlacionados con los valores actuales y rezagados de estas variables pero eso no ocurre (es decir estn correlacionados) con sus valores futuros.
of
obs
611
132
Instituto de Informtica
Warning: Arellano and Bond recommend using one-step results for inference on coefficients Sargan test of over-identifying restrictions: chi2(86) = 89.45 Prob > chi2 = 0.3783 Arellano-Bond test that average autocovariance in residuals of order 1 is 0: H0: no autocorrelation z = -4.04 Pr > z = 0.0001
Pontificia Universidad Catlica del Per 133
Datos de Panel
Arellano-Bond test that average autocovariance in residuals of order 2 is 0: H0: no autocorrelation z = -0.37 Pr > z = 0.7123 . xtabond n l(0/1).ys yr1980-yr1984, lags(2) twostep pre(w, lag(1,.) endog) pre(k, lag(2,.) endog)
134
Instituto de Informtica
135
Datos de Panel
136
Instituto de Informtica
7.
Introduccin a la programacin
7.1. Macros local y global
Una herramienta bsica en la programacin en STATA es el uso de las macros que permiten realizar el trabajo de forma ms eficiente. Se puede ver una macro en STATA como un alias que tiene un nombre y un valor.
Cuando el nombre de una macro es referenciado se puede obtener su valor. Una macro puede contener cualquier combinacin de caracteres alfanumricos y puede contener hasta 8000 caracteres. El valor de un macro puede ser modificado por otro comando.
Existen dos tipos de macros en STATA definidas como local y global. El contenido de las macros global es definido mediante el comando global mientras que en el caso de las macros local es definido con el comando local. Las macros local existen slo en el programa (ado) o el do-file definido. Es decir, si se abre otro programa o do- file las macros local utilizadas con anterioridad no estarn disponibles. La macro local es un contenido que puede mantener un objeto (como un nombre de una variable o un nmero) o un conjunto de objetos.
Las macros global existen para la duracin de un programa o una sesin de STATA. Otra diferencia con respecto a las macros local es que la forma como se referencian.
137
Introduccin a la programacin
Las macros global son utilizadas frecuentemente para guardar los tems paramtricos de un programa, como puede ser un carcter string que contenga el nombre del directorio defult en donde las bases de datos o los do-files sern accesados.
Las macros de STATA son tiles para construir listas, contadores o ndices de enlace (loop indices). Su uso puede ser extendido para retomar valores de los comandos de STATA (ver return). Se pueden utilizar una serie de funciones macro que pueden ser tiles para extraer etiquetas de una variable, extraer el nmero de columnas o filas de una matriz, entre otros.
7.2.
Las herramientas ms potentes son los comandos forvalues y foreach. La sintaxis de estos comandos es muy familiar para usuarios de C y otros lenguajes de programacin modernos. No se suele utilizar en mayor medida otros comandos como for (en desuso) o while (que requiere especificar un contador como una macro local).
El comando forvalues permite enlazar valores consecutivos, repitiendo un conjunto de macros local a cada elemento definido en el rango y ejecuta los comandos que se colocan entre corchetes.
138
Instituto de Informtica
Se define la macro local i como un ndice de enlace, siendo el rango 1(1)5. Se ejecutar el comando entre corchetes para cada valor en el rango. Asimismo, el rango se puede definir de distintas maneras.
El comando forvalues suele utilizarse para enlazar variables que tienen un componente numrico (entero) comn consecutivo. En otros casos se suele utilizar el comando foreach. El comando foreach repite un conjunto de macros local a cada elemento de la lista (que incluyen macros local y global) y ejecuta los comandos que se colocan entre
139
Introduccin a la programacin
corchetes. Como en el caso de forvalues una macro local es definida como un ndice de enlace.
El loop es ejecutado 0 o ms veces, ejecutndose desde 0 si es que la lista est vaca. En vez de realizar el ciclo de acciones sobre un conjunto de valores numricos, foreach especifica que el ndice loop itera a travs de los elementos de la macro local o global, de los nombres de las variables especificadas (varlist) o de los elementos explcito de elementos (numlist).
Ejemplo: foreach z in PER ARG PAR MEX { generate double lnx`z'=log(x`z') summarize lnx`z' }
El comando foreach puede trabajar con una lista de variables especficas varlist, un newvarlist de las variables que crea y un listado explcito de elementos numlist.
7.3.
Escalares y matrices
7.3.1. Escalares
STATA utiliza escalares y matrices. Los escalares pueden contener valores string (hasta 244 caracteres) o un nico valor numrico. Los comandos de anlisis (describe, sum, entre otros) de STATA dan los resultados como escalares numricos (ver return). Adicionalmente, los escalares pueden ser utilizados para guardar resultados numricos.
140
Instituto de Informtica
En el clculo numrico es ms fcil utilizar escalares. Si una macro contiene valores numricos estos deben ser convertidos previamente, mientras que en el caso de los escalares no se requiere de ninguna transformacin.
Un escalar opera como una expresin. Es decir, no se puede especificar un escalar como parte de un rango, in range, en la medida que ningn valor ser extrado. Se debe utilizar if exp desde que contiene una expresin numrica.
Los comandos de estimacin de STATA (reg, xtreg, entre otros) crean tanto escalares como matrices. Por ejemplo, con el comando reg se crea la matriz e(b) que contiene los estimadores de los parmetros, e(V) que contiene la matriz de varianzas y covarianzas de los estimadores.
7.4.
Matrices
STATA ha desarrollado un lenguaje matricial que soporta un amplio rango de operaciones matriciales.
Con los comandos matrix tradicionales el tamao de las matrices es limitado segn las distintas versiones del STATA. Asimismo STATA posee de comandos especializados como matrix accum- que calcula productos cruzados de matrices de cualquier nmero de observaciones. Hay tambin otras variaciones de dicho comando como -matrix glsaccum-, -matrix vecaccum- y -matrix opaccum-.
Las matrices en STATA son tiles para guardar los resultados. Tambin son una forma de presentar la informacin de manera organizada. Muchas operaciones no pueden ser realizadas con los comandos matrix tradicionales. Por ejemplo si
Pontificia Universidad Catlica del Per 141
Introduccin a la programacin
bien el comando matrix mkmat permite crear una matriz a partir de una lista de variables, el nmero de observaciones de la matriz es limitado.
Por otro lado, los comandos clsicos y los del lenguaje MATA y en general cualquier lenguaje matricial tiene limitaciones a la hora de trabajar con expresiones matriciales complejas (panel, SUR, entre otros) sobretodo si se consideran la memoria disponible en la PC. En estos casos es preferible trabajar con enlaces que permitan simplificar el clculo matricial.
Por ejemplo en vez de realizar el clculo matricial para estimar un SUR se puede generar un loop en donde se realice regresiones de distintas ecuaciones, los dos procedimientos dan el mismo resultado pero el ltimo no requiere de tantos recursos informticos.
7.5.
Modulo MATA
MATA es un lenguaje algebraico matricial usado por programas como Matlab o Gauss y entre sus virtudes se puede mencionar la eficiencia. Para acceder al modulo basta iniciar la sesin con la palabra MATA, a partir de ese momento todo lo convencional utilizado hasta este momento deja de funcionar siendo slo posible ejecutar comandos que guarden relacin con el mdulo. Algunas utilidades que se deberan conocer son: Solicitar ayuda general del mdulo: -help mata Solicitar ayuda especfica: -help mata cholesky Bsqueda con palabra clave: -search mata determinant-
Para cerrar la sesin MATA y volver al formato convencional del STATA se tiene que ejecutar la orden -end-. A modo de ilustracin las siguientes lneas permiten cargar los datos a un formato matricial y estimar las pendientes bajo MCO de la siguiente especificacin: price=f(mpg, weight).
Otra aplicacin que ilustra la flexibilidad del comando y que prescinde convenientemente de la orden -end- es la siguiente: sysuse auto mkmat price mpg,matrix(y) mata: y2=st_matrix("y") mata: mean(y2) mata: rows(y2) mata: cols(y2)
7.6.
Los principales comandos de anlisis de STATA, incluidos los nuevos comandos que el propio usuario define, pueden ser clasificados en las siguientes clases: r-class: comandos diversos (excluidos los de estimacin) tales como table, sumaries, entre otros. e-class: comandos de estimacin como regress, xtreg, entre otros que estiman modelos estadsticos. Cada clase de comando determina si los resultados son guardados en r() o e(). Existen otras clases s-class, n-class y c-class que se utilizan con menor frecuencia (vase h return). Con el comando -return list- o -ereturn list-, segn sea el caso, se pueden ver los elementos guardados en r() ( e()) correspondiente a los comandos de clase r (e).
Ejemplos:
143
Introduccin a la programacin
La ejecucin consecutiva de comandos r-class reemplazarn la lista return con los respectivos valores de return. Si se quiere trabajar con dichos item estos se tienen que guardar como macros local o como escalares.
La mayora de comandos e-class retornan cuatro tipos de objetos de STATA: escalares, macros, matrices y una funcin de STATA e(sample) que asigna 1 a cada observacin incluida en la estimacin y 0 en otro caso.
144
Instituto de Informtica
8.
Adems, Stata proporciona estadsticos con los cuales se puede evaluar la confiabilidad del resultado en forma simultnea a su estimacin. De esta manera el usuario est en la capacidad de interpretar y utilizar adecuadamente cada estimacin proveniente de la encuesta.
Los principales elementos que se deben tener en cuenta en el trabajo con datos de encuestas por muestreo son: Ponderacin: En las encuestas por muestreo, las observaciones son seleccionadas mediante un proceso aleatorio, donde cada observacin puede tener una probabilidad de seleccin diferente. La ponderacin (o peso) de una observacin (hogar, por ejemplo) es igual a la inversa de la probabilidad de pertenecer a la muestra. Es usual que luego del trabajo de campo se realicen ajustes sobre esta ponderacin, debido, por ejemplo, al efecto de la No-Respuesta. Un peso wj de una observacin j significa que la observacin, j representa a wj elementos de la poblacin. Si
no se toman en cuenta las ponderaciones, las estimaciones que se obtengan estarn sesgadas. Conglomerados o cluster: Algunas veces se utiliza el muestreo por conglomerados, es decir las observaciones son muestreadas en grupos o clusters, por ejemplo, provincias dentro de departamentos, distritos dentro de provincias y finalmente viviendas dentro de los distritos seleccionados, que son el objetivo final del muestreo. Todas las observaciones de un mismo cluster no son independientes entre s, si no se toma en cuenta este hecho, los errores estndar que se obtengan sern menores a los verdaderos.
Pontificia Universidad Catlica del Per 145
Estratos: En algunos casos, tambin se emplea el muestreo estratificado, donde diferentes grupos de observaciones o estratos, son muestreados en forma independiente. Al igual que el caso anterior, si no se toma en cuenta este hecho, se obtendrn sub estimaciones de los errores estndar verdaderos.
Stata permite incorporar el DISEO MUESTRAL (ponderaciones, conglomerados y estratos) antes de ejecutar las estimaciones. Es decir, utiliza las frmulas de estimacin de estadsticos propias de cada tipo de muestreo. Todos los comandos para el anlisis de datos provenientes de encuestas comienzan con las letras svy
8.1.
Encuestas como la Enaho, que posee un diseo complejo, es necesario especificar las variables que contienen las ponderaciones, los conglomerados y los estratos, antes de obtener cualquier estimacin.
146
Instituto de Informtica
. svydes
Estimacin de Promedios: SVYMEAN Se utiliza para calcular promedio de variables cuantitativas Por defecto presenta el promedio estimado, el error estndar, el intervalo de 95% de confianza y el efecto de diseo de esta estimacin Se pueden utilizar las opciones if y by.
147
Estimacin de Proporciones: SVYPROP Presenta el nmero de observaciones, la proporcin estimada y el error estndar de esta estimacin de los casos de la muestra respecto a las categoras de una variable dada Se pueden utilizar las opciones if y by.
Cruce de dos variables : SVY: TAB Produce una tabla de dos entradas con la proporcin de la muestra que pertenece a cada celda (cruce da variables), respecto al total de la muestra. Para modificar el contenido de la tabla se deben especificar los estadsticos despus de una coma
148
Instituto de Informtica
En caso de que se desee estimar las proporciones respecto a filas o columnas, basta con indicar row o column despus de la coma. Se puede utilizar la opcin if
149
Pearson: Uncorrected chi2(8) = 624.9913 Design-based F(6.75,6288.86) = 45.3989 . svy: tab,se ci deff P = 0.0000
150
Instituto de Informtica
Regresin Lineal: SVY: REG Produce la estimacin de un modelo de regresin lineal con variable dependiente cuantitativa. Por defecto, el comando svyreg muestra el valor estimado, el error estndar, el intervalo de 95% de confianza y el efecto del diseo de cada uno de los coeficientes de regresin Se pueden utilizar las opciones if y by
151
152
Instituto de Informtica
153
. svyreg, deft
154
Instituto de Informtica
NOTAS
155
NOTAS
156
Instituto de Informtica
157
NOTAS
158
Instituto de Informtica