Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Basico
Aplicado a la Investigaci
on Econ
omica
2 de marzo de 2016
2
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
Indice general
Indice general 3
1. Introducci on al Stata 5
1.1. Iniciando Stata . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Tipos de Archivos en Stata . . . . . . . . . . . . . . . . . . . . . 6
1.3. Estructura Basica de Stata . . . . . . . . . . . . . . . . . . . . . 6
1.4. Principales Comandos de Trabajo y Analisis . . . . . . . . . . . 7
1.4.1. Las Bitacoras . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2. La Base de Datos . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3. Append, Merge, Collapse . . . . . . . . . . . . . . . . . . 9
2. Manejo de Datos 15
2.1. Cargando los Datos en Stata . . . . . . . . . . . . . . . . . . . . 15
2.2. Etiquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Comando IF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4. Comando SUMMARIZE . . . . . . . . . . . . . . . . . . . . . . 18
2.5. Comando SPLIT . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6. Creando Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7. KEEP y DROP . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.8. Reestructurando los Datos . . . . . . . . . . . . . . . . . . . . . 24
2.9. Muestreos Probabilsticos . . . . . . . . . . . . . . . . . . . . . . 26
2.10. Generacion de Numeros Aleatorios . . . . . . . . . . . . . . . . 26
2.11. Percentiles, Cuartiles, Deciles . . . . . . . . . . . . . . . . . . . 27
3
4 INDICE GENERAL
3.6.1. Esquemas . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.2. Graficos de Barras Verticales . . . . . . . . . . . . . . . . 49
3.6.3. Graficos de Barras Horizontales . . . . . . . . . . . . . . 49
3.6.4. Graficos de Cajas . . . . . . . . . . . . . . . . . . . . . . 50
3.6.5. Graficos de Pastel . . . . . . . . . . . . . . . . . . . . . . 51
Bibliografa 79
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
Sesi
on 1
Introducci
on al Stata
5
6 1. Introducci
on al Stata
1.3. Estructura B
asica de Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
1.4. Principales Comandos de Trabajo y An
alisis 7
use auto.dta
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
8 1. Introducci
on al Stata
use auto01.dta
browse
list make
list make price
describe
codebook
tabulate mpg
table mpg
table rep78, contents(n mpg)
table rep78, contents(n mpg mean mpg sd mpg median mpg)
table rep78, c(n mpg mean mpg sd mpg median mpg) format(%9.2f)
sort mpg
gsort mpg
gsort -mpg
sort foreign
by foreign: summarize price
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
1.4. Principales Comandos de Trabajo y An
alisis 9
count
count if foreign==0
count if foreign==1
by foreign: count
generate orden=_n
rename orden num_obs
by foreign: egen prom_mill=mean(mpg)
drop num_obs
keep make price mpg prom_mill
clear
use base1, clear
list
use base2, clear
list
use base3, clear
list
use base4, clear
list
Vamos a empezar observando cada una de las bases de datos que tenemos,
veamos la figura1.4 Empecemos nuestra tarea en Stata, podemos observar que
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
10 1. Introducci
on al Stata
la base de datos Base1 tiene los mismos campos (columnas) que la base de
datos Base2, pero diferentes filas, seria u
til, unir ambas bases.
Abramos entonces, la base de datos Base1 y peguemosla con la base de
datos Base2, una union vertical.
use base1.dta, clear
list
append using base2
list
save base12.dta, replace
list
Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos los
resultados:
use base3.dta, clear
list
append using base4
list
save base34.dta, replace
list
Por que la variable la variable sexo se a
nadio 2 veces como columna?por
que no se unio en una sola columna?
use base3.dta, clear
list
rename Sexo sexo
list
save base03.dta, replace
use base03.dta, clear
list
append using base4
list
save base034.dta, replace
Ahora si resulto bien la union vertical. Veamos la base12 que tenamos
antes.
Ahora mi interes es fusionar ambas bases de datos, para ello, primero de-
bemos ordenar ambas bases seg un la variable con la que vamos a fusionar (la
variable com
un).
use base034.dta, clear
list
sort nombre
list
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
1.4. Principales Comandos de Trabajo y An
alisis 11
clear
use base12s.dta, clear
list
merge nombre using base034s.dta
list
save basetotal.dta, replace
tab _merge
Analicemos los resultados. Hay tres posibles valores que puede tomar esta
variable seg
un lo muestra la figura1.6. Si toma el valor de 1 nos indicara que
es una observacion que solo se encuentra en la base matriz, si toma el valor
de 2 nos indicara que es una observacion que proviene de la base esclava, y si
toma el valor de 3, nos indicara que la observacion proviene de ambas bases.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
12 1. Introducci
on al Stata
El comando collapse sirve para convertir una base de datos que contiene va-
riables para diversas unidades de estudio, en una base de datos que contiene
estadsticos de dichas variables (medias, medianas, sumas etc). Permite obte-
ner estadsticos para unidades mas grandes (en un sentido jerarquico), como
por ejemplo, pasar de datos por individuo a datos por hogar, de datos por
distritos a datos por provincia (agregacion)
En el comando se especifican aquellas variables que se colapsan y las con-
diciones que se imponen para dicha transformacion. Algunas variables pueden
ser colapsadas seg un su suma, otras seg
un su media, etc. (ver figura1.7)
Aquellas variables que no se especifican desaparecen automaticamente de
la base de datos. Este comando crea una nueva base de datos y cierra la base
de partida. Si deseamos quedarnos con esta base debemos grabarla.
Basado en los WDI, genere una base de datos con los totales de CO2 emi-
tidos por region, para el a
no 2002. Genere tambien una base con la poblacion
mundial a lo largo del tiempo.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
1.4. Principales Comandos de Trabajo y An
alisis 13
collapse age
list
Basado en los WDI, genere una base de datos con los totales de CO2 emi-
tidos por region, para el a
no 2002. Genere tambien una base con la poblacion
mundial a lo largo del tiempo.
use wdi,clear
collapse (sum) co2 if year==2002, by(region)
graph hbar (asis) co2, over(region)
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
14 1. Introducci
on al Stata
RETO 1
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
Sesi
on 2
Manejo de Datos
use auto.dta
describe
summarize
generate price2=2*price
describe
save auto2.dta
generate price3=3*price
save auto2.dta
save auto2.dta, replace
generate price4=4*price
use auto.dta
use auto.dta, clear
clear
2.2. Etiquetas
Aprendamos a etiquetar a nuestras bases de datos o variables para poder
identificarlas en un futuro y as poder trabajar de forma mas ordenada.
use auto.dta
describe
label data "Este archivo contiene datos de autos para el a~
no 1978"
describe
label variable rep78 "Record de reparaci
on en 1978"
label variable price "Precio del carro en 1958"
label variable mpg "Millas por galon para el carro"
15
16 2. Manejo de Datos
clear
use iraninos.dta
set more off
label define sexow 0 "mujer"
label define sexow 1 "hombre", add
describe
browse
label values sexo sexow
describe
browse
label drop sexow
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
2.3. Comando IF 17
2.3. Comando IF
La estructura del comando IF es facil de recordar, la figura2.1 nos muestra
el esquema base.
clear
use auto.dta
keep make rep78 foreign mpg price
tabulate rep78 foreign
tabulate rep78 foreign if (rep78 >=4)
tabulate rep78 foreign if (rep78 >=4), column nofreq
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
18 2. Manejo de Datos
use auto
summarize
summarize price mpg
summarize mpg price if (foreign == 1)
summarize mpg price if (foreign == 1) & (mpg <30)
summarize mpg price if (foreign == 1) & (mpg <30) , detail
summarize in 1/10
by foreign: summarize
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
2.6. Creando Variables 19
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
20 2. Manejo de Datos
tabulate mpg
generate mpg3 = .
replace mpg3 = 1 if (mpg <= 18)
replace mpg3 = 2 if (mpg >= 19) & (mpg <=23)
replace mpg3 = 3 if (mpg >= 24) & (mpg <.)
tabulate mpg mpg3
Veamos un ejemplo con categoras, ahora deseamos crear una variable que
nos muestre el millaje de los carros respecto a su origen, esta tomara el valor
de 0 para valores por debajo de la media de mpg en el grupo domestico y
extranjero y 1 para valores por encima de la media de mpg en los grupos
domestico y extranjero.
sort foreign
by foreign: summarize mpg, detail
Que observamos?
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
2.6. Creando Variables 21
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
22 2. Manejo de Datos
clear
use auto.dta
decode A, generate(B)
describe make A B
use auto
describe
keep make mpg price
describe
use auto, clear
drop displacement gear_ratio
describe
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
2.7. KEEP y DROP 23
Ya hemos visto como el uso de keep, drop, keep if y drop if, puede sernos
u
til si queremos eliminar variables innecesarias y as tener mas memoria de
trabajo. Ahora veamos en la figura2.7 la estructura del comando use y los
criterios de seleccion.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
24 2. Manejo de Datos
clear
clear
use ingfam.dta
list
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
2.8. Reestructurando los Datos 25
reshape wide
list
reshape long
list
Veamos una base de datos que nos brinda informacion sobre los las alturas
de un conjunto de ni
nos de 1 y 2 a
nos de edad
use ni~
noaltpes, clear
list codfam nacimiento alt1 alt2
Veamos como podemos transformar esta base de datos a una forma long.
Cual es la raz de la variable que sera convertida de la forma wide a la forma
long? Que variables identifican a los individuos en la estructura wide? Como
llamaremos a la variable que contendra a los sufijos de la variable raz?
reshape long alt, i( codfam nacimiento) j(edad)
list codfam nacimiento edad alt
use ni~
noaltpes,clear
list codfam nacimiento alt1 alt2 pes1 pes2
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
26 2. Manejo de Datos
2.10. Generaci
on de N
umeros Aleatorios
Crearemos un archivo vaco para 100 observaciones:
set obs 100
Generamos n
umeros aleatorios con distribucion uniformes U(0,1)
gen x = uniform()
Luego generamos n
umeros aleatorios con distribucion normal N(0,1)
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
2.11. Percentiles, Cuartiles, Deciles 27
gen y = invnorm(uniform())
Para generar una variable con distribucion uniforme U(a,b)
generate y = a + (b-a) * uniform()
Para generar una variable con distribucion normal N(u,o)
generate z = u + o
^ * invnorm(uniform())
Generemos una variable notas, igual a U(0,20) + N(0,1)
gen notas = 20*uniform() + invnorm(uniform())
Trunquemosla en el rango de 0 a 20
replace notas = clip(notas, 0, 20)
format notas %3.1f
Generemos una variable sexo que sea 1 si es hombre y 0 si es mujer
gen sexo = uniform() > 0.5
Generemos una variable ingreso que valla del 2000 al 2007
gen ingreso = 2000 + floor(8*uniform())
XTILE
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
28 2. Manejo de Datos
PCTILE
El comando pctile genera una variable con los puntos de corte entre cada
cuantil.
Por ejemplo, generemos una variable decimo que sea 1 si es decimo superior,
y 0 caso contrario. Hagalo de 2 formas distintas
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
2.11. Percentiles, Cuartiles, Deciles 29
RETO 2
. Con una sola instruccion (un solo comando) muestre las siguientes estadsti-
cas descriptivas para el gasto per capita en todos los departamentos del pas
(percentil 99, media, desviacion estandar, rango).
. El INEI calcula las estadsticas de pobreza bajo el metodo del gasto, pa-
ra lo cual utilizara la variable gasto total y la dividira entre el total de
personas en el hogar para calcular el gasto per capita. Luego generara una
variable que valga uno en caso el hogar supere la lnea de pobreza per capita
(linea06) y cero en caso contrario. Finalmente, se le pide estimar para cada
departamento cual es el nivel de pobreza considerando que un individuo es
pobre si pertenece a un hogar pobre.
. Con el modulo de educacion construya una tabla que muestre para cada do-
minio geografico el porcentaje de personas seg un nivel educativo alcanzado,
para lo cual considerara solo tres niveles: 1, al menos primaria incompleta,
2, Al menos secundaria completa y 3, superior.
. Al modulo educacion a
nada la variable gasto per capita, calculado en la base
sumaria como el cociente entre gasto total y total de miembros del hogar.
Luego, cree una variable que contenga los cuartiles (1,2,3,4) del gasto per
capita y construya una tabla cruzada entre el nivel educativo y la nueva
variable que ha creado para todas aquellas personas que no residen en Lima
Metropolitana.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
30 2. Manejo de Datos
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
Sesi
on 3
An
alisis Grafico con Stata
31
32 3. An
alisis Grafico con Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.2. TWOWAY 33
3.2. TWOWAY
El S&P 500 es el ndice mas seguido para tener una idea del desempe no
general de las acciones estadounidenses. Este ndice consiste de las acciones de
500 empresas que fueron seleccionadas por su tama no, liquidez (que tan facil
es comprar o vender sus ttulos) y representatividad por actividad economi-
ca, incluyendo 400 industriales, 20 del sector transporte, 40 de servicios y 40
financieras. Solo se toman en cuenta empresas estadounidenses. Vale la pena
destacar que el peso de cada accion dentro del ndice corresponde a la propor-
cion que representa el valor de mercado de la empresa dentro del total de las
500 empresas que conforman el ndice. El valor de mercado del capital es igual
al precio por accion multiplicado por el n
umero total de acciones.
Usemos la base de datos S&P 500.(ver figura3.5
clear
use s&p.dta
describe
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
34 3. An
alisis Grafico con Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.2. TWOWAY 35
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
36 3. An
alisis Grafico con Stata
clear
use highschool.dta
describe
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.2. TWOWAY 37
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
38 3. An
alisis Grafico con Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.3. TWOWAY y SCATTERPLOT 39
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
40 3. An
alisis Grafico con Stata
3.4.2. Uni
on de Gr
aficos
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.4. Combinando TWOWAY Y SCATTERPLOT 41
twoway (scatter read write) (scatter math write) (lfit read ///
write) (lfit math write)
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
42 3. An
alisis Grafico con Stata
twoway (scatter read write) (scatter math write) (lfit read ///
write) (lfit math write), legend(label(3 "Ajuste Lineal") ///
label(4 "Ajuste Lineal")) legend(order(1 3 2 4))
twoway (scatter read write) (scatter math write) (lfit read ///
write, pstyle(p1) range(25 80) ) (lfit math write, ///
pstyle(p2) range(25 80) ), legend(label(3 "Ajuste Lineal") ///
label(4 "Ajuste Lineal")) legend(order(1 3 2 4))
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.5. Opciones para Edici
on de Gr
aficos 43
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
44 3. An
alisis Grafico con Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.5. Opciones para Edici
on de Gr
aficos 45
position(5))
caption(Grupo IDDEA.SAC, size(vsmall) position(5))
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
46 3. An
alisis Grafico con Stata
use encuesta.dta
use s&p.dta
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.6. Trabajando con Esquemas y Gr
aficos Adicionales 47
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
48 3. An
alisis Grafico con Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.6. Trabajando con Esquemas y Gr
aficos Adicionales 49
3.6.2. Gr
aficos de Barras Verticales
use nlsw.dta
graph bar ttl_exp
graph bar prev_exp tenure ttl_exp
graph bar (median) prev_exp tenure ttl_exp
graph bar (median) prev_exp tenure (mean )ttl_exp
graph bar (mean) meanwage=wage (median ) medwage=wage
graph bar prev_exp tenure, over(occ5)
graph bar prev_exp tenure, over(occ5) percentages
graph bar prev_exp tenure, over(occ5) percentages stack
use highshool.dta
graph bar write, over( race) over( female) over( ses) ///
legend(rows(1) stack) blabel(bar, format(%4.1f) size(vsmall)) ///
bargap(10) percent scheme(vg_blue)
3.6.3. Gr
aficos de Barras Horizontales
use nlsw.dta
graph hbar wage, over(occ5)
graph hbar wage, over(occ5) over(collgrad)
graph hbar wage,over(urban2) over(occ5) over(collgrad)
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
50 3. An
alisis Grafico con Stata
3.6.4. Gr
aficos de Cajas
use nlsw.dta
graph box wage, over(grade4)
graph box wage, over(grade4) nooutsides
graph box wage, over(grade4) nooutsides over(union)
graph box wage, over(grade4) nooutsides over(union) ///
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.6. Trabajando con Esquemas y Gr
aficos Adicionales 51
asyvars
graph box wage, over(grade4) nooutsides over(union) ///
asyvars over(urban2)
graph hbox tenure, nooutsides over(occ7)
graph hbox tenure, nooutsides over(occ7, sort(1))
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1))
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1)) over(collgrade)
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1)) over(collgrad)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total row(1))
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total cols(1))
3.6.5. Gr
aficos de Pastel
use nlsw.dta
graph pie, over(occ7)
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
52 3. An
alisis Grafico con Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
3.6. Trabajando con Esquemas y Gr
aficos Adicionales 53
RETO 3
CLASIFICACION DE RIESGOS
La base de datos deudores, tiene informacion acerca de la edad, sexo,
distrito, ingresos, deuda, y calificacion de la deuda, para 19,000 deudores.
. Que AFP tiene mas clientes? Realice una grafica sustentando su respuesta.
. Genere una dummy mal pagador, que sea 1 si el deudor esta atrasado con
sus deudas
. A que edad las personas se atrasan menos? Realice una grafica sustentando
su respuesta.
. Que distritos son los mas ricos? En cuales la gente es peor pagadora?
Realice una grafica sustentando sus resultados.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
54 3. An
alisis Grafico con Stata
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
Sesi
on 4
An
alisis de Regresi
on Lineal
4.1. Regresi
on Lineal
Ahora vamos a trabajar con las herramientas que hemos aprendido y va-
mos a generar relaciones econometricas. Empecemos con evaluar una regresion
MCO.
use elemapi.dta
regress api00 acs_k3 meals full
55
56 4. An
alisis de Regresi
on Lineal
list in 1/5
tabulate acs_k3
histogram acs_k3
stem acs_k3
stem full
tabulate full
count if dnum==401
Hemos encontrado 3 problemas en la data, valores perdidos, valores nega-
tivos insertados de manera incorrecta y proporciones introducidos como por-
centajes.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
4.1. Regresi
on Lineal 57
use elemapi2.dta
regress api00 acs_k3 meals full
Digamos que estamos interesados en saber cual es la relacion entre el nu-
mero de estudiantes y el rendimiento academico.
regress api00 enroll
Primero debemos fijarnos en el test F, y ver si es significativo, lo cual nos
mostrara la significancia del modelo. El R2 nos dira que tanto de la varianza
de nuestra variable endogena, es explicado por los regresores. Luego debemos
observar la significancia de los parametros, ver si sus signos son acorde con la
teora. La constante es el valor predecido para cuando nuestra explicativa sea
cero.
Podemos observar tambien que Stata nos presenta la descomposicion de la
varianza. La varianza total esta particionada en la varianza explicada por las
variables independientes (model) y la varianza que no es explicada por dichas
variables(residual). Sabemos que existe una suma de cuadrados asociada a las
tres partes de la varianza. Conceptualmente estas son:
X
SST = (y y)2
X
SSR = (y y)2
X
SSM = y y)2
(
predict fv
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
58 4. An
alisis de Regresi
on Lineal
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
4.2. Diagnostico de los Resultados 59
pwcorr api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///
emer enroll, obs sig
histogram enroll
histogram enroll, normal bin(20)
histogram enroll, normal bin(20) xlabel(0(100)1600)
kdensity enroll, normal
graph box enroll
symplot enroll
qnorm enroll
pnorm enroll
ladder enroll
gladder enroll
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
60 4. An
alisis de Regresi
on Lineal
use crimen.dta
describe
sum crimenes asesinatos pcturb pctblanco pctnivedu pobreza soltero
graph matrix crimenes pcturb pobreza soltero
predict r, rstudent
stem r
sort r
list estadoid estado r in 1/10
list estadoid estado r in -10/l
findit hilo
hilo r estado
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
4.2. Diagnostico de los Resultados 61
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
62 4. An
alisis de Regresi
on Lineal
regress
regress crimenes pcturb pobreza soltero if estado !="dc"
use elemapi2,clear
regress api00 meals ell emer
predict r, resid
An
alisis grafico de normalidad
kdensity r, normal
pnorm r
qnorm r
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
4.4. Homocedasticidad del Residuo 63
Test de Normalidad
Test de Lawrence C. Hamilton
findit iqr
iqr r
Test de Shapiro-Wilk W (Ho: Normalidad)
swilk r
Test de White
estat imtest
Test de Breusch y Pagan
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
64 4. An
alisis de Regresi
on Lineal
estat hettest
4.5. Multicolinealidad
Cuando dos variables explicativas estan altamente relacionadas, podemos
hablar de multicolinealidad. Para detectar la multicolinealidad nosotros usa-
remos el factor de inflacion de varianza (VIF) Aquella variable cuyo vif sea
mayor a 10 debera ser investigada.
findit collin
collin acs_k3 avg_ed grad_sch col_grad some_col
collin acs_k3 grad_sch col_grad some_col
4.6. Linealidad
Uno de los supuestos del Modelo Lineal General es la linealidad de para-
metros especificada en mi regresion. Si estamos frente a un ajuste no lineal,
entonces nosotros tendremos problemas dado que estamos forzando una lnea
como ajuste de nuestra relacion no lineal.
Analicemos solo a una variable.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
4.7. Especificaci
on del modelo 65
use nations.dta
describe
regress birth gnpcap urban
acprplot gnpcap, lowess
acprplot urban, lowess
graph matrix birth gnpcap urban, half
Transformemos un dato
generate lggnp=log(gnpcap)
label variable lggnp "log-10 of gnpcap"
kdensity lggnp, normal
4.7. Especificaci
on del modelo
Un error en la especificacion del modelo puede ocurrir cuando uno o mas
variables relevantes son omitidas del modelo o una o mas variables relevantes
son incluidas en el modelo. Una mala especificacion puede afectar los parame-
tros estimados.
Digamos que estamos corriendo una regresion entre el tama no de la clase y
el rendimiento academico, un incremento en la primera influira incrementando
la segunda, evaluaremos la especificacion del modelo, para ello usaremos los
siguientes comandos
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
66 4. An
alisis de Regresi
on Lineal
que sean significativas. El comando crea 2 variables nuevas, una variable es-
timada, y el cuadrado de dicha estimacion. Se eval ua el modelo con ambas
variables, la estimacion y hat debera ser significativa pues es el valor esti-
mado, pero su cuadrado no debera serlo, pues de estar bien especificado el
modelo, la estimacion al cuadrado no debera tener mucho poder explicativo.
Linktest
Ovtest
4.8. Independencia
Los errores asociados a una observacion no deberan estar asociados a los
errores de alguna otra observacion. En nuestro caso, al haber recolectado da-
tos de 8 tipos de escuela es probable que estudiantes dentro de sus escuelas
tiendan a ser mas parecidos que estudiantes de otra escuela, esto producira
errores no independientes. El problema de autocorrelacion es muy com un en
series de tiempo, en la cual nosotros evaluamos el test DW para ver la auto-
correlacion de primer orden. Si quisieramos especificar este analisis en nuestra
data, podramos considerar a la variable snum como el tiempo
Que observamos?
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
4.8. Independencia 67
RETO 4
Marco teorico mnimo. Existen varias teoras respecto del impacto de los
factores polticos y economicos sobre la poltica tributaria en cada estado:
Pruebas de hip
otesis
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
68 4. An
alisis de Regresi
on Lineal
Interpretando regresiones:
Cual es la bondad de ajuste de un modelo sin variables polticas? Cuanto
poder explicativo adicional se consigue al incluir las variables polticas?
Que variables polticas importan mas, las partidistas o las no partidistas?
(ojo, esta pregunta requiere cierta interpretacion de la R2 ajustada de varios
modelos, as como la magnitud y significancia de tus coeficientes).
Predicciones:
Cuanto cambian los impuestos per capita si el ingreso per capita aumenta en
una desviacion estandar? Calcula este cambio en dolares y como proporcion
de los impuestos promedio de la muestra.
Cuanto cambian los impuestos cuando la mayora democrata en el congreso
local pasa de 10 a 30 %? Calcula este cambio en dolares y como proporcion
de los impuestos promedio de la muestra.
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
Sesi
on 5
Variables Categ
oricas
5.1. Estimaci
on con Variables Categ
oricas
Habamos usado variables continuas anteriormente, sin embargo es posible
usar variables categoricas en un analisis de regresion pero requiere un trabajo
extra en la interpretacion, el analisis y diagnostico de los resultados.
codebook mealcat
regress api00 mealcat
69
70 5. Variables Categ
oricas
Pero esta variable mealcat es una variable intervalo, podramos generar tres
variables a partir de esta, de tal forma que podamos definir a cada sub variable
como un valor cada vez que mealcat pertenezca a cierto intervalo.
5.2. El Comando Xi
Lo mismo podemos hacer con el comando xi,
char mealcat[omit] 3
xi : regress api00 i.mealcat
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
5.2. El Comando Xi 71
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
72 5. Variables Categ
oricas
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
5.3. Pruebas de Hip
otesis 73
Que pasa con la regresion si solo tomamos las primeras 2000 observaciones
de la muestra?
summ sat
summ sat if female ==1
summ sat if female ==1 & white==1
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
74 5. Variables Categ
oricas
generate edex=educ*exper
generate edumarr= educ*married
summ educ exper marr edex edumarr
Modelo Base:
reg wage educ exper IQ married , robust
Modelo con EDEX:
reg wage educ exper IQ married edex, robust
Modelo con EDUC*MARRIED y EDUC*EXPER:
reg wage educ exper IQ married edex edumarr, robust
corr educ exper edex
Modelo sin interaccion EDEX y dejando EDUMARR:
reg wage educ exper IQ married edumarr, robust
xi: reg wage educ exper i.black*i.married IQ, robust
reg wage educ exper IQ, robust
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
5.4. Creaci
on de Variables Dummys 75
Pruebas F
test educ
test educ = 70
test educ = 80
reg wage educ exper IQ married tenure urban black meduc feduc, robust
test feduc meduc
test meduc
test tenure meduc
test tenure meduc black
5.4. Creaci
on de Variables Dummys
Existen tres formas de crear variables dicotomicas:
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
76 5. Variables Categ
oricas
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
5.5. Bucles y Programas 77
Ejemplo:
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Econ
omica administracion@giddea.com
78 5. Variables Categ
oricas
local i=1
while i <=10 {
display i
local i=i+1
}
Si deseamos crear otro programa con el mismo nombre, Stata nos mostrara
un mensaje de error diciendonos que existe un programa con ese nombre por
lo que debemos eliminarlo primero:
Stata B
asico www.giddea.com
Aplicado a la Investigaci
on Economica administracion@giddea.com
Bibliografa
79