Sei sulla pagina 1di 34

Introducción

STATA Básico

Luis Guillén Grados, Profesor Investigador, Data Scientist


Escuela Profesional de Ingeniería Estadística – FIECS-UNI
Investigador Principal - Taller de Investigación en Ciencia de Datos – FC-UNI
Docente, Escuela Nacional de Estadística e Informática - INEI

lguilleng@uni.edu.pe
data.scientist@gmail.com
Versiones
Comparación de Software Estadístico

TYPE OF STATISTICAL ANALYSIS R MATLAB SAS STATA SPSS TYPE OF STATISTICAL ANALYSIS R MATLAB SAS STATA SPSS
Nonparametric Tests Yes Yes Yes Yes Yes Propensity Score Matching Yes Yes Limited Limited
T-test Yes Yes Yes Yes Yes Stratified Samples (Survey Data) Yes Yes Yes Yes Yes
ANOVA & MANOVA Yes Yes Yes Yes Yes Experimental Design Yes Yes
ANCOVA & MANCOVA Yes Yes Yes Yes Yes Quality Control Yes Yes Yes Yes
Linear Regression Yes Yes Yes Yes Yes Reliability Theory Yes Yes Yes Yes Yes
Generalized Least Squares Yes Yes Yes Yes Yes Univariate Time Series Yes Yes Yes Yes Limited
Ridge Regression Yes Yes Yes Multivariate Time Series Yes Yes Yes Yes
Lasso Yes Yes Yes Markov Chains Yes Yes
Generalized Linear Models Yes Yes Yes Yes Yes Hidden Markov Models Yes Yes
Mixed Effects Models Yes Yes Yes Yes Yes Stochastic Volatility Models Yes Yes Limited Limited Limited
Logistic Regression Yes Yes Yes Yes Yes Diffusions Yes Yes
Nonlinear Regression Yes Yes Yes Counting Processes Yes Yes Yes
Discriminant Analysis Yes Yes Yes Yes Yes Filtering Yes Yes Limited Limited
Nearest Neighbor Yes Yes Yes Yes Instrumental Variables Yes Yes Yes Yes
Factor & Principal Components Yes Yes Yes Yes Yes Simultaneous Equations Yes Yes Yes Yes
Copula Models Yes Yes Experimental Splines Yes Yes Yes Yes
Cross-Validation Yes Yes Yes Nonparametric Smoothing Methods Yes Yes Yes Yes
Bayesian Statistics Yes Yes Limited Extreme Value Theory Yes Yes
Monte Carlo, Classic Methods Yes Yes Yes Yes Limited Variance Stabilization Yes Yes
Markov Chain Monte Carlo Yes Yes Yes Cluster Analysis Yes Yes Yes Yes Yes
Bootstrap & Jackknife Yes Yes Yes Yes Neural Networks Yes Yes Yes Limited
EM Algorithm Yes Yes Yes Classification & Regression Trees Yes Yes Yes Limited
Missing Data Imputation Yes Yes Yes Yes Yes Boosting Classification & Regression Yes Yes
Outlier Diagnostics Yes Yes Yes Yes Yes Random Forests Yes Yes
Robust Estimation Yes Yes Yes Yes Support Vector Machines Yes Yes Yes
Longitudinal (Panel) Data Yes Yes Yes Yes Limited Signal Processing Yes Yes
Survival Analysis Yes Yes Yes Yes Yes Wavelet Analysis Yes Yes Yes
Path Analysis Yes Yes Yes ROC Curves Yes Yes Yes Yes Yes
Optimization Yes Yes Yes Limited

Statistical & Financial Consulting by Stanford PhD


http://stanfordphd.com/Statistical_Software.html
Panorama general de STATA

El escritorio de STATA se divide en cuatro partes:

1. Revisión muestra los commandos ejecutados


2. Resultados muestra los resultados de los comandos
3. Variables lista actual de variables del conjunto de datos
4. Comandos aquí se escriben los comandos
Review window
Result window
Variable window
Command window
Menús y editors en STATA:

 El menu de escritorio Donde puede ejecutar todos los comandos


 Editor de datos Acá puede editar datos que ha cargado
 Navegador de datos Acá úede navegar por los datos que tiene cargados,
pero no editarlos
 Editor de archive DO El archivo Do es aquel donde puede escribir y
ejecutar todos los tipos de comandos. Muy usado
para la replicación y guardado de lo que ejecuta con
frecuencia.
Editor de Datos.
Puede cambiar datos.

Visor de datos
Similiar al editor pero no puedes editar
Editor de archivo DO.
Puede tipear comandos y
ejecutarlos.

(Las palabras escritas después de *


no son reconocidas como
comandos,
ejem. * Nota que … *).
La gramática en STATA

Estructura general

[prefix :] command [varlist] [if] [in] [weight] [, options]


Estructura general

Nos concentramos en:

[prefix :] command [varlist] [if] [in] [weight] [, options]


Estructura general

Nos concentramos en:

[prefix :] command [varlist] [if] [in] [weight] [, options]

Qué quieres hacer?


[prefix :] command [varlist] [if] [in] [weight] [, options]

Primer paso: como cargar datos:


> use “Path:\Filename” , clear

Practique:
> use “Path:\Hogares00.dta” , clear

Otra opción:
-> File -> Open -> Elije tus datos
Estructuta general

Dos tipos de variables:

Variable numérica, e.j.: 0, 1, 501, 0.5, -12 etc.

Variable cadena, e.j.: no voy en tren , masculine, femenino, etc.

Cómo lidiar con los tipos e datos:

Variables numéricas: Todas las operaciones matemáticas,


e.j. var1 + var2, var1/var2, var1*var2 etc.

Variables cadena: Usar comillas para la identificación, e.j.

var1 = 1 if sex == “femenino”


Las variables de color negro son numéricas.

Las variables cadena están de color rojo.


[prefix :] command [varlist] [if] [in] [weight] [, options]

Ya que cargo los datos –

Cómo obtener una vision general de los datos?

> describe

“describe” da información general de los datos como: número


de observaciones, la etiqueta de la variables, tipo de
variable, etc.
[prefix :] command [varlist] [if] [in] [weight] [, options]

Cómo obtener una vision general de los datos?


> list

enlista los datos de cada celda (e.j. personas, grupos, clases) en el


conjunto de datos.
Estructura general

Nos concentramos en:

[prefix :] command [varlist] [if] [in] [weight] [, options]

Qué le interesa?
[prefix :] command [varlist] [if] [in] [weight] [, options]

[varlist] variable o lista de variables sobre la cual tiene interés.

[varlist] en caso no exista variables STATA ejecutará el commando


sobre todas las variables

Practique:

Con el fin de obtener información del tipo de vivienda y dominio en el


conjunto de datos:
> list dominio p101
Estructura general

Nos concentramos en:

[prefix :] command [varlist] [if] [in] [weight] [, options]

Qué se debe cumplir?


[prefix :] command [varlist] [if] [in] [weight] [, options]

Con [if] se puede establecer una condición al conjunto de datos, o


restricciones.

e.j. conocer sólo el ingreso promedio de los migrantes con la educación


más baja (sin formación profesional )
[prefix :] command [varlist] [if] [in] [weight] [, options]

Cómo crear variables indicadoras?

Qué es una variable dummy? Una variable dummy tiene valor 0 o 1.

Los comandos “generate” y “replace”

> gen dom1 = 0

> replace dom1 = 1 if dominio == 1 /* costa norte

Otro ejemplo:

> gen region = 0

> replace region= 1 if dominio <= 3 /*costa


[prefix :] command [varlist] [if] [in] [weight] [, options]

Calcular y transformer variables numéricas


> generate newvar = var1 – var2

STATA conoce las reglas de operaciones matemáticas (+, -, /, logs, etc.)

Practica: Crear el logaritmo de gashog2d:


> generate ln_gashog2d = ln(gashog2d)
[prefix :] command [varlist] [if] [in] [weight] [, options]

Cómo modificar variables?


> replace var = (var1 – var2)/2

STATA conoce las reglas de las operaciones matemáticas (+, -, /, log,


etc.)

Practica: Reemplace ln_gashog2d por log de inghog2d solo para el


dominio “costa sur”
> replace ln_gashog2d = ln_gashog2d*uniform*1000 if dominio
== 3
[prefix :] command [varlist] [if] [in] [weight] [, options]

Cómo crear gráficos?


> graph twoway line var1 year [if] [in]

STATA construye gráficos bidimensionales con lineas, barras, puntos, gráficos


de dispersion, etc. con el comando “graph twoway”, el tipo de gráfico se
asigna después, e.j. “line”

Practica:

> sort dominio gashog2d


> g id=_n
> g gasto=uniform()*10000+gashog2d
> graph twoway line gashog2d gasto id if dominio == 1
El archivo DO

STATA provee un archivo donde se puede escribir los commandos para


luego guardarlos y volverlos a utilizar.

- Los archivos DO se pueden abrir con el comando “doedit”.

Cómo se ejecutan los commandos en un archive do?

- Escribe el commando en el editor de texto, marca el texto y presiona


“CTRL + d”
- si no hay texto marcado, se ejecuta todo el archive do.
El archive Do

Rasones para usar archivos DO:

- su trabajo es documentado y reproducible!

- necesita incluir comentarios en las sintaxis:

e.j.
> *leer datos
> use “C:\User\...data1.dta” , clear
> *obtener una vision general
> describe

- para grabar el archive Do ->File ->Save


- para abrir un archive Do ->File ->Open
- los archivos Do tienen extensión “.do”
Este es un ejemplo de archivo Do.

Primero desactiva el “more“ y


“carga“ un conjunto de datos.

Segundo usa el comando para


regresión panel.

Tercero genera algunas variables.


Seleccionamos las líneas de
comando que queremos que se
ejecute.

Luego presionamos el botón


“ejecutar“.
Próxima reunión:

Enero 19, ENEI 18:00hrs