Manual Básico Stata

MANUAL BSICO STATA
INICIACIN A LA INVESTIGACIN
SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS

MANUAL BSICO STATA
INDICE
I. DESCRIPCIN DEL STATA pg. 02
II. BASE DE DATOS pg. 03
III. DO FILE / LOG FILE pg. 05
IV. DESCRIPCIN DE VARIABLES pg. 07
V. ETIQUETAR VARIABLES pg. 08
VI. ANLISIS UNIVARIADO pg. 10
Variables categricas
Variables cuantitativas
NORMALIDAD
VII. ANLISIS BIVARIADO pg. 13
Categrica Categrica
Categrica Cuantitativa
Cuantitativa Cuantitativa
Medidas de Asociacin: OR RP RR HR
VIII. ANLISIS MULTIVARIADO pg. 20
SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 1

MANUAL BSICO STATA
I. Descripcin del STATA 11.0
DEFINICIN:
Stata es un paquete de software estadstico creado en 1985 por StataCorp. Es utilizado

principalmente por instituciones acadmicas y empresariales dedicadas a la investigacin,
especialmente en economa, sociologa, ciencias polticas, biomedicina epidemiologa.
BARRA DE MENU
BARRA DE
HERRAMIENTAS
TABLA DE
COMANDOS
EFECTUADOS
TABLA DE
VARIABLES
TABLA DE TABLA DE
COMANDOS RESULTADOS
BARRA DE MENU: Se encuentran los menus de file, edit, data, etc.
BARRA DE HERRAMIENTAS: Se encuentran las herramientas de Log file, do file, etc.
TABLA DE COMANDOS EFECTUADOS: Se encuentra la lista de todos los comandos efectuados.
TABLA DE VARIABLES: Se encuentran las variables de la base con sus etiquetas, tipo y
formato.
TABLA DE COMANDOS: Tabla donde se digitan los comandos a efectuarse.
TABLA DE RESULTADOS: Se encuentran los resultados de los comandos efectuados.

MANUAL BSICO STATA
II. Base de datos:

- La base debe estar bien organizada, completa y sin errores.
- Se recomienda usar previamente el programa Microsoft Excel para completar corregir la
- base de datos del trabajo.
- Hacer una copia de la base de datos original, esto es importante porque te ayuda a
corregir si hubiese un error, modificar variables, recordar algn dato que se haya
modificado, etc.
- En la base no debe usarse comas decimales, el programa STATA solo reconoce puntos
decimales.
- Se sugiere agregar la columna ID para enumerar cada encuesta. Esto es de mucha ayuda,
por ejemplo en caso de faltar algn dato se consulta al nmero de encuesta.
- Filtrar la base y comprobar que todos los datos estn completos.

MANUAL BSICO STATA
Datos completos y sin vacos.
- En la base Excel las variables deben estar en maysculas o al menos una de las letras. Esto
permite al programa STATA generar etiquetas de las variables.
- En el programa STATA utilizar el comando edit, se ejecutar un editor de variables. En el
editor de variables pegar la base del Excel. Al hacerlo saldr la siguiente tabla:
Dar click en la segunda opcin
Lo que significa que tomar a la primera fila como nombres de las variables.
- Para editar la base usar siempre el comando edit, y verificar que todas las variables
estn completas y no hay errores.

MANUAL BSICO STATA
- Si observamos una columna de color rojo significa que en esa columna existen letras,
comas, palabras, etc. Es decir, tiene errores.
- Si observamos que en uno de los datos hay un punto ., significa que ese dato est vaco
y STATA lo toma como datos MISSING o datos perdidos.
III. Do file / Log file: Permiten guardar comandos y acciones en STATA.
Log file: til para guardar todas las acciones hechas en STATA, por ejemplo: comandos,
modificacin de variables, resultados, etc.
Antes de empezar a utilizar los comandos en STATA es necesario utilizar la herramienta

Log file, la cual se encuentra en la barra de herramientas.
Guardar el archivo Log file, este se guardar en formato *.smcl
Al finalizar el anlisis, hacer click en el cono Log file de la barra de herramientas.

Aparecer una ventana:
Hacer click en la segunda opcin y luego OK

MANUAL BSICO STATA
Al abrir el archivo *.smcl en el STATA, se ver todas las acciones hechas desde el momento
en que se inici el Log file hasta donde se guard.
Do file: til para guardar la lista de comandos utilizados en STATA
Hacer click en el cono New Do-file editor
Se abrir la ventana de edicin de Do file. Copiar de la TABLA DE COMANDOS

EFECTUADOS, todos los comandos que queremos guardar en el Do file. Luego guardar el
Do file.
La herramienta de Do file es til en caso de no haber usado el Log file.

Supongamos que se hizo una nueva base de datos o se modific esta, tendramos que
volver a utilizar cada comando hecho anteriormente. La herramienta Do file permite
correr todos los comandos usados usando el cono (Execute do):
Para ello seleccionar el comando y luego Execute do y automticamente se ejecutarn

los comandos seleccionados.

MANUAL BSICO STATA
IV. Etiquetar variables:

Haremos el siguiente ejemplo: La variable sexo tiene en su base 0 y 1, lo que significa
que cero es igual a masculino y uno es igual a femenino. Al hacer el comando tab sexo,
obtenemos lo siguiente:
Por lo tanto se necesita poner una etiqueta para el cero y el uno.
Abrir la base con el comando edit y hacer click derecho sobre la variable y luego en
variable properties y saldr la siguiente ventana

MANUAL BSICO STATA
Hacer click:
Luego digite 1 en value y etiquetelo en Label con el nombre de Mujer, Apply (aplicar) y
ok.

MANUAL BSICO STATA
En la ventana de Variable Properties, baje la barra de Value Label y seleccione sexo. Luego
Apply (aplicar) y cierre el editor.
Para comprobar la etiqueta escriba el comando tab sexo, y observar los cambios en el
cero y el uno.

MANUAL BSICO STATA
V. Descripcin de variables.
Antes de empezar la descripcin de las variables se debe utilizar el comando set more
off, para poder ver la lista de resultados completa.
El comando sum, sirve para ver la lista de todas las variables con sus datos observados,
medias, desviacin estndar, Rangos mnimos y mximos.
Tambin puedes utilizar sum varibleejemplo para ver el resumen de la variableejemplo.

El comando tab variable, te otorga una tabla de frecuencias, percentiles y porcentajes
acumulados de la variable.
De esta forma uno puede empezar la primera tabla descriptiva en cada trabajo.
Utilizamos el comando tab variable_independiente_vertical
variable_dependiente_horizontal
Ejemplo: tab sexo fuma
Si queremos ver porcentajes en el mismo ejemplo:

tab sexo fuma, col: Ver porcentajes en columnas

MANUAL BSICO STATA
tab sex fuma, row : Ver porcentajes en filas
VI. Anlisis Univariado
CATEGRICAS NUMRICAS /
/CUALITATIVAS CUANTITATIVAS
NORMAL: MEDIA
FRECUENCIAS Y DESVIACIN
ESTNDAR
NO NORMAL:
PORCENTAJES MEDIANA Y
RANGOS

MANUAL BSICO STATA
6.1 Variables Categricas: Se miden en Frecuencias y Porcentajes. Para ello se utiliza el

comando tab variable. Ejemplo: tab sexo:
6.2 Variables Cuantitativas: Se miden de acuerdo a la Normalidad
- Si es Normal: Se mide Media y Desviacin estndar.
- Si no es Normal: Se mide Mediana y Rangos
Evaluar NORMALIDAD: Existen 4 formas para evaluar normalidad

1) Kurtosis y sesgo: Es normal cuando la kurtosis es menor a tres (03) y el sesgo est
entre (-1) y (+1). Para ver la curtosis y sesgo utilizamos el comando sum variable,
detail.
Ejemplo: sum edad, detail
Sesgo = 0.2239296 Kurtosis = 2.799769
Se concluye que la variable edad no es normal.
2) Sesgo y kurtosis: Existe otro comando llamado sktest variable, este combina el
sesgo y kurtosis obtenindose un valor P
- Si P es >0,05 = NORMAL
- Si P es <0,05 = No NORMAL
Ejemplo: sktest edad

MANUAL BSICO STATA
P = 0.2780 Es NORMAL
3) HISTOGRAMA: Se compara la curva de normalidad con la del histograma, si son

parecidas quiere decir que es normal. Para ellos utilizamos el comando: hist variable,
norm.
Ejemplo: hist edad, norm
La curva de normalidad es similar, es posible que sea normal.
4) Shapiro wilk: Es la prueba ms utilizada y definitiva para hallar normalidad. Para ello
utilizamos el comando swilk variable obtenindose un valor P.
- Si P es >0,05 = NORMAL
- SI P es <0.05 = NO NORMAL
Ejemplo: swilk edad
P = 0.00680 Es NO NORMAL

MANUAL BSICO STATA
NOTA: La media, desviacin estndar, mediana y rangos se obtienen a partir del comando sum
variable, detail
Ejemplo:
Media = 47.04215 Desviacin estndar = 15.51631
Mediana = 47 Rango = min. 18 mx. 89
VII. Anlisis Bivariado
<20% : Paramtrica : Chi2

Categrica - Valores
Categrica Esperados
>20% : No Paramtrica: Exacta de
Fisher
NORMAL: T de Student
Categrica - Normalidad de
Cuantitativa la cuantitativa
NO NORMAL: Suma
de rangos de
Wilcoxon o U de Manh-Whitney
Si ambas son NORMALES:

Cuantitativa - CORRELACIN
NORMALIDAD
Cuantitativa
Si al menos una es NO NORMAL:
SPEARMAN

MANUAL BSICO STATA
Depende el tipo de variables que queremos cruzar, donde se calcular un valor P, siendo
significativo si es <0,05.
A) CATEGRICA CATEGRICA: De acuerdo a los valores esperados se utilizar pruebas

paramtricas y no paramtricas
Valores esperados:
o Chi2 (PARAMTRICA): Se utiliza chi2 si no ms del 20% de los valores esperados es
menor e igual que cinco (05).
o Exacta de Fisher (NO PARAMTRICA): Se utiliza Fisher cuando ms del 20% de los
valores esperados son menores e igual a cinco (05).
Para ver los valores esperados se utiliza el comando tab variable_independiente
variable_dependiente , exp
Ejemplo: tab sex edo_civil, exp
Cada seccin representa el 10% del total (100%)
Los valores esperados (1.1)(0.5)(5.0)(0.9)(0.5) son menores o igual a cinco (05), esto quiere
decir que el 50% de los valores esperados son menores o igual a cinco, por lo tanto se utiliza
una la prueba No Paramtrica de Exacta de Fisher.
Chi2: Para utilizar la prueba paramtrica de Chi2 cruzaremos dos variables en una tabla y
seguido de una coma aadimos chi2.
Ejemplo: tab sex aprobo, chi2

MANUAL BSICO STATA
El valor P es de 0.042 y es menor que 0.05, esto quiere decir que es significativo. En el ejemplo
se interpreta que existe diferencia estadsticamente significativa entre aprobar y el sexo.
OJO: no sabemos cul es esa diferencia estadsticamente significativo; es decir, no se puede

afirmar si ser varn o mujer te permite aprobar o desaprobar.
Exacta de Fisher: Para utilizar la prueba NO paramtrica de Exacta de Fisher cruzaremos

dos variables en una tabla y seguido de una coma aadimos exact.
Ejemplo: tab sex aprobo, exact
El valor P es de 0.044 y es menor que 0.05, esto quiere decir que es significativo y se interpreta
igual que chi2.
NOTA: Se recomienda usar tablas de 2 x 2 para poder facilitar el anlisis estadstico.
B) CATEGRICA CUANTITATIVA: Para evaluar se necesita saber la NORMALIDAD de la

variable cuantitativa.
- Si es normal, se utilizar la prueba de T-student
- Si no es normal, se utilizar la prueba de Suma de Rangos de Wilcoxon o tambin llamada
U de Mann-Whitney
T-student: Utilizamos el comando ttest var_cuant, by(var_categ)
Ejemplo: ttest edad, by(aprobo)

MANUAL BSICO STATA
El valor P es 0.1644 y es mayor que 0.05, esto quiere decir que es NO significativo.
Suma de rangos de Wilcoxon o U de Mann-Whitney: Utilizamos el comando ranksum

var_cuant, by(var_categ)
Ejemplo: ranksum edad, by(aprobo)
El valor P es 0.0675 y es mayor que 0.05, esto quiere decir que es NO significativo.
C) CUANTITATIVA CUANTITATIVA: Para evaluar se necesita saber la NORMALIDAD de

ambas variables:
- Si ambas son normales: Utilizar correlacin
- Si almenos una es NO normal: Utilizar Spearman
Correlacin: Utilizaremos el comando pwcorr var_cuant1 var_cuant2, sig
Ejemplo: pwcorr nota edad, sig
El valor p es 0.1164 y es mayor que 0.05, esto quiere decir que es NO significativo.
NOTA: El signo del dato 0.0415, indica si la correlacin es positiva o negativa. En el ejemplo
es positivo y quiere decir que a mayor edad mayor nota. Si fuese negativo: a mayor edad
menor nota.

MANUAL BSICO STATA
Spearman: Utilizaremos el comando spearman var_cuant1 var_cuant2

Ejemplo: spearman nota edad
El valor P es 0.0474 y es menor que 0.05, esto quiere decir que es significativo
NOTA: Las pruebas chi2, exacta de ficher, t-student, U de mann-whitney, correlacin y

spearman solor sirven para calcular el valor P y ver si hay asociacin, pero no explica cul es
esa asociacin (si es mayor o menor, si es factor de riesgo o protector, etc). Para ello se utiliza
valores de asociacin o estadsticos de asociacin: RP, OR, OR, RR, HR.
D) Medidas de Asociacin:
RP: Razn de prevalencias: Estudios Transversales Analticos
OR: Odds Ratio o razn de momios: Estudios de Casos y Controles
RR: Razn de riesgos o riesgo relativo o razn de incidencia: Estudios Cohorte y
Experimentales
HR: Hassar ratio: Estudios en un punto en el tiempo, Longitudinales.
Para las medidas de asociacin se utiliza el mismo comando para todos, y se interpreta de
acuerdo al tipo de estudio.
- El estadstico que utilizaremos va de acuerdo a la variable principal, la dependiente.
Ejemplo
La variable principal es: aprob (si / no), la cual es categrica.
Se puede aplicar REGRESIN LOGSTICA O MODELOS LINEALES GENERALIZADOS (GML). Ambas

son las ms utilizadas para medir asociacin.
REGRESIN LOGSTICA: Se utiliza si la variable de inters es menor del 10%

MODELOS LINEALES GENERALIZADOS: Si la variable de inters es mayor del 10%, cuando
una frecuencia es ms del 10% (en el ejemplo, si la variable si es mayor que 10% el
resultado que de d no es el adecuado porque sobreestima el valor real).

MANUAL BSICO STATA
tab aprobo:
La variable de inters (SI) representa el 12.85%, esto es mayor que el 10% y por lo tanto se
usar GML.
REGRESIN LOGSTICA: En el ejemplo suponiendo que la variable de inters es menor

del 10%, utilizamos el comando logistic var_deinteres var
logistic aprobo sex:
El Odds Ratio obtenido es de 1.370235 y se puede interpretar de tres formas:
Mujeres: 1 Hombres: 0 Si aprob: 1 No aprob: 0
Primera: Las mujeres tienen 1,37 mayor prevalencia de haber aprobado a comparacin de los
hombres.
Segunda: Las mujeres tienen 0,37 veces ms la prevalencia de haber aprobado a comparacin
de los hombres.
Tercera: Las mujeres tienen el 37% ms prevalencia de haber aprobado a comparacin de los
hombres.

MANUAL BSICO STATA
Modelos Lineales Generalizados (GLM): Para entender GLM diremos que la regresin
logstica es como un individuo y el GLM es como una familia de regresiones logsticas.
En otras palabras, GLM es una familia especializada para hacer logstica/estadstica.
Las familias son:
FAMILIA GAUSSIAN: Se usa cuando las variables principales son numricas.
FAMILIA INVERSE GAUSSIAN: Se usa cuando las variables principales son nmero inversos.
FAMILIA BINOMIAL /BERNOLLI: Se usa cuando las variables principales son categricas.
FAMILIA POISSON: Se usa cuando la variable principal es categrica pero se utiliza en casos raros.
Las familias ms utilizadas son Binomial y Poisson.
Familia Binomial: Utilizamos el comando:
glm var_dependiente/categorica var_por_analisar, fam(binomial) link(log) eform nolog
El efor nolog, sirvepara evitar ver logaritmos.
Ejemplo:
glm aprobo sex, fam(binomial) link(log) eform nolog
Se interpreta igual a la regresin logstica.

MANUAL BSICO STATA
Familia Poisson: Utilizamos el comando:
glm var_dependiente/categorica var_por_analisar, fam(poisson) link(log) eform nolog
Ejemplo:
glm aprobo sex, fam(poisson) link(log) eform nolog
Se interpreta igual a la regresin logstica.
NOTA: Cuando la variable por analizar tiene ms de dos categoras, por ejemplo la variable
estado civil tiene las categoras: soltero (0), casado (1), viudo (2) y divorciado (3). Siendo la
variable de inters aprob, para ello se utiliza se utiliza el comando:
xi:glm var_dependiente/categorica i.var_por_analisar, fam(binomial) link(log) eform nolog
Colocar antes de todo el comando xi y antes de la variable de varias categoras i.
Ejemplo: xi:glm aprob i.edo_civil, fam(binomial) link(log) eform nolog

MANUAL BSICO STATA
El estado civil tiene cuatro categoras y en anlisis lo compara contra el 0 (soltero).
NOTA:
Comando robust: Sirve para ajustar la muestra cuando la poblacin es muy grande.
Comando cluster: Sirve para ajustar el resultado en caso se haya obtenido la muestra de
diferentes sub_muestras. Por ejemplo si se encuest a nueve universidades diferentes.
glm aprobo ros_auxilios, fam(binomial) link(log) eform nolog robust cluster(univ)
VIII. Anlisis Multivariado:

Primero se toma a las variables que resultaron significativas en el anlisis bivariado.
Por ejemplo: Semestre (semestre), llevar el curso de primero auxilios (ros_auxilios),
llevar el curso de inyectables (inyectables) y llevar el curso de RCP previamente
(rcp_previo).
Segundo se aplica el comando:
glm aprobo semestre ros_auxilios inyectables rcp_previo, fam(binomial) link(log) eform

nolog robust cluster(univ)

MANUAL BSICO STATA
Se obtendrn los OR de cada variable y cada una se interpreta.
Ejemplo: Los que recibieron el curso de RCP previamente tienen 3,08 mayor prevalencia de
haber aprobado a comparacin de los que no recibieron el curso de RCP, ajustado al semestre,
recibir el curso de primero auxilios, recibir el curso de inyectables y por cluster de universidad.
GRACIAS
PIURA

Manual Básico Stata

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Manual Básico Stata

Caricato da

Copyright:

Formati disponibili

MANUAL BSICO STATA

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS

I. DESCRIPCIN DEL STATA pg. 02

II. BASE DE DATOS pg. 03

III. DO FILE / LOG FILE pg. 05

IV. DESCRIPCIN DE VARIABLES pg. 07

V. ETIQUETAR VARIABLES pg. 08

VI. ANLISIS UNIVARIADO pg. 10

VII. ANLISIS BIVARIADO pg. 13

VIII. ANLISIS MULTIVARIADO pg. 20

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 1

I. Descripcin del STATA 11.0

Stata es un paquete de software estadstico creado en 1985 por StataCorp. Es utilizado

BARRA DE MENU: Se encuentran los menus de file, edit, data, etc.

BARRA DE HERRAMIENTAS: Se encuentran las herramientas de Log file, do file, etc.

TABLA DE COMANDOS EFECTUADOS: Se encuentra la lista de todos los comandos efectuados.

TABLA DE COMANDOS: Tabla donde se digitan los comandos a efectuarse.

TABLA DE RESULTADOS: Se encuentran los resultados de los comandos efectuados.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 2

II. Base de datos:

- Filtrar la base y comprobar que todos los datos estn completos.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 3

Datos completos y sin vacos.

Dar click en la segunda opcin

estn completas y no hay errores.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 4

comas, palabras, etc. Es decir, tiene errores.

y STATA lo toma como datos MISSING o datos perdidos.

III. Do file / Log file: Permiten guardar comandos y acciones en STATA.

Antes de empezar a utilizar los comandos en STATA es necesario utilizar la herramienta

Guardar el archivo Log file, este se guardar en formato *.smcl

Al finalizar el anlisis, hacer click en el cono Log file de la barra de herramientas.

Hacer click en la segunda opcin y luego OK

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 5

Do file: til para guardar la lista de comandos utilizados en STATA

Hacer click en el cono New Do-file editor

Se abrir la ventana de edicin de Do file. Copiar de la TABLA DE COMANDOS

La herramienta de Do file es til en caso de no haber usado el Log file.

Para ello seleccionar el comando y luego Execute do y automticamente se ejecutarn

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 6

IV. Etiquetar variables:

Por lo tanto se necesita poner una etiqueta para el cero y el uno.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 7

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 8

Apply (aplicar) y cierre el editor.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 9

Tambin puedes utilizar sum varibleejemplo para ver el resumen de la variableejemplo.

Ejemplo: tab sexo fuma

Si queremos ver porcentajes en el mismo ejemplo:

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 10

tab sex fuma, row : Ver porcentajes en filas

VI. Anlisis Univariado

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 11

6.1 Variables Categricas: Se miden en Frecuencias y Porcentajes. Para ello se utiliza el

6.2 Variables Cuantitativas: Se miden de acuerdo a la Normalidad

- Si es Normal: Se mide Media y Desviacin estndar.

- Si no es Normal: Se mide Mediana y Rangos

Evaluar NORMALIDAD: Existen 4 formas para evaluar normalidad

Sesgo = 0.2239296 Kurtosis = 2.799769

Se concluye que la variable edad no es normal.

Ejemplo: sktest edad

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 12

3) HISTOGRAMA: Se compara la curva de normalidad con la del histograma, si son