Sei sulla pagina 1di 24

MANUAL BSICO STATA

INICIACIN A LA INVESTIGACIN

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS


MANUAL BSICO STATA

INDICE

I. DESCRIPCIN DEL STATA pg. 02

II. BASE DE DATOS pg. 03

III. DO FILE / LOG FILE pg. 05

IV. DESCRIPCIN DE VARIABLES pg. 07

V. ETIQUETAR VARIABLES pg. 08

VI. ANLISIS UNIVARIADO pg. 10

Variables categricas

Variables cuantitativas

NORMALIDAD

VII. ANLISIS BIVARIADO pg. 13

Categrica Categrica

Categrica Cuantitativa

Cuantitativa Cuantitativa

Medidas de Asociacin: OR RP RR HR

VIII. ANLISIS MULTIVARIADO pg. 20

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 1


MANUAL BSICO STATA

I. Descripcin del STATA 11.0

DEFINICIN:

Stata es un paquete de software estadstico creado en 1985 por StataCorp. Es utilizado


principalmente por instituciones acadmicas y empresariales dedicadas a la investigacin,
especialmente en economa, sociologa, ciencias polticas, biomedicina epidemiologa.

BARRA DE MENU

BARRA DE
HERRAMIENTAS

TABLA DE
COMANDOS
EFECTUADOS

TABLA DE
VARIABLES

TABLA DE TABLA DE
COMANDOS RESULTADOS

BARRA DE MENU: Se encuentran los menus de file, edit, data, etc.

BARRA DE HERRAMIENTAS: Se encuentran las herramientas de Log file, do file, etc.

TABLA DE COMANDOS EFECTUADOS: Se encuentra la lista de todos los comandos efectuados.

TABLA DE VARIABLES: Se encuentran las variables de la base con sus etiquetas, tipo y
formato.

TABLA DE COMANDOS: Tabla donde se digitan los comandos a efectuarse.

TABLA DE RESULTADOS: Se encuentran los resultados de los comandos efectuados.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 2


MANUAL BSICO STATA

II. Base de datos:


- La base debe estar bien organizada, completa y sin errores.
- Se recomienda usar previamente el programa Microsoft Excel para completar corregir la
- base de datos del trabajo.
- Hacer una copia de la base de datos original, esto es importante porque te ayuda a
corregir si hubiese un error, modificar variables, recordar algn dato que se haya
modificado, etc.
- En la base no debe usarse comas decimales, el programa STATA solo reconoce puntos
decimales.
- Se sugiere agregar la columna ID para enumerar cada encuesta. Esto es de mucha ayuda,
por ejemplo en caso de faltar algn dato se consulta al nmero de encuesta.

- Filtrar la base y comprobar que todos los datos estn completos.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 3


MANUAL BSICO STATA

Datos completos y sin vacos.

- En la base Excel las variables deben estar en maysculas o al menos una de las letras. Esto
permite al programa STATA generar etiquetas de las variables.
- En el programa STATA utilizar el comando edit, se ejecutar un editor de variables. En el
editor de variables pegar la base del Excel. Al hacerlo saldr la siguiente tabla:

Dar click en la segunda opcin

Lo que significa que tomar a la primera fila como nombres de las variables.

- Para editar la base usar siempre el comando edit, y verificar que todas las variables

estn completas y no hay errores.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 4


MANUAL BSICO STATA

- Si observamos una columna de color rojo significa que en esa columna existen letras,

comas, palabras, etc. Es decir, tiene errores.

- Si observamos que en uno de los datos hay un punto ., significa que ese dato est vaco

y STATA lo toma como datos MISSING o datos perdidos.

III. Do file / Log file: Permiten guardar comandos y acciones en STATA.

Log file: til para guardar todas las acciones hechas en STATA, por ejemplo: comandos,
modificacin de variables, resultados, etc.

Antes de empezar a utilizar los comandos en STATA es necesario utilizar la herramienta


Log file, la cual se encuentra en la barra de herramientas.

Guardar el archivo Log file, este se guardar en formato *.smcl

Al finalizar el anlisis, hacer click en el cono Log file de la barra de herramientas.


Aparecer una ventana:

Hacer click en la segunda opcin y luego OK

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 5


MANUAL BSICO STATA

Al abrir el archivo *.smcl en el STATA, se ver todas las acciones hechas desde el momento
en que se inici el Log file hasta donde se guard.

Do file: til para guardar la lista de comandos utilizados en STATA

Hacer click en el cono New Do-file editor

Se abrir la ventana de edicin de Do file. Copiar de la TABLA DE COMANDOS


EFECTUADOS, todos los comandos que queremos guardar en el Do file. Luego guardar el
Do file.

La herramienta de Do file es til en caso de no haber usado el Log file.


Supongamos que se hizo una nueva base de datos o se modific esta, tendramos que
volver a utilizar cada comando hecho anteriormente. La herramienta Do file permite
correr todos los comandos usados usando el cono (Execute do):

Para ello seleccionar el comando y luego Execute do y automticamente se ejecutarn


los comandos seleccionados.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 6


MANUAL BSICO STATA

IV. Etiquetar variables:


Haremos el siguiente ejemplo: La variable sexo tiene en su base 0 y 1, lo que significa
que cero es igual a masculino y uno es igual a femenino. Al hacer el comando tab sexo,
obtenemos lo siguiente:

Por lo tanto se necesita poner una etiqueta para el cero y el uno.

Abrir la base con el comando edit y hacer click derecho sobre la variable y luego en
variable properties y saldr la siguiente ventana

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 7


MANUAL BSICO STATA

Hacer click:

Luego digite 1 en value y etiquetelo en Label con el nombre de Mujer, Apply (aplicar) y
ok.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 8


MANUAL BSICO STATA

En la ventana de Variable Properties, baje la barra de Value Label y seleccione sexo. Luego

Apply (aplicar) y cierre el editor.

Para comprobar la etiqueta escriba el comando tab sexo, y observar los cambios en el
cero y el uno.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 9


MANUAL BSICO STATA

V. Descripcin de variables.
Antes de empezar la descripcin de las variables se debe utilizar el comando set more
off, para poder ver la lista de resultados completa.
El comando sum, sirve para ver la lista de todas las variables con sus datos observados,
medias, desviacin estndar, Rangos mnimos y mximos.

Tambin puedes utilizar sum varibleejemplo para ver el resumen de la variableejemplo.


El comando tab variable, te otorga una tabla de frecuencias, percentiles y porcentajes
acumulados de la variable.

De esta forma uno puede empezar la primera tabla descriptiva en cada trabajo.
Utilizamos el comando tab variable_independiente_vertical
variable_dependiente_horizontal

Ejemplo: tab sexo fuma

Si queremos ver porcentajes en el mismo ejemplo:


tab sexo fuma, col: Ver porcentajes en columnas

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 10


MANUAL BSICO STATA

tab sex fuma, row : Ver porcentajes en filas

VI. Anlisis Univariado

CATEGRICAS NUMRICAS /
/CUALITATIVAS CUANTITATIVAS

NORMAL: MEDIA
FRECUENCIAS Y DESVIACIN
ESTNDAR

NO NORMAL:
PORCENTAJES MEDIANA Y
RANGOS

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 11


MANUAL BSICO STATA

6.1 Variables Categricas: Se miden en Frecuencias y Porcentajes. Para ello se utiliza el


comando tab variable. Ejemplo: tab sexo:

6.2 Variables Cuantitativas: Se miden de acuerdo a la Normalidad

- Si es Normal: Se mide Media y Desviacin estndar.

- Si no es Normal: Se mide Mediana y Rangos

Evaluar NORMALIDAD: Existen 4 formas para evaluar normalidad


1) Kurtosis y sesgo: Es normal cuando la kurtosis es menor a tres (03) y el sesgo est
entre (-1) y (+1). Para ver la curtosis y sesgo utilizamos el comando sum variable,
detail.
Ejemplo: sum edad, detail

Sesgo = 0.2239296 Kurtosis = 2.799769

Se concluye que la variable edad no es normal.

2) Sesgo y kurtosis: Existe otro comando llamado sktest variable, este combina el
sesgo y kurtosis obtenindose un valor P
- Si P es >0,05 = NORMAL
- Si P es <0,05 = No NORMAL

Ejemplo: sktest edad

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 12


MANUAL BSICO STATA

P = 0.2780 Es NORMAL

3) HISTOGRAMA: Se compara la curva de normalidad con la del histograma, si son


parecidas quiere decir que es normal. Para ellos utilizamos el comando: hist variable,
norm.

Ejemplo: hist edad, norm

La curva de normalidad es similar, es posible que sea normal.

4) Shapiro wilk: Es la prueba ms utilizada y definitiva para hallar normalidad. Para ello
utilizamos el comando swilk variable obtenindose un valor P.
- Si P es >0,05 = NORMAL
- SI P es <0.05 = NO NORMAL

Ejemplo: swilk edad

P = 0.00680 Es NO NORMAL

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 13


MANUAL BSICO STATA

NOTA: La media, desviacin estndar, mediana y rangos se obtienen a partir del comando sum
variable, detail

Ejemplo:

Media = 47.04215 Desviacin estndar = 15.51631

Mediana = 47 Rango = min. 18 mx. 89

VII. Anlisis Bivariado

<20% : Paramtrica : Chi2


Categrica - Valores
Categrica Esperados
>20% : No Paramtrica: Exacta de
Fisher

NORMAL: T de Student
Categrica - Normalidad de
Cuantitativa la cuantitativa
NO NORMAL: Suma
de rangos de
Wilcoxon o U de Manh-Whitney

Si ambas son NORMALES:


Cuantitativa - CORRELACIN
NORMALIDAD
Cuantitativa
Si al menos una es NO NORMAL:
SPEARMAN

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 14


MANUAL BSICO STATA

Depende el tipo de variables que queremos cruzar, donde se calcular un valor P, siendo
significativo si es <0,05.

A) CATEGRICA CATEGRICA: De acuerdo a los valores esperados se utilizar pruebas


paramtricas y no paramtricas
Valores esperados:
o Chi2 (PARAMTRICA): Se utiliza chi2 si no ms del 20% de los valores esperados es
menor e igual que cinco (05).
o Exacta de Fisher (NO PARAMTRICA): Se utiliza Fisher cuando ms del 20% de los
valores esperados son menores e igual a cinco (05).
Para ver los valores esperados se utiliza el comando tab variable_independiente
variable_dependiente , exp
Ejemplo: tab sex edo_civil, exp

Cada seccin representa el 10% del total (100%)

Los valores esperados (1.1)(0.5)(5.0)(0.9)(0.5) son menores o igual a cinco (05), esto quiere
decir que el 50% de los valores esperados son menores o igual a cinco, por lo tanto se utiliza
una la prueba No Paramtrica de Exacta de Fisher.

Chi2: Para utilizar la prueba paramtrica de Chi2 cruzaremos dos variables en una tabla y
seguido de una coma aadimos chi2.

Ejemplo: tab sex aprobo, chi2

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 15


MANUAL BSICO STATA

El valor P es de 0.042 y es menor que 0.05, esto quiere decir que es significativo. En el ejemplo
se interpreta que existe diferencia estadsticamente significativa entre aprobar y el sexo.

OJO: no sabemos cul es esa diferencia estadsticamente significativo; es decir, no se puede


afirmar si ser varn o mujer te permite aprobar o desaprobar.

Exacta de Fisher: Para utilizar la prueba NO paramtrica de Exacta de Fisher cruzaremos


dos variables en una tabla y seguido de una coma aadimos exact.

Ejemplo: tab sex aprobo, exact

El valor P es de 0.044 y es menor que 0.05, esto quiere decir que es significativo y se interpreta
igual que chi2.

NOTA: Se recomienda usar tablas de 2 x 2 para poder facilitar el anlisis estadstico.

B) CATEGRICA CUANTITATIVA: Para evaluar se necesita saber la NORMALIDAD de la


variable cuantitativa.
- Si es normal, se utilizar la prueba de T-student
- Si no es normal, se utilizar la prueba de Suma de Rangos de Wilcoxon o tambin llamada
U de Mann-Whitney
T-student: Utilizamos el comando ttest var_cuant, by(var_categ)
Ejemplo: ttest edad, by(aprobo)

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 16


MANUAL BSICO STATA

El valor P es 0.1644 y es mayor que 0.05, esto quiere decir que es NO significativo.

Suma de rangos de Wilcoxon o U de Mann-Whitney: Utilizamos el comando ranksum


var_cuant, by(var_categ)
Ejemplo: ranksum edad, by(aprobo)

El valor P es 0.0675 y es mayor que 0.05, esto quiere decir que es NO significativo.

C) CUANTITATIVA CUANTITATIVA: Para evaluar se necesita saber la NORMALIDAD de


ambas variables:
- Si ambas son normales: Utilizar correlacin
- Si almenos una es NO normal: Utilizar Spearman
Correlacin: Utilizaremos el comando pwcorr var_cuant1 var_cuant2, sig

Ejemplo: pwcorr nota edad, sig

El valor p es 0.1164 y es mayor que 0.05, esto quiere decir que es NO significativo.

NOTA: El signo del dato 0.0415, indica si la correlacin es positiva o negativa. En el ejemplo
es positivo y quiere decir que a mayor edad mayor nota. Si fuese negativo: a mayor edad
menor nota.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 17


MANUAL BSICO STATA

Spearman: Utilizaremos el comando spearman var_cuant1 var_cuant2


Ejemplo: spearman nota edad

El valor P es 0.0474 y es menor que 0.05, esto quiere decir que es significativo

NOTA: Las pruebas chi2, exacta de ficher, t-student, U de mann-whitney, correlacin y


spearman solor sirven para calcular el valor P y ver si hay asociacin, pero no explica cul es
esa asociacin (si es mayor o menor, si es factor de riesgo o protector, etc). Para ello se utiliza
valores de asociacin o estadsticos de asociacin: RP, OR, OR, RR, HR.

D) Medidas de Asociacin:
RP: Razn de prevalencias: Estudios Transversales Analticos
OR: Odds Ratio o razn de momios: Estudios de Casos y Controles
RR: Razn de riesgos o riesgo relativo o razn de incidencia: Estudios Cohorte y
Experimentales
HR: Hassar ratio: Estudios en un punto en el tiempo, Longitudinales.

Para las medidas de asociacin se utiliza el mismo comando para todos, y se interpreta de
acuerdo al tipo de estudio.

- El estadstico que utilizaremos va de acuerdo a la variable principal, la dependiente.

Ejemplo

La variable principal es: aprob (si / no), la cual es categrica.

Se puede aplicar REGRESIN LOGSTICA O MODELOS LINEALES GENERALIZADOS (GML). Ambas


son las ms utilizadas para medir asociacin.

REGRESIN LOGSTICA: Se utiliza si la variable de inters es menor del 10%


MODELOS LINEALES GENERALIZADOS: Si la variable de inters es mayor del 10%, cuando
una frecuencia es ms del 10% (en el ejemplo, si la variable si es mayor que 10% el
resultado que de d no es el adecuado porque sobreestima el valor real).

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 18


MANUAL BSICO STATA

tab aprobo:

La variable de inters (SI) representa el 12.85%, esto es mayor que el 10% y por lo tanto se
usar GML.

REGRESIN LOGSTICA: En el ejemplo suponiendo que la variable de inters es menor


del 10%, utilizamos el comando logistic var_deinteres var

logistic aprobo sex:

El Odds Ratio obtenido es de 1.370235 y se puede interpretar de tres formas:

Mujeres: 1 Hombres: 0 Si aprob: 1 No aprob: 0

Primera: Las mujeres tienen 1,37 mayor prevalencia de haber aprobado a comparacin de los
hombres.

Segunda: Las mujeres tienen 0,37 veces ms la prevalencia de haber aprobado a comparacin
de los hombres.

Tercera: Las mujeres tienen el 37% ms prevalencia de haber aprobado a comparacin de los
hombres.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 19


MANUAL BSICO STATA

Modelos Lineales Generalizados (GLM): Para entender GLM diremos que la regresin
logstica es como un individuo y el GLM es como una familia de regresiones logsticas.
En otras palabras, GLM es una familia especializada para hacer logstica/estadstica.
Las familias son:

FAMILIA GAUSSIAN: Se usa cuando las variables principales son numricas.

FAMILIA INVERSE GAUSSIAN: Se usa cuando las variables principales son nmero inversos.

FAMILIA BINOMIAL /BERNOLLI: Se usa cuando las variables principales son categricas.

FAMILIA POISSON: Se usa cuando la variable principal es categrica pero se utiliza en casos raros.

Las familias ms utilizadas son Binomial y Poisson.

Familia Binomial: Utilizamos el comando:

glm var_dependiente/categorica var_por_analisar, fam(binomial) link(log) eform nolog

El efor nolog, sirvepara evitar ver logaritmos.

Ejemplo:

glm aprobo sex, fam(binomial) link(log) eform nolog

Se interpreta igual a la regresin logstica.

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 20


MANUAL BSICO STATA

Familia Poisson: Utilizamos el comando:

glm var_dependiente/categorica var_por_analisar, fam(poisson) link(log) eform nolog

Ejemplo:

glm aprobo sex, fam(poisson) link(log) eform nolog

Se interpreta igual a la regresin logstica.

NOTA: Cuando la variable por analizar tiene ms de dos categoras, por ejemplo la variable
estado civil tiene las categoras: soltero (0), casado (1), viudo (2) y divorciado (3). Siendo la
variable de inters aprob, para ello se utiliza se utiliza el comando:

xi:glm var_dependiente/categorica i.var_por_analisar, fam(binomial) link(log) eform nolog

Colocar antes de todo el comando xi y antes de la variable de varias categoras i.

Ejemplo: xi:glm aprob i.edo_civil, fam(binomial) link(log) eform nolog

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 21


MANUAL BSICO STATA

El estado civil tiene cuatro categoras y en anlisis lo compara contra el 0 (soltero).

NOTA:

Comando robust: Sirve para ajustar la muestra cuando la poblacin es muy grande.

Comando cluster: Sirve para ajustar el resultado en caso se haya obtenido la muestra de
diferentes sub_muestras. Por ejemplo si se encuest a nueve universidades diferentes.

glm aprobo ros_auxilios, fam(binomial) link(log) eform nolog robust cluster(univ)

VIII. Anlisis Multivariado:


Primero se toma a las variables que resultaron significativas en el anlisis bivariado.
Por ejemplo: Semestre (semestre), llevar el curso de primero auxilios (ros_auxilios),
llevar el curso de inyectables (inyectables) y llevar el curso de RCP previamente
(rcp_previo).
Segundo se aplica el comando:

glm aprobo semestre ros_auxilios inyectables rcp_previo, fam(binomial) link(log) eform


nolog robust cluster(univ)

SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 22


MANUAL BSICO STATA

Se obtendrn los OR de cada variable y cada una se interpreta.

Ejemplo: Los que recibieron el curso de RCP previamente tienen 3,08 mayor prevalencia de
haber aprobado a comparacin de los que no recibieron el curso de RCP, ajustado al semestre,
recibir el curso de primero auxilios, recibir el curso de inyectables y por cluster de universidad.

GRACIAS
PIURA
SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA VERITAS Pgina 23

Potrebbero piacerti anche