Sei sulla pagina 1di 17

PAQUETES ESTADSTICOS GUIA DE MANEJO DE STATA _____________________________________________________________________ El presente documento resume los principales comandos utilizados para el anlisis

de bases de datos en STATA 1. ADMINISTRACIN GENERAL DE BASES DE DATOS COMANDOS PARA ABRIR BASE DE DATOS: USO Estos comandos se utilizan para abrir una base de datos. Es importante mencionar que STATA solo puede ejecutar bases con extensin dta. Para transformar las bases se utiliza un paquete anexo denominado STATA TRANSFER. Esta opcin hace uso del men propuesto por el programa

COMANDO using unidad:/nombre de la base.dta use a:/ nombre de la base.dta

Click a file Archivo Open Abrir Seleccionar el archivo a ejecutar Abrir Icono de carpeta Seleccionar el archivo a ejecutar Abrir

COMANDOS PARA GUARDAR INFORMACIN ARCHIVO LOG USO Para abrir archivo log que permite grabar automticamente toda la informacin de comandos y resultados generados en el anlisis de la base de datos. Puede ser ledo en el procesador de texto word.

COMANDO Click al icono (pergamino) Elegir localizacin para guardar el archivo Asignar nombre al archivo con extensin log Abrir Para cerrar click en el icono y en close log file Log using a:/nombre del archivo.log Click al icono (pergamino) Elegir localizacin del archivo Elegir el archivo Click a la opcin de append to existing file Para cerrar click en el icono y en close log file

Para abrir un archivo log ya existente en el cual se quieren anexar nuevos resultados.

COMANDO PARA DESCRIPCIN DE LA BASE DE DATOS USO Verificar la instalacin de los archivos de STATA.

COMANDO (DIFERENTES OPCIONES) Verinst

describe de desc

Se utiliza para describir las generalidades de la base de datos (numero de observaciones, numero de variables y tamao de la base) Se utiliza para ubicar valores perdidos o faltantes y observar generalidades de las variables Se utiliza para listar cualquier observacin contenida en la base de datos. En este caso se ejemplifica la bsqueda de valores faltantes de la variable edad Mscara de captura Para capturar tu base de datos. Se utiliza para introducir una base de datos (variables y observaciones) Si la variable que se va a ingresar es un nombre, se escribe str (strin): Para terminar tu captura Para comprimir y salvar espacio, La convierte de flota a byte, porque sta ahorra ms espacio, slo admite 3 dgitos. Para comprimir bases de datos mayores automticamente. Archivos de texto (ASCII) creados en hojas de trabajo o programas de base de datos (extensin .txt, csv) datos separados por comas o tab, una observacin puede estar en una lnea, la primera lnea del archivo puede tener los nombres de las variables. insheet using nombre del archive: insheet using C: nombre Datos separados por espacios, comas, tabs (.txt, .csv., .prn) las variables string pueden estar dentro de comillas o separadas, una observacin puede estar en una lnea, pueden haber mltiples observaciones en una lnea. (son un relajito ) infile listvar using nombre del archivo (se debe colocar las variables y el tipo para lograr importarla) : infile str nombre edad peso talla using C:nombre Los datos pueden estar en columnas, una observacin abarca ms de una lnea. (terminacin .raw) infix specification using nombre del archivo: infix 2lines1 str marca 1-13, mpg 1-2 peso using C: nombre Convierte las bases .dta a formato ASCII, separado por tab o comas: outsheet listvar using nombre del archivo [if exp] [in range] [, nonames nolabel noquote comma replace wide] ordena de acuerdo a una variable, ordena en forma ascendente ordena en forma ascendente (gsort peso) descendente (gsort peso)

d codebook list if Ej. list if edad==. List if edad <. Input

End Recast Compress Insheet (ASCII)

Infile (Formato Libre):

Infix (Formato Fijo)

Outsheet:

sort: sort file gsort:

Para que ordene, colocando primero los missing: gsort peso, mfirst COMANDOS PARA EDICIN DE LA BASE DE DATOS USO Se utiliza para ver la hoja con los datos (tabla) Para edicin de la base de datos Para listar observaciones y las variables de cada individuo Para etiquetar variables Para cambiar la codificacin de la variable Para asignar los valor etiquetados a las variables Para genera una nueva variable idntica a partir de una existente en la base de datos. En este caso se ejemplifica la generacin de una variable idntica a la edad Para recodificar los valores o categoras de una variable. En este caso se ejemplifica la recategorizacin de variable edad2 generada.

COMANDO Browse Icono data browser Edit List label var variable Ej. label var edad edad en aos label define Ej. label define edad 10/20 221/40 341/max label value Ej. label value edad edad generate gen gene gener Ej. gen edad2=edad recode rec reco recod Ej. recode edad2 min/45=1 45/max=2 replace rep repl Ej. replace edad=1 if edad<=20 Keep drop Ej. drop all (borra todas las variables) drop edad (borra la variable edad) Sort Ej. sort folio (ordena numricamente por folio la base de datos) order Ej. order edad talla genero Move Ej move peso save as save, replace Clear Xtile xtile talla3=talla, nq(4)

Para reemplazar valores o categoras de una variable. En este caso se ejemplifica el reemplazo de las edades menores o iguales a 20 por el valor 1 en la variable edad. Para guardar variables, principalmente con el fin de construir una nueva base de datos a partir de una existente Para borrar variables Para ordenar las variables de la base de datos Para cambiar orden de las variables dentro de la base de datos Para mover o ubicar una variable en la hoja de datos al comienzo Para guardar los cambios de la base de datos Para guardar los cambios de la base de datos Para cerrar base de datos o limpiar comandos anteriores Te genera nueva variable y te categoriza segn el nmero de categoras que le pidas =)

COMANDOS PARA PEGAR BASES DE DATOS

PASO 1 2 3 4 5 6 7

COMANDO using a:/nombre de la base principal.dta sort folio

USO Para abrir una base genrica localizada en A

8 9 10 11

Organizar esta base de datos de acuerdo con el nmero de folio Keep folio var1 var2.... varp Seleccin de las variables que se desean conservar save as a:/nombre de la base Guardar archivo de las variable seleccionadas en de datos hija.dta el punto anterior using a:/nombre de la Para abrir la base a la cual deseamos pegar las base.dta variables seleccionadas archivo: nombre de la base de datos hija.dta Sort folio Organizar esta base de datos con base en la variable folio. La variable folio debe ser igual en todos los archivos merge folio using a:/ nombre Para unir las variables al archivo en uso. La de la base de datos hija.dta unin se evidencia por la creacin automtica de la variable _merge merge using "C:\Documents and Settings\UserBase1 tab_merge Para verificar la unin. Debe observarse una sola categora (3) con el total de las observaciones save, replace Para guardar los cambios hechos en la base de datos nombre de la base principal.dta describe Para revisar que la nuevas variables fueron incluidas drop _merge Para borrar la variable creada _merge, dejando la posibilidad de nueva uniones

CREACIN DE UN ARCHIVO DO

Es un archivo que construye incluye la relacin de todos los comandos necesarios para abrir, ejecutar y analizar una base de datos. Es una rutina de comandos. 2. ANALISIS DE BASES DE DATOS COMANDOS DESCRIPCIN UNIVARIADA USO Para estimar de una o ms variables continuas numero de observaciones, media, desviacin estndar y rango. En el ejemplo se describirn las variables edad, peso y talla Para estimar de una o mas variables continuas numero de observaciones, medidas de tendencia central, valores mnimos y mximos, medidas de dispersin, Percentiles, curtosis y sesgo (mayor detalle).

COMANDO summarize summ sum Ej. summ edad peso talla summarize summ sum adicionando var, detail Ej. summ edad,de

Ej. Ej. Lv

tabulate tab tab raza tabulate1 tab1 tab1 raza nivelsoc genero

graph (la que pidas) var graph box variable graph var, norm qnorm var Sktest var

swilk var

Sfrancia ladder var

Para estimar en una variable categrica nmero de observaciones, porcentaje y frecuencia acumulada Para estimar simultneamente en mas de una variable categrica nmero de observaciones, porcentaje y frecuencia acumulada Para observar dispersin de los datos y valores aberrantes Inner y outer fence: te dicen los outliers internos->probables aberrantes y externos-> seguro son aberrantes Para ver la distribucin de una variable continua Para ver la distribucin en caja de una variable continua Para ver la distribucin de una variable continua comparada con el patrn de distribucin normal Para realizar la prueba estadstica de normalidad de una variable continua (Ho: distribucin normal). Ofrece los datos de curtosis y sesgo (la distribucin normal tiene una curtosis de 3 y un sesgo de cero) Prueba de Shapiro Wilk para probar normalidad de una variable continua (Ho: la variable tiene distribucin normal) La p debe ser mayor a 0.05 y W tiende a 1 Para probar Normalidad La p debe ser mayor a 0.05 y W tiende a 1 Para comprobar objetivamente la normalidad de una variable continua y evaluar sus posibles trasformaciones en bsqueda de normalidad en su distribucin. Ho: la variable continua transformada tiene distribucin normal Para que una prueba sirva para la transformacin debe tener una p mayor a la 0.05.

COMADOS PARA ANLISIS BIVARIADO

COMANDO USO RELACIN VARIABLE CONTINUA VS. DICOTMICA sdtest var, by(var) Se utiliza para comparar las varianzas una Ej. sdtest edad, by(genero) variable continua con una dicotmica. Ho: las varianzas son iguales

ttest var, by(var)

ttest var, by(var) unequal

tab var, summ (var) Ej. tab genero, summ (edad)

Regress reg reg vardep varindep RELACIN VARIABLE DICOTMICA VS. DICOTMICA tab var var,chi2 Relaciona dos variables dicotmicas mediante una prueba de chi2 tab var var, row cell exact, all Relaciona dos variables categricas, calcula porcentaje dentro de las filas y las columnas, : adems de la prueba exacta de Fisher tab sexo dx_llega, chi2 exact cuando se tiene una celda con menos de 5 observaciones (p<0.05) x lo menos 1 variable explica y tabi a b c d Realiza una tabla de contingencia con los valores exactos de las celdas, adems de la prueba de chi2 cc var var Permite obtener la razn de momios relacionando dos variables dicotmicas cci a b c d Relaciona una tabla de contingencia con los valores exactos de las celdas, adems de la prueba de chi2. Ofrece el OR cs var var Permite obtener RR relacionando dos variables dicotmicas csi a b c d Para realizar una tabla de contingencia con los valores de agrupados de la tabla. Calcula el RR logit vardep varindep Permite realizar una regresin logstica con un slo regresor Logistic vardep varindep RELACIN VARIABLE CONTINUA VS. CATEGRICA DE MAS DE DOS CATEGORIAS tab var, summ (var) anova Realiza una tabla de contingencia que Ej. tab genero, summ (edad) relaciona una variable categrica con una continua. Ofrece diferencia de medias y varianza entre las categoras

Si las varianzas son iguales. Compara las medias una variable continua con una dicotmica. Ho: las medias de las categricas son iguales. (p>0.05) esa var indep s explica y Si las varianzas no son iguales. Compara las medias una variable continua con una dicotmica. Ho: las medias de las categricas son iguales. Muestra una tabla de contingencia que relaciona una variable dicotmica con una continua Regresin lineal con un slo regresor

oneway var var, means bonferroni Bonferroni : prueba no paramtrica equivalente a la ANOVA para demostrar que no hay diferencia entre las medias de los grupos (por pares) Kruskall-Wallis : prueba no paramtrica equivalente a la ANOVA para demostrar que no hay diferencia entre las medias de los grupos (por 3 o ms grupos) RELACIN VARIABLE pwcorr var var, sig corr var var, sig

Permite comparar medias y varianzas entre los grupos. Para medias: Ho: Las medias son diferentes H1: Al menos una media es diferente. Prueba Barttlet (varianzas): Ho: Las varianzas son iguales H1: Al menos una varianza es diferente. (p>0.05) CONTINUA VS. CONTINUA Correlacin de Pearsn. Esta correlacin ajusta por el numero de regresores. El clculo toma en cuenta el numero de observaciones completas. Muestra Multicolinealidad, correlacin de cada una de las variables. Si es =0 No hay Correlacin (va de -1 a 1, correlacin negativa o positiva) Correlacin parcial. El calculo se realiza sin ponderar por otras variables Correlacin de la var. Dependiente con todas las dems. Si es =0 No hay Correlacin (va de -1 a 1, correlacin negativa o positiva) Te da significancia tambin p<0.05 Permite graficar en diagrama de dispersin dos variables continuas Permite graficar en diagrama de dispersin dos variables continuas con tcnica de suavizamiento

pcorr var var

plot var1 var2 ksm var1 var2, lox

CONTRUCCIN DE VARIABLES DUMMY PARA VARIABLES DE MAS DE DOS CATEGORIAS COMANDO tab var,gen (var) USO Para generar variables indicadoras de una variable de ms de dos categoras

ANLISIS MULTIVARIADO USO Correlacin de Pearsn. Esta correlacin ajusta por el numero de regresores. Solo se usa para variables continuas Correlacin parcial. Sin ponderacin por otras variables. Solo se usa para variables continuas Comando para regresin lineal mltiple para anlisis multivariado con una variable dependiente continua y n variables independientes de cualquier tipo

COMANDO pwcorr vardep varindep1 varindep2.. varindepp, sig pcorr vardep varindep1 varindep2.. varindepp Opciones: regress/reg reg vardep varindep1 varindep2 varindep3..........varindepp

logit vardep varindep1 varindep2. varindepp

Logistic vardep varindep1 varindep2. Varindepp

glm vardep varindep1 varindep2.... varindepp, family (poisson) link (log) lnoff(exposure) nolog Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog

Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog irr

sw Ej. sw logit vardep varindep1 varindep2.... varindepp, pr(0.2) Forward = pe Backward = pr

Comando para regresin logstica mltiple con una variable dependiente dicotmica y n variables independientes de cualquier tipo. Los resultados estimados estn en escala logartmica, lo que permite estimar probabilidades y proporciones ajustadas en estudios de cohorte y transversales respectivamente Comando para regresin logstica mltiple con una variable dependiente dicotmica y n variables independientes de cualquier tipo. Los resultados estimados estn en escala real (razones de momios en estudios de casos y controles y razones de momios de prevalencia en estudios transversales). Comando para usar el modelo lineal generalizado para una variable con distribucin poisson medida como conteo (regresin poisson) y n variables independientes de cualquier tipo Comando para regresin poisson mltiple para anlisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados estn en escala logartmica Comando para regresin poisson mltiple para anlisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados estn en escala real (riesgos relativos) Nota: la variable exposure se utiliza para ajustar, cuando los denominadores no son iguales El uso de nolog es opcional, omite las iteraciones de realiza el paquete estadstico. El stepwise es un comando que le solicita al paquete estadstico la bsqueda de un modelo perfecto estadsticamente. Se ajusta con los valores de p esperados en las relaciones. Usado para cualquier tipo de regresin

3. DIAGNOSTICO DE MODELOS MULTIVARIADOS REGRESIN LINEAL MULTIPLE COMANDO USO VERIFICACIN DE SUPUESTOS / ANLISIS DE RESIDUOS predict nombre de la variable de Una vez corrido el modelo propuesto, residuos, rstudent generar residuos estudentizados rvpplot varind1 Permite graficar los residuos estudentizados con cada variable independiente Para probar Linealidad

qnorm nombre de la variable de residuos swilk nombre de la variable de residuos sfrancia rvfplot, yline(0)

Permite comprobar la normalidad de los residuos generados

Permite comprobar el supuesto de que la media de los residuos es cero y la varianza es constante Para comprobar homoscedasticidad Hettest Esta prueba es la de heterocedasticidad (Cook-Weisberg), se usa para comprobar el supuesto de que los residuos tienen varianza constante. Ho: los residuos no tienen varianza constante DETERMINACIN DE PUNTOS INFLUYENTES predict nombre de la variable, hat Para predecir los valores de la matriz sombrero count nombre de la variable >2*p/n Para contra los valores mayores a 2p/n List if nombre de la variable >2*p/n Para listar los folios de los puntos mayores de 2p/n PUNTOS INFLUYENTES EN EL VECTOR BETA (distancia de Cook) predict nombre del archivo, cooksd Habiendo corrido el modelo propuesto se predicen los valores entre cada observacin y la nube de puntos Count nombre de la variable >1 Para contar los puntos fuera con una distancia mayor de 1 PUNTOS INFLUYENTES EN CADA BETA Dfbeta Permite calcular los beta de cada regresor sum dfvarind1 dfvarind2..... dfvarindp Permite observar el rango y la media de los dbeta de cada regresor for var dfvarind1 dfvarind2....... Permite identificar los puntos influyentes de dfvarindp:count if abs(X)>2/sqrt(n) cada regresor Nota: Cuando hay una incongruencia de detectar puntos influyentes en cada beta, pero no en el vector se calculan los puntos influyentes en los valores predichos Dfit predict nombre de la variable, dfits Permite predecir los valores predichos sum nombre de la variable Permite la observacin de los rangos y la media de los valores predichos count if abs(dfit)>2*sqrt(p/n) Permite contar los valores predichos mayores de 2sqrt(p/n) list vardep varind1 varind2.varindp if Permite listar los valores predichos mayores abs(dfit)>2**sqrt(p/n) de 2sqrt(p/n) Nota: luego de omitir los puntos influyentes debe correrse nuevamente el modelo. ANLISIS DE MULTICOLINEALIDAD Vif Una vez corrido el modelo propuesto se calcula el factor de inflacin de la varianza. Valores mayores de 10 indican multicolinealidad REGRESIN POISSON COMANDO USO PRUEBAS DE BONDAD DE AJUSTE Una vez corrido el modelo propuesto y posteriormente el modelo nulo se realiza esta

Poisgof

prueba de bondad de ajuste que compara estos modelos. Ho: el modelo propuesto ajusta los datos (los regresores incluidos explican a Y). Lrtest, s(0) Una vez corrido el modelo propuesto se escribe el comando lrtest, s(0), luego se corre el modelo nulo y el comando lrtest. Esta prueba de bondad de ajuste compara los dos modelos, bajo la Ho: los dos modelos explican igualmente el comportamiento de Y ANLISIS DE RESIDUOS glmpred nombre de la variable de los Permite generar los residuos de devianza residuos, dev sum nombre de la variable de los Permite la observacin de las caractersticas residuos de los residuos de devianza qnorm nombre de la variable de los Permite determinar la distribucin de los residuos residuos de devianza swilk var Prueba de Shapiro Wilk para probar normalidad de los residuos de devianza (Ho: los residuos de devianza tiene distribucin normal) REGRESIN LOGISTICA COMANDO USO PRUEBAS DE BONDAD DE AJUSTE lfit Una vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos lfit, group(10) Modificacin propuesta por Hosmer y Lemeshow. Ua vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos Lstat Permite evaluar sensibilidad y especificidad del modelo, adems de los falsos positivos y negativos. GRAFICAS DIAGNOSTICAS Lroc Permite evaluar el valor predicitvo del modelo. Un modelo sin valor predictivo tiene rea 0.5 y un modelo perfecto tendra rea 1 Lsens A travs de una grafica, relaciona sensibilidad y especificidad del modelo. ANLISIS DE RESIDUOS lpredict nombre de la variable de los Permite generar residuos estandarizados residuos graph res nombre de la variable de los Permite graficar los residuos residuos graph res nombre de la variable de los residuos, yline(0) sum nombre de la variable de los Permite la observacin del rango y la media residuos de los residuos estandarizados

10

lpredict dbetas, dbeta sum dbeta graph res nombre de la variable de los residuos, twoway oneway box border yline(0) 4. ANALISIS DE SUPERVIVENCIA

Permite generar dbetas, en bsqueda de puntos influyentes de cada regresor (beta) Permite observar el rango y la media de los dbetas

la estimacin de supervivencia se hace con mtodos no paramtricos, usaremos Kaplan Meier. Anlisis utilizado para estudios longitudinales. Tiene las siguientes caractersticas: Presencia fundamental de censura Presencia de fallas (evento) La variable dependiente o respuesta es el tiempo El evento esta medido categricamente COMANDO stset tiemdd censura1 tab censura1 . sum tiemdd, detail . sts list USO Prepara a STATA para el anlisis de supervivencia. Se le indica la variable tiempo y censura Permite la observacin de la variable censura Permite la observacin de los valores mximos y mnimos de la variable tiempo. Incluye fallas y censuras La descripcin se hace mediante la construccin de tablas de vida. Los principales parmetros son: Time: tiempo de supervivencia Begtotal= individuos vivos justo antes de este tiempo. fail=Numero de fallas fail/beg total= probabilidad estimada de supervivencia en el tiempo S estimada= producto de el No. de sujetos vivos antes del tiempo - No. de fallas / No. de individuos que estn vivos antes del tiempo. S estimada es la funcin de supervivencia. Este analisis esta ajustado por el tiempo de las censuras. Permite la construccin de una tabla de vida estratificando por una variable. En este ejemplo vemos la supervivencia de las mujeres con antecedente de pap Nota: No se pueden hacer anlisis de inferencias en bivariados. Los anteriores comandos grafican. las rayas horizontales muestran las censuras y las

. sts list, by(pap)

. sts graph . sts graph, by(etapa)

11

. sts test etapa,logrank

verticales las fallas. Logrank se usa para ver diferencias en las curvas de supervivencia observadas en Kapplan M. Ho= no hay diferencia entre las lneas

NOTA: El anlisis bivariado y multivariado se hace mediante el modelo de riesgos proporcionales de cox.

12

Comandos y su descripcin:

Append. Este comando permite unir a las observaciones de dos bases de datos y no a travs de variables completas. Browse. Favorece la visualizacin de datos de la base en la hoja de captura sin la posible opcin de modificacin. by var: sum var, detail Como variante del sum condiciona por cualquier variable la descripcin en detalle de cualquier otra centile Permite observar los percentiles que se deseen de X variable con caracterstica de continua para que de esta forma pueda ser poder dividirla en categoras. Clear Este comando oculta la base de datos sin que se salve y sin que sea necesario salir del programa Codebook A travs de este comando se explora una variable X ayudando a recordar sus valores. corr var var A travs de este comando se establece la correlacin entre dos o ms variables count if abs (cook)>1 Se despliega el valor entre los residuos y beta count if abs(dfits)>2*sqrt(p/n) Cuenta los puntos influyentes de los valores predichos mismos que no deben sobrepasar de 2*sqrt(p/n). count if abs(DFvar1)>2/sqrt(n) Cuenta los puntos influyentes en cada una de las variables independientes (X) del modelo, mostrando el nmero de ellos, que no debe sobrepasar de 2/sqrt(n) count if abs(resid)>1.96 Presente el conteo de residuales mayores a 1.96 describe Es la descripcin de una base de datos en general y de una variable (X) en particular dfbeta Se generan las distancias de diferentes variables independientes incluidas en el modelo (X), es decir las distancias entre residuos y el beta-j display Este comando sirve para realizar cualquier operacin matemtica. drop Borra variables a indicacin del investigador. drop var-var Borra desde una variable inicial hasta una variable final. edit Este comando permite la visualizacin de los datos de la base en la hoja de captura con opcin de algn tipo de modificacin. exit, clear Este comando se emplea para salir del programa preservando el log pero sin salvar la base. fpredict dfits, dfits A travs de este comando se generan las distancias existentes entre los valores observados o predichos y los esperados. gen

13

Se genera una nueva variable que puede ser independiente o bien ser origen de otra. graph DFvar1 DFvar2, box yline Permite realizar un grfico de caja condicionado con la finalidad de visualizar puntos influyentes. graph res pred Se grafican los residuos estandarizados graph res pred, yline twoway onaway box border Se grafican los residuos estandarizados, con una lnea paralela al eje de las xs perpendicular al eje de las (y), incluyendo adems, a un box plot paralelo a ambos ejes, mostrando valores aberrantes. graph res pred, yline(0) Esta grafica permite ver los residuos estandarizados, con una lnea paralela al eje de las X perpendicular al eje de las Y. graph var Permite realizar de forma sencilla, un histograma de una variable(X, Y). graph var var Permite realizar un grfico de correlacin entre dos variables visualizando la tendencia graph var var, connect(l) Se realiza un grfico de correlacin entre dos variables con una lnea que permite unir todas las observaciones. graph var, box Diagrama o grfico de caja. graph var, box by Diagrama o grfico de caja condicionado por valores de cualquier otra variable graph var, box by(var) yline Presenta una lnea paralela al eje de las (X) y compatible en valores con eje de las (Y) en diagrama de caja que compara dos variables. graph var, his Se realiza un histograma sencillo de la variable solicitada. graph var, his norm Permite realizar un histograma con lnea de distribucin visible. graph var, his norm noaxis Permite realizar un diagrama de frecuencias con lnea de distribucin visible. graph var, his ylabel xlabel Etiqueta un diagrama de frecuencias(histograma) en sus ejes de manera automtica. Keep Retiene en la base de datos, solo las variables que se deseen, eliminando automticamente todas aquellas variables que no se escribieron posterior al comando. keep if Retiene los valores de una variable (X) de forma condicionada. ksm var var Permite realiza una diagrama de correlacin entre dos variables continuas, presentando una lnea suavizada que se emplea para hacer un promedio de los valores de ambas variables, pudiendo observarse una tendencia. label data Etiqueta la base de datos completa con el nombre que el investigador asigne. label define Este comando permite etiquetar categoras de exposicin o grupos previamente recodificados. label values A travs de este comando es posible observar como fueron nombradas las categoras de exposicin y sus valores despus de haberse etiquetado. label var Etiqueta variables. ladder

14

Permite visualizar los diferentes tipos de transformaciones de una variable para as, poder elegir la mejor transformacin. lfit A travs de este comando se permite evaluar la prueba de Hosmer Lemeshow y ver si los datos se ajustan al modelo. lincom var-var Realiza un prueba de asociacin (OR, p, IC) entre las diferentes categoras de una variable evaluando su igualdad y de esta forma se agrupen con la condicin de haber corrido previamente un modelo de regresin. List Permite explorar a la variable. list folio if abs (DFvar1)>2/sqrt(n) Enlista los folios con puntos influyentes de una variable DF en particular. list folio if cook>1 Indica folios de valores influyentes. list folio if dfits>2*sqrt(p/n) Muestra a los folios con valores influyentes. list folio if resid>1.96 Muestra folios que contienen los residuos condicionados a >1.96. list if Condiciona la observacin a un valor especfico. list if abs(dfits)>2*sqrt(p/n Lista puntos influyentes en los valores predichos. list if abs(DFvar1)>2/sqrt(n) Lista puntos influyentes de la primera variable DF mostrando los datos de todas las variables de la base, incluyendo las nuevas variables que recin fueron generadas. list if abs(resid)>1.96 Lista los residuos mayores a 1.96. list var-var if Lista las variables desde una inicial hasta una final (condicional). log off Deshabilitar el log. log on Habilita el log. logistic var var Realiza un modelo de regresin logstica bivariado as como multivariado. lpredict dbet, dbeta Sirve para generar residuos generando las distancias de diferentes variables independientes incluidas en el modelo. lpredict res, rstandard Muestra los residuos estandarizados. lpredict stand Genera los residuos estandarizados. lroc Diagnstico del modelo atravs de la interpretacin del rea bajo la curva condicionado por puntos de corte en su sensibilidad as como de su especificidad. lstat Hace diagnstico del modelo a travs de una prueba de tamiz. lv var Grfico de letras, mostrando valores aberrantes. merge Permite reunir dos bases de datos que tienen al menos una variable en comn. predict cook, cooksd Puntos influyentes en beta por la distancia de cook. predict r_stu, rstu

15

Genera los residuos estudentizados posterior a correr un modelo de regresin mltiple. pwcorr var var Correlacin entre dos o ms variables. pwcorr var var if A travs de este comando se puede establecer una correlacin condicionada entre dos o ms variables por valor(es) de una de ellas con o sin significancia estadstica. pwcorr var var, sig Permite establecer correlacin entre dos o ms variables, con valor de significancia estadstica. qnorm resid Grfica de los residuos ajustndolos a una lnea de distribucin normal. qnorm var Grficos que muestran el ajuste en una curva de distribucin normal a los datos por observacion. recode Recodifica los valores de una variable (grupos o categoras de exposicin) de acuerdo a determinados puntos de corte biolgicamente plausibles o por estadstica. regress Realiza una regresin lineal simple o mltiple. regress var var if Realiza una regresin lineal simple o mltiple de manera condicionada. rename Cambia el nombre a una variable. replace Reemplaza/modifica categoras de una variable. replace var if Reemplaza/modifica categoras de una variable(condicionada) por la misma o por otra variable. save, replace Salva la base de datos por las ltimas modificaciones. sort Ordena los datos de una variable que pueden evaluarse con la indicacin " by" stem var Diagramas de tallo y hoja. sum cook Resumen de datos que permiten observar el tamao de la distancia a la beta siendo deseable que esta distancia de cook <1. sum dfit Visualiza las distancias entre valores predichos y esperados. sum DFvar1 DFvar2 DFvar3 Visualiza los puntos influyentes en beta-j. sum var if Descripcin de la variable acotada a valor(es) considerados por el investigador. sumarize A travs de este comando se pueden describir una-mas variables resumiendo medidas de tendencia central y la distribucin. sumarize var, detail Describe una-mas variables resumiendo sus medidas de tendencia central y su distribucin. tab var if Permite a travs de este comando observar datos de una variable acotados a cierto valor(es). tab var var Explora dos variables. tab var, gen (var)

16

A travs de este comando se producen a las variables indicadoras o dummies para cada una de las categoras de la variable. tab var, sum var Cruza datos descriptivos (medidas de tendencia central de la segunda variable) por categoras de la primera variable permitiendo hacer un anlisis de las variables por grupos. tab_merge Visualiza la variable generada del comando merge. tabulate Explora variable(s). tabulate var, nolabel Borra la etiqueta de las categoras que tenga la variable. ttes var if Prueba de t de student condicionada por un valor(es). ttest Prueba de t de student de comparacin de dos medias muestrales. ttest var, by(var) Prueba de t de student condicionada a la variable dependiente vif Inflacin de la varianza (multicolinealidad). Para descartar multicolinealidad el vif debe ser <10.

17

Potrebbero piacerti anche