Sei sulla pagina 1di 2

Resultados do Stata Comentados

Estatísticas descritivas usando o comando summarize


Esta apostila mostra um exemplo de estatísticas descritivas usando o comando summarize com notas de rodapé
explicando o resultado (output). No primeiro exemplo, obtemos as estatísticas descritivas para uma variável binária (variável
dummy) chamada female. Essa variável assume o valor 1 se o aluno (o indivíduo, nessa amostra) for do sexo feminino, e
0 caso contrário. No segundo exemplo, obtemos as estatísticas descritivas para uma variável contínua chamada write,
que foi o resultado obtido por estudantes em um teste de escrita. Usamos a opção detail para obter informações
adicionais, incluindo percentis, assimetria e curtose. Você não precisa usar a opção detail para todas as variáveis
contínuas.

a. Variable – Esta coluna indica a variável que está sendo descrita. Você pode listar mais de uma variável depois do
comando summarize; quando você fizer isso, verá que cada variável terá sua própria linha na tabela de resultados.

b. Obs – Esta coluna lhe diz o número de observações (ou casos) válidos (ou seja, não faltantes) para aquela variável. Se
você tivesse 200 observações em seu conjunto de dados, mas houvesse 10 dados faltantes para a variável female,
então número mostrado nessa coluna seria 190.

c. Mean – Esta é a média da variável. Neste caso, a variável female varia de 0 a 1 (os valores mínimo e máximo), então
a média é a proporção das observações cujo código é igual a 1 (ou seja 54.5%).

d. Std. Dev. – Este é o desvio-padrão da variável. Isso nos dá uma informação referente à dispersão da distribuição
da variável.

e. 1% – Este é o primeiro percentil. Os percentis são calculados ao ordenar os valores que a variável assume, do menor ao
maior, e depois encontrar qual valor corresponde ao percentual e que estamos interessados, neste caso, 1%. Então, 1%
dos valores da variável write são iguais ou menores que 31.

f. 25% – Este é o 25º percentil, também conhecido como primeiro quartil.

g. 50% – Este é o 50º percentil, também conhecido como a mediana (ou segundo quartil). Se ordernarmos os valores do
menor até o maior, a mediana seria o valor localizado exatamente no meio. Em outras palavras, metade dos valores estaria
abaixo da mediana, e outra metade acima. Esta é uma boa medida de tendência central se a variável tem outliers.

h. 75% – Este é o 75º percentil, também conhecido como terceiro quartil.


i. Smallest – Esta é uma lista dos quatro menores valores assumidos pela variável. Neste exemplo, os quatro menores
valores são todos iguais a 31.

j. Largest – Esta é uma lista dos quatro maiores valores assumidos pela variável. Neste exemplo, os quatro maiores
valores são todos iguais a 67.

b. Obs – Esta coluna mostra o número de observações (ou casos) que foram válidos (ou seja, não faltantes) para a
variável analisada. Se você tivesse 200 observações em seu conjunto de dados, mas houvesse 10 dados faltantes para a
variável write, então número mostrado nessa coluna seria 190.

k. Sum of Wgt. – Esta é a soma dos pesos. No Stata, você pode usar diferentes pesos para seus dados. Por definição
(padrão), atribui-se o peso de 1 para cada caso (isto é, para cada indivíduo da amostra). Quando este padrão é usado, a
soma dos pesos será igual ao número de observações.

c. Mean – Esta é a média aritmética dentre as observações. É a medida de tendência central mais utilizada. É
comumente conhecida apenas por média. A média é sensível a valores extremamente altos ou baixos.

d. Std. Dev. – Este é o desvio-padrão da variável. Ele nos dá uma informação relativa à dispersão da distribuição da
variável.

l. Variance – Esta é a variância da variável, que é igual ao desvio-padrão elevado ao quadrado. A variância também
é uma medida de dispersão da distribuição.

m. Skewness – Esta é a assimetria que a distribuição da variável assume, e indica o grau e a direção dessa assimetria.
Uma distribuição simétrica como a distribuição normal tem uma assimetria 0, e uma distribuição que é assimétrica à
esquerda (quando a média é menor que a mediana), tem uma assimetria negativa.

n. Kurtosis – Esta é a curtose, que mede o “peso” nas caudas de uma distribuição. Uma Distribuição Normal tem uma
curtose igual a 3. Distribuições com caudas “pesadas” têm curtose maior que 3 e distribuições com caudas “leves” têm
curtose menor que 3. (Observe que há mais de uma forma de computar a curtose, por favor visite o site Why do I get
different values of Kurtosis in SAS, Stata and SPSS? (em inglês) para mais informações.)

Tradução: Lucas Reis (souzalucasr@gmail.com)


Fonte: Introduction to SAS. UCLA: Statistical Consulting Group. Site: http://www.ats.ucla.edu/stat/sas/notes2/ (acessado
em 31 de Agosto de 2013).

Potrebbero piacerti anche