Sei sulla pagina 1di 26

Estatística Básica

O que é Estatística ?
O que é Estatística ?
• um conjunto de métodos e processos 
q
quantitativos que servem para estudar e medir 
q p
os fenômenos coletivos
• Aplicações em quase todas as áreas de 
Aplicações em quase todas as áreas de
conhecimento humano, inclusive Ciências da 
Computação
O que é analisar dados ?
O que é analisar dados ?
• Id
Identificar comportamentos médios, 
tifi t t édi
comportamentos discrepantes, compara 
comportamentos investigar a interdependência
comportamentos, investigar a interdependência 
entre variáveis, revelar tendências, etc.
• A partir de uma massa de dados, e com auxílio de 
A partir de uma massa de dados e com auxílio de
recursos computacionais, separar o que é 
essencial (estrutura) do que é eventual (ruído)
• Resumir, de forma eficiente, a informação contida 
nos dados e assim permitir que, através dessse
conhecimento, as decisões sejam tomadas de 
h d õ d d
forma mais consciente.
O que é Análise Exploratória ?
O que é Análise Exploratória ?
• Trata‐se de um conjunto de técnicas de 
q p
tratamento de dados, que, sem implicar em 
uma fundamentação matemática mais 
rigorosa nos ajuda a fazer uma sondagem
rigorosa, nos ajuda a fazer uma sondagem 
inicial, ou seja, tomar um primeiro contato 
com a informação disponível
com a informação disponível
O que vem depois da Análise 
Exploratória ?
• Após a análise exploratória que fornece 
g p p p
algumas pistas a respeito do estudo, podemos 
partir para a chamada Inferência, em que 
serão aplicados aos dados métodos mais
serão aplicados aos dados métodos mais 
sofisticados, cuja fundamentação matemática 
está no Cálculo de Probabilidades
está no Cálculo de Probabilidades.
Áreas da Estatística
Áreas da Estatística
• Estatística Descritiva
• Estatística Inferencial
Estatística Inferencial
Estatística Descritiva
Estatística Descritiva
• A Estatística Descritiva se preocupa com a 
g ç p ç ç de 
organização, apresentação e sintetização
dados. Utilizam gráficos, tabelas e medidas 
descritivas como ferramentas Utilizada na
descritivas como ferramentas. Utilizada na 
etapa inicial da análise, destinada a obter 
informações que indicam possíveis modelos a
informações que indicam possíveis modelos a 
serem utilizados numa fase final que seria a 
chamada inferência estatística
Vocabulário básico de estatística
Vocabulário básico de estatística
• População: Coleção completa de todos os 
q j
elementos que são objeto de nosso estudo.
• Amostra: Subconjunto de elementos 
selecionados da população segundo regras
selecionados da população segundo regras 
bem definidas.
• Variável: Corresponde a uma característica de 
um item ou de um indivíduo.
um item ou de um indivíduo.
Variáveis
• Ao se fazer um estudo estatístico de um 
g p q
determinado fato ou grupo, tem‐se que 
considerar o tipo de variável:
– Variáveis qualitativas;  ou 
Variáveis qualitativas; ou
– Variáveis quantitativas
Variáveis Qualitativas
Variáveis Qualitativas
• Nominal ou categórica: seus valores possíveis 
g
são diferentes categorias não ordenadas, em 
que cada observação pode ser classificada.
Ex: Raça nacionalidade área de atividades
Ex: Raça, nacionalidade, área de atividades.
• Ordinal: seus valores possíveis são diferentes 
categorias ordenadas, em que cada 
ç p
observação pode ser classificada.
Ex: classe social, nível de instrução.
Variáveis Quantitativas
Variáveis Quantitativas
• Discreta: Seus valores possíveis são em geral 
p g
resultados de um processo de contagem. 
Ex: número de filhos, número de séries 
escolares cursadas com aprovação;
escolares cursadas com aprovação;
• Contínua: seus valores possíveis podem ser 
expressos através de números reais e varem 
uma escala contínua de medição
uma escala contínua de medição
Ex: Renda mensal, peso, altura.
Exemplo
• Exemplo: Pesquisa antropométrica: amostra 
( )
de 45 mulheres idosas acima de 60 anos (xls)
Distribuição de Frequências – Tabelas 
e Gráficos
• Tabelas (Para uma variável qualitativa):
– Cada linha corresponde a um valor possível da 
variável
– Através de um processo de contagem são obtidos os 
valores que constam na coluna de frequência da 
tabela.  O resultado dessa contagem é chamada de 
frequência absoluta;
– A partir das frequências absolutas podem ser também 
calculadas frequência relativas, usualmente 
apresentada sob a forma de percentuais.
Distribuição de Frequências – Tabelas 
e Gráficos
• Gráfico (Para uma variável qualitativa): Barras
60,00%
60,00%
50,00% 50,00%
40 00%
40,00% 40,00%
, %

Ativa 30,00%
30,00%
Sedentária 20,00%
20,00% 10,00%

10,00% 0 00%
0,00%
Pequeno  Médio  Grande 
0,00% Risco Risco Risco
1
Distribuição de Frequências – Tabelas 
e Gráficos
• Gráfico (Para uma variável qualitativa): Setores –
G áfi (P iá l lit ti ) S t pizza ou torta
i t t

Pequeno 
Risco; 
11,11%
Grande 
Grande
Risco;  Pequeno Risco
44,44%
Ativa;  Médio Risco
Sedent 48,89% Médio 
Risco;  Grande Risco
ária; 
51 11%
51,11% ,
44,44%
Observação sobre cada tipo de gráfico
Observação sobre cada tipo de gráfico
• O
O gráfico de setores, por não implicar uma 
áfi d t ã i li
ordenação das categorias, é mais apropriado para 
as variáveis qualitativas nominais
as variáveis qualitativas nominais
• O gráfico de barras, em que as categorias estão 
naturalmente ordenadas é mais apropriado para
naturalmente ordenadas, é mais apropriado para 
as variáveis qualitativas ordinais
• Para representar a distribuição de frequência de 
Para representar a distribuição de frequência de
uma variável através de um gráfico de setores é 
importante que a variável não possua muitas 
categorias, pois isto dificulta a visualização das 
df l l ã d
proporções.
Tabelas de Frequências para variáveis 
quantitativas
• No caso de variáveis quantitativa discreta com 
um pequeno número de valores possíveis (por 
exemplo, número de filhos), a construção de uma 
tabela de frequência segue os mesmos moldes do 
q g
que visto para variáveis qualitativas;
• Antes de mais nada é necessário dividir o seu 
Antes de mais nada é necessário dividir o seu
intervalo de variação em vários subintervalos (de 
preferência todos eles com a mesma amplitude)
preferência todos eles com a mesma amplitude).
Tabelas de Frequência para Variáveis 
Quantitativas
Faixa Etária Frequência Percentuais

60 — 65 16 35,56
65 — 70 16 35,56
70 — 75 12 26,67
75 — 80 1 2,22
Total 45 100

Histograma
20

Freqüência
15
10
5 Freqüência
0
65 70 75 80 Mais
Intervalo
Gráfico Ramo Folha
Gráfico Ramo‐Folha
61 69 61 71 63 71 72 68 66 69 72 67 63 66 63
63 60 67 71 63 60 69 64 63 66 71 64 70 63 66 
64 69 69 64 63 72 73 68 71 72 69 68 68 73 79

60‐64   6  61 61 63 63 63 63 60 63 60 64 63 64 63 64 64 64 
65 69 6 69 68 66 69 67 66 67 69 66 66 69 69 68 69 68 68
65‐69   6  69 68 66 69 67 66 67 69 66 66 69 69 68 69 68 68
70‐74   7  71 71 72 72 71 71 70 72 73 71 72 73
75 79 7 79
75‐79   7  79
80‐84   8   0
Gráfico Ramo Folha
Gráfico Ramo‐Folha
60‐64   6  61 61 63 63 63 63 60 63 60 64 63 64 63 64 64 64 
60 64 6 61 61 63 63 63 63 60 63 60 64 63 64 63 64 64 64
65‐69   6  69 68 66 69 67 66 67 69 66 66 69 69 68 69 68 68
70 74 7 71 71 72 72 71 71 70 72 73 71 72 73
70‐74   7  71 71 72 72 71 71 70 72 73 71 72 73
75‐79   7  79
80‐84 8 0
80‐84   8   0

6 001133333334444            16
001133333334444 16
6     666677888899999 16
7     01111122233 12
7     1 1
8     0 0
Observação
• Se a forma de dividir o intervalo de valores em 
f d di idi i l d l
subintervalos e a maneira de escolher os 
ramos forem as mesmas (ou equivalentes), o 
gráfico ramo‐folha e o histograma são 
praticamente a mesma figura.
• Entretanto, o ramo‐folha é mais informativo 
,
porque o valor numérico de cada observação 
não é perdido. No caso da idade, toda a
não é perdido.  No caso da idade, toda a 
informação numérica foi preservada.
Medidas de centralidade para variáveis 
quantitativas
n

• Média Aritmética
Médi A it éti x  x  ...  xn x i
x 1 2  i n
n n

• Mediana
Seja x(1) ≤ x(2) ≤ ... ≤ x(n) os mesmos valores que 
compõem a amostra, porém disposto em ordem 
p ,p p
crescente.
Mediana dos dados é:
 valor da observação de posição central, se n é impar
Mediana(x)  
 média dos valores das duas observações de posição central, se n é par valor da observação de posição central

• Moda
– A moda dos dados é aquele valor da amostra que ocorre 
d d d d é l l d
com maior frequência
Medidas de Dispersão para variáveis 
quantitativas
• Variância:
V iâ i n

 ( x  x)
i
2

s2  i 1
n 1

• Desvio‐padrão: n

 ( x  x)
i
2

s i 1
n 1
• Quartil:
– O primeiro quartil Q1 tem ¼ dos dados abaixo dele e 
¾d d d
¾ dos dados acima dele.
i d l
– O terceiro quartil Q3 tem ¾ dos dados abaixo dele e ¼ 
dos dados acima dele
dos dados acima dele
– O segundo quartil Q2 é a própria mediana
– A distância interquartil é dada por DIQ = Q3 –
q p Q Q Q Q1
Identificação de discrepância em 
variáveis quantitativas
• Dois critérios recomendados:
– Eliminar toda observação que estiver fora do 
ç q
intervalo  ( x  3.S; x  3.S )
– Limite inferior =             ou 
Limite inferior = Q  23  DIQ ou Q  23  DIQ
1 1

– Exemplo
l
BOX PLOT
BOX PLOT
• ÉÉ um gráfico utilizado para sintetizar em uma mesma figura várias 
áfi tili d i t ti fi ái
informações relativas à distribuição de uma determinada variável 
quantitativa
– IInicialmente é traçado um retângulo cuja base no qual serão 
i i l t ét d tâ l j b l ã
apresentados os valores da variável considerada.
– Depois se desenha um retângulo cuja base inferior corresponde à 
posição do primeiro quartil (Q1) e cuja base superior corresponde à
posição do primeiro quartil (Q1) e cuja base superior corresponde à 
posição do terceiro quartil Q3.  A posição da mediana é indicada por 
um traço horizontal no interior do retângulo
– Em seguida são trançados dois segmentos de reta verticais, em que 
g ç g , q
um deles vai desde o ponto médio da base inferior do retângulo até a 
posição da menor observação não discrepante, e outro vai desde o 
ponto médio da base superior do retângulo até a posição da maior 
observação não discrepante
observação não discrepante.
– Cada uma das observações discrepantes é explicitada.
B Pl t
Box‐Plot
• Exemplo 6: 7  9  12  15  17  21  23
Exemplo 6: 7 9 12 15 17 21 23
Q1 = 9 Q2 = 15 Q3 =21

25
23 Max

Q3
20
C1

15 Q2

10 Q1

7 Min

Potrebbero piacerti anche