Sei sulla pagina 1di 70

Estatistica

PROFESSORA MA. ISABELA ZARA CREMONEZE


Estatistica
 O que é estatística?
Entendemos a Estatística como um conjunto de técnicas que
permite de forma sistemática, coletar, organizar, descrever, analisar
e interpretar dados provenientes de estudos ou experimentos,
realizados e qualquer área do conhecimento (MAGALHÃES e LIMA,
2010).

Dados Informações Decisões


Definição do problema
Objetivos

Planejamento da
pesquisa

Execução da
pesquisa

Pesquisador Dados Estatístico

Análise dos dados

Resultados

Conclusões
Onde utilizar a estatística?
Conceitos
 População: Conjunto de elementos com pelo menos uma
característica em comum. Esta característica deve delimitar
corretamente quais são os elementos da população;
 Um censo é uma coleção de dados relativos a todos os elementos de uma
população.

 Amostra: uma amostra é um subconjunto de elementos de


uma população.
 Amostragem: técnicas para selecionar os elementos da
população para comporem a amostra.
 Variável: Uma variável é uma característica de interesse que
pode assumir diferentes valores ou classificações para
diferentes sujeitos, organismos ou objetos selecionados para
nosso estudo.
Tipos de variaveis

Nominal
Qualitativa
Ordinal
Variável
Discreta
Quantitativa
Continua
Tipos de variaveis

Qualitativa
São aquelas que fornecem dados de
natureza não numérica.

Nominal Ordinal
identificação ou rotulação temos informação sobre a
das observações ordenação de categorias
Sexo, Nível de
escolaridade,
naturalidade, patente militar,
estado civil nível de ferrugem
Tipos de variaveis

Quantitativa
São aquelas em que os dados são
valores numéricos que expressam
quantidades.

Discreta Continua
Resultado de contagem Resultam em medições

Nº de filhos,
Altura, peso,
Nº de carros,
renda.
Idade.
Variáveis

Dados
Tecnicas de Amostragem
 Amostragem probabilística
 Amostragem aleatória simples
 Amostragem sistemática
 Amostragem estratificada
 Amostragem por conglomerado

 Amostragem não probabilística


 Amostragem sem critério(escolha desordenada);
 Amostragem intencional (o pesquisador escolhe certos elementos para a amostra);
 Amostragem com desigualdade de acesso aos elementos da população (há
elementos com mais facilidade de figurarem na amostra).
Amostragem aleatoria simples
Este tipo de amostragem consiste em selecionar elementos da população
para compor a amostra por meio de um sorteio, com ou sem reposição.

Para a seleção de uma amostra aleatória simples é necessário:

1- Uma lista completa enumerada dos elementos da população (N).

2 - Selecionar de forma aleatória n elementos para constituírem a amostra.


 Calculadora
 Excel
 Tabela de números aleatórios
 Aplicativos
 Papel
Amostragem sistematica

Este tipo de amostragem consiste em selecionar sistematicamente


elementos de uma população que está previamente ordenada, para
compor a amostra.

Esta técnica também é utilizada para selecionar indivíduos a


longo prazo
Amostragem sistematica
Para a seleção de uma amostra sistemática é necessário:

1. Ter uma estimativa do tamanho da população (N)

2. Calcular o intervalo de amostragem k, em que k =

3. Sortear o primeiro elemento da amostra, que será um número de 1 a k

4. Os próximos elementos selecionados terão a ordem acrescida de k

A, A+k, A+2K, A+3K,...


Amostragem estratificada
Consiste em dividir a população em subgrupos, que são denominados
de estratos.

Tipos de amostragem estratificada

Dependendo do tamanho dos estratos, escolhemos entre a


amostragem estratificada uniforme, quando os tamanhos dos estratos
são iguais, amostragem estratificada proporcional, quando os
tamanhos dos estratos são diferentes.
Amostragem estratificada
Para a seleção de uma amostra estratificada proporcional é
necessário:

1. Dividir a população em estratos (k) e calcular a proporção de cada


estrato(p1, p2, p3,..., pk ).

2. Calcular o número de amostra por estrado: ni = pi n onde n é o número total


de amostras.
= + + +
3. Selecionar as amostras nos estratos através da amostragem aleatória simples
ou da amostragem sistemática.
Amostragem por conglomerado

 Consiste em identificar uma característica que permita dividir a


população em grupos, de modo que os grupos não diferem em
relação ao que queremos medir.
 Uma vez que tenhamos definido esses grupos, basta selecionar
aleatoriamente alguns deles para estudo e tomar todos os
elementos dos mesmos.
Planejamento e amostragem
• Planejar a pesquisa e se preocupar com o
mecanismo da coleta de dados.

Estatística Descritiva
• Organizar, apresentar e sintetizar dados
observados, sem pretensão de tirar
conclusões de caráter extensivo.

Estatística Inferencial
• Inferi, induz ou verifica o comportamento
da amostra.
Apresentacao dos dados
Tabelas
Qual a diferença de
quadro e tabela?
Os quadros são utilizados para
apresentar conteúdos teóricos, como
comparações, classificações e dados
numéricos sem tratamento estatístico.
Apresentacao dos dados
Tipos de tabelas
Tabelas de simples entrada: composta por uma coluna indicadora
onde se dispõe a classificação da variável em estudo e de outra coluna
onde aparecem os valores observados do fenômeno do estudo.
Apresentacao dos dados
Tipos de tabelas
Uma tabela de frequência em geral apresenta além dos valores
observados (frequência absoluta), o percentual que cada
classificação representa do total (frequência relativa).
Apresentacao dos dados
Tipos de tabelas
Tabelas com classes intervalares: Quando se tem muitos
valores distintos de uma variável quantitativa é recomendável a
formação de intervalos. Recomenda-se utilizar entre 5 e 20 classes.
Apresentacao dos dados
Tipos de tabelas
Tabelas dupla entrada (ou contingência): são usadas para
registrar e analisar o relacionamento entre duas ou mais
variáveis, geralmente entre variáveis qualitativas. O principal
objetivo é explorar relações (similaridades) entre colunas ou
linhas.
Apresentacao dos dados
Tipos de tabelas
Séries históricas
Exemplos
Informação do estado
civil, grau de instrução,
número de filhos, idade e
procedência de 36
funcionários sorteados ao
acaso da empresa
MB.(Bussab e Morettin)
Apresentacao dos dados
Construcao de tabela com clases intervalares

1. Ordenar os valores
2. Calcular a amplitude total
3. Calcular/Definir número de classes (linhas).

4. Calcular a amplitude das classes .


5. Construir os intervalos a partir do menor
valor.
Apresentacao dos dados
Gráficos

 A representação gráfica fornece, em geral, uma visualização


mais sugestiva do que as tabelas. Portanto, constituem numa
forma alternativa de apresentação de distribuição de frequência.
 Usualmente utiliza-se gráfico de barras e setores para dados
qualitativos e para dados quantitativos utiliza-se histogramas,
gráfico de dispersão, polígonos de frequências entre outros.
Apresentacao dos dados
Tipos de gráficos
Gráfico de setores: também chamado de gráfico de pizza, é um
diagrama circular onde os valores de cada categoria estatística
representada são proporcionais às respectivas frequências.
Apresentacao dos dados
Tipos de gráficos
Gráfico de barras: barras retangulares nos quais os retângulos
correspondentes a cada categoria é proporcional ao número de
observações na respectiva categoria.
Apresentacao dos dados
Tipos de gráficos
Gráfico de colunas:

Utilizado para comparações


Apresentacao dos dados
Tipos de gráficos
Gráficos de barras/colunas

Números de venda para um número de diferentes frutas e legumes.


Apresentacao dos dados
Tipos de gráficos
Histograma: distribuição de frequências para variáveis quantitativos contínuos.
Apresentacao dos dados
Tipos de gráficos
Gráfico para séries históricas
Apresentacao dos dados
Tipos de gráficos
Pictograma
Resumo de dados
 Embora as técnicas utilizadas como tabelas e gráficos
sejam extremamente úteis, não permitem fazer
afirmações concisas e quantitativas que caracteriza a
distribuição dos valores como um todo.

 Para isso, contamos com as medidas descritivas:


 Medidas de tendência central.
 Medidas de dispersão
 Medidas de posição
Resumo de dados
Medidas de tendência central
 Média:
 A média é a medida de tendência central mais usada para descrever um
conjunto de dados.
 É o ponto ao redor do qual as observações tendem a se agrupar.
 É importante ser cauteloso quando usamos a média, para assegurar que ela
seja verdadeiramente representativa da população.
 É influenciada por valores extremos.

Dados agrupados Dados não agrupados


Resumo de dados
Medidas de tendência central
 Mediana
 É a medida que ocupa a posição central do conjunto de dados após os
dados terem sido colocados em ordem.
 Não é influenciada por valores extremos de um conjunto de dados, ou seja,
valores muito altos ou muito baixos não tem impacto no resultado final.

Dados agrupados Dados não agrupados


n par n ímpar
+

𝑛 𝑛 𝑛+1
𝑝= 𝑝= 𝑝=
2 2 2
Resumo de dados
Medidas de tendência central
 Mediana
Resumo de dados
Medidas de tendência central
 Moda:

 A moda é uma medida de tendência central que é o valor que ocorre com
mais frequência no conjunto de dados.
 Uma série pode ser: amodal, unimodal, bimodal,...

Dados agrupados

𝑖 é a classe com maior frequência


Resumo de dados
Medidas de tendência central
 Moda:
Resumo de dados
Medidas de tendência central
Exercícios:
1. O tempo de utilização de caixas eletrônicos depende de cada
usuário e das operações efetuadas. Foram coletadas 26 medidas
desse tempo (em minutos):

0,8 0,9 0,9 1,0 1,0 1,1 1,2 1,2 1,2 1,3 1,3 1,3 1,4
1,4 1,5 1,5 1,5 1,5 1,6 1,6 1,6 1,7 1,7 1,7 1,7 1,8

A. Calcule a média, mediana e moda.


Resumo de dados
Medidas de tendência central
Exercícios:
1. Alunos da Escola de Educação Física foram submetidos a um teste
de resistência quanto ao número de quilômetros que conseguiram
correr sem parar. Os dados estão apresentados a seguir:

Distância (km) Frequência A. Calcule a média, mediana e moda


0 |------ 4 438
4 |------ 8 206
8 |------ 12 125
12 |------ 16 22
16 |------ 20 9
TOTAL 800
Resumo de dados
Medidas de tendência central
1. Foi realizado um levantamento em 120 casas noturnas de uma grande cidade, no
qual foram anotados os valores, em reais, das entradas no dia de sábado. Os valores
das entradas foram A=20,00; B=25,00; C=30,00 e D=50,00. No gráfico as barras
representam as quantidades de casas noturnas pesquisadas, em porcentagem, para
cada valor de entrada. 40%
35%
35%
30%
30%
A. Qual o valor médio das entradas? 25%
20%
20%
B. Qual o valor mediano das entradas? 15%
15%
10%
C. Qual o valor das entradas mais 5%
frequente entre as casas noturnas? 0%
A B C D
Calculadora
Resumo de dados
Medidas de dispersão

 As medidas de dispersão visam descrever os dados no sentido de


informar o grau de afastamento dos valores observados em torno de
um valor central (média).
 Elas indicam se um conjunto é homogêneo (elementos
estatisticamente iguais) ou heterogêneo.
Resumo de dados
Medidas de dispersão
 Amplitude
A indicação mais simples de saber como os valores variam é olhar os
valores de mínimo e máximo.

𝒎𝒂𝒙 𝒎𝒊𝒏
Resumo de dados
Medidas de dispersão
Variância e desvio padrão
 O desvio padrão é uma estatística que fornece informação sobre a
dispersão (variação) dos dados e mede o quanto os dados estão
distantes da média.
 Sempre que relatar uma média é de boa prática relatar o desvio
padrão.
 O valor zero para desvio padrão indica ausência de variação.
 O valor do desvio padrão aumenta à medida que aumenta a
variação.
Resumo de dados
Medidas de dispersão
Variância e desvio padrão
A tabela abaixo apresenta o peso de alguns pacientes de uma UBS.
Paciente 1 2 3 4 5 6 7 8 9 10
Peso (kg) 52 55 61 66 73 73 74 80 82 84
Resumo de dados
Medidas de dispersão
Paciente Peso (kg) Desvio da Desvio ao
média quadrado
1 52 -18 324
2 55 -15 225
3 61 -9 81
4 66 -4 16
5 73 3 9
6 73 3 9
7 74 4 16
8 80 10 100
9 82 12 144
10 84 14 196
Total - 0 1120

=
Resumo de dados
Medidas de dispersão

Variância e desvio padrão


Como a variância é expressa em unidades ao quadrado, o que gera
problemas de interpretação, utiliza-se o desvio padrão, que é
expresso na mesma unidade dos dados originais; o desvio nada mais
é do que a raiz quadrada da variância.

Nesta amostra o peso médio dos pacientes é de 70 kg com desvio


padrão de 11,16 kg.
Resumo de dados
Medidas de dispersão

Variância
Dados agrupados Dados não agrupados

Desvio padrão
Resumo de dados
Medidas de dispersao
Coeficiente de variacao
É uma medida relativa da dispersão ou variabilidade dos dados dada por

 Podemos interpretá-lo da seguinte forma:


 0% ≤ CV < 20% existe uma baixa variabilidade dos dados e a média é uma
ótima medida para representar os dados;
 20% ≤ CV < 50% a variabilidade dos dados é a média, e a média ainda pode
ser uma boa medida, pode-se calcular a mediana e moda.
 CV ≥ 50% os dados estão muito dispersos e a média não é uma medida
apropriada para descrever os dados, podemos então optar pela mediana e
moda.
Resumo de dados
Medidas de dispersão

Calcular as medidas de dispersão para os exercícios anteriores.


Resumo de dados
Medidas de posicao
Quartis e percentis

 O quartis e percentis podem ser usadas para uma melhor


compreensão dos dados focalizando sua posição relativa em
relação ao conjunto como um todo.
 Estas medidas são valores da variável que ocupam posições no
conjunto de dados, que devem ser ordenados, dividindo-o em
partes iguais.
Resumo de dados
Medidas de posicao
Quartis e percentis
 Quartis são denotados por Q1;Q2;Q3, dividem as observações
ordenadas (dispostas em ordem crescente) em quatro partes
iguais.
 A grosso modo, Q1 separa os 25% inferiores dos 75% superiores dos
valores ordenados; Q2 é a mediana; Q3 separa os 75% inferiores
dos 25% superiores dos dados.
 Analogamente, há 99 percentis, denotados por P1;P2; ... ;P99 que
dividem os dados em 100 grupos, com cerca de 1% em cada
grupo.
Resumo de dados
Medidas de posicao
Quartis
Resumo de dados
Medidas de posicao
Quartis

Dados Agrupados
ℎ 𝑝 − 𝐹𝑎
𝑆 =𝑙 +
𝐹
S=M ou Q ou D ou P 𝑛
𝑝= 𝐾
2 … 𝑜𝑢 … 4 … 𝑜𝑢 … 10 … 𝑜𝑢 … 100
Resumo de dados
Box plot
 Os diagramas em caixa são convenientes para revelar tendências
centrais, dispersão, distribuição dos dados e presença de outliers
(valores extremos).
 A construção do diagrama em caixa (ou Box plot) exige que
tenhamos o valor de mínimo, o primeiro quartil Q1, a mediana ou
Q2, o terceiro quartil Q3 e o valor de máximo.
 São mais apropriados na comparação de dois ou mais conjuntos
de dados.
Resumo de dados
Box plot

Figura X: Box plot dos dias sem dor de pacientes com fibromialgia em dois
protocolos de tratamentos.
Resumo de dados
𝒐𝒖𝒕𝒍𝒊𝒆𝒓
Box plot
𝒍𝒊𝒎𝒔𝒖𝒑 = 𝑸𝟑 + 𝟏, 𝟓 𝑰𝑸

𝑄 𝑰𝑸 = 𝑸𝟑 − 𝑸𝟏

𝒍𝒊𝒎𝒊𝒏𝒇 = 𝑸𝟏 − 𝟏, 𝟓 𝑰𝑸
Resumo de dados
Box plot
 Exercício:
Foram tomadas duas amostras de tamanhos igual a 25 observações, de crescimento
do pseudobulbo de Laelia purpurata, sob duas condições de luminosidade (com luz
direta e com luz indireta).

Luz Direta 1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1 2,4 2,5 2,5
2,7 3,4 3,4 3,7 3,9 4,2 4,8 6,3 6,5 7,2 8,8 9,4 9,5
Luz 1,4 1,9 2,8 3,1 3,5 3,5 3,6 3,9 4,3 4,5 4,6 4,8
Indireta 6,3 6,5 6,7 6,7 6,8 6,9 8,1 8,6 10,4 12,7 16,3 16,8 16,9

Construa um boxplot comparativo para cada condição de luz.


Resumo de dados
Coeficiente de Assimetria

Uma distribuição de dados é simétrica quando a metade esquerda do seu


histograma é aproximadamente a imagem-espelho da metade direita.

Tem por objetivo básico medir o


quanto a distribuição de
freqüências do conjunto de
valores observados se afasta da
condição de simetria.
Resumo de dados
Coeficiente de Assimetria
Distribuição Simétrica. Quando a
média, moda e mediana são
iguais.

Distribuição Assimétrica negativa.


Quando a média é menor que a
mediana que é menor que a
moda.

Distribuição Assimétrica positiva.


Quando a média é maior que a
mediana que é maior que a
moda.

Essa expressão possibilita a seguinte interpretação:


As = 0 (distribuição simétrica)
As > 0 (assimétrica positiva)
As < 0 (assimétrica negativa)
Resumo de dados
Coeficiente de Curtose

A curtose ou achatamento mede a concentração ou dispersão dos valores de um


conjunto de valores em relação às medidas de tendência central em uma
distribuição de freqüências.

Distribuição Leptocúrtica. Quando a distribuição apresenta uma curva de freqüência mais


fechada que a da distribuição normal.

Distribuição Platicúrtica. Quando a distribuição apresenta uma curva de freqüência mais


aberta que a da distribuição normal.

Distribuição Mesocúrtica. Quando a distribuição apresenta uma curva de freqüência idêntica


a da distribuição normal.
Resumo de dados
Coeficiente de Curtose

As medidas de curtose podem ser calculadas através da expressão:

Relativamente à curva da distribuição


normal, temos:
K > 0,263 (platicúrtica)
K = 0,263 (mesocúrtica)
K < 0,263 (leptocúrtica)
Resumo de dados
Análise Bidimensional

Existem situações nas quais há interesse em estudar o comportamento


conjunto de uma ou mais variáveis;

Em muitos casos, a explicação de um fenômeno de interesse pode


estar associado a outros fatores (variáveis) que contribuem de algum
modo para a ocorrência deste fenômeno.

Tipos das variaveis:


• Qualitativa x qualitativa = tabelas e testes;
• Qualitativa x quantitativa = boxplot; e
• Quantitativa x quantitativa = diagrama de dispersão e correlação.
Resumo de dados
Diagrama de dispersão
 Para desenhar um diagrama de dispersão, é necessário sempre fazer o eixo
cartesiano para identificar os pontos das variáveis quantitativas consideradas.
 Representa-se primeiramente uma das variáveis no eixo das abcissas (variável X) e
a outra variável no eixo das ordenadas (variável Y).
 Os valores das variáveis são marcados sob os respectivos eixos e assim marca-se
um ponto para cada par de valores.
Resumo de dados
Diagrama de dispersão
30

25

20

Peso (kg)
15

10

0
90 95 100 105 110
Comprimento (cm)
Resumo de dados
Correlação

 O objetivo do estudo da correlação é determinar (mensurar) o grau de


relacionamento entre duas variáveis.
 Caso os pontos das variáveis, representados num plano cartesiano (X,Y) ou
gráfico de dispersão, apresentem uma dispersão ao longo de uma reta
imaginária, dizemos que os dados apresentam uma correlação linear.
Resumo de dados
Correlação

Uma medida do grau e do sinal da correlação linear entre duas variáveis


(X,Y) é dado pelo Coeficiente de Correlação Linear de Pearson,
definido por:

O valor de “r” estará sempre no intervalo de -1 a 1.

-1 à -0,7 -0,7 à -0,3 -0,3 à 0,3 0,3 à 0,7 0,7 à 1


Correlação Correlação Correlação Correlação Correlação
Forte Média Fraca ou
Média Forte
Nenhuma

Potrebbero piacerti anche