Sei sulla pagina 1di 18

UNIVERSIDADE FEDERAL DE MATO GROSSO

Instituto de Saúde Coletiva


Graduação em Saúde Coletiva
Disciplina: Bioestatística

Análise exploratória de dados:

Medidas de dispersão

(amplitude, variância, desvio-padrão,

coeficiente de variação)

Rita de Souza – ritaepid@gmail.com


 As medidas de posição (média, mediana, moda…)
descrevem apenas uma das características dos valores
numéricos de um conjunto de observações, o da tendência
central.

 Porém, nenhuma delas informa sobre o grau de variação ou


dispersão dos valores observados.

 Como em qualquer grupo de dados os valores numéricos não


são semelhantes, eles apresentam desvios variáveis em
relação a medida de tendência central.

 As medidas de dispersão servem para avaliar o quanto os


dados são semelhantes, o quanto os dados distam do valor
central.
Mas o que é dispersão?

Para entender o que é dispersão, imagine que quatro


alunos obtiveram, em cinco provas, as notas abaixo:

ALUNOS NOTAS MÉDIA


1ª 2ª 3ª 4ª 5ª
nota nota nota nota nota
A 5 5 5 5 5 5
B 6 4 5 4 6 5
C 10 5 5 5 0 5
D 10 10 5 0 0 5

Todos os alunos obtiveram média igual a 5, mas a dispersão


das notas em torno da média foi a mesma para todos os
alunos?
ALUNOS NOTAS MÉDIA
1ª 2ª 3ª 4ª 5ª
nota nota nota nota nota
A 5 5 5 5 5 5
B 6 4 5 4 6 5
C 10 5 5 5 0 5
D 10 10 5 0 0 5

I. As notas do aluno A não variaram (a dispersão é nula);


II. As notas do aluno B variaram menos do que as notas do
aluno C (a dispersão das notas do aluno B é menor do que a
dispersão das notas do aluno C);
III. A notas do aluno D variaram mais do que as notas de todos
os outros (a dispersão das notas do aluno D é maior).
Conclusão:

 Apenas a média, ou outra medida de tendência central,


não é suficiente para descrever um conjunto de dados.

 Dois grupos podem ter a mesma média, mas serem


muito diferentes na amplitude de variação de seus
dados.

Dessa forma, uma maneira mais completa de


apresentar os dados (além de utilizar uma medida de
tendência central, como a média, por exemplo) é
aplicar uma medida de dispersão.
Medidas de dispersão

AMPLITUDE

VARIÂNCIA

DESVIO-PADRÃO

COEFICIENTE DE
VARIAÇÃO
AMPLITUDE

• Por definição, amplitude é a diferença entre o maior e o


menor dado observado.

ALUNOS NOTAS MÉDIA AMPLITUDE

A 5 5 5 5 5 5 5 -5 = 0
B 6 4 5 4 6 5 6–4=2
C 10 5 5 5 0 5 10 – 0 = 10
D 10 10 5 0 0 5 10 – 0 = 10

 A amplitude não mede bem a dispersão dos dados porque


em seu cálculo utilizam-se, apenas, os valores extremos
– e não todos os dados.

 Porém, é fácil de ser calculada e fácil de interpretar.


DESVIO (dispersão)

 O desvio é calculado subtraindo o valor observado

do valor médio. Essa diferença é quanto um valor

observado se distância do valor médio.

 Por exemplo, a média de idade da turma de

Bioestatística-2018/1 foi 29,4 anos, logo a pessoa

que tiver 31 anos terá um desvio em relação a

média de:

32-29,4 = +2,6 anos


Conjunto de dados: Média Cálculo do desvio
0 0+4+6+7+8 = 0 – 5 = -5
5
4 4 – 5 = -1
6 25 = 5 6–5=1
5
8 8–5=3
7 7–5=2

A soma dos desvios é igual a zero, como é fácil


verificar:
−5 −1 + 1 + 3 + 2 = −6 + 6 = 0

Qualquer que seja o conjunto de dados, a soma dos


desvios é sempre igual a zero.

Uma maneira de resolver isso é elevando cada desvio


ao quadrado e depois somando os resultados.
Cálculo da soma dos quadrados dos desvios
Conjunto Média Cálculo do Quadrado
de dados: desvio dos desvios
0 0+4+6+7+8 = 0 – 5 = -5 (-5)2 = 25
5
4 4 – 5 = -1 (-1)2 = 1
6 25 = 5 6–5=1 (1)2 = 1
5
8 8–5=3 (3)2 = 9
7 7–5=2 (2)2 = 4

Soma dos quadrados dos desvios = 25 + 1 + 1 + 9 + 4 = 40

Com esse resultado, pode-se calcular a variância (que


também é uma medida de dispersão) pela seguinte fórmula:
s2 = SQ Onde S2 é a variância e SQ o resultado da soma dos
(n-1) quadrados dos desvios, calculado acima como 40.

s2 = SQ =
40
Variância (S2) = 10
(n-1) 5-1
ALUNOS NOTAS MÉDIA VARIÂNCIA
A 5 5 5 5 5 5 0
B 6 4 5 4 6 5 1
C 10 5 5 5 0 5 12,5
D 10 10 5 0 0 5 25

Cálculo da variância para cada aluno:


Aluno A: Aluno B: Aluno C: Aluno D:
5–5=0 02 = 0 6–5=1 12 = 1 10 – 5 = 5 52 = 25 10 – 5 = 5 52 = 25
5–5=0 02 = 0 4 – 5 = -1 -12 = 1 5–5=0 02 = 0 10 – 5 = 5 52 = 25
5–5=0 02 = 0 5–5=0 02 = 0 5–5=0 02 = 0 5–5=0 02 = 0
5–5=0 02 = 0 4 – 5 = -1 -12 = 1 5–5=0 02 = 0 0 – 5 = -5 -52 = 25
5–5=0 02 = 0 6–5=1 12 = 1 0 – 5 = -5 -52 = 25 0 – 5 = -5 -52 = 25

SQ = 0+0+0+0+0=0 SQ = 1+1+0+1+1=4 SQ = 25+0+0+0+25=50 SQ = 25+25+0+25+25=100

s2 = SQ
(n-1)
S2 = 0/(5-1) = 0/4=0 S2 = 4/(5-1) = 4/4=1 S2 = 50/(5-1) = 50/4=12,5 S2 = 100/(5-1) = 100/4=25

a) As notas do aluno A, não variaram, s²=0


b) As notas do aluno B (s²=1), variaram menos do que as notas do aluno C (s²=12,5).
c) As notas do aluno D (s²=100), variaram mais do que todas as outras.
• Como medida de dispersão, a variância tem a

desvantagem de apresentar a unidade de medida igual ao

quadrado da mesma. Por exemplo, se os dados estão em

metros, a variância fica em metros quadrados, ou seja, a

unidade em que se exprime não é a mesma dos dados

originais.

• Mas existe uma medida de dispersão que apresenta as

propriedades da variância e tem a mesma unidade do

dados.

DESVIO-PADRÃO
DESVIO-PADRÃO

 Medida obtida pela raiz quadrada da variância.


 O desvio-padrão será maior, quanta mais variabilidade houver
entre os dados.

Exemplo:
Variância do aluno C = s²=12,5
Exemplo do cálculo do desvio-padrão com as notas da primeira prova
0,7 -1,45 2,1025
1º. passo: cálculo da média. 2,9 0,75 0,5625 4º.passo:
2º. passo: subtrair de cada 2,9 0,75 0,5625 27,3
2 -0,15 0,0225
valor observado, o valor da 0,5 -1,65 2,7225
média. 1,5 -0,65 0,4225
5º. passo:
0,5 -1,65 2,7225
3º. passo: elevar cada 3,4 1,25 1,5625
resultado ao quadrado. 3,5 1,35 1,8225 SQ
1,2 S2 =
4º. passo: somar todos os -0,95 0,9025 (n – 1)
2,9 0,75 0,5625
resultados. 2,9 0,75 0,5625
S2 = 27,3
5º. passo: calcular a variância. 0,5 -1,65 2,7225
1,8 -0,35 0,1225 31 - 1
6º. passo: calcular o desvio- 2,6 0,45
padrão 2º. 3º. 0,2025
S2 =0,91
Notas 2,6 0,45 0,2025
0,5 passo -1,65 passo 2,7225
da 1,8 -0,35 0,1225
prova 3,1 0,95 0,9025 6º. passo:
2,4 0,25 0,0625 S = √0,91
2 -0,15 0,0225
1,7 -0,45 0,2025
S = 0,95
1,5 -0,65 0,4225
1º. passo: 2,4 0,25 0,0625 O que foi calculado:
Calcular a média das 3,4 1,25 1,5625 Média=2,15
notas = 2,15 1,5 -0,65 0,4225
2,9 0,75 0,5625 Variância=0,91
2 -0,15 0,0225 Desvio-padrão=0,95
3,2 1,05 1,1025 (esse valor corresponde
2,6 0,45 0,2025
a 1 DP)
3,2 1,05 1,1025
 68,26% dos valores de uma distribuição normal encontram-se dentro da
faixa de 1 desvio padrão, tanto para mais quanto para menos em relação
à média.
 95,44% dos valores de uma distribuição normal encontram-se dentro da
faixa de 2 desvios padrão, tanto para mais quanto para menos em relação
à média.
 99,72% dos valores de uma distribuição normal encontram-se dentro da
faixa de 3 desvios padrão, tanto para mais quanto para menos em relação
à média.

Forma da distribuição normal


No exemplo com as notas da
turma, não se pode aplicar
essas medidas porque essa
variável (nota da prova) não
apresenta distribuição normal,
o que foi possível verificar a
partir da construção de um
gráfico.
Uma maneira de verificar se a
variável tem distribuição
normal é verificando os valores
da média, mediana e moda,
que deverão estão próximos.
 Do mesmo modo que a média, o desvio padrão também é

influenciado por valores ou muito grandes ou muito

pequenos (o que seria de esperar já que na sua definição

entra a média).

 Assim, se a distribuição dos dados for bastante ampla

(variável), não é conveniente utilizar a média como

medida de localização, nem o desvio padrão como medida

de variabilidade. Estas medidas só dão informação útil, se

as distribuições dos dados forem aproximadamente

simétricas.
COEFICIENTE DE VARIAÇÃO

Útil para compararmos a variabilidade


(dispersão) de dois conjuntos de dados que
podem ser até de grandezas diferentes.

O Coeficiente de Variação relaciona o desvio-


padrão de um conjunto de valores à sua
média.

É uma medida adimensional


CV = desvio-padrão CV = é a razão entre o desvio padrão
X 100
e a média.
média

O resultado é multiplicado por 100,


para que o coeficiente de variação
seja dado em porcentagem.

Exemplo:
Imagine dois grupos de pessoas, o primeiro grupo tem idades
de 3, 1 e 5. O segundo grupo tem idades de 55, 57 e 53.

1º grupo = 2 / 3 x 100 = 66,67%

2º grupo = 2 / 55 = 3,64%

Potrebbero piacerti anche