Sei sulla pagina 1di 30

Gonalo X. Silva Gonalo X. Silva Gonalo X. Silva Gonalo X.

Silva Alda Carvalho Alda Carvalho Alda Carvalho Alda Carvalho


ii ii ii ii
NDICE

1. ESTATSTICA DESCRITIVA.................................................................................................. 1
1.1. INTRODUO ............................................................................................................................ 1
1.2. DEFINIES ............................................................................................................................... 1
1.3. CLASSIFICAO DOS DADOS..................................................................................................... 2
1.4 CARACTERIZAO DOS DADOS ................................................................................................. 3
1.5 ESTATSTICAS AMOSTRAIS........................................................................................................ 10
1.5.1. Medidas de localizao............................................................................................................................... 10
1.5.2. Medidas de disperso................................................................................................................................... 16
1.6. DADOS BIVARIADOS ................................................................................................................ 22
1.6.1.Regresso linear simples .............................................................................................................................. 23
1.6.2. Correlao. Coeficiente de determinao.................................................................................................. 24
1.6.3. Mtodo dos mnimos quadrados................................................................................................................ 25
E S T A T S T I C A D E S C R I T I V A
1 11 1
1. Estatstica Descritiva
1.1. Introduo
A estatstica uma disciplina cujo objecto principal a recolha, a compilao, a
anlise e a interpretao de dados. No sentido de clarificar o que se entende por
anlise e interpretao dos dados vamos desde j estabelecer uma distino entre
estatstica descritiva e inferncia estatstica.
No mbito da estatstica descritiva procura-se sintetizar e representar de uma
forma compreensvel a informao contida num conjunto de dado. Esta tarefa,
que adquire importncia quando o volume de dados for significativo,
materializa-se na construo de tabelas, de grficos ou no clculo de medidas que
representem convenientemente a informao contida nos dados.
O objectivo da inferncia estatstica mais ambicioso do que o da estatstica
descritiva e, naturalmente, os mtodos e tcnicas utilizados so mais sofisticados.
Com base na anlise de um conjunto limitado de dados (uma amostra),
pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a
populao).
Neste captulo vamos rever alguns conceitos e tcnicas utilizadas na estatstica
descritiva (nomeadamente o clculo das medidas mais importantes).
1.2. Definies
Populao: Conjunto de todos os elementos que contm uma certa caracterstica
que estamos interessados em estudar. Sendo comum a todos os elementos, esta
caracterstica varia em quantidade ou qualidade. Uma populao pode ter
dimenso finita ou infinita.
Amostra: Subconjunto de dados que pertencem populao. As amostras
aleatrias so escolhidas atravs de processos (tcnicas de amostragem) que nos
garantem que o subconjunto obtido representativo da populao.
Algumas das razes que nos levam a estudar a amostra em vez de estudarmos a
populao so as seguintes:
Captulo
1
E S T A T S T I C A D E S C R I T I V A
2 22 2
1. Populao infinita.
2. Custo em termos de tempo ou de dinheiro que um estudo a toda a
populao implicaria.
3. Recolha de informao atravs de testes destrutivos.
4. Impossibilidade de aceder a todos os elementos da populao.
Fases do Mtodo de Anlise Estatstica
No mbito da Estatstica, o mtodo de abordagem dos problemas pode ser
decomposto nas cinco fases que seguidamente se enunciam:
1. Estabelecimento do objectivo da anlise a efectuar (isto , das questes que
se colocam e que se pretendem ver resolvidas) e definio da(s)
populao(es) correspondente(s).
2. Concepo de um procedimento adequado para a seleco de uma ou
mais amostras (escolha das tcnicas de amostragem a utilizar).
3. Recolha de dados.
4. Anlise dos dados (Estatstica Descritiva).
5. Estabelecimento de inferncias acerca da populao (Inferncia Estatstica).
1.3. Classificao dos dados
Os dados que constituem uma amostra podem ser expressos em quatro escalas
distintas: nominal, ordinal, de intervalos e absoluta.
Os dados dizem-se expressos numa escala nominal quando cada um deles for
identificado pela atribuio de um nome que designa uma classe. As classes
devem ser exaustivas (qualquer dado pertence a uma das classes), mutuamente
exclusiva (cada dado pertence a uma s classe) e no ordenveis (no existe
nenhum critrio relevante que permita estabelecer preferncia por qualquer classe
em relao s restantes).
Exemplo 1.1: Classificao das pessoas pela cor do cabelo: preto, castanho,
branco, loiro, etc.
O que distingue a escala ordinal da escala nominal a possibilidade de se
estabelecer uma ordenao das classes nas quais os dados so classificados,
segundo algum critrio relevante.
Exemplo 1.2: Classificao de notas em mau, suficiente, bom, ou muito bom.
E S T A T S T I C A D E S C R I T I V A
3 33 3
Como se percebe a escala nominal e ordinal dizem respeito a dados qualitativos
(representam qualidades).
Relativamente aos dados quantitativos (representam quantidades) temos a escala
de intervalo e a escala absoluta.
No caso da escala de intervalo, os dados so diferenciados e ordenados por
nmeros expressos numa ordem cuja origem arbitrria. Neste caso pode-se
atribuir um significado diferena entre esses nmeros, mas no razo entre
eles.
Exemplo 1.3: Temperaturas registadas em
o
C, s 8 horas de dias sucessivos. Note-
se que neste caso, se em trs dias consecutivos a temperatura atingir 5
o
C, 10
o
C, e
20
o
C, no faz sentido dizer-se que no terceiro dia esteve duas vezes mais quente
do que no segundo. De facto se a temperatura fosse expressa noutra escala, a
razo entre as temperaturas registadas naqueles dias seria diferente.
Contrariamente ao que sucede com a escala de intervalo, a escala absoluta tem
origem fixa. Nesta escala, zero significa nada (note-se que, anteriormente, dizer
que a temperatura era de 0
o
C no significa que no havia temperatura). Como
consequncia do facto de a origem ser fixa, a razo entre dados expressos numa
escala absoluta passa a ter significado.
Exemplo 1.4: Pesos de pessoas expressos em kg.
Entre os dados quantitativos, sejam eles expressos em escalas de intervalos ou
absolutas, conveniente fazer desde j a distino entre discretos e contnuos. Os
dados so discretos quando so observaes de uma varivel aleatria discreta e
contnuos quando so observaes de uma varivel aleatria contnua (o conceito
de varivel aleatria discreta e varivel aleatria contnua pode ver-se mais
adiante captulo 3).
1.4 Caracterizao dos dados
No h uma estratgia nica para iniciar o estudo descritivo, embora uma
primeira recomendao seja comear por uma explorao visual dos dados.
Muitas vezes h registos que no se encaixam no padro geral, e por isso mesmo
deve ser averiguado a veracidade dos mesmos. Muitas vezes tratam-se de erros
de observao ou de registo, como tambm so provenientes de alteraes do
fenmeno em estudo.
Para se ter uma ideia mais concreta acerca da forma dos nossos dados,
recorremos a grficos como histogramas ou diagrama de caule-e-folhas. Embora
estas anlises j se encontrem disponveis em vrios programas e calculadoras,
para uma melhor interpretao das mesmas conveniente conhecer as tcnicas
utilizadas. Para isso, relativamente a um estudo descritivo importante:
E S T A T S T I C A D E S C R I T I V A
4 44 4
Ordenao dos dados - onde se comea a ter uma ideia de algumas
medidas de localizao, como a mediana, quartos ou extremos;
Estatsticas amostrais com algumas medidas temos um resumo dos
nossos dados relativamente localizao, disperso e forma;
Agrupamento dos dados e representao grfica revela-nos a forma
possvel para a nossa populao em estudo e permite-nos escolher a classe
de modelos que devemos explorar em anlises mais sofisticadas.
A caracterizao de dados que veremos diz respeito a uma amostra univariada ,
ou seja, quando cada um dos dados que a integram, mede numa escala qualquer,
apenas um atributo.
Dados qualitativos
As formas mais comuns de descrever amostra univariadas com dados expressos
nas escalas nominal ou ordinal envolvem o recurso a tabelas de frequncias, a
diagramas de barras ou a diagramas circulares. Em todos os casos o objectivo o
de representar a forma como os dados se distribuem por um conjunto de
diferentes categorias. O nmero de dados contidos numa categoria qualquer
) ,..., 1 ( k i i = designa-se por frequncia absoluta da categoria i . Denotando por
i
n
tal frequncia e admitindo que as categorias especificadas contm todos os dados,
o nmero total destes vem dado por :
=
=
k
i
i
n n
1
(1)
O nmero total de dados que pertencem a uma categoria qualquer i , quando
expressos como uma proporo do nmero total de dados, designa-se por
frequncia relativa da categoria e dada por,

n
n
f
i
i
= (2)
As frequncias relativas so muitas vezes definidas em termos percentuais.
Exemplo 1.5:
Numa amostra constituda por 120 peas, constatou-se que 100 no tinham
qualquer defeito, 15 tinham defeitos mas eram recuperveis e 5 eram
irrecuperveis. Na tabela seguinte representam-se as frequncias (absolutas e
relativas) dos dados que constituem esta amostra:
Categoria de peas Frequncia absoluta Frequncia relativa
Sem defeito 100 83.3%
Recuperveis 15 12.5%
Irrecuperveis 5 4.2%
TOTAL 120 100%
E S T A T S T I C A D E S C R I T I V A
5 55 5
Diagrama circular
83%
13%
4%
Sem defeito
Recuperveis
Irrecuperveis

A informao contida na tabela de frequncias e nos diagramas, que inclui as
diferentes categorias nas quais os dados da amostra foram classificados, designa-
se por distribuio amostral.
Dados quantitativos
As tcnicas utilizadas para descrever amostras univariadas constitudas por
dados quantitativos podem ser classificadas em trs grupos:
1. formas de representao tabular ou grfica de dados,
2. estatsticas amostrais, e
3. representao grfica de estatsticas.
Na representao tabular existem ainda dois tipos de frequncias: as frequncias
absoluta acumuladas e as frequncias relativas acumuladas. Como os nomes
indicam estas frequncias representam para cada categoria i , a frequncia
absoluta (relativa) de dados que pertencem classe ou a classes anteriores.
Devido necessidade de as categorias estarem ordenadas s podemos falar de
frequncias acumuladas quando os dados esto em escalas ordinais, de intervalo
ou absoluta.
Valor da
varivel
(xi)
Frequncia
absoluta
(ni)
Frequncia
relativa
(fi)
Frequncia absoluta
acumulada
(Ni)
Frequncia relativa
acumulada
(Fi)
1
x
1
n
1
1
n
f
n
=
1 1
N n =
1 1
F f =
2
x
2
n
2
2
n
f
n
=
2 1 2
N n n = +
2 1 2
F f f = +
M M M M M
n
x
n
n
n
n
n
f
n
=
1
...
n n
N n n n = + + =
1
... 1
n n
F f f = + + =
TOTAL n
1
- -

E S T A T S T I C A D E S C R I T I V A
6 66 6
Exemplo 1.6:
No mbito de um estudo realizado com o objectivo de caracterizar o
comportamento dos clientes de um hipermercado, analisou-se o nmero de
ocupantes por veculo para 1000 veculos que entraram no parque automvel do
referido hipermercado, num Sbado. Os resultados encontram-se resumidos na
tabela seguinte:
Nmero de
ocupantes por
veculo
Frequncia
absoluta
Frequncia
relativa
Frequncia
absoluta
acumulada
Frequncia
relativa
acumulada
1 103 10.3% 103 10.3%
2 147 14.7% 250 25.0%
3 248 24.8% 498 49.8%
4 197 19.7% 695 69.5%
5 152 15.2% 847 84.7%
6 100 10.0% 947 94.7%
7 53 5.3% 1000 100%
TOTAL 1000 100%
DIAGRAMA DE BARRAS
0
50
100
150
200
250
300
1 2 3 4 5 6 7
N ocupantes/veculo
n i

As distribuies no agrupadas so a forma mais elementar de apresentao dos
dados e consiste numa simples enumerao das observaes, que podem ou no
estar ordenadas. Quando o nmero de valores distintos observados elevado,
torna-se muitas vezes necessrio condensar muito mais os quadros estatsticos,
agrupando as observaes em classes. Obtm-se assim distribuies de
frequncias agrupadas em classes ou distribuies agrupadas. Este tipo de
distribuies particularmente til quando dispomos de um grande nmero de
dados relativos a uma varivel contnua cujos valores observados so muito
prximos uns dos outros. A frequncia de cada classe o nmero de observaes
que ela contm. No exemplo 6 os dados dizem respeito a uma varivel discreta,
quando provm de uma varivel contnua existem algumas diferenas que
iremos observar atravs do exemplo 7.
E S T A T S T I C A D E S C R I T I V A
7 77 7
Exemplo 1.7:
Consideremos o conjunto de dados seguinte que representa o peso, expresso em
gramas, do contedo de uma srie de 100 garrafas que, no decurso de um teste
saram de uma linha de enchimento automtico:
302.25, 299.20, 300.24, 297.22, 298.35, 303.76, 298.65, 299.38, 300.36, 299.16, 300.86,
299.83, 302.52, 300.12, 301.81,297.99, 299.23, 298.73, 303.07, 299.07, 297.83, ... , 300.80
A primeira caracterstica que podemos observar neste conjunto de dados que
no existe praticamente repetio de valores. Isto leva a que no temos vantagem
em utilizar os dados agrupados numa tabela de frequncias, dado que iramos ter
uma tabela praticamente com tantas linhas quanto o nmero de dados. No
entanto, podemos construir uma tabela de frequncias se agruparmos os dados
por classes:
Classes
Frequncia
absoluta
Frequncia
relativa (%)
Frequncia
absoluta
acumulada
Frequncia
relativa
acumulada(%)
[297.00 , 298.00[ 8 8% 8 8%
[298.00 , 299.00[ 21 21% 29 29%
[299.00 , 300.00[ 28 28% 57 57%
[300.00 , 301.00[ 15 15% 72 72%
[301.00 , 302.00[ 11 11% 83 83%
[302.00 , 303.00[ 10 10% 93 93%
[303.00 , 304.00[ 5 5% 98 98%
[304.00 , 305.00[ 1 1% 99 99%
[305.00 , 306.00[ 1 1% 100 100%
TOTAL 100 100%
HISTOGRAMA
0
0.05
0.1
0.15
0.2
0.25
0.3
[297.00, 298.00[ [298.00, 299.00[ [299.00, 300.00[ [300.00, 301.00[ [301.00, 302.00[ [302.00, 303.00[ [303.00, 304.00[ [304.00, 305.00[ [305.00, 306.00[
peso ( gr amas)
f i
Diagrama de caule-e-folhas (steam and leaf)
Quando precisamos de organizar uma amostra, de forma a ter uma primeira
ideia do comportamento da varivel em estudo, e preparar a mesma para
calcular algumas estatsticas amostrais de forma mais rpida, o diagrama de
caule-e-folhas extremamente til.

Este tipo de representao para alm de organizar a amostra
contribui para revelar a forma da distribuio subjacente, mas
de uma forma sugestiva, que faz lembrar um histograma.
E S T A T S T I C A D E S C R I T I V A
8 88 8
Exemplo 1.8:
Suponhamos que as notas de uma turma de Matemtica do 12 ano com 36
alunos foram as seguintes:

84 49 61 40 83 67 45 66 70 69 80 58
68 60 67 72 73 70 57 63 70 78 52 67
53 67 75 61 70 81 76 79 75 76 58 31

Na representao em diagrama de caule e folhas temos os seguintes passos:

1. Escolher o caule:










2. Escrever as folhas:










3. Caule e folhas completo:









3
3
4
4
5
5
6
6
7
7
8
3 3 4 4 5 5 6 6 7 7 8
3
3
4
4
5
5
6
6
7
7
8










4
3
3
4
4
5
5
6
6
7
7
8



9






4
3
3
4
4
5
5
6
6
7
7
8



9


1



4
3
3
4
4
5
5
6
6
7
7
8



9 0


1



4
3
3
4
4
5
5
6
6
7
7
8
1

0
9 5
2 3
8 7 8
1 0 3 1
7 6 9 8 7 7 7
0 2 3 0 0 0
8 6 9 5 6 6
4 3 0 1
Por vezes, utiliza-se o caule horizontal,
em vez de ser vertical. Este processo
torna mais aparente a semelhana entre
um histograma e uma representao em
caule-e-folhas.
E S T A T S T I C A D E S C R I T I V A
9 99 9
4. Caule e folhas completo e ordenado:










Que caracterstica que se pretende realar, quando se representa um
conjunto de dados sob a forma de um histograma ou de um caule-e-folhas?
Dada uma amostra, o aspecto do histograma reflecte a forma da distribuio
da Populao subjacente aos dados observados. Este um dos aspectos da
reduo dos dados, em que se perde alguma informao contida nesses
dados, mas em contrapartida obtemos a estrutura da Populao, que eles
pretendem representar. Uma das vantagens deste tipo de representao
poder observar-se o tipo de distribuio subjacente aos dados, dos quais
destacamos alguns exemplos:
Distribuies simtricas
A distribuio das frequncias faz-se de forma aproximadamente
simtrica, relativamente a uma classe mdia.

Distribuies enviesadas
A distribuio das frequncias faz-se de forma acentuadamente
assimtrica, apresentando valores substancialmente mais pequenos
num dos lados, relativamente ao outro.

3
3
4
4
5
5
6
6
7
7
8
1

0
5 9
2 3
7 8 8
0 1 1 3
6 7 7 7 7 8 9
0 0 0 0 2 3
5 5 6 6 8 9
0 1 3 4
1
1
2
4
6
9
13
(7)
16
10
4

Profundidade Caule Folhas
E S T A T S T I C A D E S C R I T I V A
10 10 10 10
Distribuies com caudas longas
A distribuio das frequncias faz-se de tal forma que existe um
grande nmero de classes nos extremos, cujas frequncias so
pequenas, relativamente s classes centrais:

Distribuies com vrios picos ou modas
A distribuio das frequncias apresenta 2 ou mais "picos" a que
chamamos modas, sugerindo que os dados so constitudos por vrios
grupos distintos:

1.5 Estatsticas amostrais
O clculo de estatsticas amostrais uma forma mais sinttica de descrever um
conjunto de dados. As estatsticas amostrais so ento medidas calculadas com
base nos dados, a partir das quais possvel descrever globalmente o conjunto de
valores que os dados tomam.
1.5.1. Medidas de localizao
1.5.1.1. Mdia
A mais utilizada das estatsticas de localizao a mdia aritmtica amostral ou,
como habitualmente se designa a mdia amostral.
1
Para um conjunto de n dados
) ,..., 2 , 1 ( n i x
i
= a mdia amostral definida pela expresso:

1
n
i
i
x
x
n
=
=

(dados no agrupados) (3)


Consideremos os dados do exemplo 1.6, mas agora sem o conjunto de dados
estar apresentado numa tabela de frequncias:

1
Existem outras mdias para alm da aritmtica, por exemplo, mdia geomtrica, mdia harmnica,
mdia quadrtica, etc.
E S T A T S T I C A D E S C R I T I V A
11 11 11 11
2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 1, 4, 5, 6, 4, 5,...,3, 1, 2, 2, 3 ) 1000 ( = n
A mdia amostral dada por

2 1 ... 2 3
3.66
1000
x
+ + + +
= = ocupantes por veculo.

Para dados agrupados numa tabela de frequncias a mdia amostral dada por

1
k
i i
i
n x
x
n
=
=

(dados agrupados) (4)


onde k representa o nmero de valores diferentes existentes no conjunto de
dados.
No exemplo 1.6 e considerando os dados agrupados na tabela de frequncias
teramos a mdia amostral dada por

103 1 147 2 248 3 197 4 152 5 100 6 53 7
3.66
1000
x
+ + + + + +
= =

ocupantes por veculo.

No caso da varivel ser contnua, dado que perdemos os valores concretos
do conjunto (ficaram afectos a uma determinada classe) no podemos calcular
a mdia amostral directamente dos valores dos dados. Deste modo a cada
classe vai ser atribudo um representante (
i
x ) e a mdia amostral calculada
atravs desses representantes:

1
k
i i
i
n x
x
n
=
=

(dados agrupados em classes) (5)


onde k o nmero de classes do agrupamento,
i
n a frequncia absoluta da
classe i e
i
x o ponto mdio da classe i , o qual considerado como elemento
representativo da classe.

No exemplo 1.7 a mdia amostral dada por
8 297.5 21 298.5 ... 1 305.5
300.11 g
100
x
+ + +
= =

A mdia sempre uma medida representativa dos dados?
Suponhamos que temos a seguinte amostra:
E S T A T S T I C A D E S C R I T I V A
12 12 12 12
2.13 3.44 2.78 4.35 1.51 2.8 2.47 3.73 172
A mdia desta amostra 21.69 x = . Embora todos os dados, com a excepo
de um deles (172), estejam no intervalo [ ] 1.51: 4.35 , o valor obtido para a
mdia no pertence a este intervalo. O que acontece que a mdia muito
sensvel a valores muito grandes ou muito pequenos. No caso do exemplo, foi
o valor 172 que inflacionou a mdia. Se pensarmos que, em vez deste valor
podemos ter 1.72, temos razes para pensar que pode ter havido um erro.
E se em vez de 172 o valor correcto fosse 1.72, qual o valor da mdia?
Refazendo os clculos com o valor correcto, obtm-se para a mdia amostral,
2.77 x = , significativamente diferente do valor obtido anteriormente.

1.5.1.2. Mediana
Uma outra medida de localizao a mediana amostral ( )
e
M . Considere-se que
os dados que integram a amostra so colocados por ordem crescente, formando
um vector ( )
* *
2
*
1
,..., ,
n
x x x - amostra ordenada. A mediana amostral definida nos
seguintes termos:
*
n+1
2
* *
n n+1
2 2
n mpar
n par
2
e
x
M
x x

=

+

(6)
No exemplo 1.6, temos um conjunto de 1000 dados ( 1000 par n n = ). A
mediana ento dada por
2
*
501
*
500
x x
M
e
+
=
Temos de saber quais so os dados que ocupam as posies 500 e 501 quando
estiverem ordenados por ordem crescente. Atravs da observao da tabela de
frequncia (observando as frequncia absolutas acumuladas) temos que 4
*
500
= x e
4
*
501
= x . Logo a mediana
4 4
4
2
e
M
+
= = ocupantes/viatura.

No caso contnuo, utilizando a definio s podemos calcular a classe
mediana. Depois de identificada essa classe podemos calcular um valor
aproximado para a mediana atravs da frmula:

i
i
i
i i
i
i
i e
a
f
F
l a
n
N
n
l M *
5 , 0
*
2
, 1
1

+ =

+ =
(7)
E S T A T S T I C A D E S C R I T I V A
13 13 13 13
onde
1 i
N

a frequncia absoluta acumulada da classe antes da classe


mediana, n a dimenso da amostra e
i
l ,
i
a e
i
n so, respectivamente, o limite
inferior, amplitude e frequncia absoluta da classe mediana.

No exemplo 1.7, visto que 100 par n = , podemos ver qual a classe que contm
*
50
x e
*
51
x ou 0.5
i
F = , a classe mediana [ [ 00 . 300 , 00 . 299 . Logo, atravs de (7)
temos:
50 29
299.00 1.00 299.75 g
28
e
M

= + =

Dado um histograma fcil obter a posio da mediana, pois esta est na
posio em que passando uma linha vertical por esse ponto o histograma fica
dividido em duas partes com reas iguais.


Mdia vs Mediana
Para ilustrar a diferena entre estas duas medidas vejamos o seguinte
exemplo. Consideremos as notas obtidas por um aluno no 1 ano do curso:
10 13 11 15 18 16 14 15 14
media:
9
1
14
9
i
i
x
x
=
= =

mediana:
* *
9 1 5
2
9 14
e
n M x x
+
= = = =
A mdia e mediana das notas desse aluno foram de 14 valores. Suponhamos
que esse aluno fez melhoria da nota mais baixa, passando de 10 a 14 valores.
Embora a mediana se mantenha, o valor da mdia sofreu um aumento,
passou para 14.4 valores. Temos ento que a mdia, ao contrrio da mediana,
uma medida muito pouco resistente, isto , ela muito influenciada por
valores muito grandes ou muito pequenos, chamados outliers
2
, mesmo que
estes valores surjam em pequeno nmero na amostra. Estes valores so os
responsveis pela m utilizao da mdia em muitas situaes em que teria
mais significado utilizar a mediana. Como medida de localizao, a mediana

2
Sero definidos mais adiante.
E S T A T S T I C A D E S C R I T I V A
14 14 14 14
mais resistente do que a mdia, pois no to sensvel aos dados. Ento qual
das duas devemos utilizar?
a) Quando a distribuio simtrica, a mdia e a mediana coincidem.
b) A mediana no to sensvel, como a mdia, s observaes que so
muito maiores ou muito menores do que as restantes (outliers). Por
outro lado a mdia reflecte o valor de todas as observaes.
Representando as distribuies dos dados na forma de uma mancha (vlido
para o digrama de barras ou histograma), de um modo geral temos:



Assim, no se pode dizer em termos absolutos qual destas medidas de
localizao prefervel, dependendo do contexto em que esto a ser
utilizadas.

1.5.1.3. Moda

A ltima medida de localizao que ser estudada a moda (
o
M ). Trata-se da
medida que indica o valor ou a gama de valores nos quais a concentrao dos
dados amostrais mxima. Quando os dados forem realizaes de uma
varivel discreta, a moda o valor dos dados que ocorre com maior
frequncia; e o intervalo de classe com maior frequncia se a varivel
contnua. Assim, da representao grfica dos dados, obtm-se
imediatamente o valor que representa a moda ou a classe modal.



Esta medida especialmente til para reduzir a informao de um conjunto
de dados qualitativos, apresentados sob a forma de nomes ou categorias, para
os quais no se pode calcular a mdia e por vezes a mediana (se no forem
susceptveis de ordenao).

E S T A T S T I C A D E S C R I T I V A
15 15 15 15
No exemplo 1.6, a moda o valor com maior frequncia absoluta, ou seja,
viatura ocupantes/ 3 =
o
M .
Quando os dados provm de uma varivel contnua existem algumas
diferenas no clculo da moda. Tal como na mediana comeamos por calcular
a classe modal. Depois de identificada a classe modal podemos calcular um
valor aproximado para a moda atravs das frmulas:

1
1 2
o i i
M l a

= +
+
(8)
onde
i
a a amplitude da classe modal,
i
l o limite inferior da classe modal, n a
dimenso da amostra,
1
a diferena de frequncias absolutas entre a classe
modal e a classe anterior modal e
2
a diferena de frequncias absolutas
entre a classe modal e a classe posterior classe modal.
No exemplo 1.7, a classe com maior frequncia absoluta [ [ 00 . 300 , 00 . 299 logo a
classe modal. Atravs de (8) temos:
7
299.00 1.00 299.35 g
7 13
o
M = + =
+


1.5.1.4. Extremos e Quartis

Os extremos so os valores mnimo,
*
1
min( )
i
x x = , e mximo,
*
max( )
n i
x x = , da
amostra.
Como vimos anteriormente, a mediana a medida de localizao que divide a
amostra. Generalizando esta noo, o quantil de ordem p ( 0 1 p < < ), Qp , tal
que 100p% dos elementos da amostra so menores ou iguais a Qp e os
restantes 100 (1-p)% dos elementos da amostra so maiores ou iguais a Qp. A
designao de quantil encontra-se associada ideia de que os quantis
dividem a distribuio de frequncia em quantidades iguais, isto , com igual
nmero de observaes. De uma maneira geral, o clculo de um quantil, no
caso discreto,
[ ]
( )
1
1
*
* *
se np no inteiro
1
se np inteiro
2
np
np np
p
x
Q
x x
+
+

=

+

(9)
e no caso contnuo, determina-se de forma idntica mediana.
Os quantis podem ser:
Quartis dividem a distribuio de frequncia em 4 partes iguais;
Decis dividem a distribuio de frequncia em 10 partes iguais;
E S T A T S T I C A D E S C R I T I V A
16 16 16 16
Percentis dividem a distribuio de frequncia em 100 partes iguais.
A importncia dos quartis deve-se ao facto de algumas representaes
grficas utilizarem estas medidas:

1
Q - 1 quartil: divide as observaes tal que 25% so menores ou
iguais e 75% so maiores ou iguais.

2
Q - 2 quartil ou mediana: divide as observaes ao meio, tal que 50%
so so menores ou iguais e 50% so maiores ou iguais.

3
Q - 3 quartil: divide as observaes tal que 75% so menores ou
iguais e 25% so maiores ou iguais.
No exemplo 1.8,

36 n =


*
1
31 x = e
*
36
84 x =

1
36 58 60
9 59
4 4 2
n
Q
+
= = = =


2
36 67 68
18 67.5
2 2 2
n
Q Me
+
= = = = =


3
3 108 75 75
27 75
4 4 2
n
Q
+
= = = =

1.5.2. Medidas de disperso
1.5.2.1. Intervalo de variao
Uma medida de disperso que se utiliza por vezes, o intervalo de variao ou
amplitude amostral,
R
, definida como sendo a diferena entre a maior e a menor
das observaes:
* *
1
max( ) min( )
i i n
R x x x x = = (10)
onde representamos por
*
1
x e
*
n
x , respectivamente o menor e o maior valor da
amostra
) ,..., , (
2 1 n
x x x
, de acordo com a notao introduzida anteriormente, para
a amostra ordenada.
No exemplo 1.8,
max( ) min( ) 84 31 53
i i
R x x = = =


E S T A T S T I C A D E S C R I T I V A
17 17 17 17
1.5.2.2. Varincia
A varincia amostral uma medida adequada para descrever a disperso de uma
amostra (ou de uma populao, se se dispuser de todos os dados que a
compem). A disperso de uma amostra pode ser medida pela varincia
amostral (
2
s ) dada pelas seguintes expresses:
n
X x
s
n
i
i
2
1 2
) (
=
=
(dados no agrupados) (11)
2
2
! 1
2
2
1 2
) (
n
x n x n n
n
X x n
s
k
i
i i
k
i
i i
k
i
i i
|

\
|

|

\
|

=

=
= = =
(dados agrupados) (12)
No entanto, se pretendemos inferir acerca da variabilidade de uma populao de
grandes dimenses a partir de uma amostra, ento, por razes que neste
momento no iremos estudar, prefervel recorrer varincia amostral corrigida.
Nesta estatstica, representada por
2
' s , a soma dos erros quadrticos dividida
por 1 n e no por n .
1
) (
'
2
1 2


=
=
n
X x
s
n
i
i
(dados no agrupados) ( 13)
) 1 ( 1
) (
'
2
! 1
2
2
1 2

\
|

|

\
|


=
= = =
n n
x n x n n
n
X x n
s
k
i
i i
k
i
i i
k
i
i i
(dados agrupados) (14)
2 2
1
' s
n
n
s

=

(15)
No exemplo 1.8,
2
2 2
1 1 2 1
2
( )
143.73
n n n
i i i
i i i
n x x x x
s
n n
= = =
| |

|
\
= =


2
2 2
1 1 2 1
( )
' 147.84
1 ( 1)
n n n
i i i
i i i
n x x x x
s
n n n
= = =
| |

|
\
= =



1.5.2.3. Desvio padro
Uma vez que a varincia envolve a soma de quadrados, a unidade em que se
exprime no a mesma que a dos dados. Assim, para obter uma medida da
E S T A T S T I C A D E S C R I T I V A
18 18 18 18
variabilidade ou disperso com as mesmas unidades que os dados, tomamos a
raiz quadrada da varincia e obtemos o desvio padro:
2
s s =
(16)
O desvio padro uma medida que s pode assumir valores no negativos e
quanto maior for, maior ser a disperso dos dados.
Algumas propriedades do desvio padro, que resultam imediatamente da
definio, so:
o desvio padro sempre no negativo e ser tanto maior, quanta mais
variabilidade houver entre os dados;
se s=0, ento no existe variabilidade, isto , os dados so todos iguais.
No exemplo 1.8,
2
11.99 s s = e
2
' ' 12.16 s s = .
1.5.2.4. Amplitude inter quartil
A medida anterior tem a grande desvantagem de ser muito sensvel existncia,
na amostra, de uma observao muito grande ou muito pequena. Assim, define-
se uma outra medida, a amplitude inter-quartil, que , em certa medida, uma
soluo de compromisso, pois no afectada, de um modo geral, pela existncia
de um nmero pequeno de observaes demasiado grandes ou demasiado
pequenas. Esta medida definida como sendo a diferena entre o 3 e 1 quartis,
3 1
Q Q Q =
( 17)
Do modo como se define a amplitude inter-quartil, conclumos que 50% dos
elementos do meio da amostra esto contidos num intervalo com aquela
amplitude. Esta medida no negativa e ser tanto maior quanto maior for a
variabilidade nos dados.
Nota: Ao contrrio do que acontece com o desvio padro, uma amplitude inter-
quartil nula, no significa necessariamente, que os dados no apresentem
variabilidade.
No exemplo 1.8,
3 1
75 59 16 Q Q Q = = =
Amplitude inter-quartil vs desvio padro
Do mesmo modo que a questo foi posta relativamente s duas medidas de
localizao mais utilizadas (mdia e mediana), tambm aqui se pode por o
problema de comparar as duas ltimas medidas de disperso. A amplitude inter-
quartil mais robusta, relativamente presena de outliers, do que o desvio
padro, que mais sensvel aos dados.
E S T A T S T I C A D E S C R I T I V A
19 19 19 19
1.5.2.5. Boxplot (caixa de bigodes)
O boxplot ou caixa de bigodes um tipo de representao grfica onde se
realam algumas caractersticas da amostra, nomeadamente a existncia de
outliers (valores que se distinguem dos restantes, dando a ideia de no
pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra
compreendidos entre o 1 e o 3 quartil representado por um rectngulo (caixa)
com a mediana indicada por uma barra. Considera-se seguidamente duas linhas
que unem os lados dos rectngulos com as barreiras interiores (eventualmente os
extremos).

A barreira inferior interior o menor valor da amostra (eventualmente o
mnimo), que maior do que
1
1, 5 Q Q
. A barreira superior interior o maior
valor da amostra (eventualmente o mximo), que maior do que
1
1, 5 Q Q +
.
Quando existem valores fora deste intervalo,
[ ]
1 1
1, 5 ; 1, 5 Q Q Q Q +
, diz-se que
existem outliers ou valores discordantes. Para averiguar o grau dos mesmos
devem ser calculadas as barreiras exteriores:
[ ]
1 1
3 ; 3 Q Q Q Q +
. Caso essas
observaes se encontrem neste ltimo intervalo designam-se por outliers
moderados, caso contrrio dizem-se outliers severos.

Nota: Quando no existem outliers e nas extremidades da linha se representam os
extremos da amostra, mnimo (
*
1
x ) e mximo (
*
n
x ), esta representao coincide
com o diagrama de extremos e quartis. Este tipo de representao reala
E S T A T S T I C A D E S C R I T I V A
20 20 20 20
caractersticas importantes sobre os dados, como sejam o centro da amostra
(mediana), variabilidade, simetria. Repare-se que da forma como o diagrama se
constri (distncia entre a linha indicadora da mediana e os lados do rectngulo;
comprimento das linhas que saem dos lados dos rectngulos; comprimento da
caixa), se pode retirar imediatamente a seguinte informao:

Aqui podemos ver alguns exemplos, correspondentes a tipos diferentes de
distribuio de dados.

Voltado ao exemplo 1.8, na representao boxplot temos os seguintes passos:
1. Clculo dos quartis:

36 n =


1
36 58 60
9 59
4 4 2
n
Q
+
= = = =


2
36 67 68
18 67, 5
2 2 2
n
Q Me
+
= = = = =


3
3 108 75 75
27 75
4 4 2
n
Q
+
= = = =

2. Clculo das barreiras interiores:

3 1
75 59 16 Q Q Q = = =


1
1, 5 58 1, 5 16 34
i
b Q Q = = =


3
1, 5 75 1, 5 16 99
s
b Q Q = + = + =

3. Ser que existem outliers?
E S T A T S T I C A D E S C R I T I V A
21 21 21 21
As barreiras interiores so [ ] 34;99 , logo, como existe um valor fora deste
intervalo estamos na presena de um outlier.
As barreiras exteriores ficam:

1
3 58 3 16 11
i
B Q Q = = =


3
3 75 3 16 123
s
B Q Q = + = + =

Como esta observao se encontra dentro das barreiras exteriores, isto
[ ] 11: 23 x , um outlier moderado.
4. Representao grfica do boxplot:

1.5.2.5. Coeficiente de variao
O coeficiente de variao expressa o desvio padro como percentagem da mdia,
portanto uma medida relativa da disperso da varivel,
CV 100
s
x
= (18)
Nota: preciso ter em conta que se a mdia perto de zero, o coeficiente de
variao ter um valor elevado mesmo se os desvios relativamente mdia so
pequenos. Por isso, deixa de ser til quando a mdia prxima de zero.
No exemplo 1.8,
11.98
100 18.2%
65.86
CV =

E S T A T S T I C A D E S C R I T I V A
22 22 22 22
1.6. Dados bivariados

Muitas vezes o estudo descritivo no se resume ao estudo de apenas uma
varivel, por vezes necessrio a observao de duas (ou mais) varveis para se
ter uma viso global do problema em estudo. Nesse caso deixamos de ter uma
amostra 1
( , ..., ) , 1, ...,
n
x x i n
e passamos a ter dados bivariados ( , ) , 1,...,
i i
x y i n =
(observaes de uma varivel aleatria bidimensional, que ser definida no
captulo 3). Por exemplo, a presso atmosfrica est relacionada com a altitude
e/ou com a temperatura; a altura de uma criana est relacionada com a alutura
do pai e/ou me.
Uma das coisas que se pretende estudar a relao existente entre as varveis
deste par. Para ter uma ideia de como as duas varveis se relacionam comum
representar graficamente esta relao atravs de um grfico de disperso. Esta
representao consiste na marcao num sistema de eixos cartesianos as
observaes, ficando com uma nuvem de pontos que correspondem aos pares
ordenados ( , )
i i
x y .

Exemplo 9:
Consideremos os dados da temperatura do fuel gs (graus Fahrenheit) e a taxa de
calor (Kilowatt-hora) para uma turbina de combusto para ser usada na
refrigerao.
x 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 500
y 99.1 98.8 98.5 98.5 98.5 98.2 98 97.8 97.8 97.8 97.6 97.5 97.3 97 96.8 96.7

Grfico de disperso
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
C
a
l
o
r

Este diagrama mostra a relao entra as variveis em estudo, donde se pode
extrair que talvez exista uma correlao linear entre elas. Esta relao pode ser
traduzida atravs de uma recta.
E S T A T S T I C A D E S C R I T I V A
23 23 23 23

1.6.1.Regresso linear simples
Quando a relao existente entre duas variveis linear, pode ser traduzida
atravs de uma recta. Sendo assim, temos o seguinte modelo determinstico:
Y X = + (19)
em que a ordenada na origem e o declive da recta.

No modelo de regresso linear simples pretende-se explicar o efeito que uma
varivel x , varivel independente ou explicativa, sobre uma varivel y ,
varivel dependente ou explicada.
Correlao Linear Positiva (forte)
0
0
x

Correlao Linear Negativa (forte)
0
0
x

Correlao Linear Fraca
0
0
x


Esta visualizao permite, atravs da simples observao do diagrama de
disperso, averiguar a possvel existncia ou no de correlao linear entre
duas variveis.

E S T A T S T I C A D E S C R I T I V A
24 24 24 24
1.6.2. Correlao. Coeficiente de determinao
O coeficiente de correlao linear,
xy
r , mede o grau de associao linear entre
dados bivariados, e calcula-se da seguinte forma:
xy
xy
xx yy
s
r
s s
= (20)
onde

( )( )
1 1
n n
xy i i i i
i i
s x x y y x y nx y
= =
= =

, (21)


( )
2
2
2
1 1
n n
xx i i
i i
s x x x nx
= =
= =

(22)
e

( )
2
2
2
1 1
n n
yy i i
i i
s y y y ny
= =
= =

(23)
Deste modo podemos reescrever o coeficiente de correlao linear como
xy
xy
x y
r
s s

=

(24)

onde
xy
a covarincia de X e Y e 1 1 r .

A variao total da varivel dependente (VT) dada por
( )
2
1
n
i
i
y y
=

, que pode
ser decomposta da seguinte forma:
( )
2 2 2
^ ^
1 1 1
VT VE VR
n n n
i i i
i i i
y y y y y y
= = =
| | | |
= +
| |
\ \

14243 14243 14243
(25)
E S T A T S T I C A D E S C R I T I V A
25 25 25 25
em que VE a variao explicada pela regresso e VR a variao residual.
Ficamos ento com
VE VR
VT VE VR 1
VT VT
= + + = (26)
em que a razo entre a variao explicada pela regresso e a variao total,
VE
VT
,
o coeficiente de determinao,
2
R , que a proporo da variabilidade total que
explicada pelo modelo de regresso,
( )
( )

2
1
2
2
2
2
1 2 1 1
2
2 2
2 2
1 1 1
n
i i
i
n n n
xy
i i i i
i i xx i
n n n
yy
i i i
i i i
x y nxy
s
x y nx y y y x nx
s
R
s
y y y ny y ny

=
= = =
= = =
| |

|
\
| |

|
\
= = = =



(27)
O coeficiente de determinao varia entre zero e um,
2
0 1 R . Quando este
coeficiente toma o valor 1 significa que a recta de regresso explica totalmente a
variabilidade da varivel dependente. O valor nulo de
2
R corresponde situao
em que a recta de regresso no explica nada da variabilidade da varivel
dependente.
O coeficiente de correlao pode ser calculado atravs do coeficiente de
determinao,
2
xy
r R = (28)
em que o sinal depende do declive da recta de regresso, sendo +(-) se esse
declive positivo (negativo).
1.6.3. Mtodo dos mnimos quadrados
Quando se verifica, quer atravs do grfico de disperso quer do coeficiente
de correlao linear, uma correlao forte entre duas variveis, podemos
descrever a relao entre essas variveis atravs de uma recta de regresso (a
recta que melhor se ajusta aos dados). Essa recta serve de modelo matemtico
para expressar a relao linear entre duas variveis. Considera-se, em geral,
X a varivel independente ou explicativa e Y a varivel dependente ou
explicada. Um dos mtodos mais utilizados para ajustar uma recta a um
conjunto de dados o Mtodo dos Mnimos Quadrados (MMQ), que consiste
em determinar a recta que minimiza a soma dos quadrados dos desvios (os
E S T A T S T I C A D E S C R I T I V A
26 26 26 26
chamados erros ou resduos) entre os verdadeiros valores, y , e os valores
estimados a partir da recta de regresso que se pretende ajustar,
^
y .



O modelo de regresso linear a recta de regresso
^
i i i
y x = + + (29)
obtida de tal modo que a soma dos quadrados dos desvios ou resduos
(
^
i i
y y = ) seja mnima,

( )
2
^
2
2
1 1 1
min min min ( )
n n n
i i i i i
i i i
y y y x
= = =
| |
= = +
|
\

(30)

Como tal, para estimar os parmetros do modelo, necessrio que as
primeiras derivadas, em ordem a e a

, sejam nulas e as segundas sejam
maiores ou iguais a zero,

2
1
2
1
( ) 0
( ) 0
n
i i
i
n
i i
i
y x
y x

=
=

=

(31)

As estimativas dos mnimos quadrados para os parmetros e a

so

^ ^
y x = (32)
e
^
1
2
2
1
n
i i
xy
i
n
xx
i
i
x y nx y
s
s
x nx

=
=

= =

(33)

E S T A T S T I C A D E S C R I T I V A
27 27 27 27
Voltando ao exemplo 1.9, uma vez que se observa no grfico de disperso uma
relao linear entre as variveis, vamos confirmar esta relao atravs do
coeficiente de correlao,
i x
y
2
x
2
y
xy
1 100 99,1 10000 9820,81 9910
2 125 98,8 15625 9761,44 12350
3 150 98,5 22500 9702,25 14775
4 175 98,5 30625 9702,25 17237,5
5 200 98,5 40000 9702,25 19700
6 225 98,2 50625 9643,24 22095
7 250 98 62500 9604 24500
8 275 97,8 75625 9564,84 26895
9 300 97,8 90000 9564,84 29340
10 325 97,8 105625 9564,84 31785
11 350 97,6 122500 9525,76 34160
12 375 97,5 140625 9506,25 36562,5
13 400 97,3 160000 9467,29 38920
14 425 97 180625 9409 41225
15 450 96,8 202500 9370,24 43560
16 500 96,7 250000 9350,89 48350

4625 1565,9 1559375 153260,19 451365
1
2 2
2 2
1 1
0.99
n
i i
xy
i
xy
n n
xx yy
i i
i i
x y nx y
s
r
s s
x nx y ny
=
= =

= = =



O valor da correlao 0.99 r = e o coeficiente de determinao
2
0.977 R =
indiciam uma forte correlao linear entre a temperatura de fuel gs e a taxa de
calor. Vamos agora estimar, atravs do MMQ, os parmetros e e traar a
recta de regresso:
^
1 1 1
2 2 2
2
1 1
16 451365-4625 1565,9
0, 0057
16 1559375-(4625)
n n n
i i i i
xy
i i i
n n
x
i i
i i
n x y x y
s
s
n x x

= = =
= =


= = = =

| |

|
\



^
1656, 9 4625
( 0, 0057) 99, 529
16 16
y x = = =

Sendo assim, a recta de regresso calculada pelos mtodos dos mnimos
quadrados dada por,
^ ^ ^
99, 529 0, 0057 y x x = + =

E S T A T S T I C A D E S C R I T I V A
28 28 28 28
cujo grfico de disperso com a respectiva recta de regresso o seguinte:

Grfico de disperso
y = -0.0057x + 99.529
R
2
= 0.977
96.5
97
97.5
98
98.5
99
99.5
0 200 400 600
Temperatura
C
a
l
o
r

Atravs da recta de regresso estimada possvel prever taxas de calor com base
na temperatura do fuel gs. Por exemplo, para uma temperatura do fuel gs de
405 graus Fahrenheit prev-se uma taxa de calor de
^
0.0057 405 99.529 97.2205 y = + = Kilowatt-hora.

Potrebbero piacerti anche