Curso de Estatística 2017

ESTATÍSTICA E ANÁLISE DADOS
COM RECURSO AO SPSS

Ministério da Agricultura e Desenvolvimento rural
Formador: Peregrino Costa
Junho/Julho de 2017.
Objectivos:
• Gerais:
 Adquirir, aprofundar e desenvolver os conhecimentos e competências dos
participantes relativamente à recolha, tratamento e análise de dados estatísticos.
• Específicos:
No final da acção, os formandos deverão ser capazes de:
• Desenvolver conhecimentos sobre as noções de estatística, correlação linear e
regressão linear;
• Desenvolver o conhecimento de um conjunto de métodos que suportam o processo
de recolha de dados, com o foco principal na recolha de dados efectuada através de
inquéritos por questionário;
• Dominar os métodos de inquéritos com enfase particular em amostragem
probabilística;
• Utilizar o SPSS no tratamento de dados recolhidos, quer administrativamente, quer
por inquérito.
PROGRAMA
Conteúdos Programáticos:
• Noções de estatística
• Metodologia de Inquéritos
• Amostragem
1. Noções de Estatística
Objectivos
Desenvolver conhecimentos sobre noções de estatística descritiva e inferência
estatística, correlação simples e regressão linear.
Conteúdo da Formação:
1. Objectivos da estatística; 2. Tipos de variáveis; 3. População e amostra;
4. Campos de aplicação; 5. Representações gráficas; 6. Medidas de:

tendência central, dispersão e associação;
7. Principais distribuições; 8. Testes de hipóteses; 9. Correlação linear

simples;
10. Regressão linear; 11. Introdução ao SPSS.

2. Metodologia de Inquéritos
Objectivos:
• Conhecimento de um conjunto de metodologias que suportam os
processos de recolha de dados, com principal destaque para a recolha de
dados realizada através de inquéritos baseados em questionário;
• É abordado o planeamento do inquérito, a problemática relacionada com a
definição das populações alvo e com a constituição de bases de sondagem,
analisados métodos para prevenção e tratamento dos principais erros não
amostrais, discutidos os métodos e modos de recolha de dados incluindo
os dados administrativos e a gestão de trabalho de campo e estudadas
formas de desenho e implementação de questionários, bem como de
outros instrumentos de recolha de dados;
• No final desta componente os formandos deverão ser capazes de conceber
uma metodologia que suporte a recolha de dados através de inquirição.
2. Metodologia de Inquéritos
Conteúdo da Formação:
1. Planeamento de uma pesquisa

2. A recolha da informação
2.1 As entrevistas
2.2 Métodos de recolha da informação
3. A construção de um Questionário
3.1 O estudo preliminar
3.2 A elaboração do questionário
3. Amostragem
Objectivos:
• Esta componente tem por objectivo proporcionar conhecimentos sobre métodos
de sondagem, sendo dado particular destaque para a amostragem probabilística;
• São abordados os principais desenhos amostrais: sondagem aleatória simples,
sondagem estratificada, sondagem por conglomerados e sondagem em várias
etapas;
• São abordados os processos de selecção com probabilidades iguais e desiguais,
com particular destaque para a selecção com probabilidades proporcionais à
dimensão;
• É igualmente efectuada uma introdução à estimação de rácios e estimação em
domínios bem como ao uso de informação auxiliar. Com esta abordagem os
formandos deverão ser capazes de desenhar uma amostra adequada a um
qualquer problema de recolha de dados, dimensionar a amostra, escolher os
estimadores adequados e produzir medidas de precisão da estimação.
3. Amostragem
Conteúdo:
1. Introdução à Amostragem;
2. Amostragem não aleatória (Intencional, Bola de neve, por Quotas,

Por conveniência e Itinerários Aleatórios);
3. Amostragem aleatória (Aleatória Simples, Sistemática, Estratificada,

Por Clusters, Multi-Etapas, Multi-Fásica).
1. Noções de Estatística
1. Objectivos da estatística
ESTATÍSTICA
“Ciência que dispõe de processos apropriados para recolher,
organizar, descrever, apresentar, classificar e interpretar conjuntos de
dados"
A Estatística divide-se em dois grandes grupos: A Estatística Descritiva

e Inferência Estatística ou Estatística Dedutiva
1.Noções de Estatística
1 Objectivos da estatística
Estatística Descritiva
Parte da Estatística que se relaciona com a organização, apresentação, descrição e
resumo dos dados. Fornece técnicas para extrair informação de dados, nem sempre
completas, pois dão informação útil sobre o problema em estudo, não realçando,
no entanto, certos aspectos importantes. Pode concluir-se que a estatística
descritiva contribui para a obtenção de uma melhor compreensão de certas
situações representadas pelos dados disponíveis.
Estatística Inferencial
Parte da Estatística que procura estabelecer conclusões para a população com base no
conhecimento parcial da mesma.
2 Tipos de variáveis
VARIÁVEL
 Característica de interesse que é medida em cada elemento da amostra ou

população.
Ela varia de uma observação para outra e podem ter valores numéricos ou não
numéricos.
Discreta
Característica que é medida e assume valores
finitos ou infinitos contáveis (valores inteiros).
Quantitativa Exemplos: número de irmãos, número de
Característica que pode filhos.
ser medida em escala Contínua
quantitativa. Característica que é medida e assume valores
numa escala contínua (que podem
Numérica representar-se na recta real). Exemplos: peso
(balança), altura (régua), idade.
Qualitativa (categórica) Nominal

Característica que não é Não existe uma ordenação entre as categorias.
quantitativa e representa Exemplos: cor dos olhos, sexo.
uma classificação dos
Variável indivíduos
Ordinal
Existe uma ordenação entre as categorias.
Exemplos: escolaridade (4ª, 5ª, 6ª, 7ª classe),
fases de uma doença (inicial, intermediário,
terminal).
Não Conjunto de
Numérica caracteres
2 Tipos de variáveis
• Observações:
Uma variável pode ser recolhida na forma qualitativa e ser transformada em
quantitativa.
Uma variável representada por números nem sempre é quantitativa.
As variáveis categóricas não representam quantidades mas sim categorias.
Quando as variáveis são codificadas os valores apenas representam categorias.
Estes valores não têm significado quantitativo.
Se as categorias da variável têm uma ordem, ela chama-se variável categórica
ordinal; se as categorias não têm ordem a variável diz-se nominal.
Há variáveis que, por necessidade ou conveniência do estudo, são categorizadas.
Exemplo: Idade é uma variável contínua. Mas se se tiver um indivíduo com 26,7
anos, na sua forma categorizada (grupos etários) esse indivíduo passará a pertencer
à categoria (grupo etário) de [25 a 30 anos].
3. População e amostra
UNIDADES ESTATÍSTICAS
Os elementos que compõem a população-alvo e a amostra
BASE DE SONDAGEM
Constituída por uma lista que identifica as unidades de amostragem
AMOSTRAGEM
Parte da estatística onde se estudam os métodos de selecção de
amostras e como extrapolar os seus resultados para a população
3. População e amostra
- AMOSTRA, um subconjunto de indivíduos da população-alvo
- AMOSTRA REPRESENTATIVA, uma amostra

seleccionada de forma que as informações recolhidas
possam ser estendidas ao conjunto da população, com
uma precisão julgada adequada
- POPULAÇÃO-ALVO OU ESTUDADA, um conjunto de

elementos distintos que possuem pelo menos
uma característica em comum
- VARIÁVEL ALEATÓRIA, uma característica comum a todos os elementos da amostra

4. Campos de aplicação
É aplicada nas mais diversas áreas (campos) de intervenção humana:
• Agricultura
• Estudos sócio-demográficos
• Saúde
• Economia e Finanças
• Estudos de opinião
• Controlo de qualidade
• Ambiente
• Etc., etc..
5. Representações gráficas
• Tem como objectivo principal a visualização de características da
variável em estudo na amostra, ou seja de estatísticas amostrais, de
forma simples e de fácil aquisição mental.
1. Diagrama de extremos e quartis: Existem algumas variações quanto

à quantidade de estatísticas representadas neste tipo de gráfico, mas
em geral todos incluem a mediana, o 1º (Q1) e o 3º (Q3) quartis, os
valores mínimos e máximos e eventuais outliers e extremos.
2. Histograma de frequências:
as observações da variável
contínua em estudo são
organizadas em classes
(de amplitudes variáveis ou fixas)
no eixo das abcissas e a frequência
(relativa ou absoluta) de cada uma
dessas classes na amostra é representada
no eixo das ordenadas.
Se a variável medida for do tipo discreto, devem utilizar-se gráficos de
barras.
3. Gráficos circulares: Costuma ser utilizado para representar
informação em termos percentuais, em particular para variáveis
nominais.
4. Gráfico de caule e folha (Stem-and-Leaf): Reúnem informação dos
histogramas mantendo o valor de cada observação. A primeira coluna
apresenta as frequências de cada uma das classes. O Stem indica o
dígito das dezenas e a Leaf indica o dígito das unidades de cada uma
das observações.
5. Diagrama de dispersão: São utilizados para ilustrar a relação entre
duas variáveis quantitativas. Nestes tipos de gráficos as observações de
cada uma das variáveis são representadas como pares ordenados
𝑋𝑖 , 𝑌𝑖 .
6. Medidas
Depois de constituídas as amostras, de acordo com as práticas
correctas da teoria de amostragem, torna-se necessário caracterizá-las.
São utilizadas as medidas de tendência central (que procuram
caracterizar o valor da variável em estudo que ocorre com mais
frequência), medidas de dispersão (que estuda a dispersão das
observações em torno das estatísticas de tendência central), medidas
da forma (que a forma da distribuição dos elementos das amostras) e
as medidas de associação (que caracterizam a intensidade e a direcção
da variação comum entre variáveis no caso de amostras com mais de
um variável,
6.1. Medidas de tendência central
Dentre as várias medidas de tendência central, as mais utilizadas são:
- Média amostral (aritmética):
𝑛
1
𝑥= 𝑥𝑖
𝑛
𝑖=1
onde 𝑛 é a dimensão da amostra e 𝑥𝑖 𝑖 = 1, 2, … , 𝑛 representa cada
um dos valores da variável 𝑋.
Exemplo: Determinar a média da seguinte amostra: 3, 14, 5, 6, 10
𝑛
1 1 38
𝑛 = 5; 𝑥 = 𝑥𝑖 = × 3+14+5+6+10 = = 7,6
𝑛 5 5
𝑖=1
- Média ponderada
𝑛
1
𝑥= 𝑥𝑖 𝐹𝑖
𝑁
𝑖=1
onde 𝑁 é a dimensão da amostra e 𝑥𝑖 𝑖 = 1, 2, … , 𝑛 representa cada
um dos valores da variável 𝑋, 𝐹𝑖 representa a frequência absoluta.
- Média ponderada: Exemplo: Cálculo da média segundo o seguinte quadro
de dados: 𝒙 𝑭 𝒙 ×𝑭
𝒊 𝒊 𝒊 𝒊
770 4 3080
790 43 33970
810 118 95580
830 168 139440
850 117 99450
870 39 33930
890 11 9790
Total 500 415240
𝑛
1 1
𝑥= 𝑥𝑖 × 𝐹𝑖 = × 415240 = 830,48
𝑁 500
𝑖=1
- Mediana 𝑥 ou 𝑀𝑒
É o valor de 𝑋𝑖 tal que, depois de ordenadas por ordem crescente todas
as observações da variável 𝑋, 50% das observações sejam superiores
ou iguais e 50% sejam inferiores ou iguais à mediana.
Calcula-se por:
𝑋𝑛 + 𝑋𝑛+1
2 2
, 𝑠𝑒 𝑛 𝑝𝑎𝑟
𝑥= 2
𝑋𝑛+1
2
, 𝑠𝑒 𝑛 í𝑚𝑝𝑎𝑟
2
1. Com os dados 2, 5, 3, 1, 6 calcular a mediana?
Ordena-se por ordem crescente: 1, 2, 3, 5, 6. O valor 𝑥𝑖 = 3 coloca 50%
dos dados à direita e 50% à esquerda, daí que é a 𝑥 = 3. Mas se for
2, 3, 5, 6 já teremos dificuldades de encontrar o tal valor 𝑥𝑖 coloca 50%
dos dados à direita e 50% à esquerda. Por isso temos que calcular
𝑋𝑛 + 𝑋𝑛+1
2 2 3+5
= =4
2 2
Sabendo que: 𝑋𝑛 = 3 e 𝑋𝑛+1 = 5
2 2
2. Com os dados do quadro seguinte calcular a mediana.
Classes Frequências A mediana é o valor a que corresponde
absolutas 𝑁 500
acumuladas a frequência acumulada = = 250
2 2
760-780 4
780-800 47 e que se verifica pertencer à classe
800-820 165 820-840 (classe mediana), pois até 820
820-840 333
840-860 450 há 165 observações e até 840 há 333
860-880 489
880-900 500 observações. Assim, a mediana será
840+820
o ponto da classe, ou seja: = 830.
2
- Moda (é a media de tendência central menos usada)
• Para dados não classificados a moda é o valor mais frequente.
• Para dados classificados a classe modal é que tem frequência mais
elevada.
- Costuma utilizar-se a seguinte fórmula:
𝑓 ∗∗
𝑚𝑜𝑑 = 𝑙 + ∗ ∗∗
×ℎ
𝑓 +𝑓
onde 𝑙- limite inferior da classe modal, 𝑓 ∗ - frequência da classe
anterior à modal, 𝑓 ∗∗ - frequência da classe posterior à modal e ℎ-
amplitude da classe.
Calcular a moda?
Classes Frequências Frequências 𝑓∗∗
absolutas relativas 𝑚𝑜𝑑 = 𝑙 + ×ℎ
𝑓∗ +𝑓∗∗
117
760-780 4 0,008 = 820 + × 20 = 829,96
780-800 43 0,086 118+117
800-820 118 0,236
820-840 168 0,336
840-860 117 0,234
860-880 39 0,078
880-900 11 0,022
Total 500 1,000
6.2. Medidas de dispersão
Quando se analisam as colecções de dados também se utilizam a
dispersão à par da média e mediana. Esta medida serve para analisar o
comportamento da colecção, tomando como referência uma medida
fixa que, deve ser o valor escolhido para localizar a distribuição.
Normalmente usa-se a média como medida fixa e ela é tomada para
referenciar a dispersão das observações. Perante tal hipótese a
dispersão deve sintetizar o comportamento do conjunto dos desvios
em relação à média, isto é, 𝑥𝑖 − 𝑥 , 𝑖 = 1, 2, … , 𝑁; havendo pouca
dispersão os desvios são globalmente pequenos; havendo muita
dispersão os desvios são globalmente grandes. Como a soma dos
desvios é zero, toma-se os desvios elevados ao quadrado para perder o
sinal e não haver compensação entre valores e negativos.
- Variância e desvio padrão para os dados não classificados:
• Variância:
1. Para amostras consideradas não pequenas
𝑁
2
1
𝑠 = 𝑥𝑖 − 𝑥 2
𝑁
𝑖=1
2. Para amostras consideradas pequenas (variância corrigida)
𝑁
2
1
𝑠 = 𝑥𝑖 − 𝑥 2
𝑁−1
𝑖=1
- Variância e desvio padrão para os dados não classificados:
• Desvio-padrão:
𝑁
1 2
𝑠= 𝑥𝑖 − 𝑥
𝑁
𝑖=1

𝑁
1 2
𝑠= 𝑥𝑖 − 𝑥
𝑁−1
𝑖=1
Cálculo da variância e do desvio-padrão
𝑥=48,72
𝑥𝑖 2
𝑥𝑖 − 𝑥
1 𝑁
44,8 12,82 𝑠2 = 𝑖=1 𝑥𝑖 − 𝑥 2
𝑁−1
53,5 26,21
32,8 242,74 911,81
34,3 198,25 = = 113,98
8
46,8 2,50
49,2 0,68 1 𝑁 2
53,8 29,38 𝑠= 𝑖=1 𝑥𝑖 − 𝑥
𝑁−1
66,5 328,33
56,8 70,90
= 113,98 = 10,68
- Variância e desvio padrão para os dados classificados:
• Variância:
𝑁
2
1
𝑠 = 𝐹𝑖 𝑥𝑖 − 𝑥 2
𝑁
𝑖=1
𝑁
2
1
𝑠 = 𝐹𝑖 𝑥𝑖 − 𝑥 2
𝑁−1
𝑖=1
• Variância e desvio padrão para os dados classificados:
- Desvio padrão
𝑁
1 2
𝑠= 𝐹𝑖 𝑥𝑖 − 𝑥
𝑁
𝑖=1

𝑁
1 2
𝑠= 𝐹𝑖 𝑥𝑖 − 𝑥
𝑁−1
𝑖=1
• Cálculo da variância e do desvio-padrão
2 1 𝑁 2
Classes Frequências Ponto Produtos 𝑠 = 𝐹 𝑥
𝑖=1 𝑖 𝑖 − 𝑥
absolutas médio 𝐹𝑖 𝑥𝑖 − 𝑥 2
𝑁
279200
= = 558,17
760-780 4 770 14400 500
780-800 43 790 68800
800-820 118 810 47200
820-840 168 830 0 1 𝑁
𝑠= 2
840-860 117 850 46800
𝑁 𝑖=1 𝐹𝑖 𝑥𝑖 − 𝑥
860-880 39 870 62400
880-900 11 890 39600
= 558,17 = 23,63
Total 500 279200
6.3. Medidas de forma
A assimetria e o achatamento caracterizam a forma da distribuição dos elementos
da população na amostra em torno da média, por isso são designados por
“medidas de forma”. A assimetria de uma distribuição pode ser caracterizada pelo
enviesamento (skewness) que essa distribuição apresenta relativamente à média.
Existem vários coeficientes para medir a assimetria, mas geralmente é calculado a
partir do 3º momento em torno da média: 𝑛
3
1
𝑀 = 𝑋𝑖 − 𝑋 3
𝑛
𝑖=1
O coeficiente de assimetria calculado pelo SPSS, e que deve ser utilizado sempre
que se trabalha com amostras é:
𝑛2 𝑀 3
𝑔1 =
𝑛 − 1 𝑛 − 2 𝑆3
onde 𝑆 é o desvio-padrão amostral.
6.3. Medidas de forma
O 4º momento em torno da média serve para avaliar se a distribuição é
mais ou menos achatada
𝑛
4
1
𝑀 = 𝑋𝑖 − 𝑋 4
𝑛
𝑖=1
O coeficiente de achatamento ou kurtose utilizado com mais
frequência é (Guimarães & Cabral, 1997):
𝑛2 𝑛 + 1 𝑀 4 𝑛−1 2
𝑔2 = 4
−3×
𝑛−1 𝑛−2 𝑛−3 𝑆 𝑛−2 𝑛−3
6.4. Medidas de associação
• Coeficiente de correlação de Pearson
Mede a intensidade e a direcção da associação do tipo linear entre duas
variáveis quantitativas. É calculada através da variância comum, isto é, da
Covariância (𝐶𝑜𝑣 𝑋1 , 𝑋2 ) entre duas variáveis 𝑋1 e 𝑋2 que é dada por:
𝑛
1
𝐶𝑜𝑣 𝑋1 , 𝑋2 = 𝑋1𝑖 − 𝑋1 2 𝑋2 − 𝑋2 2
𝑛
𝑖=1
𝑛 2 2
𝑖=1 𝑋1𝑖 − 𝑋1 𝑋2 − 𝑋2
𝜌𝑋1 ,𝑋2 =
𝑛 2 𝑛 2
𝑖=1 𝑋1𝑖 − 𝑋1 𝑖=1 𝑋2 − 𝑋2
7. Principais distribuições
Com as amostras constituídas (com recurso às técnicas de amostragem) e a
sua caracterização (com recurso à estatística descritiva) o passo seguinte
consiste em fazer inferir acerca dos valores dos parâmetros da população,
onde foram obtidas as amostras e ou validar as hipóteses acerca desses
parâmetros.
O processo descrito chama-se Inferência Estatística que subdivide-se em 1)

teoria da estimação, que tem como objectivo estimar os parâmetros da
população teórica a partir das estimativas amostrais e 2) teoria da decisão
que tem como objectivo fundamentar a decisão e esta está intimamente
ligada a testes de hipóteses relacionados com os parâmetros da população.
O processo de inferência estatística, exige uma função Matemática que
dá a probabilidade do valor de cada observação da amostra na
população, a chamada função densidade de probabilidade, que seja
conhecida, isto é, que a distribuição amostral possa ser estimada.
Existem várias distribuições e veremos apenas:

- Distribuição Normal
- Distribuição do X -Quadrado
- Distribuição T –Student
consideradas com maior uso.
• Distribuição Normal
Curva da Densidade (ou da função densidade de probabilidade é o gráfico da

distribuição de probabilidade de uma variável aleatória contínua).
•Distribuição Normal
Definições
1. A área total sob a curva é igual a 1.
2. Todo o ponto sob a curva deve ter uma ordenada de valor igual ou superior a zero.
Distribuição Normal Standard :
a distribuição Normal tem média 0 e desvio padrão 1.
•Distribuição Normal
• Distribuição Normal
• Distribuição do X -Quadrado
1. A distribuição Qui-quadrado
não é simétrica, ao contrário do
que sucede com as distribuições
Normal e t de Student.
Distribuição Qui-quadrado
para g.l.= 10 e g.l.= 20
À medida que o nº de graus

de liberdade aumenta,
a distribuição torna-se mais simétrica.
Perceber o são graus de liberdade:

Consideremos um conjunto de dados qualquer.
Graus de liberdade é o número de valores deste conjunto de dados

que podem variar após terem sido impostas certas restrições a todos
os valores.
• Distribuição T -Student
A distribuição t de Student é
a designação de uma família
de distribuições indexada
pelo parâmetro n, que representa
o número de graus de liberdade (g.l.).
• Distribuição T -Student
8. Testes de hipóteses
Hipótese
É uma conjectura, uma resposta provisória que de acordo com certos
critérios, será rejeitada ou não-rejeitada.
Nota:
Considerando que as mesmas causas nem sempre produzem os
mesmos efeitos, em lugar de ACEITAR, costuma-se dizer NÃO REJEITAR,
associando a esta última expressão uma PROBABILIDADE.
Ideia de base subjacente aos testes estatísticos é:
• Definir uma hipótese nula que se receia que seja verdadeira;

• Verificar se os dados podem fornecer forte evidência contrária à
hipótese.
• Recorre-se a uma regra de decisão, sabendo que se poderá cometer
um erro, qualquer que seja a decisão tomada.
• Comete-se um erro de 1ª espécie quando se rejeita a hipótese nula,
sendo esta verdadeira.
• Pode igualmente cometer-se um erro de 2ª espécie aceitando a

hipótese nula, quando esta é falsa.
• Uma análise estatística mais sofisticada deverá ter em conta o
equilíbrio e os custos relativos entre os erros de 1ª e 2ª espécie,.
• No entanto, habitualmente segue-se uma abordagem «adversa ao
risco», ficando-se pela análise dos erros de 1ª espécie.
As Hipóteses nem sempre são verdadeiras, nem sempre se decide
acertadamente. O quadro seguinte mostra que existem 4
possíveis acções:
Hipótese
Verdadeira (V) Falsa (F)
Rejeitar a Hipótese 1 2
Decisão Erra Acerta
Não rejeitar a 3
Hipótese Acerta Erra
Na célula 1 comete-se um erro porque se rejeita uma hipótese verdadeira.

Ao fazer isto comete-se um ERRO de 1ª ESPECIE ou ERRO TIPO I.
Na célula 4 comete-se um erro porque se deixou de rejeitar uma hipótese
Falsa. Cometeu-se um ERRO de 2ªESPECIE ou ERRO TIPO II.
- A Hipótese que vai ser posta à prova (testada) chama-se, em Estatística,
Hipótese Nula e designa-se por 𝐻0
- A Hipótese que vai ficar no lugar da Hipótese Nula, caso ela seja rejeitada –
Chama-se Hipótese Alternativa e designa-se por 𝐻𝟏
- Vê-se que DECISÃO e ERRO caminham sempre juntos.
- Ao se REJEITAR ou NÃO REJEITAR uma Hipótese, podem-se cometer erros.

De facto não se quer cometer erro algum, no entanto, está-se disposto a
tolerar um ERRO, SE esse erro for pequeno.
• A probabilidade de um erro de 1ª espécie é designada por nível de
significância e é representada por 𝛼.
• O valor definido para 𝛼 depende da avaliação (por vezes subjectiva)
do custo associado ao erro de primeira espécie.
• NOTA: Lembrar sempre que em qualquer dos testes a selecção de

rejeição da hipótese nula deverá ser convertida num decisão de
gestão.
Nível de Significância
É a probabilidade máxima de rejeitar 𝐻0 . Se, por exemplo, utilizarmos o
nível de significância de 5%, a hipótese nula (𝐻0 ) será rejeitada
somente se o resultado da amostra for tão diferente do valor suposto
que uma diferença igual ou maior ocorreria com uma probabilidade
máxima de 0,05.
Na prática, o valor de 𝛼 é fixo.

(Geralmente 𝛼 = 0,01 ou 0,05 ou 0,10.)
Região Crítica
• Região onde os valores da estatística do teste levam à rejeição da hipótese
nula. A sua área é igual ao nível de significância, e sua direcção é a mesma
da hipótese alternativa.
Regra de Decisão
• Se o valor da estatística do teste cair dentro da região crítica, rejeita-se 𝐻0 .
Ao rejeitar a hipótese nula (𝐻0 ) existe uma forte evidência de sua falsidade.
• Ao contrário, quando não rejeitamos, dizemos que não houve evidência
amostral significativa no sentido de permitir a rejeição de 𝐻0 .
9. Correlação linear simples
Objectivo
• Estudar a relação entre duas variáveis quantitativas
Exemplos:
• Quantidade e preço das laranjas vendidas
• Idade e altura das crianças
• Tempo de prática de desporto e ritmo cardíaco
• Tempo de estudo e nota na prova
• Taxa de desemprego e taxa de criminalidade
• Expectativa de vida e taxa de analfabetismo
Averiguaremos a presença ou ausência de relação linear entre duas
variáveis sob dois pontos de vista:
No parágrafo 9: a) Quantificando a força dessa relação: correlação.
No parágrafo 10: b) Explicitando a forma dessa relação: regressão.
A representação gráfica de duas variáveis quantitativas como objectivo

de investigar a relação entre elas chama Diagrama de dispersão
𝑋 = 3,71 ; 𝑌 = 4,66 𝒀 𝑿 𝑿−𝑿 𝒀−𝒀 𝑿−𝑿 𝒀−𝒀
0,77 2+
3,67 2+ −2,032
2
𝑆𝑌 = 6.2 5,7 1,37 0,77 1,05
5 9,1 6,3 1,97 3,67 7,23
−1,43 + −1,23 2 + 0,27 2
2 21,81
+ = 3,4 1,9 -2,43 -2,03 4,93
5 5
4,0 3,7 -0,63 -1,43 0,90
= 4,36 ⟹ 𝑆𝑌 = 2,09
2+ 2+ 2 4,2 4,1 -0,23 -1,23 0,28
1,37 1,97 −2,43
𝑆𝑋2= 5,7 4,3 -0.03 0,27 0,01
5
−0,63 + −0,23 2 + −0,03 2
2 12,11
+ = = 2,42 ⟹ 𝑆𝑌 = 1,56
5 5
14,39 14,39 14,39
Então: 𝑟 = = = = 0,88
5×2,09×1,56 5×2,09×1,56 16,302
Propriedade: −1 ≤ 𝑟 ≤ 1
Casos particulares:
𝑟 = 1 ⟹ correlação linear positiva e perfeita
𝑟 = −1 ⟹ correlaçãolinearnegativaeperfeita
𝑟 = 0 ⟹ inexistência de correlação linear
r = 1, correlação linear positiva e perfeita
r = -1, correlação linear negativa

e perfeita
𝒓≅𝟎
10. Regressão linear simples
Introdução
A análise de regressão estuda o relacionamento entre uma variável
chamada variável dependente e outras variáveis chamadas variáveis
independentes.
Este relacionamento é representado por um modelo matemático, isto é, por
uma equação que associa a variável dependente com as variáveis
independentes.
Este modelo é designado por modelo de regressão linear simples se define
uma relação linear entre a variável dependente e uma variável
independente.
Se em vez de uma, forem incorporadas várias variáveis independentes, o
modelo passa a denominar-se modelo de regressão linear múltipla.
A análise de correlação dedica-se a inferências estatísticas das medidas de
associação linear que se seguem:
 coeficiente de correlação simples: mede a “força” ou “grau” de

relacionamento linear entre 2 variáveis;
 coeficiente de correlação múltiplo: mede a “força” ou “grau” de
relacionamento linear entre uma variável e um conjunto de outras
variáveis.
As técnicas de análise de correlação e regressão estão intimamente ligadas.

Diagrama de Dispersão
Os dados para a análise de regressão e correlação simples são da forma:
𝑥1 ; 𝑦1 , 𝑥2 ; 𝑦2 , … , 𝑥𝑖 ; 𝑦𝑖 , … , (𝑥𝑛 ; 𝑦𝑛 )
Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear
para que se possa usar a regressão linear.
Portanto este diagrama permite decidir empiricamente se um relacionamento linear entre
𝑋 e 𝑌 deve ser assumido.
Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau
de relacionamento linear entre as variáveis e forte ou fraco, conforme o modo como se
situam os pontos em redor de uma recta imaginária que passa através do enxame de
pontos.
A correlação é tanto maior quanto mais os pontos se concentram, com

pequenos desvios, em relação a essa recta.
Se o declive da recta é positivo, concluímos que a correlação entre 𝑋
e 𝑌 é positiva, i.e., os fenómenos variam no mesmo sentido.
Ao contrário, se o declive é negativo, então a correlação entre 𝑋
e 𝑌 é negativa, i.e., os fenómenos variam em sentido inverso.
Sugerem uma regressão linear (i.e., a relação entre as duas variáveis poderá ser
descrita por uma equação linear)
Existência de correlação positiva (em média,

quanto maior for a altura maior será o peso)
Existência de correlação negativa (em média,

quanto maior for a colheita menor será o preço)
Exemplo: Pretende-se estudar a relação entre a quilometragem de um carro
usado e o seu preço de venda
Os dados suge-
rem uma relação
linear entre a qui-
lometragem e o
peço de venda.
Existe uma corre-
lação negativa
O Modelo de Regressão Linear Simples
𝑌 = 𝛼 + 𝛽𝑋 + 𝐸
𝑋 – variável explicativa ou independente medida sem erro (não aleatória);
𝐸 – variável aleatória residual na qual se procuram incluir todas as influências no
comportamento da variável 𝑌 que não podem ser explicadas linearmente pelo
comportamento da variável 𝑋;
𝛼 e 𝛽 – parâmetros desconhecidos do modelo (a estimar);
𝑌 – variável explicada ou dependente (aleatória).
Exemplos
1. Relação entre o peso e a altura de um homem adulto (𝑋: altura; 𝑌: peso)
2. Relação entre o preço do vinho e o montante da colheita em cada ano (𝑋: montante da
colheita; 𝑌: preço do vinho)
Num estudo de regressão temos 𝑛 observações da variável 𝑋: 𝑥1 , 𝑥2 , … , 𝑥𝑛
(assume-se que estas observações são medidas sem erro).
Temos então 𝑛 variáveis aleatórias 𝑌1 , 𝑌2 , … , 𝑌𝑛 tais que:
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝐸𝑖 𝑖 = 1, 2, … , 𝑛
Admite-se que 𝐸1 ,2𝐸2 , … , 𝐸𝑛 são variáveis aleatórias independentes de média

zero e variância 𝜎 .
Para qualquer valor

2
𝑥𝑖 de 𝑋, 𝑌𝑖 é uma variável aleatória de média 𝑌 = 𝛼 +
𝛽𝑋 e variância 𝜎 .
Os dados para a análise de regressão e correlação simples são da forma:
𝑥1 ; 𝑦1 , 𝑥2 ; 𝑦2 , … , 𝑥𝑖 ; 𝑦𝑖 , … , (𝑥𝑛 ; 𝑦𝑛 )
onde 𝑥𝑖 é o valor da variável 𝑋 e 𝑦𝑖 a correspondente observação da variável aleatória 𝑌𝑖 (𝑖 =

1, 2, … , 𝑛).
Cada observação satisfaz a seguinte relação:
𝑦𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖 𝑖 = 1, 2, … , 𝑛
O valor observado de uma variável aleatória (𝑦𝑖 ), usualmente difere da sua média (𝑌 ) por uma
quantidade aleatória 𝜀𝑖 .
A partir dos dados disponíveis estimamos 𝛼 e 𝛽 e substituímos estes
parâmetros pelas suas estimativas para obter a equação de regressão
estimada.
𝑦 = 𝛼 + 𝛽𝑥
Esta equação estima o valor médio de 𝑌 para um dado valor 𝑥 de 𝑋,
mas é usada para estimar o próprio valor de 𝑌.
De facto, o senso comum diz-nos que uma escolha razoável para

predizer o valor de 𝑌 para um dado 𝑥 de 𝑋, é o valor médio estimado 𝑌
Estimação pelo Método dos Mínimos Quadrados
Iremos estimar os parâmetros usando o método dos mínimos quadrados.
Seja 𝑑𝑖 = 𝑦𝑖 − 𝑦𝑖 - i- ésimo resíduo.
O objectivo é escolher 𝛼 e 𝛽 de modo a minimizar a soma dos quadrados

destes resíduos.
𝑛 𝑛
𝑆𝑆𝐸 = 𝑑𝑖 2 = 𝑦𝑖 − 𝛼 + 𝛽𝑋𝑖 2
𝑖=1 𝑖=1
Para determinar 𝛼 e 𝛽, de modo a minimizar SSE resolve-se o seguinte

sistema de equações:
𝜕𝑆𝑆𝐸
=0 𝛼 = 𝑦 − 𝛽𝑥
𝜕𝛼 𝑛
𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦
𝜕𝑆𝑆𝐸 ⟺ ⋯ ⟺ 𝑖=1
𝛽= 𝑛
=0 𝑥
𝑖=1 𝑖
2
− 𝑛 𝑥 2
𝜕𝛽
ATENÇÃO:
Um conjunto de pontos dá evidência de linearidade apenas para os valores de 𝑋 cobertos pelo
conjunto de dados. Para valores de 𝑋 que saem fora dos que foram cobertos não há qualquer
evidência de linearidade. Por isso é arriscado usar uma recta de regressão estimada para predizer
valores de 𝑌 correspondentes a valores de 𝑋 que saem fora do âmbito dos dados.
O perigo de extrapolar para fora do âmbito dos dados amostrais é que a mesma relação possa não mais se
verificar.
INTRODUÇÃO AO SPSS
CONTEÚDO
• O que é o SPSS?
• Vantagens e desvantagens da utilização do SPSS
• Como está estruturado o SPSS?
• Introdução de dados
• Transformação de dados
• Importação e exportação de dados e resultados
CRIAÇÃO DE UMA BASE DE DADOS EM SPSS
OBJECTIVOS
No final deve o formando ser capaz de:
• Saber o que é e para que serve o SPSS;
• Saber tirar vantagens sem perder de vista os riscos da utilização
abusiva do SPSS;
• Criar uma base de dados em SPSS;
• Aplicar aos dados algumas transformações;
• Representar graficamente diferentes tipos de dados;
• Importar e exportar dados para outras aplicações informáticas.
O que é o SPSS
SPSS – Statistical Package for the Social Sciences (Aplicação Estatística
para as Ciências Sociais)
É uma coletânea de ferramentas estatísticas, quando bem aplicadas,

permitem analisar qualquer tipo de dados
Vantagens e desvantagens da utilização do SPSS
Vantagens:
Permite realizar muito mais rapidamente a análise de um conjunto dados;
Permite a utilização de métodos estatísticos complexos, a utilizadores que
também não tenham uma grande formação estatística. O utilizador não
necessita de conhecer em detalhe os cálculos envolvidos.
Desvantagens:
O utilizador necessita de ter uma ideia de como funciona o método
estatísticos em causa e ter noção dos seus fundamentos teóricos para
permitir analisar, de forma crítica, os resultados que são obtidos.
Como está estruturado o SPSS?
O SPSS subdivide-se em dois subprogramas:
- O IBM SPSS Statistics Editor de Dados – se relaciona com tudo o que
tem a ver com os dados (seja a caracterização das variáveis, seja o
registo dos dados recolhidos);
- O IBM SPSS Statistics Visualizador – permite visualizar e formatar a
apresentação dos resultados.
Nota: Qualquer um destes subprogramas dá acesso aos menus que

permitem executar todas as funções do programa.
Editor de dados
Tem duas subjanelas:
- A janela de Visualização de dados que permite visualizar e manipular
os dados registados.
- A janela de Visualização da variável que permite aceder à

formatação das variáveis.
Visualização de dados
Na janela de visualização de dados cada linha corresponde a um

elemento da amostra (indivíduo) – a unidade estatística – e cada coluna
corresponde a uma variável.
Segue o formato da janela de visualização de dados:

Visualização da variável
Visualiza-se a listagem de todas as variáveis. Cada linha corresponde a

uma variável e as colunas correspondem às características das
variáveis.
Segue o formato da janela de visualização da variável:

É necessário definir as seguinte características das variáveis:
Nome – permite definir o nome da variável (não pode ter espaços e tem caracteres
proibidos);
Tipo – permite definir o tipo de resultados (numérica, caracteres, etc.);
Largura – permite fixar o máximo de algarismos ou caracteres que podem ser utilizados na
introdução de dados na janela de visualização de dados;
Decimais – define-se o número de casa decimais com que os valores são apresentados na
janela de visualização de dados;
Rótulo – permite associar uma etiqueta, que serve para melhor descrever a variável;
Valores – no caso das variáveis qualitativas, permite associar etiquetas aos códigos numéricos
utilizados;
Ausentes – permite indicar qual o código numérico utilizado para as não respostas (células da janela
de visualização em branco);
Colunas – permite definir a largura da coluna na janela de visualização de dados;
Alinhar – permite definir o alinhamento dos dados na janela de visualização de dados (à esquerda,
ao centro, ou à direita);
Medir – permite associar à uma variável uma etiqueta com informação sobre a natureza da escala
utilizada no registo dos dados (escalar, ordinal ou nominal);
Função – permite definir a origem e ou a função da variável.

Visualizador
Permite visualizar os resultados da análise dos dados, apresentados em
tabelas, quadros ou gráficos, passíveis de alteração, por forma a
adequá-los ao gosto do utilizador. Para que essa alteração à formatação
seja possível basta fazer um duplo clique sobre as tabelas, quadros ou
gráficos.
No lado esquerdo da janela visualizador surge a árvore de resultados. A

árvore apresenta um resumo dos resultados que apresentados de
forma agrupada pelos temos e são identificados pelo seu título.
Apresenta-se a janela do Visualizador:
Estrutura dos menus:
- Qualquer um dos programas/janelas permite aceder aos menus que
controlam todas as funções do SPSS, desde a simples configuração do
programa até à análise dos dados. Concentremo-nos apenas nos
menus essenciais à compreensão.
Dados
Este menu dá acesso a uma série de ferramentas de validação,
reestruturação e filtragem dos dados. Ferramentas mais utilizadas:
- Dividir arquivo, seleccionar casos, …
Menu de Dados
Menu Transformar
Permite efectuar transformações nos dados, através de operações

matemáticas, recodificação, etc. as funções de recodificação de
variáveis (Recodificar nas mesmas variáveis, … e recodificar em
variáveis diferentes,…) permitem realizar a recodificação em categorias
dos valores das variáveis. Pode-se, exemplo transformar variáveis
quantitativas em variáveis ordinais, agrupando os resultados em
intervalos de valores o que é muitas vezes necessário e que sem este
tipo de ferramenta se torna numa operação morosa e cansativa.
Menu Analisar
Neste menu estão concentradas todas as ferramentas de análise

estatística dos dados, desde a análise descritiva, até à mais complexa
das análises multivariadas. As ferramentas estão agrupadas por temas
em vários submenus.
Menu Gráficos
Este menu dá acesso às potencialidades gráficas do SPSS, permitindo

representar os dados através de uma grande variedade de tipos de
gráficos. Existem duas formas de construir um gráfico utilizando o SPSS,
através do assistente Criador de gráfico… (recomendado) ou entrando
directamente no tipo de gráfico pretendido.
Menu Gráficos
Introdução de dados
É feita de duas formas:
1) Introdução manual de dados.

Arquivo ⟹ Abrir ⟹ Dados
2) Importação a partir de uma base de dados existente;

Arquivo ⟹ Abrir ⟹ Dados
Introdução manual de dados
No SPSS a estrutura é tabelar, em cada uma das colunas corresponde
sempre a uma das variáveis em causa e cada uma das linhas,
corresponde sempre a uma das unidades estatísticas em estudo. A
Introdução manual de dados segue os seguintes passos:
1) Criação e caracterização das variáveis – através da janela de

Visualização da variável;
2) Introdução dos dados recolhidos – através da janela Visualização
de dados.
Transformação de Dados
- Criação de uma variável a partir de transformações matemáticas sobre

outras variáveis, que funciona de forma idêntica a uma vulgar folha de
cálculo. A aplicação destas transformações pode ser generalizada ou
dependente das condições lógicas.
Transformar ⟹ Calcular variável…
- Determinação da frequência com que um dado valor ou intervalo de

valores ocorre, nos resultados de uma variável.
Transformar ⟹ Valores de contagem dentro de casos…
- Recodificação em categorias dos valores das variáveis. Os resultados
podem ser guardados na variável em causa, ou numa nova variável.
Transformar ⟹ Recodificar nas mesmas variáveis… ⟹
⟹ Recodificar em variáveis diferentes…
- Preenchimento das não respostas, recorrendo a vários métodos

matemáticos que procuram ter em conta as respostas existentes. É preciso
ter algum cuidado com a utilização deste tipo de ferramentas, para que
não se provoquem enviesamento nos dados.
Transformar ⟹ Substituir valores ausentes…
- Geração aleatória de números, que substitui, de uma forma muito

simples, as tabelas de números aleatórios.
Transformar ⟹ Geradores de número aleatório…
Importação e exportação de dados e resultados
Importação de dados
O SPSS permite importar dados de ficheiros gerados por uma grande variedade de
programas informáticos. Os tipos de ficheiros compatíveis com o SPSS para importação de
dados são os seguintes:
.xls (Excel);
.w* (Lotus);
.dbf (dbase);
.txt
.dat
É necessário, para realizar a importação, assegurar as seguintes condições:
- O ficheiro terá que estar organizado de forma compatível com o SPSS;
- O nome de cada variável terá que ser o primeiro resultado da respectiva coluna.
AMOSTRAGEM E ESTIMAÇÃO
CONCEITOS BÁSICOS
POPULAÇÃO
É O CONJUNTO DE ELEMENTOS QUE TÊM UMA DETERMINADA
CARACTERÍSTICA EM COMUM
UNIDADE ESTATÍSTICA
É CADA UM DOS ELEMENTOS QUE CONSTITUEM A POPULAÇÃO
BASE DE SONDAGEM
É UMA LISTAGEM COM A IDENTIFICAÇÃO DAS UNIDADES DE AMOSTRAGEM.
AMOSTRA
É TODO O CONJUNTO NÃO VAZIO E COM MENOR NÚMERO DE
ELEMENTOS DO QUE A POPULAÇÃO
AMOSTRAGEM
É A PARTE DA ESTATÍSTICA QUE ESTUDA OS MÉTODOS DE SELECCIONAR
AMOSTRAS E O MODO DE EXTRAPOLAR OS SEUS RESULTADOS PARA A
POPULAÇÃO
AMOSTRA REPRESENTATIVA
É UMA AMOSTRA SELECCIONADA DE FORMA QUE AS INFORMAÇÕES
RECOLHIDAS POSSAM SER ESTENDIDAS AO CONJUNTO DA
POPULAÇÃO, COM UMA PRECISÃO JULGADA ADEQUADA
INFERÊNCIA ESTATÍSTICA
É O RAMO DA ESTATÍSTICA QUE ESTUDA A VALIDADE DA
EXTRAPOLAÇÃO DOS RESULTADOS DA AMOSTRA PARA O CONJUNTO
DA POPULAÇÃO.
PLANO DE AMOSTRAGEM
É O PROCESSO QUE DEFINE O MÉTODO DE SELECCIONAR A AMOSTRA E
O MODO DE EXTRAPOLAR OS SEUS RESULTADOS PARA A POPULAÇÃO
AMOSTRA ALEATÓRIA
CONJUNTO DE 𝑛 VARIÁVEIS ALEATÓRIAS INDEPENDENTES, (𝑥1 , 𝑥2 , … , 𝑥𝑛 ),
EXTRAÍDAS DE UMA POPULAÇÃO, TAL QUE CADA 𝑥𝑖 TEM A MESMA
CARACTERÍSTICA, OU DISTRIBUIÇÃO DA VARIÁVEL 𝑿 (VARIÁVEL
POPULACIONAL)
PARÂMETRO
MEDIDA USADA PARA DESCREVER UMA CARACTERÍSTICA DA POPULAÇÃO.
A MÉDIA POPULACIONAL COSTUMA SER DESIGNADA POR 𝜇 E A VARIÂNCIA
POPULACIONAL POR 𝜎 2 .
ESTIMADOR (ESTATÍSTICA)
MEDIDA USADA PARA DESCREVER UMA CARACTERÍSTICA DA
AMOSTRA.
A MÉDIA É DESIGNADA POR 𝑥 E O DESVIO PADRÃO POR 𝑠.
ESTIMATIVA
VALOR NUMÉRICO DO ESTIMADOR.
DIMENSÃO DA POPULAÇÃO (𝑁)
NÚMERO DE UNIDADES QUE COMPÕEM A POPULAÇÃO EM ESTUDO.
DIMENSÃO DA AMOSTRA (𝑛)

NÚMERO DE UNIDADES QUE COMPÕEM A AMOSTRA.
FRACÇÃO DE AMOSTRAGEM
PROPORÇÃO DE CASOS NA AMOSTRA EM RELAÇÃO À POPULAÇÃO
𝑛
𝑓=
𝑁
TAXA DE RESPOSTA
PERCENTAGEM DE INQUÉRITOS VÁLIDOS EM RELACÇÃO AO NÚMERO DE
CASOS INCLUIDOS NA AMOSTRA
𝑟𝑒𝑠𝑝𝑜𝑠𝑡𝑎
𝑇𝑎𝑥𝑎 =
𝑛
PORQUE USAMOS AMOSTRAS?
POPULAÇÃO INFINITA
ECONOMIA
TEMPO
MAIOR PRECISÃO
DESTRUIÇÃO DE ELEMENTOS
CAMPOS DE APLICAÇÃO DA AMOSTRAGEM
AGRICULTURA
FENÓMENOS SÓCIO-DEMOGRÁFICOS
SAÚDE
ECONOMIA E FINANÇAS
ESTUDOS DE OPINIÃO
CONTROLO DE QUALIDADE
AMBIENTE
ORGANIZAÇÃO PRÁTICA DE UM INQUÉRITO
OBJECTIVOS
POPULAÇÃO
UNIDADE ESTATÍSTICA
BASE DE AMOSTRAGEM
AMOSTRA
PERÍODO DE REFERÊNCIA
MÉTODO DE RECOLHA
QUESTIONÁRIO
ORGANIZAÇÃO PRÁTICA DE UM INQUÉRITO
APLICAÇÃO INFORMÁTICA
CONTROLO DE QUALIDADE
ANÁLISE DOS DADOS
DIVULGAÇÃO DOS DADOS
MÉTODOS DE AMOSTRAGEM
1. MÉTODOS EMPÍRICOS OU NÃO PROBABILÍSTICOS
2. MÉTODOS ALEATÓRIOS OU PROBABILÍSTICOS

1. MÉTODOS EMPÍRICOS
 NÃO EXISTE BASE DE AMOSTRAGEM
 A SELECÇÃO DAS UNIDADES AMOSTRAIS PODE TER ORIGEM NA INTUIÇÃO DO ENTREVISTADOR
OU EM CRITÉRIOS DE CONVENIÊNCIA
TIPOS:
• Intencional
• Bola de neve
• Por Quotas
• Por conveniência
• Itinerários Aleatórios
1. MÉTODOS EMPÍRICOS
VANTAGENS
Não necessitam de uma base de amostragem, mas unicamente duma
informação auxiliar global
Rápidos de construir
Pouco dispendiosos
Asseguram a dimensão exacta da amostra
Permitem obter categorias pouco frequentes da população
1. MÉTODOS NÃO PROBABILÍSTICOS OU EMPÍRICOS
INCONVENIENTES
Necessitam duma informação externa
Nenhum controlo sobre as respostas (os inquiridores podem escolher
pessoas mais acessíveis)
Não têm inferência estatística
A – INTENCIONAL
O investigador escolhe intencionalmente os elementos da amostra,

considerando que se trata de elementos mais representativos das
características em estudo da população. Os critérios de selecção são
puramente subjectivos e totalmente dependentes do investigador.
B – BOLA DE NEVE
Começa com a selecção intencional de um grupo de elementos, aos quais
será solicitada a recomendação de outros indivíduos pertencentes à mesma
população. O investigador apenas controla a selecção dos primeiros
elementos sendo os restantes gerados pela própria dinâmica do processo. A
dimensão da amostra também não é conhecida no início do processo, vindo
a tornar-se mais delineada ao longo do mesmo. É muito útil para pequenas
populações, que pela sua especificidade tendem a estar bastante dispersas,
sendo os elementos difíceis de localizar e contactar. Apresenta desvantagem
de as pessoas recomendarem, preferencialmente familiares e amigos, o que,
tendendo estes a apresentar comportamentos semelhantes, pode provocar
grandes enviesamentos na informação recolhida.
C. MÉTODO DAS QUOTAS
Começa com a divisão da população em estratos segundo uma

determinada característica dos elementos (por exemplo: género, faixa
etária, local de residência, etc.). Depois, em cada estrato é selecciondo,
de forma não aleatória, um certo número ou percentagem de
elementos, denominado quota. É a versão não aleatória da
amostragem estratificada
D. MÉTODO DE CONVINIÊNCIA
Os elementos são escolhidos por conveniência ou por facilidade de

acesso por parte do investigador. A selecção dos elementos é
essencialmente fruto das circunstâncias, tendo o investigador pouca
influência na escolhas. As amostras resultantes são, normalmente,
pouco representativas da população e a informação recolhida bastante
enviesada.
E. MÉTODO DOS ITINERÁRIOS ALEATÓRIOS
É escolhido, de forma aleatória, um ponto de partida, normalmente uma

morada de partida ou um ponto de referência facilmente identificável (igreja,
esquadra da polícia, ect.). São definidos uma série de regras que o
entrevistador tem de seguir por forma a descobrir quais as moradas
seguintes onde deverá entrevistar as pessoas. Quanto mais rígidas estas
regras, menos liberdade terá o entrevistador para influenciar a escolha da
amostra com critérios subjectivos. Apesar da aparente aleatoriedade do
processo, este não assegura que todos os elementos da população tenham
uma real probabilidade de serem selecionados, ficando o entrevistador
circunscrito a uma pequena área geográfica. O processo é também muito
sensível ao incumprimento das regras por parte do entrevistador, o que é
difícil de detectar.
2. MÉTODOS PROBABILÍSTICOS
• EXISTE BASE DE AMOSTRAGEM

• CADA UNIDADE DA POPULAÇÃO TEM UMA PROBABILIDADE CONHECIDA E NÃO NULA DE
PERTENCER À AMOSTRA
TIPOS:
• Amostragem Aleatória Simples
• Amostragem Sistemática
• Amostragem Estratificada
• Amostragem por Conglomerados
• Amostragem Multi-etápica
VANTAGENS
Critérios de selecção dos elementos são rigorosamente definidos
Cálculo da precisão e nível de confiança associados às estimativas
Cálculo da dimensão da amostra adequada à precisão e nível de
confiança desejados para os resultados
INCONVENIENTES
Base de amostragem incompleta ou desactualizada pode enviesar os
resultados.
Pode-se obter uma amostra geograficamente muito dispersa,
podendo agravar o tempo e os custos associados à recolha dos dados.
Por vezes é difícil inquirir todos os elementos seleccionados
A. AMOSTRAGEM ALEATÓRIA SIMPLES
• Os elementos da amostra são escolhidos por um processo casual ou
aleatório (ao acaso)
• Todos os elementos têm uma probabilidade positiva de pertencer à
amostra
• Todas as amostras de dimensão 𝑛, extraídas de uma população de N
elementos, têm a mesma probabilidade de selecção.
A. AMOSTRAGEM ALEATÓRIA SIMPLES
ESTIMADORES
• MÉDIA
1 𝑛 𝑠 2 𝑁−𝑛 1 𝑛
𝑥= 𝑖=1 𝑥𝑖 𝑣𝑎𝑟 𝑥 = 𝑠2 = 𝑖=1 𝑥𝑖 − 𝑥 2
𝑛 𝑛 𝑁 𝑛−1
• TOTAL
𝑠 2 𝑁−𝑛
𝜏 =𝑁×𝑥 𝑣𝑎𝑟 𝜏 = 𝑛2 ×
𝑛 𝑁
• PROPORÇÃO
1 𝑛 𝑝𝑞 𝑁−𝑛
𝑝= 𝑖=1 𝑥𝑖 𝑣𝑎𝑟 𝑝 = 𝑞 =1−𝑝
𝑛 𝑛−1 𝑁
B. AMOSTRAGEM SISTEMÁTICA
• Os elementos da amostra são extraídos da população de acordo com
uma progressão aritmética, cuja base é escolhida ao acaso e cuja
razão é calculada de modo a cobrir totalmente a população.
𝑁º 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑎 𝑃𝑜𝑝𝑢𝑙𝑎çã𝑜
Razão da progressão 𝑘 = 𝑖𝑛𝑡
𝐷𝑖𝑚𝑒𝑛𝑠ã𝑜 𝑑𝑎 𝐴𝑚𝑜𝑠𝑡𝑟𝑎
Número de arranque número aleatório entre 1 e 𝑘

NOTAS
• Uma amostra extraída pelo método sistemático é uma amostra aleatória
• Amostragem sistemática versus A.A.S.:
- Amostra sistemática muitas vezes é mais fácil de ser executada;
- Amostra sistemática sofre menos influência pessoal do entrevistador;
- Em algumas situações, a amostra sistemática tem mais possibilidades de

produzir estimativas mais precisas do que a amostra aleatória simples.
ESTIMADORES
• MÉDIA
1 𝑛 𝑠 2 𝑁−𝑛 1 𝑛
𝑥𝑠𝑡 = 𝑖=1 𝑥𝑖 𝑣𝑎𝑟 𝑥𝑠𝑡 = 𝑠2 = 𝑖=1 𝑥𝑖 − 𝑥𝑠𝑡 2
𝑛 𝑛 𝑁 𝑛−1
• TOTAL
𝑠 2 𝑁−𝑛
𝜏 = 𝑁 × 𝑥𝑠𝑡 𝑣𝑎𝑟 𝜏𝑠𝑡 = 𝑛2 ×
𝑛 𝑁
• PROPORÇÃO
1 𝑛 0 𝑛ã𝑜 𝑝𝑒𝑟𝑡𝑒𝑛𝑐𝑒 𝑝𝑠𝑡 𝑞𝑠𝑡 𝑁−𝑛
𝑝= 𝑖=1 𝑥𝑖 𝑥𝑖 𝑣𝑎𝑟 𝑝𝑠𝑡 = 𝑞𝑠𝑡 = 1 − 𝑝𝑠𝑡
𝑛 1 𝑝𝑒𝑟𝑡𝑒𝑛𝑐𝑒 𝑛−1 𝑁
C. AMOSTRAGEM ESTRATIFICADA
• A estratificação consiste em decompor a população em grupos
homogéneos chamados ESTRATOS (em que cada unidade pertence a
um e um só estrato) e extrair uma amostra aleatória separadamente
em cada estrato.
• A amostra estratificada é constituída pelos elementos seleccionados

nos diversos estratos.
VANTAGENS:
• Maior homogeneidade dentro de cada estrato (menor variância);
• Aumento da precisão das estimativas;
• Custo menor;
• Possibilidade de obter em cada estrato estimativas dos parâmetros.

COMO DEFINIR OS ESTRATOS?

A escolha dos estratos é feita, normalmente, de acordo com o conhecimento que se tem
da população.
Como critério de estratificação, selecciona-se uma variável 𝑋, qualitativa ou quantitativa,
geralmente correlacionada com o fenómeno a estudar e que permita decompor a
população em classes homogéneas disjuntas relativamente a 𝑋. Neste caso, estratifica-se
segundo 𝑋.
Utilizam-se, por vezes, simultaneamente várias variáveis 𝑋, 𝑌, 𝑍 … na definição dos
estratos.
VARIÁVEL DE ESTRATIFICAÇÃO: QUALQUER VARIÁVEL UTILIZADA COMO CRITÉRIO NA

DETERMINAÇÃO DE UM ESTRATO
ESTIMADORES
• MÉDIA
1 𝐿 1 𝑠ℎ2 𝐿 𝑁ℎ −𝑛ℎ
𝑥𝑒𝑠𝑡 = ℎ=1 𝑁ℎ 𝑥ℎ 𝑣𝑎𝑟 𝑥𝑒𝑠𝑡 = ℎ=1 𝑁ℎ2
𝑁 𝑁2 𝑛ℎ 𝑁ℎ 𝑛
2
1 2
𝑠ℎ = 𝑥𝑖 − 𝑥𝑠𝑡
𝑛ℎ − 1
𝑖=1
• TOTAL
2
𝐿 𝐿 2 𝑁ℎ −𝑛ℎ 𝑠ℎ
𝜏𝑒𝑠𝑡 = ℎ=1 𝑁ℎ 𝑥ℎ 𝑣𝑎𝑟 𝜏𝑒𝑠𝑡 = ℎ=1 𝑁ℎ 𝑁ℎ 𝑛ℎ
• PROPORÇÃO
1 𝑛 𝑁ℎ 𝑝𝑒𝑠𝑡 𝐿 2 𝑝𝑠𝑡 𝑞𝑠𝑡 𝑁ℎ −𝑛ℎ
𝑝𝑒𝑠𝑡 = 𝑛 𝑖=1 𝑁 𝑣𝑎𝑟 𝑝𝑒𝑠𝑡 = 𝑁
ℎ=1 ℎ 𝑛−1 𝑞𝑒𝑠𝑡 = 1 − 𝑝𝑒𝑠𝑡
ℎ 𝑁ℎ
REPARTIÇÃO DA AMOSTRA PELOS ESTRATOS
Dada a dimensão total da amostra, n, fixa, e considerando os diferentes estratos, pretende-se determinar a
repartição da amostra pelos vários estratos, isto é, conhecer o número de observações a seleccionar em cada
estrato.
Sabendo que a dimensão total da amostra é 𝑛
𝑛 = 𝑛1 + 𝑛2 + … . +𝑛ℎ
qual será o valor da dimensão de cada estrato 𝑛1 , 𝑛2 , … . , 𝑛ℎ ?
Podem-se considerar, pelo menos, dois métodos:

• REPARTIÇÃO PROPORCIONAL
• REPARTIÇÃO ÓPTIMA OU DE NEYMAN

TAXA DE AMOSTRAGEM DO ESTRATO h: é a proporção de elementos da
amostra do estrato h, relativamente ao total dos elementos da população no
mesmo estrato
𝑛ℎ
𝑓ℎ =
𝑁ℎ
TAXA DE AMOSTRAGEM GLOBAL: é
𝑓 = 𝑛 /𝑁
em que: 𝑛 é a dimensão da amostra e 𝑁 é o número de elementos do
universo
AMOSTRA ESTRATIFICADA PROPORCIONAL
Uma amostra estratificada diz-se proporcional se as taxas de
amostragem 𝑓ℎ são iguais em todos os estratos
𝑛ℎ
𝑓ℎ = 𝑓ℎ = ⋯ = 𝑓ℎ = 𝑓ℎ = =𝑓
𝑁ℎ
Numa amostra PROPORCIONAL, em cada estrato, extrai-se a mesma
proporção 𝑓 de indivíduos.
AMOSTRA ESTRATIFICADA ÓPTIMA (NO SENTIDO DE NEYMAN)
Uma amostra estratificada óptima caracteriza-se pelas dimensões dos estratos 𝑛ℎ
serem escolhidas de modo a minimizar a variância da média, 𝑣𝑎𝑟 𝑥𝑒𝑠𝑡 , com a
condição de a soma dos 𝑛ℎ ser igual à dimensão total da amostra, 𝑛.
𝑁ℎ 𝑠ℎ
Para tal, 𝑛ℎ = 𝑛 × ℎ = 1, 2, … , 𝐿
ℎ 𝑁ℎ 𝑠ℎ
Se um estrato ℎ for homogéneo, pouco disperso, terá um 𝑠ℎ pequeno; daí que 𝑛ℎ

será também pequeno.
Por outro lado, se um estrato for heterogéneo, bastante disperso, 𝑠ℎ é elevado e
consequentemente 𝑛ℎ é grande.
NOTAS
• Há sempre interesse em estratificar. No caso de não se conhecer em cada
estrato o desvio padrão da variável utilizada como critério de estratificação,
não se pode calcular a repartição óptima da amostra.
• No entanto, uma estratificação com taxa de amostragem uniforme
(amostragem estratificada proporcional), é preferível à ausência de
estratificação.
1. O ganho devido à estratificação é tanto maior quanto maior for a
correlação da variável estudada como critério de estratificação.
2. A ausência de estratificação depende da homogeneidade dos estratos. Os
estratos devem ser o mais homogéneos possível e heterogéneos entre si.
D. AMOSTRAGEM POR CONGLOMERADOS
• A população é decomposta em grupos heterogéneos (conglomerados
ou unidades primárias) e é extraída uma amostra aleatória de um
conjunto deste grupo.
• São incluídos todos os elementos pertencentes a cada um dos grupos

seleccionados.
AMOSTRAGEM POR CONGLOMERADOS NUMA ETAPA

MULTI-ETÁPICA
1. Divide-se a população num certo número de conglomerados (unidades primárias), de
modo que cada unidade estatística pertença sem ambiguidade a uma unidade primária;
2. Na primeira etapa seleccionam-se os conglomerados;

3. Na segunda etapa são selecionados os elementos dos conglomerados selecionados na
primeira etapa;
4. Na terceira etapa são selecionados os elementos dentro das unidades selecionadas na
segunda etapa;
5. E assim sucessivamente…
AMOSTRAGEM POR CONGLOMERADOS EM VÁRIAS ETAPAS

VANTAGENS
• Não necessita de uma lista de todos os indivíduos do universo, mas apenas
das unidades primárias seleccionadas;
• Permite reduzir as despesas de deslocação, pois observa-se uma menor

dispersão geográfica das unidades estatísticas, dado que elas se encontram
agrupadas num número limitado de unidades primárias;
• O custo de um inquérito cuja amostra é selecionada em duas etapas é

sempre menor do que aquele em que a amostra é selecionada numa só
etapa.
INCONVENIENTES
• A precisão das estimativas é frequentemente menor numa amostra selecionada
em duas etapas do que numa amostra da mesma dimensão selecionada numa só
etapa;
• Isto resulta do facto da amostra ser menos dispersa geograficamente e da

diferença entre unidades secundárias de uma mesma unidade primária ser
menor que em unidades secundárias pertencendo a unidades primárias
diferentes.
• Pode-se aumentar a precisão das estimativas aumentando a dimensão da

amostra, sem que se verifique um grande acréscimo no custo do inquérito.
NUMA ETAPA
ESTIMADORES
MÉDIA
TOTAL
PROPORÇÃO
EM DUAS ETAPAS COM Nº DESIGUALDE DE UNIDADES
ESTIMADORES
MÉDIA POR CONGLOMERADO
onde,
𝑀 = nº de conglomerados na população;
𝑁 = nº de elementos na população;
𝑁𝑖 = nº de elementos na população do conglomerado i;
𝑚 = nº de conglomerados na amostra.
TOTAL
PROPORÇÃO
é igual a quando a variável Xé binária, assumindo valores 0 ou 1.
NÃO-RESPOSTAS
• Nos censos e inquéritos por amostragem pode ocorrer que não se
recolham os dados de todas as unidades. Neste caso falta informação
de uma parte da população ou da amostra seleccionada.
• Põe-se, então, o problema de estabelecer que inferência se pode
fazer a partir dos dados obtidos e tentar ter alguns conhecimentos da
parte da população que não respondeu ao inquérito.
• Diversas circunstâncias contribuem para a existência deste problema
NÃO-RESPOSTAS
NÃO-RESPOSTA TOTAL
• RECUSA
• AUSÊNCIA DE LONGA DURAÇÃO
• ABANDONO NO DECORRER DO INQUÉRITO
• INCAPACIDADE DE RESPONDER
• NEGLIGÊNCIA DO INQUIRIDO
• MÁ QUALIDADE DO ENTREVISTADOR
NÃO-RESPOSTAS
NÃO-RESPOSTA POR ITEM
• INCOMPREENSÃO OU IMPOSSIBILIDADE DE RESPONDER À QUESTÃO

(QUESTÃO MAL REDIGIDA)
• RECUSA
• INCOERÊNCIA E INVALIDADE DA RESPOSTA
• MÁ QUALIDADE DO ENTREVISTADOR
NÃO-RESPOSTAS
A TAXA DE NÃO-RESPOSTA VARIA SEGUNDO A NATUREZA DO INQUÉRITO:
• INQUÉRITO À SAÚDE
• INQUÉRITO AO EMPREGO
• INQUÉRITO AOS ORÇAMENTOS FAMILIARES
• INQUÉRITO ÀS EMPRESAS
• INQUÉRITO AOS TRANSPORTES
• ETC
GERALMENTE OS INQUÉRITOS POR ENTREVISTA DIRECTA TÊM TAXA DE NÃO-
RESPOSTA MAIS BAIXA.
NÃO-RESPOSTAS
REGRAS PARA PREVENÇÃO DA NÃO-RESPOSTA
• PUBLICIDADE BEM DIRIGIDA

• FORMAÇÃO DO ENTREVISTADOR
• CARACTERÍSTICAS PESSOAIS DO ENTREVISTADOR
• REDACÇÃO RIGOROSA DO QUESTIONÁRIO
• INSISTÊNCIAS (CARTA, TELEFONE, VISITA)
• INQUÉRITOS NUMA AMOSTRA DE NÃO-RESPONDENTES
• ANÁLISE ESTATÍSTICA APROFUNDADA DA NÃO-RESPOSTA
NÃO-RESPOSTAS
MÉTODOS BASEADOS EM MODELOS DE RESPOSTA
• REPONDERAÇÃO DOS RESPONDENTES

- CORRECÇÃO POR NÃO RESPOSTA
- ESTRATIFICAÇÃO À POSTERIORI
• IMPUTAÇÃO DOS DADOS

NÃO-RESPOSTAS
PRINCIPAIS MÉTODOS DE IMPUTAÇÃO DOS DADOS
DEDUTIVO (utiliza o bom senso)
IMPUTAÇÃO POR REGRA DETERMINISTA
Ex: idade ≤ 14 anos actividade principal = inactivo
COLD–DECK
UTILIZAÇÃO DUMA INFORMAÇÃO EXTERIOR RELATIVA À MESMA UNIDADE
Ex: valor observado numa data anterior
HOT–DECK
SUBSTITUI-SE O VALOR EM FALTA POR UM VALOR OBSERVADO NUM RESPONDENTE “PRÓXIMO”, O DADOR
HOT-DECK NO CONJUNTO
O DADOR É ESCOLHIDO AO ACASO ENTRE RESPONDENTES
HOT-DECK POR CLASSE
O DADOR É ESCOLHIDO AO ACASO NA CLASSE ONDE PERTENCE O NÃO-RESPONDENTE
ERROS DOS INQUÉRITOS
ERRO TOTAL
É O ENVIESAMENTO DAS ESTIMATIVAS DOS PARÂMETROS

POPULACIONAIS A PARTIR DAS RESPOSTAS OBTIDAS.
ERROS DOS INQUÉRITOS
TIPOS DE ERROS:
ERROS DE AMOSTRAGEM (𝑒𝑎 )

Erros que ocorrem porque as observações são feitas apenas numa
amostra e não na população.
ERROS ANEXOS À AMOSTRAGEM (𝑒𝑜 )

Todos os erros que não estão relacionados com o facto de se inquirir
uma parte da população. Podem ser atribuídos a muitos factores.
ERROS DE AMOSTRAGEM
ERRO TOTAL
Verifica-se que o ERRO TOTAL (𝑒𝑡 ) de um inquérito é igual a:
𝑒𝑡2 = 𝑒𝑎2 +𝑒𝑜2

ERROS DE AMOSTRAGEM
OS ERROS DE AMOSTRAGEM RESULTAM DA HETEROGENEIDADE DAS
POSSÍVEIS AMOSTRAS COM O MESMO TAMANHO QUE PODEM SER
EXTRAÍDAS DE UMA DADA POPULAÇÃO.
NÍVEL DE CONFIANÇA: É O GAU DE “CERTEZA” ASSOCIADO ÀS

ESTIMATIVAS, GERALMENTE EXPRESSO EM PERCENTAGEM.
INTERVALO DE CONFIANÇA: É A MARGEM DE ERRO RELATIVA A UMA
ESTATÍSTICA.
ERRO-PADRÃO:É O DESVIO PADRÃO DE UMA ESTATÍSTICA.
ERROS DE AMOSTRAGEM
ERRO ABSOLUTO DE AMOSTRAGEM
A amostra selecionada para um inquérito é apenas uma das várias amostras
probabilísticas possíveis, com a mesma dimensão, que poderiam ter sido
selecionadas usando o mesmo plano de amostragem. As estimativas calculadas
através de diferentes amostras, certamente diferem umas das outras.
ERRO ABSOLUTO DE AMOSTRAGEM:

É A DIFERENÇA ENTRE A ESTIMATIVA DA AMOSTRA E A MÉDIA DAS ESTIMATIVAS
DAS DIVERSAS AMOSTRAS POSSÍVEIS (VALOR ESPERADO DAS ESTIMATIVAS).
Excluindo os erros de outras origens, o erro absoluto de amostragem mede a

dimensão do desvio absoluto esperado entre a estimativa calculada pela amostra e
o verdadeiro valor dessa mesma variável na população.
ERROS DE AMOSTRAGEM
ERRO RELATIVO DE AMOSTRAGEM
ERRO DE AMOSTRAGEM OU COEFICIENTE DE VARIAÇÃO
É O QUOCIENTE ENTRE A RAIZ QUADRADA DA VARIÂNCIA DE UM
ESTIMADOR E O ESTIMADOR, E É APRESENTADO NORMALMENTE EM
PERCENTAGEM.
Se o estimador for a média:

𝑉𝑎𝑟 𝑥
𝐶𝑉 𝑥 = 𝐸. 𝑅. 𝐴. 𝑥 = × 100
𝑥
ERROS DE AMOSTRAGEM
APRESENTAÇÃO DO ERRO DE AMOSTRAGEM
1. OS ERROS DE AMOSTRAGEM DEVEM SER APRESENTADOS NO
CONTEXTO DO ERRO TOTAL DO INQUÉRITO, COM O OBJECTIVO DE
INDICAR A QUALIDADE GLOBAL DOS RESULTADOS DO INQUÉRITO.
2. A APRESENTAÇÃO DEVE SER DE MODO A FACILITAR A

INTERPRETAÇÃO DA INFORMAÇÃO.
3. O GRAU DE DETALHE DEVE TER EM CONTA AS NECESSIDADES

ESPECÍFICAS DE ALGUNS UTILIZADORES.
ERROS DE AMOSTRAGEM
APRESENTAÇÃO
NÃO É DE MUITO INTERESSE A APRESENTAÇÃO DOS ERROS DE
AMOSTRAGEM DE TODAS AS ESTIMATIVAS DO INQUÉRITO, UMA VEZ
QUE A PUBLICAÇÃO TERIA O DOBRO DA DIMENSÃO.
A PRECISÃO DAS ESTATÍSTICAS BASEADAS NA TOTALIDADE DOS

EFECTIVOS DA AMOSTRA É SUPERIOR AO DAS ESTIMATIVAS FEITAS A
PARTIR DAS VÁRIAS SEGMENTAÇÕES DOS INQUIRIDOS, POR EXEMPLO,
SEXO, GRUPO ETÁRIO, REGIÃO GEOGRÁFICA, ACTIVIDADE ECONÓMICA,
ETC..
DIMENSÃO DA AMOSTRA
IDEALMENTE, A DIMENSÃO DA AMOSTRA É DETERMINADA PELA PRECISÃO b (FIXADA À PARTIDA) QUE SE PRETENDE OBTER NOS
RESULTADOS.
PARA UMA AMOSTRA ALEATÓRIA SIMPLES,

QUANDO SE PRETENDE ESTIMAR UMA MÉDIA, TEREMOS:
𝑁𝑠 2
𝑛=
𝑏2
𝑁 2 + 𝑠2
𝑧
EM QUE
𝑁 – dimensão da População
𝑠 – variância amostral
𝑏 – precisão da estimativa
𝑧 – valor da distribuição Normal padrão
IDEALMENTE, A DIMENSÃO DA AMOSTRA É DETERMINADA PELA PRECISÃO 𝑏 (FIXADA À PARTIDA) QUE SE
PRETENDE OBTER NOS RESULTADOS.
PARA UMA AMOSTRA ALEATÓRIA SIMPLES:
QUANDO SE PRETENDE ESTIMAR UMA PROPORÇÃO 𝒑,
TEREMOS:
𝑁𝑝𝑞
𝑛=
𝑏2
𝑁 2 + 𝑝𝑞
𝑧
QUANDO 𝑵 É GRANDE (GRANDES POPULAÇÕES), TEMOS:

𝑝𝑞
𝑛= 2
𝑏
𝑧2
PARA UMA AMOSTRA ALEATÓRIA ESTRATIFICADA:
QUANDO SE PRETENDE ESTIMAR UMA MÉDIA, TEREMOS:
2 2
𝐿 𝑁ℎ 𝑠ℎ
ℎ=1 𝑤
ℎ
𝑛=
𝑏2 𝐿 2
𝑁 2+ 𝑁 𝑠
ℎ=1 ℎ ℎ
𝑧
Onde se pode considerar
𝑛ℎ
𝑤ℎ =
𝑛
ESTIMADOR DA RAZÃO
PARA UMA AMOSTRA ALEATÓRIA SIMPLES,TEREMOS:
𝑛
𝑦 𝑦′ 𝑖=1 𝑦𝑖
𝑟= = ′= 𝑛
𝑥 𝑥 𝑖=1 𝑥𝑖
𝑛 2
1 𝑁−𝑛 𝑖=1 𝑦𝑖 − 𝑟𝑥𝑖
𝑉𝑎𝑟 𝑟 = 2
𝑥 𝑁×𝑛 𝑛−1
Cálculo do Tamanho da Amostra
• O conceito de nível de confiança pode ser utilizado para o cálculo do
tamanho da amostra, necessário para fazermos inferências confiáveis.
2
E  Z .
s  Z / 2 .s 
n n 
2
 E 
Como o tamanho da amostra afeta o erro de amostragem?
• Se a amostra empregada for muito pequena, a margem de erro será
grande, o que impossibilita ou inviabiliza a tomada de decisão.
• Por outro lado, se a amostra for muito grande, o intervalo obtido pode
ser mais estreito do que o necessário (gastos desnecessários).
3,0
Tamanho de amostra e margens de erro,
Margem de erro (E)
mantendo fixos 𝑠 = 10 𝑒 95% 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛ç𝑎
1,5
0,5
500 1500 3000
• Os ganhos em precisão conseguidos com aumentos fixos dos

tamanhos das amostras não são constantes.
• Tamanho de amostra 5.000 podem ser um perda de tempo e
dinheiro porque elas fornecem pouca precisão adicional.
Exercício: Num estudo para a determinação do perfil dos pequenos da
Região Sul, a característica de maior interesse tem s = 0,3. Qual deve
ser o tamanho da amostra para que tenhamos 95% de confiança em que
o erro da estimativa da média correspondente a esta característica não
supere 0,05?
𝐸 = 0,05; 𝑠 = 0,3; 𝛼 = 0,05

2
1,96 × 0,3
𝑛= = 139
0,05
METDOLOGIAS DOS INQUÉRITOS
Planeamento de uma pesquisa
Uma pesquisa deve seguir os seguintes passos para a sua realização:
• Aprovação do briefing definitivo que foi elaborado pelo cliente (instituição);
• Definir tipo de pesquisa: Qualitativa e/ou Quantitativa;
• Planeamento Amostral;
• Elaboração do questionário de pesquisa;
• Pré-teste do instrumento de recolha de dados;
• Planeamento da pesquisa de campo: Selecção e formação da equipa de profissionais
envolvidos;
• Organização dos dados;
• Análise dos resultados;
• Elaboração do relatório final;
• Apresentação dos resultados.
A recolha da informação
Obter informação desejada directamente dos inquiridos recorrendo a um
questionário, é a forma mais utilizada de recolha de informação.
Apesar de todos os erros e enviesamentos que podem surgir num processo

de inquérito, para determinado tipo de informação não há melhor fonte que
o próprio inquirido.
Formas mais frequentes de recolha de informação:

• Entrevista pessoal;
• Entrevista telefónica;
• Questionário por correio.
As entrevistas
Uma entrevista é definida como “uma conversa com um propósito”.
Este método de recolha de dados pode oscilar da entrevista formal e estruturada, à discussão
informal entre dois ou mais indivíduos.
Nas entrevistas formais, são colocadas questões estandardizadas respeitando uma pré-designada
sequência.
As entrevistas menos formais incluem as entrevistas onde não há formalidades no processo de

questionar; nestes casos o entrevistador encoraja o diálogo e orienta-o para o tema de interesse.
Componentes da entrevista: 1) a essência da conversa que se estabelece consiste em perguntas e

repostas; 2) os participantes no processo tê definidos papéis mutuamente exclusivos.
Métodos de recolha da informação
Ao avaliar os métodos de recolha dos dados importa cobrir cinco questões:
A) administração do estudo, que contém em si três aspectos – o custo do método, o

controlo do processo de recolha da informação e o tempo no sentido de dar resposta
à urgência;
B) validação da informação sendo relevante o efeito que o método escolhido tem na
validade da informação recolhida;
C) taxa de respostas e as consequências de alguns elementos não participarem no
estudo, e como pode ser reduzida, em cada um dos métodos, a taxa de não resposta;
D) amostragem, onde importa avaliar o impacte do método na qualidade da amostra;
E) o questionário, que envolve as considerações especiais que devem ser feitas em
relação ao questionário a utilizar em cada um dos métodos.
Entrevista pessoal
É uma conversação face a face entre duas pessoas, iniciada e dirigida pelo
entrevistador com o propósito particular de obter informação relevante, no sentido
de concrectizar os objectivos do estudo.
O que diferencia este método dos outros é a presença física do entrevistador

durante a entrevista. É neste factor que residem as forças e as fraquezas deste
método.
É um método muito oneroso, pelo facto de o entrevistador ter de estar presente

junto do respondente. Este método dificulta o trabalho do supervisor, pois os
entrevistadores ficam entregues a si próprios. Consome bastante tempo. É
questionada a qualidade da informação. A taxa de resposta é mais elevada.
Entrevista telefónica
É semelhante à entrevista pessoal. Neste método o face a face é
substituído pelo voz a voz e envolve uma série de diferentes problemas,
procedimentos, vantagens e desvantagens.
É de baixo custo, mais rápido, a validade dos dados depende da

vontade do respondente em corresponder ao pedido de entrevista e de
fornecer a informação completa e exacta ao entrevistador.
Questionário por correio
A característica essencial deste método é que aquele que vai responder ao
questionário, após ter lido as questões e explicações que as acompanham,
deverá redigir as suas respostas sem poder recorrer a um intermediário – o
entrevistador. Isto cria importantes diferenças na concepção da sondagem,
construção do questionário, e vários outros aspectos das operações de
recolha de informação.
É de baixo custo. O controlo pode ser centralizado e conduzido a partir do

escritório. É consumidor de tempo. A qualidade da informação apresenta
aspectos negativos e positivos. A taxa de resposta geralmente é baixa.
A construção de um Questionário
O estudo preliminar
É um estudo de pequena escala feito para fornecer informação relevante para a
investigação principal. Em geral é possível distinguir dois tipos de estudos preliminares:
• Estudos para auxiliar a elaboração de um questionário novo – útil quando a
investigação principal tem como objectivo a confirmação, ou a extensão de um trabalho
na literatura e não existe um questionário adequado à investigação;
• Estudos para testar um questionário que já existe. São duas as situações onde
normalmente é preciso testar um questionário que já existe:
1) Quando se pretende aplicar o questionário a uma amostra retirada de um Universo
diferente daquele para o qual foi desenvolvido o questionário. É importante verificar a
relevância, a clareza e a compreensão das perguntas aplicadas aos respondentes do
Universo novo e, dependendo da natureza e do objectivo do questionário, também
pode ser importante testar a validade e a fiabilidade do questionário neste Universo
novo.
2) Quando se pretende traduzir um questionário e testar a tradução.
A elaboração do questionário
1) O plano do questionário
Para escrever um bom questionário convém:
a) Listar todas as variáveis da investigação, incluindo as características dos casos;
b) Especificar o número de perguntas para medir cada uma das variáveis;
c) Escrever uma versão inicial para cada pergunta;
d) Pensar cuidadosamente na natureza da primeira hipótese geral e nas variáveis e
perguntas iniciais com elas associadas. Identificar em seguida que tipo de Hipótese se
tem;
e) Consoante o tipo de hipótese geral, decidir quais as técnicas estatísticas adequadas
para testar a hipótese e ter em atenção os pressupostos destas técnicas.
A elaboração do questionário
a) Decidir, com base na informação do passo e), o tipo de resposta desejável para cada
pergunta associada com a hipótese gera;
b) Com base na informação dos passos d), e) e f) escrever a hipótese operacional;
c) Considerar as perguntas iniciais associadas com a primeira hipótese operacional;
d) Verificar se as versões finais das perguntas e das respostas ainda estão adequadas
para testar a hipótese operacional;
e) Repetir os passos c) – i) para as outras hipóteses gerais;
f) Escrever as instruções associadas com as perguntas para informar o respondente
como deve responder;
g) Planear as secções do questionário.
A primeira secção do questionário
Consiste num conjunto de perguntas para solicitar informação sobre as
características dos respondentes ao questionário, pretendendo-se
descrever os inquiridos.
Escrever perguntas
É preciso pensar cuidadosamente sobre o objectivo geral de cada uma
das perguntas que está a inserir no questionário

Curso de Estatística 2017

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Curso de Estatística 2017

Caricato da

Copyright:

Formati disponibili

ESTATÍSTICA E ANÁLISE DADOS

COM RECURSO AO SPSS

4. Campos de aplicação; 5. Representações gráficas; 6. Medidas de:

7. Principais distribuições; 8. Testes de hipóteses; 9. Correlação linear

10. Regressão linear; 11. Introdução ao SPSS.

1. Planeamento de uma pesquisa

2. Amostragem não aleatória (Intencional, Bola de neve, por Quotas,

3. Amostragem aleatória (Aleatória Simples, Sistemática, Estratificada,

A Estatística divide-se em dois grandes grupos: A Estatística Descritiva

 Característica de interesse que é medida em cada elemento da amostra ou

Qualitativa (categórica) Nominal

- AMOSTRA REPRESENTATIVA, uma amostra

- POPULAÇÃO-ALVO OU ESTUDADA, um conjunto de

- VARIÁVEL ALEATÓRIA, uma característica comum a todos os elementos da amostra

1. Diagrama de extremos e quartis: Existem algumas variações quanto

2. Para amostras consideradas pequenas (variância corrigida)

2. Para amostras consideradas pequenas (variância corrigida)

O processo descrito chama-se Inferência Estatística que subdivide-se em 1)

Existem várias distribuições e veremos apenas:

Curva da Densidade (ou da função densidade de probabilidade é o gráfico da

À medida que o nº de graus

Perceber o são graus de liberdade:

Graus de liberdade é o número de valores deste conjunto de dados

• Definir uma hipótese nula que se receia que seja verdadeira;

• Pode igualmente cometer-se um erro de 2ª espécie aceitando a

Na célula 1 comete-se um erro porque se rejeita uma hipótese verdadeira.

- Vê-se que DECISÃO e ERRO caminham sempre juntos.

- Ao se REJEITAR ou NÃO REJEITAR uma Hipótese, podem-se cometer erros.

• NOTA: Lembrar sempre que em qualquer dos testes a selecção de

Na prática, o valor de 𝛼 é fixo.

A representação gráfica de duas variáveis quantitativas como objectivo

r = 1, correlação linear positiva e perfeita

r = -1, correlação linear negativa

 coeficiente de correlação simples: mede a “força” ou “grau” de

As técnicas de análise de correlação e regressão estão intimamente ligadas.

Os dados para a análise de regressão e correlação simples são da forma:

A correlação é tanto maior quanto mais os pontos se concentram, com

Existência de correlação positiva (em média,

Existência de correlação negativa (em média,

Admite-se que 𝐸1 ,2𝐸2 , … , 𝐸𝑛 são variáveis aleatórias independentes de média

Para qualquer valor

onde 𝑥𝑖 é o valor da variável 𝑋 e 𝑦𝑖 a correspondente observação da variável aleatória 𝑌𝑖 (𝑖 =

Cada observação satisfaz a seguinte relação:

De facto, o senso comum diz-nos que uma escolha razoável para

O objectivo é escolher 𝛼 e 𝛽 de modo a minimizar a soma dos quadrados

Para determinar 𝛼 e 𝛽, de modo a minimizar SSE resolve-se o seguinte

É uma coletânea de ferramentas estatísticas, quando bem aplicadas,

Nota: Qualquer um destes subprogramas dá acesso aos menus que

- A janela de Visualização da variável que permite aceder à

Na janela de visualização de dados cada linha corresponde a um

Segue o formato da janela de visualização de dados:

Visualiza-se a listagem de todas as variáveis. Cada linha corresponde a

Segue o formato da janela de visualização da variável:

Tipo – permite definir o tipo de resultados (numérica, caracteres, etc.);

Colunas – permite definir a largura da coluna na janela de visualização de dados;

Função – permite definir a origem e ou a função da variável.

No lado esquerdo da janela visualizador surge a árvore de resultados. A

Permite efectuar transformações nos dados, através de operações

Neste menu estão concentradas todas as ferramentas de análise

Este menu dá acesso às potencialidades gráficas do SPSS, permitindo

É feita de duas formas:

1) Introdução manual de dados.

2) Importação a partir de uma base de dados existente;

1) Criação e caracterização das variáveis – através da janela de