Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estatística
Código: T1pfolioESTdez2010
Universidade do Minho
Instituto de Ciências Sociais
Geografia e Planeamento
PORTFÓLIO
NELSON LABRUJÓ
A60367
Introdução:
Foi para dar cumprimento do Programa da Unidade Curricular de Introdução à Estatística, que
inicialmente se decidiu elaborar este trabalho.
Aproveitando toda a pesquisa por mim já feita, bem como todo o material disponibilizado pela
Docente ao longo deste tempo, encaro este trabalho como um reforço fundamental na aquisição
de conhecimento e como um auxiliar, um manual, de consulta futura.
Trabalhoso este sistema de trabalho, não me coíbe no entanto de o levar a cabo, pois está posto
de parte qualquer copy-paste de material existente, querendo isso sim, aprender e registar essa
aprendizagem nestas páginas.
Não encaro à priori este trabalho estanque, mas sim aberto a novas actualizações, pois tal como
mencionei anteriormente o mesmo é encarado como uma ferramenta de aglutinação de
conhecimento com o fim último de enriquecimento do meu saber.
Estrutura e Organização:
Como fio condutor dos conteúdos do trabalho é o Programa da Unidade Curricular, o que permite
uma melhor leitura e acompanhamento.
Neste primeiro Portfólio, vulgo T1pfolioESTdez2010, os temas em análise iniciam com a Estatística
Descritiva e termina na Medida de Dispersão.
São também colocados no final de cada item exemplos para melhor compreensão (da Docente e
do Aluno)
Apresentação:
Sou o aluno n.º A60367 inscrito no curso de Geografia e Planeamento ministrado na Universidade
do Minho em Guimarães.
Desde o inicio da minha vida profissional em 1988 que sou empregado de escritório, com funções
em diversas áreas o que me permitiu e permite uma abrangência de conhecimentos em várias
áreas.
A nível académico terminei o secundário em 1991 sendo que só agora ficaram reunidas todas as
condições para poder frequentar um curso superior.
Quanto a formação complementar, desde 1993 que tenho realizado alguma actualização de
conhecimentos frequentando acções de formação, sendo possuidor neste momento de Curso de
Aptidão Profissional ao nível da formação.
Conteúdos:
Os componentes deste primeiro Trabalho (T1), são os que sumariamente se indicam e
seguem a lógica do Programa da Unidade Curricular.
Objectivos:
ESTATÍSTICA DESCRITIVA:
Segundo definição no Dicionário de Estatística da Universidade de Lisboa Estatística Descritiva é cit. “Ramo
da Estatística que tem por finalidade descrever certas propriedades relativas a um conjunto de dados.”
Fonte: http://www.educ.fc.ul.pt/icm/icm2003/icm24/dicionario.htm
Segundo definição no Dicionário de Estatística da Universidade de Lisboa Estatística Inferencial é cit. “Ramo
da Estatística que procura inferir propriedades da população a partir de propriedades verificadas numa
amostra da mesma”
Fonte: http://www.educ.fc.ul.pt/icm/icm2003/icm24/dicionario.htm
Num estudo estatístico existem um conjunto de passos que devem ser realizados por forma a dar
ao trabalho uma estrutura sólida de desenvolvimento do trabalho.
Recolha de dados – Nesta fase/etapa são colhidos os dados ou feitas as observações das variáveis
através de um dos seguintes processos, Questionários, Observação, Pesquisa bibliográfica, etc.
Organização de dados – É aqui que depois de recolhidos os dados, os mesmos são tratados, por
forma a permitir uma análise dos mesmos. Neste tratamento os mesmos são contados e
agrupados o que vai facilitar o estudo da(s) variáveis(s) a estudar.
Apresentação de dados – Há duas formas de apresentar os dados, por Gráficos ou por Tabela, não
se eliminando uma à outra, pelo contrário as mesmas complementam-se, pois foram
desenvolvidos métodos de análise apenas pelo aspecto gráfico de curvas e linhas.
Análise e Interpretação de dados – Momento final de todo o processo investigatório, no qual são
interpretados os resultados através da obtenção de novos números (Medidas de Tendência
Central, de Dispersão, de Simetria, de Localização) os quais também têm expressão gráfica, para
uma melhor análise e interpretação. Pode-se entrar aqui na Estatística Inferencial ou Indutiva, pois
os mesmos poder-nos-ão permitir efectuar generalizações.
Fonte:http://webcache.googleusercontent.com/search?q=cache:JFJ1Swr7IygJ:www.esev.ipv.pt/mat1ciclo/textos/Textos_apteorico/fases%2520do
%2520m%C3%A9todo%2520estat%C3%ADstico.doc+fases+do+metodo+estatistico&cd=2&hl=pt-PT&ct=clnk&gl=pt
Fontes Primárias:
Estas são as Fontes que contêm a informação original, são os primeiros emissores de dados.
Exemplos: Questionários, Inquéritos, Entrevistas, Livros e artigos que apresentem ideias originais,
Autobiografias, Diários, Artigos de jornal quando escritos na altura dos acontecimentos, etc.
Fonte: http://www.bib.uevora.pt/1-1-
Fontes Secundárias:
Fontes que analisam, interpretam e comentam as fontes primárias. Os seus dados não são
originais, são isso sim, uma evolução destes, houve uma intervenção nos mesmos que se traduz
numa apresentação de novos dados.
Exemplo: Bibliografia, Artigos de jornal quando acrescentam comentário ou opinião, Directórios,
etc.
Fonte: http://www.bib.uevora.pt/1-1-
Fontes Terciárias:
Obras especializadas que, grosso modo, repertoriam, seleccionam, e organizam informações de
fontes primárias e secundárias.
Exemplo: Dicionários, Enciclopédias.
Fonte: http://www.bib.uevora.pt/1-1-
Para este trabalho estão a ser utilizadas apenas Fontes Secundárias e Fontes Terciárias.
POPULAÇÃO e AMOSTRA
População ou Universo:
Designa-se assim, o conjunto de indivíduos ou unidades que possuem pelo menos uma
característica comum entre sí.
Exemplo: Alunos do 1º ano do curso de Geografia da UM, Fogos da Freguesia de Valença, etc.
Amostra
É um subconjunto finito da População/Universo, que permite o investigador estudar a População
sem ter de usar todos os indivíduos ou unidades da mesma.
Exemplo: 10 % dos Alunos do 1º ano do curso de Geografia da UM, 15% dos Fogos da Freguesia de
Valença, etc.
Exemplo:
Neste tipo de amostra existe um critério mais ou menos subjectivo que permite a inclusão de
determinados indivíduos ou unidades na amostra. Não se conhece a probabilidade dos
indivíduos/unidades fazerem parte da amostra
Amostra Não Representativa ou Enviesada – Ocorre quando a Amostra não inclui pelo menos
uma característica da População/Universo, isto faz com que as generalizações sejam erróneas e
não adequadas à realidade.
Fonte: http://pt.wikipedia.org/wiki/Amostra_aleat%C3%B3ria
Exemplo:
Amostragem Casual ou Aleatória Simples – Equivalente a um sorteio lotérico. Na prática, ela pode
ser feita numerando-se a população de 1 a n+1 e depois sorteando-se, por meio de um dispositivo
aleatório qualquer, k números desta sequência, os quais corresponderão aos seres que pertencem
à amostra.
Exemplo: arranjar uma amostra representativa para a pesquisa da altura de 70 alunos de uma
escola.
a) numeramos os alunos de 01 a 70
b) escrevemos esses números de 01 a 70 em papéis e colocamo-los numa caixa; depois tiramos 7
números que formarão a amostra, nesta caso, 10% da população.
O pesquisador pode tirar qualquer número, desde que seja por sorteio. Mas este tipo de sorteio é
muito atribulado quando o número de elementos da amostra é grande. Por isso, foi criada a
Tabela de Números Aleatórios, que varia de bibliografia em bibliografia. Para conseguirmos os
individuos/unidades da amostra usando a Tabela, sorteamos um algarismo qualquer dela, a partir
do qual consideramos quantos algarismos dali vamos precisar. Serão estes os elementos da
amostra. A leitura da tabela pode ser feita de qualquer forma, desde que antes de principiado o
procedimento. Para o nosso caso dos alunos, consideramos uma linha, tomando os números de 2
algarismos, por exemplo esta linha:
61 02 01 81 73 92 60 66 72 58 53 34
Evidentemente, os números 72, 73, 81 e 92 não servirão pois não constam na população, assim
como devemos tirar o número que se repete. Então, temos:
61 02 01 60 66 58 53 (só os sete da amostra, o 34 ficou de fora pois
seria o 8º)
Mede-se a altura destes 7 alunos e tem-se uma amostra da estatura dos 70.
É o próprio pesquisador que pode sortear os números. A Tabela é tanto mais útil quando maior for
o número de indivíduos/unidades da amostra.
Fonte: http://recantodasletras.uol.com.br/visualizar.php?idt=72156
Exemplo: julgando, ainda no exemplo anterior, que dos 70 alunos, 42 sejam homens e 28 sejam
mulheres, vamos obter a amostra proporcional estratificada, sendo que são dois os estratos (os
dois sexos) e queremos uma amostra de 10% dos 70. Logo, temos:
a)
Temos, então:
Fonte: http://recantodasletras.uol.com.br/visualizar.php?idt=72156
Exemplo: numa avenida com 400 prédios, desejamos conseguir uma amostra formada de 20
destes prédios. Então, neste caso, fazemos assim: como 400 : 20 = 20, sorteamos um número de 01
a 20, que seria o primeiro elemento seleccionado para a amostra. Os demais elementos seriam
contados de 20 em 20. Assim, se o número sorteado fosse o 09, tomaríamos, por um lado da
avenida, o 9º prédio, o 29º, o 49º, o 69º..., até voltarmos ao início da avenida, pelo outro lado.
Fonte: http://recantodasletras.uol.com.br/visualizar.php?idt=72156
Dados Brutos – São dados sem qualquer tipo de tratamento, resultam directamente das
observações realizadas junto da Amostra.
Exemplo: Os resultados do questionário efectuado aos alunos do curso de GeP da UM
Dados Agrupados – São dados que, após uma manipulação do investigador sobre os Dados Brutos,
se encontram agrupados em classes ou grupos, aquando da fase 4 do Método Estatistico,
Organização de Dados.
Exemplo: Numa Tabela de Frequências do questionário ao alunos do curso de GeP da UM, a coluna
de Frequências Acumuladas, ou a coluna de Frequência Absolutas das variáveis em classes
eventualmemte criadas.
Dados Não Agrupados – São dados que, após uma intervenção do investigador nos Dados Brutos,
se encontram apresentados de forma ordenada, mas sem qualquer tipo de aglutinação.
Exemplo: Numa Tabela de Frequências do questionário ao alunos do curso de GeP da UM, a coluna
de Frequências Absolutas de cada variável por cada individuo/unidade da amostra.
Análise Univariada – É a interpretação de apenas uma variável isoladamente, seja ela única ou
não no estudo em causa, mas que entre esta e todas as outras não exista dependência. Ou seja,
entre as variáveis não poderá existir uma relação de complementaridade ou outro tipo de
influência. Assim, poder-se-á fazer a interpretação dos dados fornecidos para essa variável e poder
arriscar generalizações para a População.
Exemplo: Num estudo aos alunos de GeP do 1º ano da UM, as variáveis em causa eram, Idade,
Local de Residência. Estas variáveis entre si não se influenciam mutuamente, pelo que as
conclusões a retirar da análise de cada uma delas isoladamente são válidas.
Análise Bivariada - É a interpretação de apenas duas variáveis. Entre elas existe uma relação de
complementaridade ou outro tipo de influência. Assim, a interpretação dos dados fornecidos para
essas duas variáveis permite efectuar generalizações para a População.
Exemplo: Num estudo aos alunos de GeP do 1º ano da UM, as variáveis em causa eram, Idade,
Local de Residência, Médias obtidas no Ensino Secundário, Gosto pelo. Estas variáveis entre si não
se influenciam mutuamente, pelo que as conclusões a retirar da análise de cada uma delas
isoladamente são válidas.
Análise Multivariada - É a interpretação e análise de mais do que duas variáveis as quais por si só
poderão não ter significado mas que em conjunto sim que o obterão. Deste modo os dados
interpretados por este tipo de análise podem explicar, ou por outra, inferirimos sobre o fenómeno
e extrapolamos conclusões a aplicar à População.
Exemplo: Num estudo aos alunos de GeP do 1º ano da UM, as variáveis em causa eram, Idade,
Local de Residência, Médias obtidas no Ensino Secundário, Gosto pelo. Estas variáveis entre si não
se influenciam mutuamente, pelo que as conclusões a retirar da análise de cada uma delas
isoladamente não são válidas. No entanto se as analisarmos entre elas poderemos tirar ilações.
Variáveis Qualitativas Ordinais – Estas variáveis, apesar de não serem numéricas, obedecem a
uma relação de ordem, ou seja, existe uma ordenação dentro da categoria.
Exemplo: conceitos como óptimo, bom, regular e ruim, classe social, grau de instrução, mês de
observação (Janeiro, Fevereiro, Março,…) etc.
Fonte: http://leg.ufpr.br/~shimakur/CE055/node8.html e http://www.mundoeducacao.com.br/matematica/variaveis-na-estatistica.htm
Variáveis Quantitativas – São as características que podem ser medidas numa escala quantitativa,
ou seja, apresentam valores numéricos que fazem sentido. É usada a representação numérica. Elas
podem ser classificadas em discretas e contínuas.
Fonte: http://leg.ufpr.br/~shimakur/CE055/node8.html e http://www.mundoeducacao.com.br/matematica/variaveis-na-estatistica.htm
Exemplo, o peso de um produto, altura dos alunos de uma escola, velocidade de objetos, idade,
pressão arterial, tempo (relógio), outras situações.
Fonte: http://leg.ufpr.br/~shimakur/CE055/node8.html e http://www.mundoeducacao.com.br/matematica/variaveis-na-estatistica.htm
Fonte: http://pt.shvoong.com/exact-sciences/statistics/1897465-escalas-medi%C3%A7%C3%A3o/
Escalas binárias ou dicotómicas. Estas escalas medem atributos que têm apenas
dois valores:
Exemplo, SIM OU NÃO; MORTO OU VIVO; PRESENTE OU AUSENTE; HOMEM OU MULHER; etc.
Fonte: http://pt.shvoong.com/exact-sciences/statistics/1897465-escalas-medi%C3%A7%C3%A3o/
Escalas categoriais ou nominais. Estas escalas são utilizadas para organizar dados segundo
categorias mutuamente exclusivas e exaustivas. Medem atributos com mais de dois
valores não numéricos e com ordem de grandeza arbitrária, ou seja, os atributos (estado civil,
religião, cor do cabelo...) não estão relacionados numericamente entre si. Nas escalas categoriais
ou nominais as categorias ou nomes são mutuamente exclusivos, ou seja, cada elemento é
incluído numa única categoria.
Exemplo,. ESTADO CIVIL, RELIGIÃO, COR DO CABELO,
Fonte: http://pt.shvoong.com/exact-sciences/statistics/1897465-escalas-medi%C3%A7%C3%A3o/
Escalas ordinais. - Estas escalas são utilizadas para atribuir um valor numérico a pessoas ou
objectos que se classificam em categorias segundo uma ordem de grandeza mas não quantificam
a diferença entre os valores consecutivos.
Exemplo,
Fonte: http://pt.shvoong.com/exact-sciences/statistics/1897465-escalas-medi%C3%A7%C3%A3o/
Escalas de intervalos. Estas escalas medem atributos com mais de dois valores numéricos que têm
intervalos iguais e que podem ser ordenados.
Exemplo,
Fonte: http://pt.shvoong.com/exact-sciences/statistics/1897465-escalas-medi%C3%A7%C3%A3o/
Escala de razão, escala racional ou escala de proporção. É uma escala de intervalos que, para além
de possuir valores conhecidos entre os seus intervalos, estabelece a relação entre dois valores em
relação a zero. Nesta escala são possíveis todas as operações aritméticas (somas, subtrações,
divisões e multiplicações), porque o zero tem significado.
Exemplo,
Fonte: http://pt.shvoong.com/exact-sciences/statistics/1897465-escalas-medi%C3%A7%C3%A3o/
Organização dos Dados – Após serem obtidos os dados os mesmos são objecto de uma
intervenção do investigador. Essa intervenção tem como objectivo último, que os mesmos se
tornem interpretáveis. Assim os dados podem organizar-se em Dados ordenados e/ou agrupados,
os quais se podem apresentar em Tabelas e em Gráficos. Sob estas formas de apresentação é
possível “trabalhar” os dados e deles obter informações, que de outra forma seria impossível.
Exemplo,
População: Alunos de GeP da UM 1º ano
Amostra: Alunos que estão inscritos na disciplina Introdução à Estatística
Variável: Notas obtidas em Introdução à Estatística no 1º Semestre
Dados obtidos: 11, 13, 11, 15, 16, 12, 11, 14, 15, 18
QUADRO 1
3.4.1. Representação Gráfica – Tal como já mencionei no ponto 3.3 a representação Gráfica
permite uma análise e interpretação dos dados muito mais intuitiva, célere e aprofundada. O
desenho de curvas, linhas, pontos, pictogramas e outros num gráfico permitem uma leitura
imediata dos dados e mais ainda, da correlação que poderá existir entre as várias Medidas e
Variáveis. A inteligibilidade desta forma de apresentação é excelente, pois o investigador fica
liberto para uma análise mais elaborada, uma vez que não consome tantos recursos em execução
de análise de resultados de fórmulas matemáticas. Se bem que as tenha que realizar a
interpretação dos resultados é muito mais explicito e não exige tanta abstracção.
3.4.2 Tipos de Gráficos – Existem vários tipos de gráficos que podem ser usados em Estatística
para apresentação dos dados. Uns adaptam-se melhor que outros em função do tipo de
informações que se pretendem obter. Como informação complementar fica também registado de
que existem dois grupo de gráficos, a saber, Gráficos Planos e Gráficos em 3D. Focarnos-e-mos
principalmente no grupo dos Gráficos Planos, por ser mais adequado ao trabalho em causa.
GRÁFICOS PLANOS:
Ernesto
João
Deolinda
Isidoro
Bela CLASSIFICAÇÕES
Fábio
Geraldino
Carlos
António
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
GRÁFICOS DE COLUNAS
HISTOGRAMA
GRÁFICOS EM 3D
PICTOGRAMA
19
18
CLASSIFICAÇÕES
17
16
15
14
13
12
11
10
0 A B C D E F G H I J
ALUNOS
4.1 Média Aritmética Simples – A media aritmética resulta da soma de todas as observações e
dividindo-se essa soma pelo número total de observações.
Fonte: http://www.uff.br/cdme/medidasposicao/medidasposicao-html/MedidasDePInt.html
Xi – Valores Observados
N – Tamanho da População
– Valores Observados
n – Tamanho da População
– É a Média Amostral
– É a Média populacional
Desvantagens da média:
Pode não corresponder a qualquer valor da variável em questão e no caso de classes abertas pode
estar enviesado;
Pode ser muito influenciada por valores extremos ou aberrantes, podendo ser facilmente
enviesada (assimetria).
Calcula-se em ordem a
A partir das frequências acumuladas identifica-se a classe mediana, que é aquela que contém a
mediana;
Características da MEDIANA
Estas são medidas que dão a localização dos valores de uma variável.
Permitem separar determinadas % de observações
dentro de uma distribuição e dividi-la em n partes iguais;
O cálculo destas medidas é semelhante ao da mediana (que também é um valor separador);
Dados classificados:
As fórmulas de cálculo são idênticas à usada no cálculo da mediana, apenas havendo de
considerar a posição do novo valor na distribuição:
QUARTIS
No caso de se usarem as frequências absolutas:
PERCENTIS
No caso de se usarem as frequências absolutas:
Utilidade:
Servem para verificar da representatividade das medidas de localização;
Por vezes diferentes distribuições têm os mesmos valores de medidas de localização mas
apresentam formatos bastante diferenciados;
Amplitude/Intervalo de variação
Diferença entre o valor máximo e mínimo da variável
R= Xi Max – Xi Min
Amplitude/Intervalo inter-quartis
Diferença entre o terceiro e o primeiro quartis (50% das observações centrais);
IQ= Q3 – Q1
Dados classificados:
Dados Classificados:
Coeficiente de variação:
Permite comparar dispersões de variáveis que usem unidades de medida
diferentes;
Valores de cv acima de 50% indicam fraca representatividade da média e
elevada dispersão dos dados. Quanto mais abaixo de 50% estiver maior será
a representatividade da média e menor a dispersão dos dados;
Notas adicionais
Como calcular uma % de casos entre dois valores numa distribuição de dados classificados?
MEDIDAS DE ASSIMETRIA
(métodos de medição do enviesamento de uma distribuição)
média > mediana > moda a distribuição é assimétrica positiva ou enviesada à esquerda;
média < mediana < moda a distribuição é assimétrica negativa ou enviesada à direita;
Coeficiente Pearson
Existem distribuições:
Leptocúrticas
Mesocúrticas
Platicúrticas
Coeficiente de curtose: