Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Srie Livro-Texto
MTODOS ESTATSTICOS
2008, Edit ora Uniju Rua do Comrcio, 1364 98700-000 - Iju - RS - Brasil Fone: (0__55) 3332-0217 Fax: (0__55) 3332-0216 E-mail: e ditora@unijui.edu.br www.editoraunijui.com.br Editor: Gilmar Antonio Bedin Editor-adjunto: Joel Corso Capa: Elias Ricardo Schssler Designer Educacional: Jociane Dal Molin Responsabilidade Editorial, Grfica e Administrativa: Editora Uniju da Universidade Regional do Noroeste do Estado do Rio Grande do Sul (Uniju; Iju, RS, Brasil)
B336m
Battisti, Iara Denise Endruweit. Mtodos estatsticos / Iara Denise Endruweit Battisti, Gerson Battisti. Iju: Ed. Uniju, 2008. 80 p. (Coleo educao distncia. Srie livro-texto). ISBN 978-85-7429-700-2 1. Metodologia. 2. Mtodos estatsticos. 3. Estatstica. 4. Anlise de dados. I. Battisti, Gerson. II. Ttulo. III. Srie. CDU : 001.8 519.2
Sumrio
APRESENTAO ............................................................................................................................5
UNIDADE 1 CONCEITOS BSICOS ........................................................................................9 Seo 1.1 Conceitos bsicos .......................................................................................................9 Seo 1.2 Aplicao dos Mtodos Estatsticos ......................................................................13
UNIDADE 2 - TABEL AS ...............................................................................................................15 Seo 2.1 Representao de dados em tabelas simples ........................................................15 Seo 2.2 Representao de dados em tabelas cruzadas .....................................................19 Seo 2.3 Representao de dados em tabela de distribuio de freqncia ....................20
UNIDADE 3 - GRFICOS ............................................................................................................29 Seo 3.1 Grfico para r epresentar variveis qualitativas e quantitativas discretas .......30 3.1.1 Grfico de setores ............................................................................................30 3.1.2 Grfico de colunas simples .............................................................................31 3.1.3 Grfico de barras simples ................................................................................32 3.1.4 Grfico de colunas agrupadas .......................................................................32 3.1.5 Grfico de barras agrupadas ..........................................................................33 Seo 3.2 Grfico para representar uma srie temporal .......................................................33 Seo 3.3 Grfico para representar duas variveis quant itativas .......................................34 Seo 3.4 Grfico para representar uma distribuio de freqncia ..................................35 3.4.1 Histograma .......................................................................................................35 3.4.2 Polgono de fre qncia ...................................................................................36
3
Seo 3.5 Outros tipos de grficos ...........................................................................................37 3.5.1 Pirmide etria.................................................................................................37 3.5.2 Cartograma .......................................................................................................38
UNIDADE 4 MEDIDAS DESCRITIVAS .................................................................................39 Seo 4.1 Medidas de posio ..................................................................................................42 4.1.1 Mdia aritmtica .............................................................................................42 4.1.2 Mdia ponderada ............................................................................................43 4.1.3 Mediana ............................................................................................................44 4.1.4 Moda .................................................................................................................47 Seo 4.2 Medidas de disperso ...............................................................................................48 4.2.1 Varincia ...........................................................................................................48 4.2.2 Desvio-padro ..................................................................................................49 4.2.3 Coeficiente de variao ...................................................................................50
UNIDADE 5 FERRAMENTAS DE ANLISE ESTATSTICA NO EXCEL ........................53 Seo 5.1 Elaborando um banco de dados no EXCEL .........................................................55 Seo 5.2 Utilizando as tcnicas estatsticas para analisar os dados no EXCEL ............56 Seo 5.3 Medidas descritivas para as variveis quantitativas ...........................................57 Seo 5.4 Tabelas simples para as variveis qualitativas e para as variveis quantitativas com pouca variabilidade ................................59 Seo 5.5 Tabelas cruzadas .......................................................................................................66 Seo 5.6 Grficos de setores, colunas e barras .....................................................................68
REFERNCIAS ..............................................................................................................................79
Apresentao
O componente curricular Mtodos Estatsticos visa a fornecer embasamento terico e prtico para tratar as informaes obtidas em uma pesquisa de forma correta, fornecendo o suporte necessrio para auxiliar a gesto pblica e a compreenso de fatos sociais e econmicos.
Iniciamos com a abordagem dos conceitos bsicos, na seqncia so apresentadas as tcnicas para organizao e anlise de dados em tabelas e grficos, seguidas das medidas descritivas e finalizamos com a aplicao computacional na planilha eletrnica Excel.
Na expectativa de que o presente componente curricular se constitua em importante subsdio para os alunos e para a futura atuao profissional, fornecendo embasamento para tratar e analisar corretamente as informaes, ficamos disposio para esclarecimentos ou sugestes.
Conhecendo os Professores
Iara Denise Endruweit Battisti nasceu em 8 de outubro de 1974 no municpio de Iju (Rio Grande do Sul). Cursou Informtica na Universidade Regional do Noroe ste do Estado do Rio Grande do Sul (Uniju) de 1992 a 1996, fez especializao em Estatstica e Modelagem Quantitativa na Universidade Federal de Santa Maria (Rio Grande do Sul) entre 1997 e 1998. De 1999 a 2001 cursou Mestrado em Estatstica e Exper imentao Agropecur ia na Universidade Federal de Lavras (Minas Gerais). Fez Doutorado na Universidade Fede ral do Rio Grande do Sul, com te se sobre amostragem complexa e modelos multinvel entre 2004 e 2008.
Atua como professora de Estatstica no magistrio superior desde agosto de 1998 na Uniju e nos cursos de especiali zao da mesma Universidade. Tambm atua como pesquisadora em estatstica aplicada.
Gerson Battisti nasceu em 23 de novembro de 1972 no municpio de Rodeio Bonito (Rio Grande do Sul). Cursou Informtica na Universidade Regional do Noroe ste do Estado do Rio Grande do sul (Uniju) de 1990 a 1993. Fez Mestrado em Cincia da Computao na Universidade Federal do Rio Grande do Sul entre 1997 e 1999 e Doutorado entre 2002 e 2007.
Atua como professor de Informtica e Cincia da Computao na Uniju desde agosto de 1994.
Unidade 1
Conceitos Bsicos
Objetivos Desta Unidade
Compreende r o que Estatstica e seus conceitos bsicos.
Lembra das pesquisas eleitorais que freqentemente so feitas antes das eleies para prefeito, vereadores, presidente e deputados? Nestas so aplicados os mtodos estatsticos, isto , primeiramente a pesquisa planejada: quantos indivduos sero entrevistados, como
9
E stat s ti ca um conjunto de tcn icas para a coleta, organizao , anlise e interpretao de dados.
sero selecionados, onde e quando ocorrer a pesquisa? Depois os dados so processados, gerando tabelas, grficos e medidas descritivas. No final estes dados so analisados por meio de testes estatsticos e ento divulgados.
Ento, a Estatstica fornece mtodos para a coleta, organizao, anlise e interpretao de dados. Apresentaremos neste componente curricular uma introduo aos mtodos estatsticos necessrios para apoiar as tomadas de deciso na gesto pblica.
Realizamos uma pesquisa quando temos uma questo para responder, que chamamos de questo de pesquisa, por exemplo: qual proporo de mulheres que exercem atividade remunerada no municpio de Santa Rosa no ano de 2008?
Utilizaremos essa questo de pesquisa como exemplo para apresentar alguns conceitos bsicos necessrios na compreenso e aplicao dos mtodos estatsticos.
Populao: so todos os ele mentos que tm uma ou mais caracterst icas em comum definidas antes de se iniciar qualquer pesquisa. Os elementos podem ser pessoas, animais, plantas, objetos, etc. Para o exemplo dado, a populao definida por todas as mulheres acima de 14 anos que residem no municpio de Santa Rosa.
O estudo de todos os elementos de uma populao chamado de censo. Realizar um censo necessita de tempo e tem custo elevado, assim, freqenteme nte, utilizamos uma amostra da populao.
10
Amostra: uma parte representativa da populao. O tamanho da amostra definido antes de se iniciar a pesquisa. A amostra deve ser aleatria, isto , selecionada por sorteio. Para o exemplo dado, a amostra definida por uma parte da populao de mulheres acima de 14 anos que residem no municpio de Santa Rosa.
Varivel aleatria: so as caractersticas de uma populao ou uma amostra. Para o exemplo dado, as variveis aleatrias so as questes que o instrumento de coleta de dados (tambm chamado de questionrio) contempla, por exemplo: idade, estado civil, escolaridade, nmero de filhos, qual atividade exerce, tempo que exerce a atividade, quantas horas trabalha por semana, se autnoma ou empregada, e muitas outras.
Classificamos as variveis aleatrias em qualitativas e quantitativas. As variveis qualitativas tm seus valores (respostas para cada questo do questionrio) no numricos, como sexo, estado civil, nvel de escolaridade, bairro, profisso, nvel de satisfao. As variveis quantitativas tm seus valores numricos, tais como: idade, peso, salrio, tempo de servio, nmero de filhos.
As variveis qualitativas so subdivididas em nominais e ordinais. Quando as diferentes categorias (respostas) no tm relao entre si, ou seja, so independentes, classificamos a varivel como qualitativa nominal, por exemplo, sexo, est ado civil, curso de graduao e bairro. Por outro lado, quando as categorias tm uma re lao entre si, geralmente atribuindo nveis, como o n vel de escolaridade e o grau de satisfao do cliente, so denominadas qualitativas ordinais.
As variveis quantitativas so subdivididas em discretas e contnuas. As primeiras assumem somente valores numricos inteiros como: nmero de filhos, nmero de alunos, nmero de computadores. J as variveis quantitativas contnuas podem assumir qualquer valor numrico, resultado de uma medida, como: peso, idade e salrio. Nesta ltima classificao os valores geralmente so registrados at a preciso da medida utilizada, por exemplo, a idade de uma pessoa pode ser registrada em anos (25 anos), meses (310 meses) ou ainda em anos e meses (25 anos e 10 meses).
11
A classificao das variveis muito importante, pois diferentes tipos de variveis exigem tratamentos estatsticos especficos, por exemplo: qual a idade mdia das mulheres que exercem atividade remunerada? Qual a proporo (percentual) de mulheres que trabalham fora o dia todo? Estatstica descritiva e inferncia estatstica : a estatstica descritiva o conjunto de mtodos para descrever e sistematizar os dados de uma amostra ou uma populao, por meio de tabelas, grficos e medidas descritivas, sendo que estes mtodos sero descritos nas prximas sees. A infernci a estatstica o conjunto de mtodos para projetar os resultados de uma amostra para uma populao. Veja que a figura 2 representa a estatstica descritiva e a inferncia estatstica.
12
Dados primrios e dados secundrios : os dados primrios esto disponveis na sociedade (idade, sexo, estado civil...) e os secundrios esto organizados de alguma forma, geralmente nos meios de comunicao e publicaes cientficas (tabelas, grficos...). Regra do arredondamento : na apre sentao dos resultados dos clculos usamos a regra do arredondamento para quebrar o nmero na quantidade de casas decimais desejadas ou padronizadas, da seguinte forma: se o algarismo a ser excludo for 0, 1, 2, 3, 4 o algarismo que permanece no alterado; se o algarismo a ser excludo for 5, 6, 7, 8, 9 o algarismo que permanece aumenta de uma unidade. Por exemplo: o nmero 23,578 fica 23,6 considerando uma casa decimal o nmero 23,538 fica 23,5 considerando uma casa decimal o nmero 23,98 fica 24,0 considerando uma casa decimal
No domnio das Cincias da Sade, fazemos pesquisa para saber a prevalncia de diabetes na populao ou para saber que tratamento mais eficaz para a hiperte nso. Nas Cincias Biolgicas podemos fazer pesquisa para projetar a populao de determinadas espcies em determinado local.
No mbito das Cincias Agrrias podemos fazer pesquisa para determinar a quantidade adequada de adubo em uma plantao. Na Engenharia podemos realizar uma pesquisa para saber a resistncia de uma coluna de concreto. Esses so alguns exemplos da grande aplicao que a Estatstica tem em todas as reas do conhecimento.
Nosso interesse pode ser analisar dados secundrios, como os dados que o IBGE (Instituto Brasileiro de Geografia e Estatstica <www.ibge.gov.br>) ou os dados que o Datasus (<www.datasus.gov.br>) disponibilizam.
Muitas vezes utilizamos o conh ecimento dos mtodos estatsticos para compreender melhor os dados que so di sponibilizados nos meios de comunicao, como a TMI (Taxa de Mortalidade Infantil), INPC (ndice Nacional de Preos ao Consumidor) e tantos outros.
SNTESE DA UNIDADE 1
Nesta Unidade explicamos o que Estatstica, seus conceitos bsicos e onde aplicamos os mtodos estat sticos.
14
Unidade 2
Tabelas
Objetivos Desta Unidade
Verificar como apresentamos os dados em uma tabela. Interpretar os resultados de uma tabela.
Tab el a si m p le s Utiliza- se uma tab ela simples para repr esentar as respostas de u ma var ivel aleatria.
Ttulo
Corpo
Fonte
Quando elaboramos um ttulo de uma tabela tentamos responder a trs perguntas: O qu? Onde? Quando? Na fonte apresentamos a orige m dos dados; se estes forem originrios de fonte secundria obrigatrio apresentar. O tamanho de letra da fonte menor do que a do corpo da tabela. Na linha abaixo da fonte pode ser apresentada uma nota de esclarecimento sobre a tabela. As late rais no possuem borda (trao), somente uma borda horizontal superior e uma horizontal inferior para delimitar o corpo da tabela, e mais uma borda para separar o cabealho do resto da tabela. Se a tabela possui uma linha do total ento devemos colocar uma borda acima e abaixo desta linha. Se existir mais de uma tabela estas so numeradas em ordem seqencial. Na tabela simples so apresentados os valores referentes s categorias (respostas) de uma varivel aleatria, possui geralmente tr s colunas, como representado a seguir:
16
A primeira linha do corpo da tabela o seu cabealho, e usada para identificar o que cada coluna contm. Em uma tabela simples, na primeira coluna apresentamos as categorias da varivel aleatria, na segunda aprese ntamos a quantidade de vezes (freqncia absoluta) que cada categoria aparece e na terceira coluna apresentamos o percentual (freqncia relativa) para cada categoria.
Utilizamos a freqncia absoluta para orde nar as categorias de uma varivel qualitativa nominal na tabela (Tabela 1). Nas variveis qualitativas ordinais e quantitativas, ordenamos as categorias por ordem crescente (ou decrescente) das prprias categorias (Tabela 2). A se guir alguns exemplos de tabe las simples: Tabela 1: Distribuio por sexo, Rio Grande do Sul, 2007
Observamos na Tabela 1 que o percentual de mulheres maior que o percentual de homens no Rio Grande do Sul em 2007, por isso apresentamos a categoria feminino em primeiro lugar, pois estamos analisando uma varivel qualitativa nominal. Tabela 2: Nvel de satisfao dos clientes da empresa XY, abril/2008
Nvel de satisfao Muito satisfeito Satisfeito Mais ou menos Insatisfeito Muito insatisfeito Total
n 57 73 10 21 3 164
17
Observamos na Tabela 2 que a maioria (24,8% + 44,5%) dos clientes est muito satisfeito ou satisfeita. As freqncias so apre sentadas na ordem decrescente das cate gorias (iniciando em muito satisfei to e finalizando e m muito insatisfeito) por estarmos analisando uma varivel qualitativa ordinal.
Para calcular o percentual (%) de cada categoria, dividimos a freqncia absoluta da categoria pelo total e multiplicamos por 100. Um exemplo de como calcular o percentual (%) na Tabela 2:
Muito satisfeito =
Apresentamos o tempo sempre na primeira coluna da tabela e na segunda coluna apresentamos os valores que a varivel assume nos diferentes momentos do tempo. Observe o exemplo a seguir. Tabela 3: Rendimento mdio nominal do trabalho principal, habitualmente recebido por ms, pelas pessoas de 10 anos ou mais de idade na regio metropolitana de Porto Alegre, janeiro a dezembro/2007.
Ms Janeiro Fevereiro Maro Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro
Valor 1008,7 1040,6 1057,3 1055,7 1057,2 1068,0 1080,1 1074,6 1095,8 1090,0 1108,8 1114,4
Fonte: IBGE. Diretoria de Pesquisas, Coordenao de Trabalho e Rendimento, Pesquisa Mensal de Emprego. Disponvel em: < www.ibge.gov.br>.
18
Ta be la s cr u z ad a s Utiliza- se uma tab ela cru zada para r epresentar as r espo stas de duas variveis aleatr ias simultaneamene.
O formato de uma tabela cruzada, com duas variveis aleatrias, apresentado a seguir:
Ttulo Nome da varivel 2 Nome da varivel 1 Categoria 1 da varivel 2 Categoria 1 da varivel 1 Categoria 2 da varivel 1 Categoria 3 da varivel 1 Total
Fonte
Total
Temos trs for mas de apresentar o percentual (%) numa tabela cruzada: por linha, por coluna e por total. Isto , quando quere mos comparar as categorias da varivel 1, utilizamos o percentual por linha. Quando o intuito comparar as categorias da varivel 2, utilizamos o percentual por coluna. O percentual total considera todos os elementos pesquisados. Vamos utilizar o exemplo a seguir para facilitar a compreenso:
19
Nvel de satisfao Muito satisfeito Satisfeito Mais ou menos Insatisfeito Muito insatisfeito Total
Sexo Feminino 43 (44,3%) 44 (45,4%) 4 (4,1%) 5 (5,2%) 1 (1,0%) Masculino 14 (20,9%) 29 (43,3%) 6 (9,0%) 16 (23,8%) 2 (3,0%)
97 (100,0%) 67 (100,0%)
Na Tabela 4 estamos comparando o nvel de satisfao entre os sexos, assim calculamos o percentual (%) na coluna, por exemplo:
Observamos que 89,7% (44,3% + 45,4%) das m ulhe re s esto muito sati sfei tas ou satisfei tas, enquanto 65,2% (20,9% + 43,3%) dos homens esto sat isfeitos ou muito satisfeitos.
20
Nesse tipo de tabela os valores so agrupados em intervalos, como veremos a seguir. Tomemos como exemplo os dados sobre rendimento mdio nominal do trabalho principal de pessoas em Porto Alegre, de janeiro/2005 a dezembro/2007, obtida pela Pesquisa Mensal de Emprego (PME) realizada pelo IBGE, apresentados na Tabela 5. Tabela 5: Rendimento mdio nominal do trabalho principal, habitualmente recebido por ms, pelas pessoas de 10 anos ou mais de idade, ocupadas na semana de referncia, em Porto Alegre, janeiro/2005 a dezembro/2007
Ms Janeiro Fevereiro Maro Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro
2005 903,2 940,3 915,0 913,7 922,9 930,0 940,8 950,8 956,2 967,2 941,4 957,2
2006 953,0 971,3 981,2 969,6 988,7 972,1 996,1 1004,9 1016,2 1019,5 1035,6 1023,4
2007 1008,7 1040,6 1057,3 1055,7 1057,2 1068,0 1080,1 1074,6 1095,8 1090,0 1108,8 1114,4
Fonte: IBGE, Diretoria de Pesquisas, Coordenao de Trabalho e Rendimento, Pesquisa Mensal de Emprego mar.2002-abr.2008. Nota: Exclusive trabalhadores no remunerados e trabalhadores que receberam somente em benefcios.
Para visualizar os dados brutos da Tabela 5 acesse o site do IBGE no seguinte link: <ht tp://www.ibge .gov.br/h ome/e statistica/indicadores/trabalhoere ndi mento/pme _nova/ default.shtm>.
As primeiras informaes que podemos obter desta tabela o nmero de dados, o valor mnimo, o valor mximo e a amplitude total, como segue: n = nmero de dados, para este exemplo n = 36 (valores do rendimento nominal em 36 meses) Li = limite inferior ou valor mnimo, para este exemplo Li = 903,2 Ls = limite superior ou valor mximo, para este exemplo Ls = 1114,4 At = Ls Li = amplitude total (variao entr e o maior e o menor valor), para este ex emplo At = 1114,4 903,2 = 211,2
21
Assim, podemos concluir que nos 36 meses analisados, o rendimento m dio mnimo das pessoas residentes em Porto Alegre foi de R$ 903,20 e o rendimento mdio mximo foi de R$ 1.114,40, nos meses de janeiro/2005 e dezembro/2007 respectivamente. Da mesma forma, pode-se afirmar que a variao entre o menor e maior valor foi de R$ 211,20, isto , a variao entre o rendimento mdio mnimo e o rendimento mdio mximo.
A tabela de distribuio de freqncias construda tendo como base um conjunto de classe ou intervalos. Os inte rvalos so divi ses de valores que permitem agrupar ou contabili zar todos os dados observados. Cada valor observado s pode estar em um dos intervalos definidos.
O nmero de intervalos que sero utilizados para construir a tabela pode ser definido de forma aleatria, porm em determinados casos o uso de poucos ou muitos intervalos pode esconder informaes relevantes sobre os dados. Para evitar estes problemas existe uma pequena frmula para calcular a amplitude dos intervalos de acordo com a quantidade de dados existentes e ampli tude total dos dados. A frmula a seguinte:
hi =
Em que:
At n
hi : tamanho do intervalo
n
: nmero de intervalos
At : amplitude total
Rele mbrando, o n representa o nmero de dados que estamos analisando. Neste exemplo, so os valores que representam o rendimento mdio do trabalhador nos anos de 2005, 2006 e 2007, de acordo com a Tabela 5. A amplitude total a diferena do maior valor pelo menor valor presente nos dados (211,2).
hi =
211, 2 = 35,2 36
22
Quando o valor de hi gerado um valor com casas decimais, podemos aproxim-lo para um valor prximo inteiro, de acordo com a preciso desejada. Neste caso aproximamos para cima, logo, hi = 36. Uma vez de finido o hi, podemos iniciar a construo da tabela de distribuio de freqncia. O primeiro intervalo tem como limite inferior o menor valor e ncontrado nos dados ou o menor valor inteiro mais prximo do valor inferior. O limite superior a soma do menor valor com o valor do hi (903 | 939). Os prximos intervalos so gerados tendo como o limite inferior o limite superior do intervalo anterior e o limite superior como a soma do limite inferior desse intervalo com o hi , e assim sucessivamente at definir o intervalo que englobe o maior valor presente nos dados. Exemplo: Como o menor valor de todo o conjunto de dados 903,2, decidiu-se pegar o valor inteiro menor mais prximo a este, isto , o nmero 903. Este, somado ao hi=36, resulta no limite superior deste intervalo: 903 + 36 = 939. Ento o primeiro intervalo da tabela tem o limite inferior = 903 e o limite superior = 939, como segue: 903 |- 939. O segundo intervalo da tabela tem o limite inferior igual ao limite superior do intervalo anterior, como segue: 939 | 975. O nmero 975 obtido somando 939 + 36, lembrando que hi=36 e assim sucessivamente. Uma vez definidos os intervalos, a tabela de distribuio de freqncias construda contabilizando a quantidade de valores dos dados que esto dentro de cada intervalo. De acordo com os valores da Tabela 5, temos a seguinte distribuio dos valores:
| O sinal | representa intervalo, on de o valor que est esquerda pertence ao intervalo, mas o valor da direita no per ten ce ao intervalo. O valor da direita ser considerado no prximo intervalo.
23
Intervalos 903 |-- 939 939 |-- 975 975 |-- 1011 1011 |-- 1047 1047 |-- 1083 1083 |-- 1119
Freqncia (n) 5 11 5 5 6 4
No intervalo 903 | 939 temos 5 valores, no intervalo 939 | 975 temos 11 valores e assim por diante.
A tabela de distribuio de fre qncia complementada com um conjunto de valores gerados a partir da distribuio calculada anteriormente. A tabela completa apresentada a seguir, permitindo obter mais informaes sobre o comportamento dos dados que foram coletados.
R$ 903 |-- 939 939 |-- 975 975 |-- 1011 1011 |-- 1047 1047 |-- 1083 1083 |-- 1119 Total
fi 5 11 5 5 6 4 36
fa 5 16 21 26 32 36 -
1,0000 100,00
Fonte: IBGE, Diretoria de Pesquisas, Coordenao de Trabalho e Rendimento, Pesquisa Mensal de Emprego mar.2002/abr. 2008. Nota: Exclusive trabalhadores no remunerados e trabalhadores que receberam somente em benefcios.
24
Os valores adicionados tabela so: fi = freqncia absoluta simples. Representa o nmero de valores existentes em cada intervalo. Para o primeiro intervalo fi =5. Tambm pode ser representado por n. f a = freq ncia absoluta simples acumulada. Representa o nmero de dados at o limite superior do intervalo considerado. Por exemplo, a fa do segundo intervalo igual a fi do primeiro intervalo mais a fi do segundo intervalo (5 + 11 = 16). O fa do terceiro intervalo fi do primeiro intervalo + fi do segundo intervalo + fi do terceiro intervalo (5+11+5). fr = freqncia relativa. a fi do intervalo considerado dividida pelo total da fi (total da fi = 36). Para o fi do primeiro intervalo 5/36 = 0,1389. fr% = f reqncia relativa percentual. a fr do intervalo multiplicado por 100. Para o primeiro intervalo 0,1389 x 100 = 13,89. frac%= freqncia relativa acumulada percentual. Representa o valor, em percentual, at o limite superior do intervalo considerado. A frac% do segundo intervalo, por exemplo, igual a fr% do primeiro intervalo mais a fr% do segundo intervalo (13,89 + 30,56 = 44,45). xi = ponto mdio do intervalo. o valor mdio entre o limite inferior e o limite superior do intervalo. Por exemplo: (903+939)/ 2=921 o ponto mdio do primeiro intervalo. Interpretao da tabela: temos 11 valores que e sto entre 939 e 975, isto , em 11 (30,56%) meses o rendimento mdio foi de R$ 939 a R$ 975. Em 21 (58,34%) meses o rendimento foi no mximo de R$ 1011. Se ocorrer um intervalo com fi = 0, isto , um intervalo que no contm valores e no intervalo seguinte ocorrer somente um ou dois valores ento suspeita-se que esse ou esses valores so
O u t l i er um valor muito diferenciado dos demais, um valor extr emo, muito alto ou muito baixo. Tambm pode existir mais que um valor outlier. Todo investigador j deparou co m um con ju nto de dados em que algumas observaes se afastam demasiado d as restantes, par ecendo que foram geradas por u m mecanismo diferente. As observaes que apresentam um grande afastamento d as restantes ou so inconsistentes co m elas so habitualmen te designad as por outliers. Veja no gr fico ilustrativo , o ponto impresso em preto-e-branco isolado, distante dos demais um exemplo do que chamamos de outlie rs, u m dado que fog e do padro dos demais.
outlier .
25
B an co ( p la ni l h a) d e d ad o s Banco de Dado s ou planilha de dados: num banco de dados apresentamos as respostas de cada varivel (questo do qu estionr io) numa co lu na e cada indivduo nu ma linha. a forma de ap resentarmos e org anizarmos os dados br utos da pesquisa para depois elaborarmos tabelas e g rficos.
Agora, para finalizar esta unidade, vamos exercitar o contedo analisando os resultados de uma pesquisa de satisfao realizada, por amostragem, com clientes da empresa Costa (empresa fictcia), em maio de 2008 para construir uma tabela simples da varivel sexo, uma tabela cruzada das variveis sexo e satisfao com o atendimento. Banco (planilha) de dados da pesquisa de satisfao na empresa Costa
Cliente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Sexo F F F M F F F F M F M F F F F M F F F M F M M Satisfao com atendimento MS S ++S S ++S I S S MI S S MS S S S I +S MS Satisfao com preo MS ++S S MS +S I I S +++I S +S S +S S S Nota geral 10 7 6 7 8 9 7 7 5 5 8 8 9 9 7 10 8 8 9 7 7 8 9 Idade 22 26 32 35 23 27 22 37 41 40 35 35 37 22 21 19 40 51 55 45 46 33 34
F = feminino, M = masculino, MS = Muito satisfeito, S = satisfeito, + = mais ou menos satisfeito, I = insatisfeito, MI = muito insatisfeito.
Para construir uma tabela simples para a varivel sexo precisamos contabilizar quantos F e quantos M ocorreram na pesquisa. Observamos que existem 16 F correspondendo ao sexo feminino e 7 M correspondendo ao sexo masculino. Aps, apresentamos esses valores na tabela simples segui ndo as normas na seo 2.1, como segue:
26
O que: sexo dos clientes Onde: empresa Costa Quando: maio de 2008
Ento o ttulo e o corpo da tabela ficam assim: Sexo dos clientes da empresa Costa, maio de 2008.
N 16 7 23
Para calcular o pe rcentual do sexo feminino: 16/23 x 100 = 69,57%, e para o sexo masculino: 7/23 x 100 = 30,43%, lembrando que o total do percentual sempre deve ser = 100%.
Para construir uma tabela cr uzada da satisfao com atendimento em relao ao sexo precisamos contabilizar quantos F, e quantos M temos como muito satisfeito (MS) e da mesma forma precisamos contabilizar quantos F e quantos M temos como satisfeito (S), e assim sucessivamente.
Observando a planilha de dados percebemos que temos dois F com MS, temos cinco M com S, e assim por diante. Aps apresentamos esses valores na tabela cruzada seguindo as normas da seo 2.2, como segue:
O que: satisfao com o atendimento em relao ao sexo dos clientes Onde: empresa Costa Quando: maio de 2008
27
Ento o ttulo e o corpo da tabela ficam assim: Satisfao com o atendimento em relao ao sexo dos clientes da empr esa Costa, maio de 2008.
Satisfao F MS S +I MI Total 1 9 4 1 1 16
Sexo M 2 3 1 1 0 7
Total 3 12 5 2 1 23
Note que o total de F o nmero de clie ntes do sexo feminino e M o nmero de clientes do sexo masculino, conforme j apresentado na tabela simples anterior.
SNTESE DA UNIDADE 2
Nesta unidade vimos como organizar os dados numa tabela simples, a qual usada para apresentar os valores de uma varivel aleatria.Tambm aprendemos como apresentar os valores de duas variveis aleatrias numa tabela cruzada.E, ainda, quando temos uma varivel quantitativa com n 20 utilizamos uma tabela de distribuio de freqncia.
28
Unidade 3
Grficos
Objetivos Desta Unidade
Verificar como apresentamos os dados em um grfico.
Os grficos so figuras que empregamos para apresentar os dados. Eles tm a vantagem de serem mais atrativos que as tabelas e muitas vezes facilitam a visualizao do comportamento dos dados. Existem difer entes tipos de grficos adequados para diferentes situaes, como apresentamos em cinco sees.
Para melhor visualizao dos grficos apresentados nesta unidade, consulte a apostila em meio virtual, disponibilizada na biblioteca do Conecta.
Sudeste 31%
Nordeste 36%
Interpretao do grfico: observamos que as regies Sudeste e Nordeste obtiveram 2/3 das transferncias voluntrias da Unio.
30
muito importante a definio da escala em um grfico para que a informao seja repassada com fidelidade.
Grfico 2: Transferncias voluntrias da Unio para as regies geogrficas por habitante, junho/2008, Brasil
Fonte: Siafi Gerencial Secretaria do Tesouro Nacional. <www.stn.fazenda.gov.br/ estados_munic ipios/download/TVinternet.xls>
Interpretao do grfico: constata-se que as regies Sudeste e Sul receberam o menor valor por habitante no ms de junho de 2008.
31
Grfico 3: Transferncias voluntrias da Unio para as regies geogrficas por habitante, junho/2008, Brasil
Fonte: Siafi Gerencial Secretaria do Tesouro Nacional. <www.stn.fazenda.gov.br/ estados_munic ipios/download/TVinternet.xls>
32
Interpretao do grfico: observamos que mais de 80% dos domiclios possuem fogo, geladeira, rdio e televiso, e que aumentou o n de domiclios com geladeira e televiso entre 2005 e 2006.
Seo 3.2 Grfico para Representar uma Srie Temporal Grfico de Linha
O grfico de linha empregado para representar uma srie temporal, ou seja, uma escala de tempo em que o evento ser mostrado, sendo que no eixo horizontal sempre apresentado o tempo, com escala proporcional, e no eixo verti cal os valores referentes a cada tempo.
33
Grfico 6: Taxa de mortalidade infantil (por mil nascidos vivos), 2000 a 2007, Brasil
Fonte: IBGE, Diretoria de Pesquisas, Coord enao de Populao e Indicadores Sociais.
Interpretao do grfico: observamos que a taxa de mortalidade infantil decresceu entre 2000 e 2007.
Seo 3.3 Grfico para Representar duas Variveis Quantitativas Grfico de Disperso
Utiliza-se o grfico de disperso quando temos duas variveis quantitativas. Representamos uma varivel em cada eixo, como no Grfico 7. Os valores da varivel altura so representados no eixo horizontal e os valore s da varivel peso so representados no eixo vertical. Com este grfico possvel visualizar a existncia de uma relao entre as duas variveis.
kg 75 70 65 60 55 50 45 40 145 150 155 160 165 170 175 180 cm
Grfico 7: Distribuio do peso em relao a altura dos alunos da turma X, maro/2005, Uniju
Fonte: Construo dos autores.
34
Interpretao do grfico: Observamos uma relao linear direta entre a altura e o peso, isto , quanto maior a altura, em mdia, tambm o peso.
3.4.1 HISTOGRAMA
O histograma o grfico adequado para apresentar uma distribuio de freqncia, consta de colunas verticais agrupadas apresentando no eixo horizontal os valores (limites dos intervalos) da varivel quantitativa e no eixo vertical a fi ou fr ou fr%, conforme o exemplo a seguir (retome seo 2.3 caso no lembre o que fi, fr, fr%).
Grfico 8: Rendimento mdio nominal do trabalho principal, habitualmente recebido por ms, pelas pessoas de 10 anos ou mais de idade, ocupadas na semana de referncia, em Porto Alegre, janeiro/2005 a dezembro/2007.
Fonte: IBGE, Diretoria de Pesquisas, Coordenao de Trabalho e Rendimento, Pesquisa Mensal de Emprego mar.2002-abr.2008.
35
Interpretao do grfico: observamos que a maior concentrao de valores est no intervalo 939 a 975, isto , em 11 meses o rendimento mdio ficou entre R$ 939,00 e R$ 975,00.
Grfico 9: Rendimento mdio nominal do trabalho principal, habitualmente recebido por ms, pelas pessoas de 10 anos ou mais de idade, ocupadas na semana de referncia, em Porto Alegre, janeiro/2005 a dezembro/2007.
Fonte: IBGE, Diretoria de Pesquisas, Coordenao de Trabalho e Rendimento, Pesquisa Mensal de Emprego mar.2002-abr.2008. Nota: Exclusive trabalhadores no-remunerad os e trabalhadores que receberam somente em benefcios.
36
37
3.5.2 CARTOGRAMA
Os cartogramas so utilizados quando se tem uma srie geogrfica (dados coletados em diferentes locais), adotando-se mapas para atrair a ateno ou facilitar a visualizao. Na figura a seguir so representados os Estados do Brasil com sua respectiva populao. Os Estados com cor mais escura so os mais populosos (acima de 10 milhes de habitantes, conforme legenda do grfico) e os Estados com cor mais clara os menos populosos (abaixo de 2 milhes). Os demais situam-se entre 2 milhes e 8 milhes de habitantes, representados pelos tons intermedirios.
SNTESE DA UNIDADE 3
Vimos que existem vrios tipos de grficos para representar as variveis aleatrias. Alguns so mais indicados para variveis qualitativas e outros so mais apropriados para variveis quantitativas. Na Unidade 5, veremos como construir esses grficos em uma planilha eletrnica.
38
Unidade 4
Medidas Descritivas
Objetivos Desta Unidade
Compreender o clculo de medidas descritivas. Verificar como escolhemos a medida descritiva mais adequada. Interpretar os resultados das medidas descritivas.
At agora vimos como resumir as informaes em tabelas e grficos para facilitar sua visualizao e compreenso. Muitas vezes, porm, quando desejamos estudar variveis quantitativas, utilizamos tamb m outros mtodos estatsticos medidas descritivas para complementar a anlise dos dados, as quais abordaremos nesta unidade.
As medidas descritivas so utilizadas para resumir as variveis quantitativas em um ou dois valores. Por exemplo: podemos realizar uma pesquisa para conhecer o salrio dos habitantes de um municpio. Obteremos como resultados dessa pesquisa um valor de salrio associado a cada habitante . Alguns valores sero repetidos entre os habitantes e outros no. Uma forma de tratar es sas informaes pela tabela de distribuio de freqncia, j estudada na Unidade 2. Outra forma, complementar a esta, por intermdio das medidas descritivas, da seguinte maneira: podemos encontrar um valor medida de posio, que representa o salrio mdio dos habitantes desse municpio, calculado pela mdia aritmtica. Alm dessa mdia, sempre interessante demonstrar como os valores esto distribudos em torno desta. Para isso encontramos outro valor medida de disperso, calculada por meio do desvio-padro.
Para facilitar a compreenso vamos utilizar um exemplo: supomos que no municpio A existem 7 habitantes e que seus salrios so:
Municpio A:
R$ 780
R$ 1.200
R$ 550
R$ 600
R$ 1.500
R$ 750
R$ 980
Obtemos o valor R$ 908,57 para representar o salrio mdio desses habitantes pela mdia aritmtica (veremos a seguir como calcular a mdia aritmtica). Observe que alguns habitante s tm salrios menores que a mdia e outros tem salrios maiores que a mdia. Ainda precisamos de outra medida para representar como os dados esto dispostos em torno do valor mdio, isto , se os valores esto mais distantes ou mais prximos da mdia. Este valor R$ 342,85, que representa o desvio-padro (veremos a seguir como calcular o desviopadro), revelando uma grande disperso entre os valores, pois temos habitantes recebendo desde R$ 550,00 at R$ 1.500,00, este ltimo quase trs vezes maior que o primeiro.
Municpio B:
Obtemos o valor R$ 908,57 como o salrio mdio desses habitantes e o valor R$ 0,00 como desvio-padro. Obser vamos que o salrio mdio dos municpios A e B so iguais, porm os valores associados a cada habitante diferem bastante entre os dois municpios: no municpio A, o salrio entre os habitantes diverge muito, representado pelo alto valor do desvio-padro. J no municpio B os salrios entre os habitante s no diferem, representado pelo valor nulo do desvio-padro.
40
Municpio C:
R$ 780
R$ 800
R$ 950
R$ 1.100
R$ 930
R$ 950
R$ 850
Observamos que o salrio mdio no municpio C R$ 908,57, igual aos municpios A e B, e o desvio-padro R$ 109,76. Os salrios no municpio C tm menos disperso que no municpio A, pois o menor R$ 780,00 e o maior R$ 1.100,00, representado pelo baixo valor do desvio-padro.
Municpio D:
R$ 1.780
R$ 1.800
R$ 1.950
R$ 2.100
R$ 1.930
R$ 1.950
R$ 1.850
O salrio mdio dos habitantes do municpio D R$ 1.908,57, muito mais alto que nos demais municpios. O desvio-padro dos salrios do municpio D R$ 109,76, igual ao desvio-padro do municpio C, porm proporcionalmente a disperso dos valores dos salrios em torno da mdia no municpio D menor. Neste caso, interessante utilizar outra medida de disperso coeficiente de variao para comparar a disperso dos dados entre os municpios C e D, como veremos adiante. Com esse exemplo percebemos que importante apresentar uma medida de posio para representar o centro de um conjunto de dados e uma medida de disperso para representar a disposio dos valores em torno do valor central. Desta forma, existem dois grupos de medidas descritivas para tratar dados de variveis quantitativas: medidas de posio e medidas de disperso, como apresentaremos nesta unidade.
41
Inicialme nte precisamos entender a notao (forma de representao) para representar as variveis: X, Y, Z (letras maisculas) e para representar os valores das variveis: xi , y i , zi (respectivas letras minsculas). O operador somatrio
x1 + x 2 + x3 + x 4 + x5 + x6 + x 7 = xi
i =1
No lado esquerdo da igualdade temos o somatrio por extenso que pode ser representado pela notao do lado direito. Supomos que a varivel que estamos analisando o salrio dos habitantes do municpio A, utilizando a letra X para representar a varivel salrio e x1 para representar o salrio do primeiro habitante, x2 para representar o salrio do segundo habitante e, assim por diante, at o x 7 que representa o salrio do stimo habitante. Utilizamos a notao de somatrio para re presentar de form a resumida a soma dos salrios dos 7 habitantes, isto , ini ciando em i = 1 at i = 7 .
42
x=
Em que:
x
i =1
xi = valores da varivel X
= nmero de dados
Exemplo: vamos calcular a mdia aritmtica para o salrio dos habitantes do municpio A:
5
x=
x
i =1
Para calcular a mdia aritmtica do conjunto de dados do exemplo somamos todos os valores e dividimos por 7, pois temos 7 valores ( n = 7) correspondendo aos salrios dos 7 habitantes do municpio.
xp =
Em que:
x p
i =1 n i
p
i =1
xi = valores da varivel X
= nmero de dados
43
O peso atribudo pelo pesquisador, de acordo com a contribuio que desejamos que cada valor tenha na mdia final. A diferena entre a mdia aritmtica e a mdia ponderada que na primeira todos os valores contribuem da mesma forma para a mdia final e na mdia ponderada atribumos pesos diferentes que contribuem para a mdia final.
Exemplo: considere um aluno de Estatstica que obteve 9, 6 e 3 nas trs avaliaes do bimestre, lembrando que cada avaliao tem pontuao mxima de 10 pontos. O peso de cada avaliao 2, 3 e 5 respectivamente, pois desejamos que a ltima avaliao contribua com 5 (50%) da nota final do bimestre. Calcule a mdia ponderada.
xp =
x p
i =1 3 i =1 i
(9 2) + (6 3) + (3 5) = 5,1 2 +3+5
Interpretao da mdia ponder ada: a mdia ponderada das avaliaes do bimestre para o aluno 5,1 pontos.
xp =
x p
i =1 3 i
p
i =1
(3 2) + (6 3) + (9 5) = 6,9 2 + 3+ 5
Neste caso, observamos que a m dia ponderada maior, pois o aluno obteve a nota mais alta na avaliao que contribui com mais peso para a nota mdia final.
4.1.3 MEDIANA
A mediana o valor central em relao a um valor mnimo e um valor mxim o, precedido e seguido de um mesmo nmero de dados, isto , 50% dos dados assum em valores iguais ou menores que o valor da mediana e os outros 50% dos dados assume m valores iguais ou maiores que o valor da mediana, representada por Md.
44
50%
50%
Li
Md
Ls
Em que:
Li = limite inferior, o menor valor dos dados Ls = limite superior, o maior valor dos dados Md = mediana
P( Md ) =
n +1 2
3. Encontrar o valor localizado nesta posio, que corresponder mediana, considerando que:
se o n par a mediana a mdia dos dois valores centrais do conjunto de dados ordenados.
Exemplo: calcule a mediana para o salrio dos habitantes do municpio A: R$ 780,00, R$ 1.200,00, R$ 550,00, R$ 600,00, R$ 1.500,00, R$ 750,00, R$ 980,00 (nmero de dados mpar).
1. Ordenar: 550, 600, 750, 780, 980, 1.200, 1.500 2. Calcular: P(Md ) =
Interpretao da mediana: podemos dizer que 50% dos habitantes no municpio A tm um salrio no mximo igual a R$ 780,00 e os outros 50% recebem no mnimo R$ 780,00.
Se o nm er o d e d ad os par , por e xem plo: R$ 780,00, R$ 1.200,00, R$ 550,00, R$ 600,00, R$ 1.500,00, R$ 750,00, R$ 980,00, R$ 950,00.
1. Ordenar: 550, 600, 750, 780, 950, 980, 1.200, 1.500 2. Calcular: P( Md ) =
n +1 8 +1 9 = = = 4,5 , isto , a mediana o valor que est entre a quarta 2 2 2 posio e a quinta posio, neste exemplo entre 780 e 950. Desta forma a mediana ser
calculada pela mdia aritmtica destes dois valores como:
A mediana tem a vantagem de no ser afetada por valores outliers. Por exemplo: supomos que os habitantes do municpio E recebem os mesmos salrios que os habitantes do municpio A, com diferena em apenas um salrio: no municpio A = R$ 1.500,00 e no municpio E = R$ 4.500,00. As medidas para os dois munic pios so:
Municpio A E
Observamos que a diferena ocorre somente na mdia, pois esta foi afetada pelo alto valor (outlier) de um salrio no municpio E, mas a mediana no diferiu entre os dois municpios, pois para calcul-la somente consideramos a posio dos valores e no a magnitude dos valores. Assim, optamos pela mediana quando temos valor outlier, pois esta ir representar melhor o centro do conjunto de dados do que a mdia, como podemos observar nas figuras a seguir:
46
Municpio A
500
1000
1500
2000
2500
3000
3500
4000
4500
Municpio E
500
1000
1500
2000
2500
3000
3500
4000
4500
4.1.4 MODA
o valor que mais aparece no conjunto de dados, isto , utilizamos para representar o valor t pi co d e um conjunt o d e d ad os . r e pre s entad a p or Mo. U ti li zam os mai s freqentemente em variveis quantitativas discretas. Exemplos: 1) Calcular a moda para os salrios dos habitantes do municpio A: R$ 780,00, R$ 1.200,00, R$ 550,00, R$ 600,00, R$ 1.500,00, R$ 750,00, R$ 980,00. Moda = no existe, pois nenhum valor se repete. 2) Calcular a moda para os salrios dos habitantes do municpio F: R$ 780,00, R$ 1.200,00, R$ 550,00, R$ 780,00, R$ 1.500,00, R$ 750,00, R$ 980,00. Moda = 780, pois o valor que mais se repete. 3) Calcular a moda para os salrios dos habit antes do municpio G: R$ 780,00, R$ 1.200,00, R$ 550,00, R$ 780,00, R$ 1.200,00, R$ 750,00, R$ 980,00. Moda = 780,00 e 1.200,00, pois so os valores que mais se repetem.
47
4) Calcular a moda para os salrios dos habit antes do municpio G: R$ 780,00, R$ 1.200,00, R$ 550,00, R$ 780,00, R$ 1.200,00, R$ 750,00, R$ 780,00. Moda = 780, pois o valor que mais se repete.
4.2.1 VARINCIA
a mdia dos desvios quadrticos de cada valor em relao mdia. A varincia amostral dada por:
n
S2 =
ou
n
(x
i =1
x )2
n 1
( xi )
i =1 n 2
S2 =
Em que:
x
i =1
2 i
n 1
x i = valores de varivel x
n = nmero de dados
x = mdia aritmtica
n-1 no denominador quando n< 30 e n no denominador quando n 30.
48
Utilizaremos como exemplo os salrios dos habitantes do municpio A (R$ 780,00, R$ 1.200,00, R$ 550,00, R$ 600,00, R$ 1.500,00, R$ 750,00, R$ 980,00) para entendermos o clculo da varincia com a primeira frmula anteriormente apresentada. Lembrando que
(x
S2 =
i =1
= 7 1 (780 908,57) 2 + (1200 908,57) 2 + ( 550 908,57 ) 2 + ( 600 908,57) 2 + (1500 908,57) 2 + (750 908,57) 2 + (980 908,57) 2 =
x) 2
Como a diferena ( x i x ) elevada ao quadrado, o resultado tambm ser quadrtico, dificultando a utilizao dessa medida para representar a disperso dos dados. Assim, utilizamos o desvio-padro, visualizado a seguir:
4.2.2 DESVIO-PADRO
a raiz quadrada da varincia.
S = S2
Para o exemplo: S = 117547,61 = 342,85 . Interpretamos que a mdia do conjunto de dados R$ 908,57 com um desvio-padro para baixo e para cima de R$ 342,85, isto , aproximadamente 68% dos dados esto entre a mdia e um desvio padro para baixo (mdia 1 desvio padro) e a mdia e um desviopadro para cima (mdia + 1 desvio padro).
Assim, utilizamos o desvio-padro acompanhando a mdia, pois esta fornece um valor central e o desvio-padro a disperso em t orno desse valor central.
49
CV =
S 100 x
CV =
De forma geral, dizemos que o conjunto de dados homogneo em torno da mdia quando o coeficiente de variao menor que 30% (CV 30%) e dizemos que o conjunto de dados heterogneo em torno da mdia quando o coeficiente de variao maior ou igual a 30% (CV 30%). Em reas especficas, este ponto de corte pode diferir. .
Interpretao do coeficiente de variao: tem-se uma variabilidade mdia de 37,7% para mais e para menos do salrio mdio dos habitantes do municpio A.
Agora, vamos comparar a disperso dos valores dos salrios entre os municpios C e D:
Municpio
Mdia
Desviopadro
C D
R$ 908,57 R$ 1.908,57
R$ 109,76 R$ 109,76
Observamos que o desvio-padro dos dois municpios igual, porm a disperso em torno da mdia diferente entre os dois municpios, como percebemos pelo coeficiente de variao. No municpio A igual a 12,08% e no municpio B igual a 5,75%, pois neste ltimo a mdia bem maior e ento o desvio-padro em percentual representa bem menos.
50
Salienta-se a importncia de apresentar a unidade de medida nos resultados das medidas estatsticas, isto , se estamos analisando o salrio dos habitantes de um municpio, colocamos sempre a unidade de medida do salrio, que no exemplo exposto foi R$. Se estamos trabalhando com a idade dos habitantes de um municpio, colocamos sempre a unidade de medida da idade, por exemplo, anos ou meses. Para concluir esta unidade vamos exercitar o clculo das medidas descritivas utilizando a nota geral da pesquisa de satisfao na empresa Costa apresentada no final da Unidade 2. Banco (planilha) de dados da pesquisa de satisfao na empresa Costa
Cliente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Sexo F F F M F F F F M F M F F F F M F F F M F M M Satisfao com atendimento MS S ++S S ++S I S S MI S S MS S S S I +S MS Satisfao com preo MS ++S S MS +S I I S +++I S +S S +S S S Nota geral 10 7 6 7 8 9 7 7 5 5 8 8 9 9 7 10 8 8 9 7 7 8 9
Idade 22 26 32 35 23 27 22 37 41 40 35 35 37 22 21 19 40 51 55 45 46 33 34
F = feminino, M = masculino, MS = Muito satisfeito, S = satisfeito,+ = mais ou menos satisfeito, I = insatisfeito, MI = muito insatisfeito.
Mdia aritmtica:
x=
10 + 7 + 6 + 7 + 8 + 9 + 7 + 7 + 5 + 5 + 8 + 8 + 9 + 9 + 7 + 10 + 8 + 8 + 9 + 7 + 7 + 8 + 9 23
178 = 7,74 23
51
Mediana: 1. Ordenar: 5, 5, 6, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 10, 10 2. Calcular a posio da mediana: P( Md ) = 12 posio dos dados ordenados. 3. O valor que est na 12 posio 8, ento a me diana = 8.
Moda: o valor que mais se repete o nmero 7, portanto Moda =7. Varincia:
Interpretao dos resultados: a nota geral mdia dada pelos clientes da empresa Costa 7,74 pontos com desvio-padro de 1,3557 pontos para mais e para menos da mdia. O conjunto de dados homogneo em torno da mdia, uma vez que o CV menor que 30%. Metade (50%) dos clientes forneceu uma nota no mximo igual a 8 pontos, dado que a mediana 8. A nota que mais se repetiu entre os clientes foi 7 pontos, j que a moda 7.
SNTESE DA UNIDADE 4
Nesta unidade vimos como calcular medidas descritivas para variveis quantitativas. As medidas descritivas so muito importantes para descrever os dados, fornecendo informaes que podem auxiliar no acompanhamento de indicadores socioeconmicos ao longo dos anos num municpio ou numa organizao, auxiliando na administrao e na tomada de deciso. Na prxima unidade veremos como obter essas medidas no Excel.
52
Unidade 5
Agora que j conhecemos os conceitos tericos, vamos aplicar este s conhecimentos na prtica, utilizando para isso uma planilha eletrnica. Neste componente curricular vamos usar como referncia o software Microsoft Excel nas verses 2003 e 2007.
O MS Excel um aplicativo do tipo Planilha Eletrnica, ou seja, um software apropriado para a edio de documentos com caractersticas numricas. Usando uma planilha eletrnica podemos manipular com facilidade a edio de tabelas, efetuar clculos, operaes estatsticas e a gerao de grficos. De forma geral permite armazenar dados e produzir informaes a partir destes.
Os arquivos que normalmente produzimos com o Excel so do tipo Pasta de Trabalho, e possuem a extenso .xls ou .xlsx., respectivamente para MS Excel verso 2003 e verso 2007. A te la inicial do Excel apresentada na Figura 1.
Uma planilha um conjunto de linhas e colunas, como uma grade. No Excel, as colunas so identificadas por letras em ordem alfabtica, e as linhas por nmeros em ordem crescente. Uma clula a menor unidade de trabalho do Excel, identificada pelo cruzamento de uma linha e uma coluna.
Cada clula tem um endereo prprio, formado pela combinao da letra da coluna com o nmero da linha. Por exemplo, a clula D8 localiza-se no cruzamento da coluna D com a linha 8. Para selecionar uma clula, colocando-a em foco, utiliza-se o cursor, que na planilha aparece como um ponteiro semelhante a uma cruz. Basta clicar na clula desejada. Um inter valo de clulas a representao de uma faixa ou conjunto de clulas. Pode ser selecionado clicando com o cursor sobre um dos cantos do i ntervalo e arrastando at o canto oposto, formando um retngulo. Pode tambm ser apenas uma coluna ou linha. Para selecionar uma coluna inteira deve-se clicar na respectiva let ra, no cabealho da coluna. Para seleci onar um a linha inte ira deve -se cli car no nme ro identif icador da linha. O inter valo ide ntificado por suas coorde nadas, sendo que o pri meiro e lem ento das coordenadas o endereo da clula superior e squerda, e o se gundo e le ment o das coor54
denadas o ende reo da clula infer ior direi ta do intervalo. Os dois e le me ntos so separados por doi s pont os ( : ). Por exemplo, o i ntervalo C4:E5 compre ende as clulas C4, C5, D4, D5, E4 e E5.
55
a opo Suplementos e ento, na lista de suplementos de aplicativos inativos, a opo Ferramentas de Anlise. Aps clique no boto ir . Ento aparecer a janela da Figura 1 (dire ita). Nesta marque Ferramentas de Anlise e clique no boto ok. De agora em diante, sempre que voc desejar utilizar o comando anlise de dados, este estar disponvel no me nu Dados.
Figura 3: Instalao das Ferramentas de Anlise no Excel 2003 (esquerda) e no Excel 2007 (direita)
56
Nesta janela voc clica na opo Estatstica descritiva. Aps, aparecer a janela da Figura 5. Voc deve ento seguir os passos:
selecione os dados da coluna que voc deseja analisar, por exemplo, coluna E, que se refere varivel idade;
marque a opo rtulos na primeira linha, pois foi selecionado junto com os valores o nome (rtulo) da varivel;
marque nova planilha, assim o resultado do comando ir aparecer numa nova planilha da pasta de trabalho;
Para calcular o coeficiente de variao deve-se incluir uma frmula da seguinte maneira:
digite =;
58
clique no valor do desvio-padro; digite /; clique no valor da mdia; digite *; digite 100; tecle enter.
Neste exemplo o valor do coeficiente de variao 29,59%. Interpretao dos resultados: A idade mdia dos indivduos pesquisados de 33,83 anos, com desvio-padro de 10 anos. Dos 23 indivduos avaliados, 50% deles tm idade at 35 anos e os outros 50% dos indivduos tm idade igual ou mai or a 35 anos. A me nor idade desta amostra 19 anos e a maior 55 anos. Tem-se um conjunto de dados homogneos, dado que o coeficiente de variao assume valor menor que 30%.
Seo 5.4 Tabelas Simples Para as Variveis Qualitativas e Para as Variveis Quantitativas com Pouca Variabilidade
Para elaborar uma tabela simples a partir de um banco de dados utilize o comando relatrio de tabela dinmica, sendo este disponibilizado difere ntemente no Excel 2003 e no Excel 2007. No Excel 2003: Escolha a opo Relatrio de tabela e grfico dinmico no menu Dados, sendo apresentada a tela da Figura 7.
59
A opo de tabela dinmica j est marcada. Caso deseje um grfico, voc deve selecionar a segunda opo, conforme Figura 7.
Caso o banco de dados (informaes j digitadas na planilha) no esteja selecionado, selecione com o mouse. Novamente clique no boto avanar e na janela da Figura 9, clique no boto layout .
60
Neste momento voc escolhe o modo de apresentao da tabela (layout), apresentada na Figura 10. Para escolher o local de apresentao das categorias da varivel, voc deve arrastar o boto referente varivel apresentado direita da tela at o corpo da tabela sobre LINHA. De pois, arraste novamente o boto da varivel para o centro do corpo da tabela para calcular freqncia absoluta (n), ou seja, contar as categorias. Deve aparecer no boto: Contar de nome_da_varivel. Caso isso no ocorra, clique duplo sobre o boto e escolha a opo ContNm.
Para calcular a freqncia relativa percentual, voc deve novamente arrastar o boto da varivel at o centro do corpo da tabela e clicar duplo sobre o boto, sendo apresentada a tela da Figura 11. Clique em Opes e no campo Mostrar dados como, selecione a opo % do total e clique no boto ok.
61
Clique no boto ok e no boto concluir e ento aparecer a tabela simples dinmica da Figura 12.
Para formatar a tabela clique no boto For matar Relatrio na barra de ferramentas do relatrio e escolher o Relatrio 7. No cabealh o da tabela substitumos contar-de-sexo1 por n e contar-de -sexo2 por %, assim obte mos a tabela 1 (Figura 18). No Excel 2007: Clique no menu Inserir e na opo Tabela dinmica e aparecer a janela da Figura 13. Se o banco de dados (informaes j digitadas na planilha) no estiver selecionado voc deve selecion-lo com o mouse e aps clicar no boto ok.
62
63
Marque a varivel de interesse no menu direita, neste exemplo marque a varivel sexo
estiver aparece ndo clique com o mouse sobre o primeiro boto e escolha a opo configuraes do campo valor. Aparecer a janela da Figura 15.
Na janela da 15, marque a opo ContNm e clique no boto ok, assim aparecer o valor absoluto na tabela simples (segunda coluna). Clique sobre o segundo boto e escolha a opo configuraes do cam po valor.
64
Marque a opo ContNm e clique na ficha mostrar valores como e escolha a opo % do total, conforme 16. Assim aparecer o valor relativo percentual na tabela simples (terceira coluna). A tabela para este exemplo est apresentada na Figura 17.
No cabealho da tabela substitumos contar de sexo por n e contar de sexo 2 por %, assim obtm-se a tabela 1 (Figura 18).
65
Interpretao: 69,57% dos indivduos entrevistados so do sexo feminino e 30,43% dos indivduos entrevistados so do sexo masculino.
No Excel 2003:
Selecione mais uma varivel para o corpo da tabela conforme a Figura 19, colocandoa sobre a COLUNA. Finalizando todo o processo aparecer a tabela cruzada conforme Figura 20.
66
No Excel 2007:
67
usado para representar uma varivel aleatria. Suas categorias devem totalizar 100% e mais indicado quando o nmero de categorias so no mximo 5. Primeiramente, voc seleciona as categorias e os valores absolutos ou relativos que sero apresentados no grfico, a partir da tabela j elaborada, conforme Figura 24.
68
No Excel 2003:
na bar ra de
ferramentas ou no menu Inserir e escolha a opo Figura e ento Grfico. Neste momento aparecer a tela referente ao Assistente de Grfico, como apresentada na Figura 25. Escolha o Tipo de grfico Pizza e aparecer subtipos de grficos. Voc pode escolher um dos 6 tipos e ento clicar no boto Avanar.
A Figura 26 mostra a segunda et apa, na qual apresentada uma prvia do grfico e permite selecionar novamente os dados, se necessrio.
69
Na etapa 3 (Figura 27), clique no campo Ttulo do grfico e digite o ttulo do grfico.
70
Aps, clique na ficha Legenda para alterar o local de posio da legenda ou para excluir legenda (Figura 28).
Na ficha Rtulos de dados (Figura 29) possvel mostrar o nome das categorias e a percentagem no grfico. Aps, clique no boto Concluir.
Podemos personalizar o grfico, alterando a cor dos setores, alterando a cor do fundo, alterando o tamanho, tipo e cor da fonte.
71
Para alterar a cor dos setores, voc clica uma vez no grfico, aps clica mais uma vez no setor (fatia) cuja cor deseja alterar e aps clica duplo par a aparecer o menu de cores. Ento, selecione uma cor ou no boto Efeitos de Preenchimento para utilizar as opes gradiente ou textura. Na Figura 30 est apresentado um exemplo de grfico formatado.
Utilizamos um grfico de colunas simples ou barras simples para representar uma varivel aleatria. O procedi mento o mesmo utilizado no grfi co de setores, sendo que na etapa 3 (Figura 31) digitamos, alm do ttulo do grfico, o ttulo do eixo x (horizontal) e o ttulo do eixo y (vertical).
72
De forma similar podemos construir um grfico de barras, como o apresentado na Figura 33.
No Excel 2007:
Para construir um grfico de setores (pizza) no Excel 2007 utilize o menu Inserir e escolha grfico de pizza, conforme a Figura 34.
73
No menu do grfico de pizza escolha um tipo e o grfico ser apresentado como na Figura 35.
Clique com o mouse na rea do grfico (parte branca dentro do retngulo) e clique na opo Layout 1 no menu De sign, conforme Figura 36.
74
Voc pode clicar com o mouse sobre o Ttulo do Grfico para edit-lo e ento digitar o ttulo para o seu grfico. Tambm pode mudar o estilo do grfico clicando no menu Design e ento em Estilo (Figura 38).
75
Para elaborar um grfico de colunas o procedimento semelhante: primeiro selecione os dados na tabela (categorias e valores absolutos ou percentuais) e depois clique no menu Inserir e escolha Colunas, aparecer o grfico da Figura 39.
Voc pode clicar na rea do grfico (parte branca dentro do retngulo) e usar as opo do menu Design para alterar definies do grfico: em Layout do grfico voc pode incluir o ttulo do grfico e os valores. Clicando com o mouse no ttulo possvel editar e colocar o ttulo para o seu grfi co, conforme Fi gura 40.
76
Para o desenvolvimento de um grfico de barras o procedimento a ser seguido o mesmo descrito para o grfi co de colunas, mudando apenas a escolha do tipo de grfico no incio do procedimento.
SNTESE DA UNIDADE 5
Nesta unidade utilizamos os recursos estatsticos do Excel para tratar as informaes.
A aplicao dos mtodos estatsticos favorecida pela informtica, no que diz re r espeito speito a a hardware e software , uma vez que comumente necessitamos trabalhar com grande quantidade de dados.
Assim, o conhecimento da utilizao de um software estatstico ou um software que fornece tcnicas estatsticas essencial para alunos ou profis sionais que esto iniciando seu aprendizado em Mtodos Estatsticos.
A planilha eletrnica Excel uma boa alternativa para alunos que esto iniciando seus estudos de Mtodos Estatsticos, por ser de fcil acesso, uma vez que grande parte dos usurios domsticos e organizaes possuem o pacote Microsoft Office.
77
Referncias
79