Sei sulla pagina 1di 336

ORGANIZAO E TRATAMENTO DE DADOS

Maria Eugnia Graa Martins Joo Pedro Ponte

Junho de 2010 (revisto em dezembro de 2011)

ndice
Captulo 1 INTRODUO ..................................................................... 3 Captulo 2 ORIENTAES CURRICULARES PARA O ENSINO DA ESTATSTICA ...................................................................... 5 2.1 Introduo .............................................................................. 7 2.2 Literacia estatstica como objectivo curricular............................... 7 2.3 Pensamento estatstico e raciocnio estatstico .............................. 9 2.4 A Estatstica e a Matemtica .................................................... 10 2.5 Orientaes metodolgicas para o ensino da Estatstica ............... 11 2.5.1 Orientaes gerais ...................................................... 11 2.5.2 Tarefas e recursos ...................................................... 13 2.5.3 Organizao do trabalho dos alunos e avaliao .............. 16 Captulo 3 A INVESTIGAO ESTATSTICA. DADOS E VARIVEIS ............ 19 3.1 O que uma investigao estatstica? ....................................... 21 3.2 Recenseamento e sondagem ................................................... 22 3.3 Populao e amostra. Dados e variveis .................................... 24 Tarefa Classificao de variveis ................................. 27 3.4 Limpar os dados .................................................................. 28 Tarefa Vamos limpar estes dados ................................ 28 Tarefa No sero irmos a mais? ................................. 30 Projecto Os Censos vo s Escolas ............................... 31 Captulo 4 TABELAS E GRFICOS ........................................................ 41 4.1 Introduo .......................................................................... 43 4.2 Diagramas de Venn e de Carroll ............................................... 43 Tarefa Nmero de letras do nome................................ 44 Tarefa Figuras geomtricas......................................... 44 Tarefa Nmeros de 1 a 30 .......................................... 45 Tarefa Mltiplos de 2 e 4, at 20 ................................. 45 Tarefa Figuras e slidos ............................................. 46 Tarefa Ajudas a lavar a loia? ..................................... 46 Tarefa Preferes ma, laranja ou banana? .................... 47 4.3 Tabelas e grficos para dados qualitativos ................................. 48 4.3.1 Esquemas de contagem grfica (tally charts) .................. 48 Tarefa O ms do aniversrio ....................................... 49 4.3.2 Tabela de frequncias para dados qualitativos ................ 49 Exemplo Animal domstico preferido das turmas A e B ... 51 4.3.3 Grfico de pontos e grfico de barras para dados qualitativos ................................................................. 52 4.3.3.1 Grfico de pontos.............................................. 52 4.3.3.2 Grfico de barras .............................................. 54 Exemplo Seguro do agricultor ..................................... 55 Tarefa Prato preferido ................................................ 56 4.3.4 Pictograma ................................................................ 57 Tarefa Bolachas preferidas ......................................... 57

Exemplo Os passageiros de um navio........................... 58 Exemplo Campo de jogos ........................................... 59 Exemplo Seguro do agricultor (cont.) ........................... 61 Tarefa os animais do jardim........................................ 61 4.3.5 Grfico circular ........................................................... 63 Exemplo A piza preferida nas turmas A e B ................... 63 Tarefa Animal domstico preferido ............................... 66 Tarefa Meio de transporte utilizado ............................... 67 4.3.6 Nem sempre um grfico com barras um grfico de barras... ............................................................... 68 Exemplo Nmero de queixas recebidas num hospital, por negligncia mdica ...................................................... 71 Exemplo Quantidade de acar nos cereais para crianas 72
4.4 Tabelas e grficos para dados quantitativos discretos .............................73

4.5

4.6

4.7

4.8

4.4.1 Tabela de frequncias para dados quantitativos discretos . 73 4.4.2 Grfico de pontos e grfico de barras para dados quantitativos discretos.................................................. 74 4.4.2.1 Grfico de pontos.............................................. 74 4.4.2.2 Grfico de barras .............................................. 75 Tarefa Nmero de irmos ........................................... 76 Exemplo - Candidatos a algumas vagas .......................... 78 4.4.2.2 1 Grfico de barras para comparar dois ou. mais conjuntos de dados ........................................ 80 Tarefa Alguns dados sobre o agregado familiar .............. 80 Tarefa Cinco montinhos de feijes ............................... 82 Tabelas e grficos para dados quantitativos contnuos ................. 83 Exemplo Altura e peso dos alunos de uma escola do 1. ciclo ..................................................................... 84 4.5.1 Tabela de frequncias para dados quantitativos contnuos 87 4.5.2 Histograma ................................................................ 88 Exemplo Durao de chamadas telefnicas ................... 90 4.5.3 Grficos das frequncias relativas acumuladas ................ 91 Outras representaes grficas ................................................ 93 4.6.1 Grfico (ou diagrama) de caule-e-folhas ........................ 93 Tarefa Quantos segundos se consegue estar sem respirar94 Exemplo O tempo de sono do Pedro e do David ............. 98 Tarefa Vamos comparar as idades dos nossos pais e das nossas mes ......................................................... 99 Tarefa Qual a espcie de milho mais vantajosa? .......... 101 4.6.2 Diagrama de extremos e quartis ................................. 103 Formas frequentes de distribuio de dados............................. 105 Exemplo Salrios de trabalhadores ............................ 107 Exemplo Qual o aspecto da distribuio? .................... 108 Representaes grficas e tabelas de frequncias para dados bivariados ........................................................................ 110 4.8.1 Diagrama de disperso .............................................. 111

Tarefa Vamos comer queijo, mas no exageremos... .... 112 4.8.2 Grfico de linhas ...................................................... 113 Tarefa As vendas esto a correr bem? ........................ 114 Tarefa Registo da temperatura mxima e mnima no Porto, Lisboa, Faro, Ponta Delgada e Funchal............. 116 Captulo 5 CARACTERSTICAS AMOSTRAIS ........................................ 117 5.1 Introduo ........................................................................ 119 5.2 Medidas de localizao.......................................................... 119 5.2.1 Mdia ..................................................................... 121 Exemplo da pouca resistncia da mdia ...................... 123 Tarefa Nmero de vogais e de consoantes do nome ..... 126 Tarefa Desvios entre os dados e a mdia .................... 129 Tarefa Quais as idades dos meus filhos? Qual a minha idade? Qual a idade da minha mulher? .......................... 131 Tarefa Idade mdia dos finalistas do curso de Matemtica de 1950 ................................................................... 133 5.2.2 Mediana .................................................................. 133 Tarefa Notas no teste de Matemtica das turmas 9.A e 9.B ....................................................................... 138 Tarefa Mdia ou mediana dos salrios?....................... 140 Tarefa Nmero de cigarros fumados por dia ................ 141 5.2.3 Moda ...................................................................... 142 5.2.4 Quartis ................................................................... 145 Tarefa Notas no teste de Matemtica das turmas 9.A e 9.B (cont.) .............................................................. 146 5.2.5 Percentis ................................................................. 147 Exemplo A obesidade um problema ......................... 148 Exemplo Conversa entre me e filho .......................... 148 5.3 Medidas de variabilidade ....................................................... 149 5.3.1 Amplitude ................................................................ 149 5.3.2 Amplitude interquartil ............................................... 150 5.3.3 Outras medidas de variabilidade: O desvio mdio absoluto e o desvio padro ................................... 151 Tarefa Desvios entre os dados e a mdia (cont.).......... 151 Tarefa Temperaturas de duas cidades ........................ 156 Tarefa Vamos comparar os consumos dos carros ......... 158 Tarefa vamos comparar as notas no mesmo teste de Ingls de alunos de trs escolas diferentes .................... 158 Captulo 6 PROBABILIDADE ............................................................. 161 6.1 Introduo .......................................................................... 163 6.2 Probabilidade emprica ou experimental de um acontecimento.................................................................. 164 Exemplo Qual o animal domstico preferido?............... 170 Exemplo Qual a probabilidade ................................... 171 Tarefa A escala de probabilidade ............................... 171 Tarefa Sero os jogos justos (ou equilibrados)? ........... 174

Tarefa O que mais provvel? .................................. 175 Tarefa Qual o meio de transporte utilizado pelos alunos para irem para a escola? ............................................. 177 Tarefa Como seleccionar uma de duas pessoas, de uma forma justa ............................................................... 178 Exemplo Os dissabores da regularidade a longo termo.. 181 Tarefa O jogo ser justo? ......................................... 181 Tarefa Qual a composio do saco de berlindes? .......... 182 Tarefa Os sacos de berlindes .................................... 184 Tarefa Qual o tipo de prato que os alunos preferem? .... 185 Tarefa Qual a probabilidade do prximo condutor utilizar a Via Verde? ............................................................. 187 6.3 Seleco de uma amostra de uma populao com o objectivo de estimar uma probabilidade............................................. 188 6.3.1 Amostra aleatria simples sem reposio e com reposio .................................................................. 190 Exemplo Como seleccionar alunos de uma turma ......... 191 6.3.2 Amostra estratificada ................................................ 192 Tarefa O meio de transporte utilizado pelos alunos para irem para a escola .............................................. 192 6.3.3 Amostragem sistemtica............................................ 194 6.4 Experincia aleatria, Espao de resultados, Acontecimentos ..... 195 Exemplo Espaos de resultados ................................. 197 Exemplo Lanamento da moeda ................................ 197 Exemplo Tempo de vida ........................................... 198 Exemplo Lanamento de dois dados ........................... 199 Exemplo O saco de berlindes .................................... 203 6.4.1 Utilizao de diagramas de Venn para representar acontecimentos ......................................................... 205 Exemplo Famlia de 2 filhos ...................................... 205 Exemplo A caixa de disquetes ................................... 205 6.4.2 Utilizao de diagramas em rvore para representar acontecimento........................................................... 206 Tarefa A caixa de bombons ....................................... 208 Tarefa Quantas toiletes pode a Mariana vestir? ............ 208 Tarefa Quais os resultados que fazem com que o Pedro ganhe o jogo? .................................................. 209 6.4.3 Operaes com acontecimentos .................................. 210 Tarefa Lanamento de duas moedas de 1 euro ............ 213 Tarefa Lanamento de trs moedas de 1 euro ............. 214 6.5 Modelo de Probabilidade para um fenmeno aleatrio. Probabilidade de um acontecimento ................................................. 215 6.5.1 Probabilidade de um acontecimento ............................ 215 6.5.2 Processos de construo de modelos de probabilidade ou Como atribuir probabilidades aos acontecimentos elementares .............................................................. 217

6.5.2.1 Situao de simetria Regra de Laplace ............ 217 6.5.2.2 Probabilidade experimental ou frequencista ........ 220 Tarefa Qual o jogo preferido ..................................... 221 6.5.2.3 Probabilidade subjectiva .................................. 222 6.5.3 Exemplos de modelos de probabilidade ........................ 222 Exemplo Lanamento da moeda de um euro ............... 222 Exemplo Lanamento do dado................................... 223 Tarefa Dados especiais ............................................ 223 Tarefa A caixa de pastilhas M&M ............................... 224 Tarefa O Tipo sanguneo .......................................... 224 Exemplo - Se seleccionar, ao acaso, uma pessoa residente em Portugal, mais provvel que seja homem ou mulher? .................................................... 226 Exemplo A idade da populao residente em Portugal... 226 Tarefa Qual a cor preferida para pintar o ptio da escola? ..................................................................... 227 Tarefa A roleta de duas cores.................................... 228 Tarefa O jogo com berlindes ..................................... 228 Tarefa As duas caixas de berlindes ............................ 229 Tarefa Quantos lanamentos so necessrios?............. 229 Tarefa A caixa com drageias de chocolate ................... 232 Tarefa O jogo de andebol ......................................... 233 Tarefa Escolhe ao acaso uma letra do alfabeto ............ 233 Tarefa Escolhe ao acaso uma letra da palavra palavra 233 Tarefa Ser que o Pedro vai comer a sua fruta preferida? ................................................................. 234 Tarefa A caixa de disquetes ...................................... 235 Tarefa Lanamento de um dado equilibrado ................ 235 Tarefa Uma escolha difcil entre 5 candidatos! ............. 236 Tarefa Um jogo desequilibrado! ................................. 238 Tarefa Lanamento de dois dados. Ser que o jogo justo? .................................................................... 238 Tarefa Ainda o lanamento de dois dados ................... 241 Tarefa O lanamento de duas moedas ........................ 242 Tarefa - Quem consegue dar primeiro a volta ao quadrado? ................................................................ 243 Tarefa Quem que ganha o jogo? ............................. 245 Tarefa Moedas no equilibradas ................................ 249 Tarefa Vamos estimar a rea do crculo com raio 0,5 unidades .................................................................. 250 Tarefa Vamos estimar o valor de ............................. 251 Tarefa Estimar a rea de figuras................................ 251 Tarefa Uma chuva de meteoritos! .............................. 252 Tarefa especial Vamos construir alguns dos nossos materiais para fazer experincias ................................. 253 Captulo 7 SIMULAO .................................................................... 255

Introduo ........................................................................ 257 Nmeros aleatrios e nmeros pseudo-aleatrios ..................... 257 Simular o lanamento de uma moeda ..................................... 260 Clculo da probabilidade de acontecimentos por simulao ........ 263 Tarefa Calcular a probabilidade de sair 2 faces Euro, em 2 lanamentos de uma moeda de um euro, equilibrada ... 263 Tarefa Qual a probabilidade de numa famlia de quatro filhos, todos serem rapazes? ............................. 265 Tarefa Qual a probabilidade de numa famlia haver um casalinho, mas com trs filhos no mximo! ........... 268 Tarefa Estimar as probabilidades dos resultados da soma das pintas das faces viradas para cima, quando se lanam dois dados ................................................. 270 Tarefa O jogo justo? ............................................. 272 Tarefa Vamos a uma aposta? .................................... 275 Tarefa Qual a probabilidade de no lanamento de uma moeda, se verificarem pelo menos 3 faces Euro seguidas? 276 Tarefa Quem que recebe mais comida? .................... 277 Tarefa Qual ser a probabilidade de cada amigo ficar com o seu chapu-de-chuva? ...................................... 280 Tarefa Qual a probabilidade de passar no exame? ........ 285 Tarefa proposta Pequena sondagem sobre o tipo sanguneo ................................................................. 286 Tarefas ........................................................................ 289 Bibliografia ........................................................................ 325

7.1 7.2 7.3 7.4

1 Introduo
Neste captulo fazemos uma breve introduo aos objectivos da presente brochura.

Organizao e tratamento de dados

Organizao e tratamento de dados

1. Introduo
Todos os dias nos deparamos com informao estatstica sobre reas to diversas como a economia, a educao, o desporto, a medicina ou a poltica. A nossa vida em larga medida governada por dados que, conscientemente ou no, utilizamos na tomada de decises. Sendo a Estatstica a cincia que trata dos dados, ela deve fazer parte da educao dos alunos desde os nveis de escolaridade mais elementares, para que estes possam vir a ser cidados informados, consumidores inteligentes e profissionais competentes. Estreitamente relacionada com a Estatstica surge a Teoria da Probabilidade, teoria que serve de base quantificao da incerteza uma caracterstica sempre presente na nossa vida de todos os dias. A preocupao com a compreenso dos aspectos elementares da Estatstica e da Probabilidade tem vindo a reflectir-se no currculo escolar dos mais diversos pases. Em Portugal, isso acontece desde h vrias dcadas. O novo Programa de Matemtica do Ensino Bsico inclui o tema Organizao e tratamento de dados nos trs ciclos, numa perspectiva de valorizao da literacia estatstica e do processo de investigao estatstica, aspectos em que vai bastante alm do programa anterior. Reconhecendo o papel do tema no desenvolvimento social e pessoal do aluno, o programa refere que este deve adquirir, ao longo da escolaridade, conhecimento de conceitos e representaes de modo a compreender e ser capaz de produzir informao estatstica e de a utilizar para resolver problemas e tomar decises informadas. O programa aponta, tambm, para o desenvolvimento da compreenso da noo de probabilidade, tanto no seu aspecto terico, como experimental. Note-se que, para alm dos objectivos gerais de aprendizagem da Organizao e tratamento de dados, o trabalho neste tema visa igualmente as finalidades e os objectivos gerais de aprendizagem da disciplina de Matemtica no seu todo, articulando-se com os outros temas do programa e com as capacidades transversais Resoluo de problemas, Raciocnio e Comunicao. A presente brochura desenvolve as orientaes metodolgicas respeitantes ao tema Organizao e tratamento de dados, e discute aspectos fundamentais dos conceitos trabalhados no ensino bsico, sugerindo tarefas a propor aos alunos e indicando como podem ser concretizadas na aula. Num ou noutro ponto, vai-se alm do programa, abordando assuntos de interesse para a formao do professor. Deste modo, o prximo captulo analisa o que se entende por literacia estatstica e pensamento estatstico, realando a sua importncia no exerccio da cidadania, e apresenta as orientaes metodolgicas para o ensino da Estatstica. O captulo 3 indica como se desenvolve uma investigao estatstica e discute os conceitos fundamentais de dados e variveis. De seguida, o captulo 4 trata da representao de dados em tabelas e grficos, um processo fundamental na realizao de qualquer estudo estatstico. No captulo 5 surgem as medidas de localizao e de disperso, que permitem caracterizar de forma abreviada aspectos importantes de um certo conjunto de dados. No captulo 6, apresentamos uma abordagem dos conceitos fundamentais relativos probabilidade indicados no programa. Finalmente, o captulo 7, mostra como os meios computacionais podem ser usados para simular o comportamento dos fenmenos aleatrios.

Organizao e tratamento de dados

Organizao e tratamento de dados

2 Orientaes curriculares para o ensino da Estatstica


A Estatstica pode ser considerada a cincia dos dados, Analisamos aqui o que se entende por literacia estatstica, realando o facto de que um cidado que a possui Estatstica, dando especial ateno s tarefas, recursos e modo de trabalho dos alunos.
um cidado melhor informado, podendo assim participar mais conscientemente na vida social. De seguida, apresentamos as orientaes metodolgicas gerais para o ensino da

Organizao e tratamento de dados

Organizao e tratamento de dados

2.1 Introduo
Neste captulo comeamos por analisar o que se entende, hoje em dia, por literacia estatstica, bem como por pensamento estatstico e raciocnio estatstico. De seguida, apresentamos as principais orientaes metodolgicas para o ensino da estatstica, com especial ateno s tarefas e recursos, organizao do trabalho dos alunos e avaliao.

2.2 Literacia estatstica como objectivo curricular


O objectivo do ensino da Estatstica, a nvel elementar, , antes de mais, promover a literacia estatstica, ensinando os alunos a ler e interpretar dados. Tal como foi importante para os nossos avs aprenderem a ler e contar, hoje em dia, a educao para a cidadania inclui saber ler e interpretar os nmeros e grficos com que nos deparamos no dia-a-dia. Quantas mes (e pais...) no ficam perplexas ao ouvirem o pediatra do seu filho dizer que a cabea da criana est no percentil 25%, a altura no 50%, etc.? E quantos no gostariam que todos estes nmeros rondassem os 100%, sem se aperceberem que estariam a desejar o indesejvel? Na linha do que sugere Lyn Arthur Steen 1 , podemos dizer que a literacia estatstica consiste num conjunto de conhecimentos, convices, predisposies, hbitos mentais, capacidades de comunicao e habilidades que as pessoas precisam para lidar de maneira eficaz com situaes envolvendo dados de natureza quantitativa e qualitativa que surgem na sua vida e na sua actividade profissional. O progressivo desenvolvimento da Estatstica e a crescente necessidade de conhecimentos estatsticos para enfrentar situaes do quotidiano conduziram a uma preocupao crescente com a literacia estatstica, semelhana do que aconteceu, inicialmente, com a literacia matemtica, exigida por uma quantificao cada vez mais acentuada de muitos aspectos da sociedade. A literacia estatstica deve permitir a cada um de ns resolver com segurana muitos problemas que nos dizem directamente respeito ou que nos so frequentemente apresentados pelos meios de comunicao social e cuja resoluo apela a conhecimentos e pensamento estatsticos. Interpretar tabelas e grficos, entender disputas salariais, ndices de preos, oscilaes bolsistas, taxas de desemprego, taxas relativas evoluo de doenas, mecanismos e resultados eleitorais e de sondagens, comparar a qualidade e os custos de bens ou servios so apenas alguns exemplos. Richard Sheaffer 2 considera mesmo que esta nova literacia constitui um dos objectivos principais da educao ao nvel elementar. Na sua perspectiva, trata-se de um objectivo que ultrapassa a prpria disciplina de Matemtica, devendo ser igualmente assumido por outras disciplinas. A produo intensiva de informao um fenmeno que se tem vindo a intensificar desde as ltimas dcadas do sculo XX, provocado pelo desenvolvimento dos computadores e pela sua utilizao crescente na sociedade. Os clculos e grficos automticos tornaram-se fundamentais na prtica da Estatstica e na sua utilizao em todas as esferas vida social. Esta transformao rpida responsvel pelo aparecimento do conceito de literacia estatstica, correspondendo necessidade do

Ver Steen, 2001. Sheaffer, 2001

Organizao e tratamento de dados

homem moderno se adaptar s novas condies de vida, compreendendo e usando com eficcia a informao que lhe chega diariamente. Muitos dos utilizadores actuais de Estatstica trabalham com diversos tipos de softare especialmente concebidos para fazer anlise estatstica de dados. Um dos programas mais conhecidos o SPSS (Statistical Package for the Social Sciences), largamente usado na investigao em Psicologia, Sociologia e Educao, que permite calcular as medidas de estatstica descritiva e fazer todo o tipo de anlises estatsticas inferenciais. Outra famlia de programas muito usados, principalmente na gesto de empresas, o SAS (Statistical Analysis System), que permite estudar as questes estratgicas das organizaes como o controlo de custos, o aumento de proveitos e a eficincia e transparncia financeiras. Um dos desenvolvimentos mais recentes deste software, o JMP 7 apresenta grficos para explorar, compreender e visualizar interactivamente os dados, sendo especialmente apropriado para quem quer visualizar as relaes e identificar dados com informao potencialmente duvidosa (outliers). Em muitas empresas e instituies utiliza-se a folha de clculo Excel para a realizao do tratamento estatstico de dados. Embora a folha de clculo no tenha sido originalmente concebida para isso, a verdade que ela permite calcular medidas estatsticas e representar dados em grficos de vrios tipos, alguns visualmente bastante apelativos. Para a maior parte dos estudos estatsticos simples o Excel serve perfeitamente e, por isso, nesta brochura recorremos a este programa para a realizao de diversas tarefas. Na verdade, a tecnologia pode ser muito til para o ensino e aprendizagem dos conceitos estatsticos. Por exemplo, se pretendermos analisar a fraca resistncia da mdia, isto , o facto desta ser muito influenciada por alguns dados, mesmo em pequena quantidade, mas de grandeza muito diferente dos restantes, facilmente fazemos essa experincia numa folha de clculo. Um processo de grande utilidade, igualmente ligado tecnologia, a simulao, que pode ser utilizada, nomeadamente, para a visualizao dos conceitos estatsticos e para uma melhor compreenso da variabilidade, ideia chave em Estatstica. Foi, alis, o desenvolvimento destes meios tecnolgicos que fez com que surgisse uma nova forma de ensinar Estatstica, centrando a ateno nos conceitos e no na forma de os calcular. A preocupao com o ensino da Estatstica a nvel bsico e secundrio conheceu um momento importante, nos anos 80, quando a American Statistical Association (ASA), em cooperao com o National Council of Teachers of Mathematics (NCTM), desenvolveram o projecto Quantitative Literacy tendo em vista introduzir nos programas mais anlise de dados e Estatstica elementar. Os proponentes do projecto escolheram o termo literacia quantitativa em parte porque antecipavam alguma ansiedade relativamente ao termo Estatstica. Segundo indica Steen (2001), literacia quantitativa (ou numeracia, como tambm referida), no deve ser entendida como Estatstica nem to pouco como Matemtica:
Literacia quantitativa mais uma maneira de estar, uma maneira de abordar os problemas que emprega e enaltece tanto a Estatstica como a Matemtica. Ao contrrio da Estatstica, que se centra fundamentalmente na incerteza, a numeracia frequentemente acerca da lgica da certeza. Ao contrrio da Matemtica, que trata fundamentalmente com o reino platnico de estruturas abstractas, a numeracia est frequentemente ancorada em dados derivados e relacionados com o mundo emprico. () Um desafio tpico de numeracia envolve dados reais e processos incertos, mas requer Matemtica elementar. Em contraste, um problema tpico de Matemtica envolve nmeros e proces-

Organizao e tratamento de dados

sos directos, mas requer sofisticados conceitos abstractos. O teste da numeracia, assim como para qualquer literacia, consiste em verificar se uma pessoa usa, naturalmente, prticas apropriadas em muitos contextos diferentes. (...) Para ser til para o aluno, a numeracia deve ser aprendida e usada em mltiplos contextos em Histria e Geografia, em Economia e Biologia, em Agricultura e Culinria. Numeracia no um entre muitos assuntos, mas uma parte integrante de todos os assuntos (Steen, 2001-The Quantitative Literacy Design Team, p. 5).

Um aspecto fundamental na literacia estatstica a capacidade de compreender e usar o pensamento estatstico e o raciocnio estatstico, pelo que se impe uma discusso destes conceitos.

2.3 Pensamento estatstico e raciocnio estatstico


Fala-se muitas vezes indistintamente de literacia estatstica, pensamento estatstico e raciocnio estatstico. A este respeito, Beth Chance (2002), diz:
Poucos [autores] do uma definio formal do que se entende por pensamento estatstico. Muitos utilizam indiferentemente os termos pensamento, raciocnio e literacia como um esforo para a compreenso dos conceitos estatsticos para que a sua utilizao no seja meramente uma manipulao de frmulas, como tem sido demasiadas vezes utilizada e ensinada. (p. 2)

Na verdade, o ensino da Estatstica a nvel pr-universitrio comeou por dar especial ateno ao raciocnio estatstico, isto , aos modos de raciocinar e resolver problemas prprios da Estatstica, enfatizando tcnicas, representaes e processos de inferncia. Posteriormente, percebeu-se a necessidade de atender natureza dos dados estatsticos, valorizando de modo determinante o papel do contexto, pelo que se alargou a ateno a processos de pensamento mais amplos e variados. Finalmente, as consideraes sobre as finalidades do ensino da Estatstica na sociedade actual trouxeram para primeiro plano as preocupaes com a literacia estatstica. Estes trs conceitos esto estreitamente relacionados porque a literacia estatstica apoia-se no pensamento estatstico e este, por sua vez, tem como ncleo fundamental o raciocnio estatstico. Uma investigao estatstica realiza-se em diversas etapas e envolve aspectos especficos de raciocnio ou pensamento em cada uma delas. A primeira etapa consiste na formulao de questes para investigar. Neste ponto, preciso considerar se as questes so ou no apropriadas e tm ou no uma natureza estatstica, isto , envolvem ou no variabilidade nos dados. A segunda etapa evolve a recolha dos dados. preciso ento definir um plano apropriado e seleccionar tcnicas de recolha de dados. A terceira etapa refere-se anlise de dados, comeando pela escolha da representao mais adequada tendo em conta a natureza dos dados e os fins em vista. Calculam-se medidas estatsticas, de localizao, disperso e associao, por exemplo. Procura-se, deste modo, descrever a tendncia central e a variabilidade dos dados, o que pode envolver a procura de regularidades, bem como a identificao de diferenas entre os dados e entre os dados e distribuies de probabilidade conhecidas. Finalmente, a quarta etapa diz respeito interpretao dos resultados, tendo em conta a questo proposta. Neste ponto formulam-se concluses referentes aos dados, possveis generalizaes para alm dos dados e tambm possveis questes que podem servir de base a novas investigaes.

Organizao e tratamento de dados

10

Como Shaughnessy e Pfannkuck (2002), podemos considerar que a forma estatstica de pensar envolve aspectos como: Reconhecimento da necessidade de dados, de modo a poder fazer julgamentos sobre situaes reais; Realizao de certas transformaes numricas para facilitar a compreenso (representao em tabelas e grficos, clculo de medidas de localizao e disperso); Procura de causas e explicaes e previso de acontecimentos a partir da explorao da variabilidade, usando modelos estatsticos; Considerao do contexto como essencial no s para observar mas tambm interpretar as mensagens existentes nos dados.

Em resumo, podemos dizer que o raciocnio estatstico envolve um processo explcito onde se identificam factos, estabelecem relaes e fazem inferncias. O pensamento estatstico, pelo seu lado, tem um lado intuitivo, informal e implcito que suporta o nosso raciocnio. Finalmente, a literacia estatstica a capacidade que nos permite interpretar a informao, avaliar a sua credibilidade, e produzir nova informao, quando necessrio.

2.4 A Estatstica e a Matemtica


Devemos ter em ateno que a Estatstica e a Matemtica so cincias diferentes. Moore et al (1997) discutem esta diferena nos seguintes termos:
A Estatstica uma disciplina metodolgica. Ela existe no por si prpria, mas antes com o objectivo de oferecer a outros campos de estudo um conjunto de ideias coerentes e de instrumentos para tratar os dados. A necessidade de uma tal disciplina acontece devido omnipresena da variabilidade. Os indivduos variam. Medidas repetidas do mesmo indivduo variam () A Estatstica fornece-nos os meios para tratar com dados que tm em linha de conta a presena da variabilidade. O foco na variabilidade d naturalmente Estatstica um contedo que a torna diferente da prpria Matemtica e de outras Cincias Matemticas, mas no s o contedo que distingue o pensamento estatstico do matemtico. A Estatstica requer um tipo de pensamento diferente, j que os dados so mais do que nmeros, so nmeros com um contexto () Na anlise de dados o contexto fornece o significado. (p. 801)

Deste modo, enquanto que o pensamento matemtico se refere a relaes entre conceitos abstractos, o pensamento estatstico tem sempre presente o contexto que d origem aos dados, que, por sua vez, permitem (ou no) responder a certas questes. Para ilustrar esta ideia, consideremos a situao em que temos um conjunto de notas de alunos a uma determinada disciplina e calculamos a respectiva mdia e mediana. Sob o ponto de vista matemtico aplicmos duas frmulas que conduzem a dois nmeros, a mdia e a mediana. Sob o ponto de vista estatstico, temos muito mais do que isso. A comparao daqueles dois nmeros, um relativamente ao outro, permite-nos visualizar certos aspectos da estrutura dos dados, isto , o comportamento global da turma, naquela disciplina. Tambm David Vere-Jones (1995) sublinha que o raciocnio estatstico diferente do matemtico e que a educao estatstica no se pode restringir a uma viso da Estatstica como um simples ramo da Matemtica. O raciocnio matemtico um raciocnio eminentemente lgico, em que uma proposio ou verdadeira ou falsa. Em contrapartida, no raciocnio estatstico, tratamos com afirmaes em que

Organizao e tratamento de dados

11

no podemos dizer que so verdadeiras nem to pouco falsas. As situaes estatsticas envolvem incerteza, que procuramos quantificar atravs da probabilidade:

A incerteza acompanha-nos no dia-a-dia, em todas as situaes. A Estatstica muito diferente dos vrios ramos da Matemtica estudados no ensino bsico e secundrio, como a Geometria, a lgebra e a Anlise. Isso resulta do seu envolvimento directo com o estudo de outras reas como as Cincias da Sade, a Economia, as Cincias Polticas e outras cincias sociais. importante ensinar um mdico, um tcnico da indstria farmacutica, um socilogo, um psiclogo e todo aquele que faz uso da Estatstica a utiliz-la correctamente. A utilizao incorrecta desta cincia pode levar a decises erradas com consequncias negativas quer para o desenvolvimento das outras cincias quer para a vida do cidado comum. Como refere Chris Chatfield (1991), os no especialistas cometem erros estatsticos com grande frequncia. Para o evitar, preciso desenvolver a literacia estatstica. Em Estatstica, preocupamo-nos sobretudo com as medidas que se podem utilizar para reduzir a informao contida num conjunto de dados, com as representaes grficas mais convenientes para representar esses dados e com o modo de utilizar a tecnologia para calcular essas medidas e fazer essas representaes grficas, de modo a responder a questes concretas, interpretando de modo adequado toda a informao disponvel. Enquanto que na Matemtica sobressaem os aspectos lgicos, na Estatstica sobressai a pertinncia das interpretaes. importante sublinhar esta diferena entre Estatstica e Matemtica, uma vez que a Estatstica, nos nveis bsico e secundrio, est integrada na disciplina de Matemtica e ensinada por professores de Matemtica, que precisam de ter a clara percepo de que se trata de assuntos diferentes que devem ser encarados de modo diferente e, muitas vezes, ensinados de modo diferente.

2.5. Orientaes metodolgicas para o ensino da Estatstica


2.5.1 Orientaes gerais A investigao sobre o ensino e aprendizagem da Estatstica e os resultados de estudos internacionais (como o TIMSS) tm evidenciado que os alunos revelam, com frequncia, dificuldades e ideias incorrectas tanto no campo conceptual como em aspectos computacionais. Algumas destas dificuldades relacionam-se com a natureza da Estatstica, enquanto que outras derivam das estratgias de ensino utilizadas e do tipo de experincias de aprendizagem proporcionadas aos alunos. A questo central que se coloca no ensino da Estatstica tem a ver, antes de mais, com os seus objectivos. At aqui, a prtica de ensino tem valorizado sobretudo a aprendizagem da representao de dados em tabelas e grficos e do clculo de medidas estatsticas como mdias e medianas. Ora, como j referimos no ponto anterior, o objectivo central o desenvolvimento da literacia estatstica, que inclui a capacidade de ler e interpretar dados organizados na forma de tabelas e grficos e de os usar para responder s questes mais variadas. Num outro nvel, o ensino da Estatstica visa desenvolver nos alunos a capacidade de planear e executar uma investigao estatstica, bem como a capacidade de interpretar e avaliar criticamente os resultados de um estudo estatstico j realizado.

Organizao e tratamento de dados

12

O trabalho do professor tem de contemplar todos estes objectivos. Por um lado, ele tem de promover a capacidade dos alunos compreenderem e usarem conceitos e representaes estatsticas na resoluo de questes diversas incluindo conceitos como dados, varivel, populao, amostra, distribuio e medidas estatsticas e representaes como tabelas e grficos. Por outro lado, o professor tem de promover nos alunos a compreenso do que uma investigao estatstica, nas suas etapas fundamentais de formulao de questes, recolha, anlise e interpretao dos dados e habilit-los para realizar estudos deste tipo. O Programa de Matemtica assume que estes dois objectivos desenvolvem-se em paralelo e reforam-se mutuamente. A aprendizagem dos conceitos e representaes especficas essencial para a realizao de estudos estatsticos cada vez mais complexos e a compreenso do que uma investigao estatstica d sentido aos diversos conceitos e representaes. Deste modo, o programa apresenta como propsito principal de ensino, no 1. ciclo, desenvolver nos alunos a capacidade de ler e interpretar dados organizados na forma de tabelas e grficos assim como de os recolher, organizar e representar, com o fim de resolver problemas em contextos variados relacionados com o seu quotidiano. Nos ciclos seguintes este propsito inclui tambm a produo da informao estatstica e a capacidade de tomar decises informadas e apresentar argumentos a apoi-las. Nos objectivos gerais de aprendizagem dos 2. e 3. ciclos surge ainda o planeamento e a realizao de estudos envolvendo procedimentos estatsticos, com interpretao dos resultados obtidos, incluindo a avaliao intuitiva da credibilidade de argumentos por parte dos alunos. A nfase do trabalho na Estatstica colocada na anlise exploratria de dados e no envolvimento progressivo dos alunos em experincias de natureza investigativa, desde os primeiros anos de escolaridade. Ao longo dos trs ciclos, d-se realce a processos e capacidades que promovem a literacia estatstica dos alunos. Deste modo, no se pretende que os alunos, quando acabam o ensino bsico, sejam capazes de realizar estudos estatsticos sofisticados, mas sim que compreendam e saibam utilizar a linguagem bsica e as ideias fundamentais da Estatstica, desde a formulao de questes a investigar interpretao dos resultados. O GAISE College Report (2005), enuncia seis recomendaes que reflectem esta preocupao com o desenvolvimento da literacia estatstica: Salientar a literacia estatstica e desenvolver o pensamento estatstico; Utilizar dados reais; Acentuar a compreenso dos conceitos, em vez de apenas teoria e procedimentos; Fomentar uma aprendizagem activa na sala de aula; Utilizar tecnologia para desenvolver a compreenso dos conceitos e a anlise dos dados; Utilizar a avaliao para conhecer e melhorar a aprendizagem dos alunos.

So inmeros os documentos para o ensino da Estatstica que realam o facto de esta ser a cincia dos dados. Nela procura-se responder a questes de natureza muito diversa, seja de outras cincias, seja dos mais diversos campos da actividade social, atravs de uma anlise conveniente de dados e da sua interpretao. Ao compreenderem que os dados so mais do que nmeros, e ao reconhecerem a

Organizao e tratamento de dados

13

necessidade de dados para tomarem decises fundamentadas, os alunos desenvolvem o seu pensamento estatstico. A diferena entre a Estatstica e a Matemtica, j realada no ponto anterior, arrasta consigo a preocupao da parte dos educadores estatsticos sobre a nfase que se deve colocar nos conceitos e no trabalho com dados, em detrimento das frmulas e clculos. A clebre frase do poeta Antnio Machado Caminante, no hay camino, se hace camino al andar, traduz, de forma exemplar, a metodologia que deve ser seguida no ensino da Estatstica, desde o seu incio. Devem ser os alunos, sob a orientao do professor, a planear a recolha dos dados necessrios, para dar resposta s suas questes, nomeadamente sob a forma de pequenos projectos de investigao. Estes dados sero depois tratados e esse tratamento dar algumas respostas e provocar, eventualmente, novas questes. O que os alunos aprendem est relacionado com o modo como aprendem e, por consequncia, com as experincias que lhes so proporcionadas pelos professores. Assim, h dimenses no ensino que so essenciais para uma aprendizagem em profundidade e extenso, nomeadamente o tipo de tarefa e os recursos mobilizados para a sua realizao. 2.5.2 Tarefas e recursos No ensino da Estatstica h lugar para os mais diversos tipos de tarefa, incluindo investigaes, projectos, jogos, problemas e exerccios. O Programa de Matemtica sublinha que os conceitos deste tema devam ser trabalhados em todos os ciclos, a partir de problemas variados e tambm de investigaes e projectos. H tambm necessidade de propor exerccios para aprofundar e relacionar o conhecimento e a compreenso de conceitos e processos e criar rotinas de utilizao adequada de procedimentos. Os jogos tanto podem servir para a introduo de novos conceitos como para a consolidao de aprendizagens j realizadas. Uma investigao estatstica uma tarefa em que se comea por definir uma rea de interesse suscitada por uma curiosidade ou por uma necessidade muito concreta e que se desenvolve ao longo das quatro etapas j referidas no ponto 2.1.2: (i) formulao de questes e concepo de um plano de investigao, (ii) seleco das tcnicas de recolha e recolha dos dados, (iii) representao e anlise dos dados, e (iv) interpretao dos dados e formulao de concluses. Quando a investigao estatstica se reveste de complexidade significativa e se prolonga no tempo, refere-se muitas vezes que se trata de um projecto de investigao estatstica ou simplesmente de um projecto. Deste modo investigao e projecto estatstico acabam por ser dois conceitos que se sobrepem. Tambm, por vezes se fala em explorao estatstica, em especial quando j temos um conjunto de dados reunido e procuramos descobrir ao mesmo tempo que regularidades encerram e que questes podemos formular a seu respeito. Podemos dizer que um problema estatstico uma questo bem definida que se coloca numa das etapas de uma investigao estatstica, para a qual no h uma resposta imediata, e que um exerccio tambm uma questo bem definida que se coloca num dado momento do processo estatstico para a qual o aluno j conhece um processo de resoluo. Nos primeiros anos de escolaridade, o programa advoga que a aprendizagem da Estatstica tem por base actividades relativas a situaes diversificadas e dia-a-dia dos alunos, ricas em informao. Os alunos registam os dados e representam-nos

Organizao e tratamento de dados

14

em tabelas e grficos simples. A classificao e contagem de objectos so ento tarefas importantes, usando diagramas de Venn e de Carroll, que constituem formas simples de representao de dados. Assim, desde o 1. ciclo, os alunos devem envolver-se em experincias de recolha e organizao de dados qualitativos e quantitativos discretos, representando-os em tabelas de frequncias absolutas e em grficos de vrios tipos, como pictogramas e grficos de barras, identificando a sua moda. Progressivamente, o professor deve dar ateno linguagem utilizada que, sendo familiar aos alunos, deve promover o sentido de rigor, de acordo com o seu nvel de desenvolvimento. Deve procurar que os alunos clarifiquem o significado de expresses e o uso de termos menos precisos colocando questes do tipo Podes explicar de uma outra maneira? Ds-me um exemplo para perceber o que significa? Por que dizes isso? As propostas de trabalho para os alunos do 2. ciclo estendem o que j foi anteriormente feito em termos de anlise, aprofundando a interpretao dos dados. A formulao de questes e problemas com significado para os alunos quando possvel em colaborao com outras disciplinas e, de seguida, a recolha, anlise e interpretao de dados, devem estar sempre presentes. Na realizao de projectos e investigaes envolvendo dados de natureza variada, incluindo dados quantitativos discretos e contnuos, os alunos representam-nos em tabelas de frequncias absolutas e relativas, grficos de barras, circulares e de linha e diagramas de caulee-folhas. Para descrever, analisar e interpretar a informao que esses dados contm recorrem moda, mdia aritmtica, extremos e amplitude. Quando os dados no permitem responder s perguntas formuladas, o professor deve discutir as opes tomadas e incentivar os alunos a fazer nova recolha dados. Compete-lhe providenciar que os alunos trabalhem com dados relevantes e faam eles prprios a sua recolha. Assim, no s a sua familiaridade com a informao aumenta, como pode ser maior a sua motivao para construrem a sua histria, representando-a de maneiras diferentes, extraindo concluses e fazendo previses. Para alm disso, trabalhando com os seus prprios dados, os alunos aprendem muito mais facilmente o sentido de vrios conceitos estatsticos como mdia, mediana e moda. Os problemas ambientais e sociais, em especial os que se manifestam na sua regio, constituem, frequentemente, um terreno frtil para questes a investigar, possibilitando aos alunos abordar problemas que os afectam, propor solues e sentir a utilidade do seu trabalho. No 3. ciclo, os alunos podem realizar investigaes estatsticas que incluem a comparao de dois ou mais conjuntos de dados, com a identificao das suas semelhanas e diferenas. Neste ciclo alarga-se o reportrio das medidas estatsticas que passam a incluir a mediana, os quartis e a amplitude interquartil e das formas de representao de dados com os diagramas de extremos e quartis e os histogramas. neste ciclo que os alunos estudam as noes de populao e amostra, ponderando elementos que afectam a sua representatividade e realizando e discutindo predies baseadas em estudos com amostras. Assim, o professor pode propor a realizao de investigaes estatsticas baseadas em situaes reais, onde se utilizem os conceitos estatsticos estudados. Para desenvolverem essas investigaes, os alunos formulam questes, planeiam o estudo estatstico, seleccionam amostras adequadas, recolhem dados dessas amostras, representam-nos e interpretam-nos. A partir das propriedades verificadas nos dados recolhidos, espera-se que os alunos faam conjecturas e discutam a validade das concluses para a populao de onde a amostra foi seleccionada. Deve discutir-se que informao

Organizao e tratamento de dados

15

necessria para tomar uma deciso vlida ou tirar uma concluso fundamentada. Os alunos, ao terminar o ensino bsico, devem ter conscincia de que raramente se obtm toda a informao pretendida atravs de uma amostra, mesmo em condies ptimas de recolha de dados, permanecendo sempre alguma incerteza nas concluses formuladas sobre a populao. importante que tenham oportunidade de analisar em que casos adequado recorrer ao estudo de toda a populao ou apenas de uma amostra desenvolvendo tambm o seu sentido crtico relativamente ao uso de amostras mal seleccionadas. Deste modo, para alm das capacidades transversais de Resoluo de Problemas, Raciocnio e Comunicao, tambm as representaes assumem um papel fundamental em Estatstica. Lidar com dados estatsticos envolve necessariamente escolher uma forma de os representar (em tabelas, diagramas e grficos). As tabelas e as representaes grficas a usar dependem da natureza dos dados recolhidos e dos aspectos que pretendemos analisar. Assim, ao longo do ensino bsico, importante que os alunos tenham oportunidade de comparar diversos tipos de representao para a mesma situao e verificar quais so os mais apropriados. Devem ainda desenvolver uma atitude crtica relativamente utilizao de grficos enganadores. Um outro aspecto que assume grande importncia em Estatstica o das conexes. Uma das caractersticas principais das tarefas deste tema o grande interesse que pode ter a utilizao de dados reais, que muitas vezes proporcionam um envolvimento entusistico dos alunos na aprendizagem. Estes dados so recolhidos para responder a questes e no para treinar frmulas ou realizar representaes grficas. Frequentemente, originam a formulao de novas questes e a recolha de novos dados. Mas tambm h situaes em que til o uso de dados hipotticos, nomeadamente quando pretendemos explorar propriedades de alguns conceitos estatsticos. Podemos falar de conexes entre a Estatstica e diversos campos da Matemtica, como a Geometria (grficos circulares), os Nmeros e operaes (clculo de mdias e quartis), e a lgebra (tabelas, grficos de linha). E, sendo os dados estatsticos sempre referentes a algum contexto, existe margem para o estabelecimento de conexes com reas de actividade e campos do conhecimento dos mais diversos. Assim, por exemplo, os frequentes estudos de opinio levados a cabo pelos diversos canais de televiso ou as sondagens polticas podem ser analisados. As investigaes em cincia, sobre a alimentao, mudanas climticas, ou variao da natalidade fornecem tambm oportunidade para os alunos compreenderem como a natureza da amostra est relacionada com a informao a ser recolhida e os objectivos do estudo, para serem discutidos os cuidados a ter na seleco da amostra e as generalizaes que se podem fazer. Um aspecto a considerar pelo professor quando planeia trabalho a realizar so os recursos necessrios. Na aprendizagem da Estatstica os recursos fundamentais so: (i) os dados tanto quanto possvel reais e recolhidos pelos prprios alunos e os instrumentos que permitem a sua recolha; e (ii) as calculadoras e computadores que realizam clculos e todo o tipo de representaes de forma, rpida, exacta e eficaz. J referimos a importncia de usar dados reais de situaes do quotidiano, com destaque natural para dados existentes em jornais e revistas e na Internet. Por outro lado, no ensino da Estatstica a tecnologia tem um papel fundamental. A tecnologia serve no s para a realizao de clculos fastidiosos e a sua represen-

Organizao e tratamento de dados

16

tao grfica, mas tambm para visualizar os conceitos estatsticos. Por exemplo, a comparao do comportamento da mdia e da mediana, quando se modificam alguns dos dados de um certo conjunto, impraticvel sem a utilizao de calculadoras ou do computador. O programa de Matemtica no advoga, no ensino bsico, a utilizao de vrios tipos de software de Estatstica. Trata-se de produtos dispendiosos 3 que no se justificam para a concretizao dos nossos objectivos, para os quais, como j dissemos, suficiente o uso da calculadora e de uma folha de clculo como o Excel. Tambm se recomenda a utilizao de applets que permitam visualizar a representao e comportamento de alguns conceitos estatsticos. 2.5.3 Organizao do trabalho dos alunos e avaliao Seja qual for o tipo de tarefa, fundamental que o professor d indicaes claras sobre o que espera do trabalho dos alunos e os apoie na sua realizao. Em Estatstica, particularmente na realizao de investigaes e projectos, o trabalho dos alunos em grupo constitui uma forma natural de organizao. Estas tarefas tm de ser realizadas em diversas etapas, permitindo dividir responsabilidades entre os alunos. Em cada etapa, necessrio verificar se os objectivos pretendidos foram atingidos ou se necessrio fazer alguma correco. O trabalho realizado em grupo usualmente muito mais criativo, completo e estimulante do que o realizado individualmente. No entanto, para que este trabalho resulte, necessria a definio de objectivos claros, a estruturao e calendarizao das aces a realizar e verificao do seu cumprimento. Espera-se dos alunos a tomada de iniciativa e assuno de responsabilidades. O trabalho dos diversos grupos tem de ser apresentado na turma e discutido por todos. Esta forma de organizar o trabalho permite desenvolver uma dinmica em aula em que todos os alunos tm oportunidade de apresentar o seu trabalho, de o ver questionado pelos outros alunos e tambm de questionar o trabalho dos seus colegas. Este momento de discusso, para alm de contribuir para desenvolver a capacidade de comunicao dos alunos, permite-lhes muitas vezes aprofundar a compreenso dos conceitos, negociar significados e reformular raciocnios incorrectos. A discusso em grande grupo o momento privilegiado para a partilha e debate de ideias, a sistematizao dos conceitos e a institucionalizao de conhecimentos. O professor tem que garantir nestes momentos condies para uma efectiva participao e aprendizagem da generalidade dos alunos, investindo na gesto do espao e do tempo e na qualidade das intervenes. Por vezes, os trabalhos realizados pelos diversos grupos podem ser expostos fora da sala de aula, noutros locais da escola ou mesmo fora desta, apresentado o trabalho dos alunos a uma comunidade mais alargada. Na realizao de outros tipos de tarefa na sala de aula, como problemas e exerccios, podem ser mais vantajosas outras formas de organizao, por exemplo com os alunos a trabalhem individualmente ou em pares. As formas de organizao do
3 Um dos problemas mais srios suscitados pela utilizao destes tipos de software de Estatstica, a facilidade com que qualquer pessoa os utiliza, sem saber muito bem o que est a fazer. Por exemplo, se tiver um conjunto de dados qualitativos, codificados com nmeros, basta carregar num boto para obter a mdia, que neste caso no tem qualquer sentido! Analogamente, pode chegar concluso que existe uma forte correlao entre duas variveis, porque carregou num boto para o clculo da correlao, mas esqueceu-se que anteriormente deveria ter feito uma representao grfica dos dados, para se aperceber da existncia de uma associao linear entre os dados! Estes problemas sugerem a necessidade de desenvolver tambm uma literacia no uso deste tipo de programas, o que ter de ser equacionado quando eles eventualmente se tornarem mais acessveis.

Organizao e tratamento de dados

17

trabalho dos alunos devem variar, sucedendo-se as oportunidades para trabalho autnomo, interaco no seio de pequenos grupos e discusses colectivas com a moderao do professor. Finalmente, uma palavra para a avaliao. A realizao de todo o projecto ou investigao deve ter, naturalmente, uma, avaliao prpria, feita em funo da apresentao oral e escrita e, eventualmente de informao recolhida durante o desenrolar do processo. Para alm disso, as aprendizagens em Estatstica podem ser avaliadas como quaisquer outras aprendizagens, recorrendo a uma variedade de fontes de informao escrita e oral (testes, registos escritos com resposta a questes colocadas na aula, questes orais, etc.). Mais do que os aspectos computacionais, a avaliao deve insistir sobre o conhecimento e a compreenso dos conceitos estatsticos. Para que os prprios alunos tenham ideia da forma como esto a progredir na compreenso destes conceitos muito importante o feedback do professor relativamente ao seu trabalho. Isso deve ocorrer tanto a propsito da realizao de pequenas investigaes e dos respectivos relatrios como das restantes tarefas realizadas no dia-a-dia.

Organizao e tratamento de dados

18

Organizao e tratamento de dados

19

3 A investigao estatstica. Dados e variveis


Descrevemos as diversas componentes de uma investigao estatstica, realando a omnipresena da variabilidade, e discutimos diversos conceitos fundamentais, com destaque para as variveis e os dados estatsticos.

Organizao e tratamento de dados

20

Organizao e tratamento de dados

21

3.1 Introduo
usual dizer que, sob o ponto de vista estatstico, o indivduo no tem interesse e s passa a ser interessante quando faz parte de um todo! Por exemplo, a questo Qual o peso da Maria no tem interesse sob o ponto de vista estatstico. No entanto, o peso da Maria e dos colegas da turma da Maria j tem interesse estatstico, pois admitimos a existncia de variabilidade nesses pesos e poder ser uma questo interessante saber qual o comportamento da varivel Peso, relativamente aos alunos da turma da Maria, nomeadamente para fazer um estudo sobre obesidade na turma. Em contrapartida, no faria sentido realizar uma investigao estatstica para averiguar quantos alunos da turma da Maria tm nome, pois sabemos que todos os alunos tm nome, pelo que na resposta a esta questo no esperamos a existncia de variabilidade. Indicmos no captulo 2 que a ideia-chave de variabilidade que est na base de qualquer estudo estatstico. Como referido em GAISE (2005, p. 11), A formulao de uma questo estatstica requer uma compreenso da diferena entre uma questo que antecipa uma resposta determinista e uma resposta baseada em dados que variam. Como j referimos no captulo 2, uma investigao estatstica envolve, de um modo geral, quatro fases: 1. fase Formulao do problema a investigar, na forma de questes que se procuram responder atravs de dados; 2. fase Planeamento adequado para recolher dados apropriados; 3. fase Organizao e tratamento dos dados recolhidos, atravs de tabelas, grficos e algumas medidas; 4. fase Interpretao dos resultados obtidos e formulao de concluses A profundidade com que estas fases so tratadas depende do nvel de ensino dos alunos. Assim, nos dois primeiros anos do 1. ciclo, as questes a tratar podem prender-se com questes relacionadas com a turma, precisando de ser muito orientadas pelo professor. A classificao e contagem de objectos so tarefas indicadas para incio do trabalho em Estatstica, comeando os alunos por classificar os dados utilizando diagramas de Venn e de Carroll. Antes de solicitar aos alunos a realizao de representaes grficas, deve pedir-se-lhes para interpretarem grficos j construdos. medida que o ano de escolaridade dos alunos aumenta, eles vo progressivamente colocando as suas questes, que j no se restringem ao ambiente da turma. A pouco e pouco os alunos utilizam instrumentos apropriados para medir a variabilidade existente entre os indivduos de um grupo e a comparar grupos. Assim, no 3. ciclo, comeam a compreender que os resultados que obtm, ao estudar determinados conjuntos de dados, so susceptveis de generalizao, em determinadas condies. a altura de distinguir entre populao e amostra e de ponderar os elementos que podem afectar a representatividade de uma amostra em relao respectiva populao. Ao longo de todos os ciclos, os alunos comeam, a pouco e pouco, a tomar contacto com a variabilidade devida ao acaso e a utilizar linguagem associada a este concei-

Organizao e tratamento de dados

22

to, desenvolvendo a noo de probabilidade. No 3. ciclo, aprendem alguns processos de, em determinadas situaes, quantificar esta probabilidade.

3.2 Recenseamento e sondagem 4


natural que o termo sondagem j faa parte do vocabulrio do aluno, pois estamos constantemente a ouvir os meios de comunicao social anunciarem os resultados de sondagens. J o mesmo pode no acontecer com as palavras recenseamento ou censo, mas estes termos so certamente conhecidos dos seus pais, que foram recenseados em 2001, se nessa data viviam em Portugal. O termo recenseamento est, regra geral, associado contagem oficial e peridica dos indivduos de um pas ou regio. Para a maioria das pessoas a palavra recenseamento ou censo limita-se a esse significado. Ela abrange, no entanto, um leque mais vasto de situaes. Assim pode definir-se recenseamento do seguinte modo: Recenseamento Estudo cientfico de um universo de pessoas, instituies ou objectos fsicos com o propsito de adquirir conhecimentos, observando todos os seus elementos, e fazer juzos quantitativos acerca de caractersticas importantes desse universo. Assim, a realizao de recenseamentos pode-se estender a outras situaes, tais como, s habitaes (recenseamento da habitao), s indstrias (recenseamento industrial), Agricultura (recenseamento agrcola), etc. importante que fique claro que a palavra recenseamento est associada anlise de todos os elementos da populao em causa e que tem por objectivo no s a enumerao dos seus elementos, como tambm o estudo de caractersticas importantes. O recenseamento geral de uma populao uma prtica que remonta antiguidade (Roma e Egipto), onde j h conhecimento de recenseamentos da populao, feitos a intervalos regulares, com o objectivo principal de obter informao para a colecta de impostos, chamada para o servio militar e outros assuntos governamentais. Apesar disso, a sua prtica corrente, com carcter peridico, s teve lugar, na maioria dos pases, a partir do sec XIX. Esses censos peridicos so feitos em geral de 10 em 10 anos e, em princpio, todos os pases so encorajados a cumprir certas normas internacionais ao elaborar um recenseamento. Em Portugal, a primeira operao que se conhece deste gnero foi levada a cabo por D. Joo III em 1527 e ficou conhecida pelo "numerando dos vizinhos", tendo permitido estabelecer uma estimativa da populao portuguesa. Este apuramento estatstico constitui um motivo de orgulho para os portugueses visto que foi um dos primeiros estudos deste gnero conhecido na Europa. O INE, Instituto Nacional de Estatstica, tem a seu cargo fazer recenseamentos da populao portuguesa, o ltimo dos quais, o XIV Recenseamento Geral da Populao, foi realizado em 2001. Nessa altura, o INE desenvolveu um projecto junto das escolas para motivar os alunos e fazer com que estes fossem para casa e falassem com os pais da importncia de um censo. No fim deste captulo, apresentamos a forma como o projecto foi desenvolvido.

Esta seco segue de perto a brochura de Estatstica, 10. ano (Graa Martins et al. (1999)).

Organizao e tratamento de dados

23

Neste recenseamento de 2001 ficaram a conhecer-se variadas caractersticas do povo portugus como a situao civil, a habitacional, a populao emigrante, etc. Os dados relativos aos censos so extremamente importantes pois tm influncia directa na deciso em assuntos de interesse nacional e local na educao, emprego, sade, transportes, recursos naturais, etc., etc. Comparando resultados de recenseamentos sucessivos pode extrapolar-se e predizer padres futuros da populao. Podemos obter informao sobre, por exemplo, a estrutura da idade da populao e o crescimento populacional, fundamental para o planeamento na construo de novas escolas, alojamento para idosos, etc. A realizao de um recenseamento geral da populao, alm de implicar gastos muito elevados, extremamente difcil de conduzir. H problemas associados com a recolha adequada da informao, seu armazenamento, tratamento, posterior divulgao, etc. Assim, principalmente quando o nmero dos elementos da populao muito elevado, no vivel inquirir todos os elementos da populao sempre que se quer estudar uma ou mais caractersticas particulares dessa populao. Muitas vezes isso nem desejvel, pela perturbao que provoca nos inquiridos. Surge ento o conceito de sondagem, que se pode definir como o estudo cientfico de uma parte de uma populao com o objectivo de analisar atitudes, hbitos e preferncias da populao relativamente a acontecimentos, circunstncias e assuntos de interesse comum. A realizao de sondagens uma actividade da segunda metade do sc. XX. Embora antes de 1930 j se tenham realizado sondagens, estas eram feitas de um modo muito pouco cientfico. Foi necessrio um desenvolvimento adequado de mtodos e tcnicas estatsticas para que os resultados das sondagens pudessem ser analisados cientificamente. S em 1973 que, pela primeira vez, apareceu publicado nos rgos de comunicao social o resultado de uma sondagem realizada em Portugal, nomeadamente, "63% dos Portugueses nunca votaram" (Paula Vicente et al., 1996). Embora as sondagens se tenham popularizado devido a questes polticas, elas no so apenas um importante instrumento poltico; acima de tudo constituem um instrumento de importncia vital em estudos de natureza econmica e social. Assim, se nos meios polticos as sondagens so usadas para obter informao acerca das atitudes dos eleitores, de modo a planear campanhas, etc., elas so importantes tambm em estudos de mercado, para testar as preferncias dos consumidores, descobrir o que mais os atrai nos produtos existentes ou a comercializar, tendo como objectivo o de satisfazer os clientes e aumentar as vendas. Tambm na rea das cincias sociais as sondagens so importantes para, por exemplo, estudar as condies de vida de certas camadas da populao. Devemos ter presente que, contrariamente ao recenseamento, as sondagens inquirem ou analisam apenas uma parte da populao em estudo, isto , restringem-se a uma amostra dessa populao, mas com o objectivo de extrapolar para todos os elementos da populao os resultados observados na amostra. Uma sondagem realiza-se em vrias fases: escolha da amostra, obteno da informao, anlise dos dados e relatrio final. Para que os resultados de uma sondagem sejam vlidos h necessidade de essa amostra ser representativa da populao. O processo de recolha da amostra, a amostragem, tem de ser efectuada com os cuidados adequados. Quando so usadas tcnicas apropriadas e a amostra

Organizao e tratamento de dados

24

suficientemente grande, os resultados obtidos encontram-se em geral perto dos resultados que se obteriam, se fosse estudada toda a populao.

3.3 Populao e amostra. Dados e variveis


desde os primeiros anos que os alunos devem compreender que dados so mais do que nmeros e que a Estatstica permite transformar dados em informao. Uma caracterstica dos dados estatsticos a variabilidade e esta variabilidade que objecto do estudo da Estatstica. Perante uma coleco de dados, h duas formas possveis de abordar a sua anlise, consoante o nosso interesse seja: o Apenas explorar a coleco de dados e encontrar padres esta coleco de dados , por assim dizer, a populao em estudo. Extrapolar para um universo mais vasto os padres encontrados na coleco de dados, a qual parte (ou amostra) desse universo (ou populao) 5 .

Para dar dois exemplos da nossa vida corrente, pense-se nos resultados obtidos quando se pergunta aos alunos da turma quantos irmos tm e nos resultados obtidos numa sondagem, encomendada por um candidato s prximas eleies presidenciais. No primeiro caso, a populao a turma e os dados que se tm referem-se a toda a populao. este o contexto que, de um modo geral deve ser utilizado para os alunos mais novos, em que no se procura generalizar os resultados obtidos na anlise dos dados. No segundo caso, os dados referem-se a uma pequena parte da populao de interesse e procura-se, aps a sua anlise, generalizar para um conjunto mais vasto. A grande maioria das situaes onde necessria a utilizao de metodologias estatsticas, enquadra-se neste segundo caso. Populao Conjunto de unidades individuais, que podem ser pessoas, animais ou resultados experimentais, com uma ou mais caractersticas em comum, que se pretendem analisar. Amostra Parte da populao que observada com o objectivo de obter informao para estudar a caracterstica pretendida. Se se observar toda a populao diz-se que se faz um Censo. Como dissemos anteriormente, o objectivo da Estatstica o estudo de populaes, isto , conjuntos de indivduos (no necessariamente pessoas) com caractersticas comuns, que se pretendem conhecer. A uma caracterstica comum, que assume valores diferentes de indivduo para indivduo, chamamos varivel. Em termos mais precisos, uma varivel uma caracterstica de um indivduo ou objecto qual se possa atribuir um nmero ou uma categoria. O indivduo ou coisa relativamente ao qual se recolhe a informao designado por unidade observacional ou caso. Ao resultado da observao da varivel num indivduo ou objecto, chamamos dado estatstico ou simplesmente dado. Sendo ento o nosso objectivo o estudo de uma (ou mais) caracterstica da populao, vamos identificar populao com a varivel (caracterstica) que se est a estu-

Esta seco segue de perto Graa Martins et al (2007) e Graa Martins (2006).

Organizao e tratamento de dados

25

dar, dizendo que a populao constituda por todos os valores que a varivel pode assumir. Por exemplo, relativamente populao portuguesa, se o objectivo do nosso estudo for a caracterstica altura, diremos que a populao constituda por todos os valores possveis para a varivel altura. Vimos tambm que amostras so conjuntos de dados, que representem convenientemente as populaes de onde foram recolhidos. Do mesmo modo identificaremos amostra com os valores observados para a varivel em estudo, sobre alguns elementos da populao. Assim, na continuao do exemplo referido, os valores 156cm, 171cm, 163cm, 168cm, 166cm, obtidos ao medir a altura de 5 portugueses, constituem uma amostra da populao a estudar. Neste momento vamos admitir que dispomos de um desses conjuntos de dados, sem nos preocuparmos como foram obtidos, e pretendemos desenvolver processos de anlise que nos permitam responder a algumas questes, tais como: Sero os dados quase todos iguais? Sero muito diferentes, uns dos outros? De que modo que so diferentes? Existe alguma estrutura subjacente ou alguma tendncia? Existem alguns agrupamentos especiais? Existem alguns dados muito diferentes da maior parte?

Estas questes, de um modo geral, no podem ser respondidas rapidamente, olhando unicamente para o conjunto dos dados! No entanto, se estiverem organizados sob a forma de tabelas ou grficos, j a resposta s questes anteriores se torna mais simples. A metodologia estatstica utilizada depende das variveis que se esto a estudar, pelo que importante comear por classific-las. Uma classificao possvel a que se apresenta a seguir. Uma varivel diz-se quantitativa (ou numrica) se se referir a uma caracterstica que se possa contar ou medir. Por exemplo, o nmero de irmos de um aluno escolhido ao acaso, na turma, uma varivel quantitativa de contagem, enquanto que a sua altura uma varivel quantitativa de medio. Uma varivel diz-se qualitativa (ou categrica) se no for susceptvel de medio ou contagem, mas unicamente de uma classificao, podendo assumir vrias modalidades ou categorias. Por exemplo, a cor dos olhos do aluno referido anteriormente, uma varivel qualitativa. Se s assumir duas categorias, diz-se binria. o caso da varivel sexo, que assume as categorias Feminino e Masculino. As variveis quantitativas de contagem, isto , que se referem a caractersticas que s se podem contar e no se podem medir, designam-se tambm por variveis quantitativas discretas; por sua vez, as variveis quantitativas de medio, isto , que se podem medir, tambm se designam por variveis quantitativas contnuas. Estas designaes so bastante importantes, pois as ferramentas estatsticas a utilizar dependem do tipo de varivel em estudo. Algumas variveis qualitativas apresentam uma ordem subjacente so designadas por qualitativas ordinais. So exemplos de variveis qualitativas ordinais: o nvel social (com as categorias baixo, mdio e elevado), o grau de satisfao

Organizao e tratamento de dados

26

com um produto (com as categorias nada satisfeito, pouco satisfeito, satisfeito, bastante satisfeito e muito satisfeito) e grande parte das variveis utilizadas em inquritos na rea das cincias sociais onde se avalia o nvel atingido em cada varivel solicitando ao respondente que coloque uma cruz numa grelha numerada de 1 a 5 (escala de Lickert). No 1. ciclo, logo desde o 1. e 2. anos de escolaridade, os alunos trabalham com dados qualitativos e dados quantitativos discretos. Tambm podem ser trabalhados dados de tipo contnuo, devidamente discretizados. No 2. e 3. ciclo trabalha-se com todo o tipo de dados, qualitativos e quantitativos, discretos e contnuos. Turma de referncia Para exemplificar os conceitos medida que vo sendo introduzidos, vamos utilizar um conjunto de dados relativos aos alunos da turma (considerada turma de referncia) e que podem ser obtidos, pedindolhes para preencherem a seguinte ficha:

O professor pode fazer algumas recomendaes relativamente ao preenchimento da ficha, como por exemplo: Se os alunos utilizarem mais de um meio de transporte, consideram s o que utilizam na maior parte do tempo que levam de casa escola; Para darem o tempo que demora de casa escola, do um valor aproximado ou ento, no dia seguinte, tm o cuidado de verificar quanto tempo demoraram; Para medirem o comprimento do palmo utilizam uma rgua, em que colocam o polegar da mo direita junto ao zero da rgua e vem at quantos centmetros chega o dedo mindinho. Uma tabela possvel, obtida numa turma de 24 alunos, a seguinte: Dados da turma
Nmero de letras no nome 10 13 12 15 12 9 12 12 12 11 10 17 Nmero de irmos 1 2 0 0 3 1 4 1 2 1 0 1 Cor dos olhos Castanhos Pretos Castanhos Azuis Castanhos Castanhos Castanhos Verdes Azuis Pretos Castanhos Castanhos Transporte utilizado para ir de casa escola Autocarro A p Metro Carro Carro Carro A p Autocarro Carro Carro Metro Metro Tempo de casa escola (minutos) 15 5 14 8 12 10 13 20 10 15 17 13 Comprimento do palmo (cm) 165 150 173 189 187 195 137 166 186 153 159 144

Nome Ana Godinho Ana Sofia Silva Andreia Sousa Carolina Martins Daniela Silva David Leal Diogo Oliveira Filipa Duarte Helena Afonso Ins Martins Joana Manso Joo Miguel Ribeiro

Organizao e tratamento de dados

27

Joo Pedro Batista Liliana Isabel Cruz Margarida Cabral Miguel Esteves Nuno Pestana Patrcia Santos Pedro Pinheiro Raquel Loureiro Rita Martins Simo Valente Sofia Matias Tiago Neves

16 17 20 13 11 14 13 14 11 12 11 10

1 2 0 2 3 1 1 0 2 1 0 3

Castanhos Castanhos Castanhos Azuis Pretos Castanhos Verdes Azuis Castanhos Castanhos Castanhos Castanhos

Metro Autocarro Autocarro A p A p Carro A p Metro Autocarro A p A p A p

18 9 21 7 6 11 12 19 15 6 7 16

142 155 158 138 161 163 172 164 165 164 190 168

A tabela anterior apresenta os valores observados, nos alunos da turma, para as variveis Nmero de letras do nome, Nmero de irmos, Cor dos olhos, Transporte utilizado para ir de casa escola, Tempo que leva de casa escola e Comprimento do palmo. A metodologia utilizada para obter os dados da tabela, permite facilmente apercebermo-nos da natureza desses dados. Assim, ao preencherem as fichas, a partir das quais se construiu a tabela, os alunos: Contaram o nmero de letras do nome, pelo que os dados correspondentes a essa varivel so discretos; Mediram, com uma rgua, o comprimento do palmo, pelos que os dados correspondentes a essa varivel so contnuos; Mediram, com um relgio, o tempo que demoram de casa escola, pelo que os dados respeitantes a essa varivel so contnuos; No puderam medir nem contar a cor dos olhos, mas unicamente atribuirlhe uma categoria, pelo que a varivel correspondente qualitativa. No se deve insistir, junto dos alunos, sobretudo dos mais novos, nas designaes das variveis. O que deve ser realado que estas tm natureza diferente, e as ferramentas utilizadas para tratar os dados resultantes das observaes dessas variveis, tambm tero que ser diferentes, em algumas situaes. Por exemplo, podemos representar dados qualitativos ou quantitativos discretos utilizando um diagrama de barras, mas no tem sentido utilizar esta mesma representao para dados contnuos, caso em que podemos usar um histograma ou grfico de linha. Tarefa Classificao de variveis 1. Para cada uma das variveis a seguir consideradas indica se de natureza qualitativa ou quantitativa e neste caso se discreta ou contnua: a) b) c) d) e) f) g) h) i) j) Nmero de pastilhas numa caixa de Smarties Cor do cabelo do primeiro colega que encontrar quando chegas escola Idade do colega da alnea anterior Nmero de livros que compraste no ltimo ms Marca do primeiro carro que passa, quando vais janela Velocidade do carro da alnea anterior Tempo que levas de casa escola Rendimento mensal de uma famlia Tempo de durao de uma chamada telefnica Nmero de mensagens que recebes no telemvel (se no tiveres telemvel, pode ser o do teu Pai), por dia

Organizao e tratamento de dados

28

k) l) m) n) o) p)

Nmero de moedas que tens no porta-moedas Nmero de televises numa casa O teu peso A tua altura A tua nota num teste de Matemtica O teu programa favorito na TV

2. D alguns exemplos de variveis qualitativas e quantitativas discretas e contnuas (no uses os exemplos do exerccio anterior). 3. Algumas questes que talvez te possam interessar, so as seguintes: a) H muitos colegas meus com animais domsticos? b) Quantos colegas haver com 2 irmos, como eu? c) Haver mais colegas com telemvel, ou sem telemvel? Como que procederias para obter resposta para estas questes? 4. D exemplo de outras questes, para as quais seja necessrio recolher dados, se se quiser conhecer a resposta.

3.4 Limpar os dados


comum, quando se procede a uma anlise de dados recolhidos verificar que estes contm erros, acidentais ou no acidentais. Assim, antes de se proceder ao tratamento dos dados atravs de tabelas, grficos ou do clculo de medidas, deve-se olhar criticamente para os dados recolhidos, com o objectivo de os limpar dos erros. Por exemplo, se ao recolher informao sobre o tamanho do p, se obtiver a informao de 300cm, obviamente que este valor est errado. Este erro pode ser acidental, nomeadamente ao digitar no computador o zero, carregou-se 2 vezes e ficaram 2 zeros. Se numa resposta sobre o ano de escolaridade, aparecer 1,2, tambm est errado, pois o ano de escolaridade tem de se exprimir na forma de um nmero inteiro. Estes erros podem ser acidentais, mas h outros que podem resultar de respostas dadas com pouco cuidado ou por brincadeira. Tarefa Vamos limpar estes dados 6 . Na tabela que se apresenta a seguir, alguns alunos mais brincalhes entretiveram-se a alterar alguns dos dados de uma tabela que contm respostas de alunos do ensino bsico. Procura detectar esses erros e quando possvel, sugere alteraes de forma a ter dados limpos:
Data de nascimento 12-04-1991 31/02/92 14-01-1991 07-09-1989 13-12-1991 14-03-2001 06-05-1989 15-08-1990 20-02-1990 Ano de escolaridade 5 4 5.00 6 4 5 7 6 6 Tamanho do p 26 22 2.3 25 24 67 24 21 23 Disciplina ou actividade preferida Educao musical Estudo do Meio Educao Fsica Matemtica Lngua Portuguesa Matemtica Lngua Portuguesa Lngua Portuguesa Matemtica Distncia de casa escola de 1 a 2 km menos de 2 km 2.5423 km de 1 a 2 km de 1 a 2 km menos de 1 km de 3 a 5 km 85km de 1 a 2 km

Sexo M F F M M M F F M

Naturalidade Portugal Portugal Portugal Portugal Angola Portugal Moambique Portugal Portugal

Altura 143 132 14.2 136 128 140 142 138 192

Adaptada de uma actividade do Censusatschool.

Organizao e tratamento de dados

29

M 0 M F F M F F F M M F/M F M M F M M F F

19-05-1990 29-06-1992 09-10-1991 18-12-1990 18-07-1991 03-06-1934 13-02-1989 15-09-1988 07-08-1989 08-06-1989 31/11/87 16-07-1988 28-04-1988 25-03-1992 26-02-1992 08-07-1999 23-05-1990 01-03-1987 07-08-1991 03-03-1992

6 7 4 5 0.5 4 7 7 7 7 11 8 8 4.1 4 6 6 9 6 4

Portugal Lua Cabo Verde Angola Portugal Portugal Moambique Portugal Portugal Angola Marte Portugal Portugal Portugal Portugal Portugal Cabo Verde Angola Portugal Portugal

140 48 128 135 13.7 129 148 150 140 142 1520 142 145 132.1 130 142 151 162 150 135

20 21 21 21 20 21 23 22.5 24 24 22 26 26.5 2.4.5 21 22 25.5 25 23 21

Educao Fsica Estudo do Meio Lngua Portuguesa Matemtica Ir para casa Informtica Matemtica Educao Fsica Informtica Matemtica Informtica Chins Educao Fsica Matemtica Educao Fsica Lngua Portuguesa Matemtica Educao Fsica Educao musical Informtica

de 1 a 2 km 3000km menos de 1 km menos de 1 km de 3 a 5 km menos de 1 km de 1 a 2 km de 1 a 2 km menos de 1 km menos de 1 km de 5 a 10 km de 2 a 3 km 1 kg menos de 1 km menos de 1 km de 2 a 3 km de 2 a 3 km menos de 1 km 2 saltos menos de 1 km

No exemplo anterior, alguns dos erros foram provocados deliberadamente com o objectivo de ilustrar uma situao que ocorre com frequncia, sem ser intencional. Efectivamente, comum haver um dgito repetido, uma vrgula a assinalar a casa decimal mal colocada, uma data trocada, etc. Outros erros que foram introduzidos deliberadamente, retratam situaes intencionais, como o caso de responder Marte ou Lua pergunta sobre a naturalidade. Assim, antes de comear a tratar um conjunto de dados, deve ter-se um olhar crtico para detectar este tipo de erros que podem destruir toda uma anlise subsequente. Por exemplo, referindo-nos ainda tabela do exemplo anterior, se se proceder ao clculo da mdia dos valores referentes altura, obtm-se o valor aproximadamente igual a 178cm. No entanto se limparmos os dados de alguns erros bvios, nomeadamente os assinalados na tabela seguinte Antes 14,2 192 48 13,7 1520 132,1 Depois 142 eliminar 148 137 152 132

j o valor obtido para a mdia vem aproximadamente igual a 141 cm. J anteriormente chammos a ateno para o facto de ...os dados so mais do que nmeros, so nmeros com um contexto. Ora foi precisamente esse contexto que nos guiou nas alteraes a fazer. Se todas as alteraes, com excepo de uma, so mais ou menos bvias, no tnhamos alternativa para o valor 192, pelo que decidimos elimin-lo, no sem custos, pois reduzimos a nossa amostra de uma unidade, passando a ter s 28 dados em vez dos 29 iniciais.

Organizao e tratamento de dados

30

Tarefa No sero irmos a mais? Registou-se numa tabela de frequncias que se apresenta a seguir, o resultado de um inqurito feito junto de alunos do 1. ciclo do ensino bsico de vrias escolas, em que se colocava, entre outras, a seguinte questo Quantos irmos tens?
Tabela 1

Nmero de irmos 0 1 2 3 4 ou mais

Freq. Rel (%) 16 51 18 7 8

A seguir apresentam-se as respostas de alguns alunos de uma escola sobre algumas questes, entre as quais tambm se pergunta quantos irmos tm:
Tabela 2 Sexo M F F M M M F F M M M M F F M Data de nascimento 12-04-1991 27-02-1992 14-01-1991 07-09-1989 13-12-1991 14-03-2001 06-05-1989 15-08-1990 20-02-1990 19-05-1990 29-06-1992 09-10-1991 18-12-1990 18-07-1991 03-06-1991 Cdigo Postal 1050-027 1200-013 1150-110 1100-115 1070-031 1121-025 1150-043 1070-014 1050-006 1075-100 1180-121 1210-121 1170-114 1032-045 1180-121 N de irmos 0 1 2 1 1 0 2 1 2 1 5 3 1 1 5 N irmos com menos 18 anos 0 1 2 1 1 0 1 1 2 1 4 3 1 1 4

Haver alguma coisa de estranho nesta tabela? De acordo com a Tabela 1, qual a percentagem de alunos com 4 ou mais irmos? Esse resultado no nos far pensar se algo de anormal no se passar com as respostas dadas na Tabela 2? (Observe-se que, de acordo com a tabela 1, a percentagem de alunos do 1 ciclo com 4 ou mais irmos anda volta de 8%. De acordo com a tabela 2, aparentemente em 15 alunos, 2 tm 5 irmos! No entanto, se repararmos melhor, verificamos que a morada a mesma, pelo que afinal os 2 alunos que responderam so, com elevada probabilidade, irmos...)

Organizao e tratamento de dados

31

PROJECTO*

GABINETE DOS CENSOS 2001

Avenida Antnio Jos de Almeida 1000-043 Lisboa Telef.: 21 842 61 00 58 Fax: 21 842 63

Organizao e tratamento de dados

32

O projecto "OS CENSOS VO S ESCOLAS" foi desenvolvido pelo Gabinete dos Censos 2001 e teve como objectivos: Dar a conhecer aos alunos dos diversos graus de ensino: o que so, para que servem e como se fazem os Censos;

Mobilizar os pais e familiares dos alunos para a participao nos CENSOS 2001. Este projecto consistiu numa aula relativa aos Censos, que foi ministrada em todas as escolas do ensino oficial e particular na primeira quinzena de Maro de 2001. Foram desenvolvidos trs tipos de aulas de acordo com o nvel de ensino: NVEL DE ENSINO Ensino Bsico - 1 Ciclo Ensino Bsico - 2 e 3 Ciclos IDADES 6-10 10-15 LIGAES CURRICULARES Estudo do Meio Histria e Geografia de Portugal Geografia Histria Matemtica Geografia Matemtica Histria Economia Introduo ao Desenvolvimento Econmico e Social

Ensino Secundrio

15-18

A seguir apresentamos a parte do projecto referente aos 1, 2 e 3 ciclos.

Organizao e tratamento de dados

33

1. O QUE SO OS CENSOS? Os Censos so a contagem de todas as pessoas que vivem no nosso Pas e de todas as habitaes onde as pessoas vivem. Com os Censos ficamos a saber: Quantos somos o nmero total de pessoas que vivem em Portugal de norte a sul, Regies Autnomas dos Aores e da Madeira, e em cada uma das nossas cidades, vilas e aldeias; Como somos a idade das pessoas, as profisses, os estudos que as pessoas tm; Onde vivemos os locais onde as pessoas vivem; Como vivemos as caractersticas das habitaes existentes em Portugal. 2. PARA QUE SERVEM OS CENSOS? muito importante conhecermos quantas so e como so as pessoas que vivem em Portugal e em cada uma das nossas cidades ou bairros para sabermos: - O nmero de escolas, creches, lares de idosos que so necessrios; - Onde se devem construir as vias de comunicao, os hospitais, as fbricas,; - O nmero de representantes que cada regio tem na Assembleia da Repblica; - Como distribuir o dinheiro pelas Cmaras Municipais. Os resultados dos Censos so muito importantes porque servem para conhecer melhor o presente e preparar o futuro. 3. QUEM FAZ OS CENSOS? O Instituto Nacional de Estatstica (INE) o organismo encarregue da preparao, execuo e apuramento dos dados dos Censos 2001. Dada a complexidade da operao estatstica Censos 2001, o INE tem a colaborao das Cmaras Municipais - responsabilizam-se pela organizao, coordenao e controlo das tarefas do recenseamento na rea do municpio - e das Juntas de Freguesia que asseguram a execuo das operaes dos Censos 2001 nas respectivas reas.

Organizao e tratamento de dados

34

4. COMO SE FAZEM OS CENSOS ? A contagem das pessoas e das habitaes feita atravs do preenchimento de questionrios. Os questionrios so entregues em cada casa e depois de preenchidos pelas pessoas so recolhidos por um recenseador (pessoa que distribui e recolhe os questionrios). Para tudo isto ser possvel muito importante que nas nossas casas seja preenchido um questionrio por cada pessoa que l vive. Tu tambm contas! ACTIVIDADES: - Dar a preencher aos alunos a ficha de trabalho O Meu Censo. - Depois de preenchidas as fichas apurar os resultados da turma de modo a ser possvel responder a algumas perguntas: - Quantos rapazes e quantas raparigas existem na turma? - Quantos alunos tm 6, 7 ou 8 anos? - Quantos alunos nasceram em determinado local? - Quantos alunos tm irmos?

Organizao e tratamento de dados

35

Nome: ____________________________________ Menino Quantos anos tens? Menina

Local onde moras? ____________________________ Local onde nasceste ? __________________________

Quantas pessoas vivem em tua casa?

Tens irmos ou irms ?

Sim

No

Organizao e tratamento de dados

36

1. O QUE SO OS CENSOS?
A forma mais antiga e tambm mais directa de conhecer o nmero de pessoas que habitam um determinado territrio, consiste em realizar uma contagem atravs da observao exaustiva dos indivduos, a que se d o nome de recenseamento ou de uma forma mais abreviada "censo". Os Censos so tradicionalmente a contagem da populao de um pas a que, em poca mais recente, se acrescentou a sua melhor caracterizao e um levantamento do parque habitacional. exactamente atravs dos Censos que o pas fica a saber : Quantos somos? - O total de pessoas a viver em Portugal Continental, Regies Autnomas dos Aores e da Madeira e em cada um dos seus concelhos, freguesias ou bairros. Como somos? - As caractersticas da populao: sexo, idade, nacionalidade, naturalidade, profisso, grau de instruo, estatuto socioprofissional, etc . Onde vivemos? Os locais onde vivemos. Como vivemos? - As caractersticas dos alojamentos onde vivemos. Breve Histria dos Censos J antes da era de Cristo se faziam recenseamentos, geralmente com objectivos militares e de cobrana de impostos. Por isso, a norma era a de as populaes se deslocarem aos seus locais de origem e se apresentarem s respectivas autoridades para o registo de pessoas e/ou bens. O primeiro censo populacional conhecido no territrio que hoje Portugal foi realizado no ano zero, por ordem do Imperador Csar Augusto e dizia respeito ento provncia romana da Lusitnia. Posteriormente, na Idade Mdia tambm os rabes efectuaram vrios recenseamentos durante a sua permanncia na Pennsula Ibrica. J aps a fundao da nacionalidade foram realizadas vrias contagens mais ou menos extensas tendo preocupaes sobretudo de ordem militar. A primeira destas operaes foi o Rol de Besteiros do Conto, de D. Afonso III (1260-1279). Em 1864, realizou-se o I Recenseamento Geral da populao portuguesa, que foi o primeiro a reger-se pelas orientaes internacionais do Congresso Internacional de Estatstica de Bruxelas em 1853, marcando o incio dos recenseamentos da poca moderna.

Organizao e tratamento de dados

37

Embora estas orientaes j indicassem que os recenseamentos deveriam ser realizados de 10 em 10 anos o censo seguinte apenas se realizou em 1878, ao qual se seguiria o Censo de 1890. A partir de ento os recenseamentos da populao tm vindo a realizar-se, com poucas excepes, regularmente em intervalos de 10 anos. Outro marco importante ocorreu em 1970, quando em simultneo com o Recenseamento da Populao se realizou o I Recenseamento da Habitao. O ltimo censo realizado em Portugal foi em 1991.

2. PARA QUE SERVEM OS CENSOS?


Atravs dos Censos possvel obter, para cada nvel de detalhe geogrfico (regies, concelhos, freguesias, lugares,) uma fotografia de todos os indivduos residentes em Portugal e das condies em que habitam. Os censos so uma fonte nica e renovvel que, caracterizando a populao e o parque habitacional, surge como valioso instrumento de diagnstico, planeamento e interveno, em vrios domnios: Na definio de objectivos e prioridades para as polticas globais de desenvolvimento (investimentos em educao, sade, habitao ou transportes, medidas de combate ao desemprego, melhoria das condies de habitao, distribuio de fundos a nvel regional e local,); - No planeamento regional e urbano (localizao de escolas, hospitais, vias de comunicao, fbricas, etc); - Nos estudos de mercado e sondagens de opinio; - Na investigao em cincias sociais e polticas (elaborao de estudos no domnio econmico e social,) Assim, os dados recolhidos pelos censos, sobre a populao e a habitao, so fundamentais para proporcionar, ao governo e s autarquias locais, informao bsica indispensvel definio e execuo das suas polticas. Revestem-se, por isso, do maior interesse para toda a sociedade. Os resultados dos Censos so fundamentais para conhecer o presente e preparar melhor o futuro do Pas. -

3. QUEM FAZ OS CENSOS?


O Instituto Nacional de Estatstica (INE) o organismo encarregue da preparao, execuo e apuramento dos dados dos Censos 2001. Dada a complexidade da operao estatstica Censos 2001, o INE tem a colaborao das autarquias locais. Assim, as Cmaras Municipais responsabilizam-se pela organizao, coordenao e controlo das tarefas do recenseamento na rea da respectiva jurisdio; enquanto que as Juntas de Freguesia asseguram a execuo das operaes dos Censos 2001 nas respectivas reas.

Organizao e tratamento de dados

38

4. COMO SE FAZEM OS CENSOS ?


A recolha de dados realizada atravs do preenchimento de vrios tipos de questionrios de acordo com a unidade estatstica a caracterizar: edifcio, alojamento, famlia e indivduo. Os questionrios so distribudos em cada alojamento e depois de devidamente preenchidos so recolhidos por um recenseador (pessoa que distribui e recolhe os questionrios) que, em caso de dificuldade, ajuda no preenchimento. Assim, todos os alojamentos sero observados e todas as pessoas residentes sero caracterizadas atravs de questionrios. A informao recolhida refere-se s 0 horas do dia 12 de Maro de 2001 momento censitrio, que corresponde ao dia e hora em relao aos quais se recolhem os dados.

Para tudo isto ser possvel muito importante que nas nossas casas seja preenchido um questionrio por cada pessoa que l reside ou esteja temporariamente presente. Tu tambm contas!

Organizao e tratamento de dados

39

ACTIVIDADES:

- Ficha de Trabalho.

Completa as seguintes frases:

1. Os Censos contam todos os residentes em _______________ .

2. Os Censos realizam-se de ___ em ___ anos. 3. Os dados censitrios so fundamentais para a analisar o P_ _ S_ _T_ preparar o F_ _ UR_ do pas. e

4. Os indivduos responsveis pela distribuio e recolha dos questionrios designam-se por R_C_ _S_ _ _O_ES. Descobre as palavras relacionadas com os Censos Populao, Habitao,
Edifcio, Alojamento, Famlia, Indivduo. G E H A D R A P G R E O A A L O J A M E N T O A H R O S D S T E A F P E H H D I R P U R A D O N T S A F A B A U L I O E A I B R H O T W G A L T P U C I A A L I O J I L T L E O M A E O O A P R A B B I H P R E T D E I E I O A I N D I V I D U O P S A J L O G P O N R O O T F E P M O L F L F B E C D O A H P O U E A L Y I K R A U F L Q M T R T F J P I L G A I O O O D O R A O Q L F R B C L T O A E H I P P I A U M O B A E H A O U P J O J T A R O

Organizao e tratamento de dados

40

4 Tabelas e grficos
Apresentamos alguns processos, nomeadamente tabelas e grficos, para organizar a informao contida nos dados, de forma a realar as suas caractersticas mais importantes.

Organizao e tratamento de dados

42

Organizao e tratamento de dados

43

4.1 Introduo
Neste captulo apresentamos formas de organizar os dados atravs de tabelas e grficos. De acordo com o Programa de Matemtica, logo nos 1. e 2. anos de escolaridade, os alunos aprendem a classificar dados utilizando diagramas de Venn e Carroll e aprendem a trabalhar com tabelas de frequncias absolutas, grficos de pontos e pictogramas. Pretende-se que os alunos saibam ler e interpretar informao registada por estes meios, e que saibam tambm construir representaes destes tipos para um certo conjunto de dados. Nos 3. e 4. anos os processos de representao so alargados aos grficos de barras. Mais tarde, no 2. ciclo, os alunos aprendem a trabalhar com tabelas de frequncias relativas e continuam a trabalhar com as representaes anteriores, aprendendo tambm a construir e interpretar grficos circulares e de linha, bem como diagramas de caule e folhas. Finalmente, no 3. ciclo, os alunos trabalham com histogramas e diagramas de extremos e quartis. As tabelas e os grficos so instrumentos essenciais representao e anlise de dados, que os alunos devem aprender a usar com desembarao. Isso tanto pode ocorrer na realizao de investigaes estatsticas, nas quais os alunos recolhem os seus prprios dados, usualmente organizados em grupos, como em tarefas mais estruturadas como as que apresentamos ao longo deste captulo. O trabalho deve ter sempre como ponto de partida situaes do dia-a-dia dos alunos ou situaes com as quais eles sejam familiares. Toda a representao de dados em tabelas ou grficos deve ser motivada por uma ou mais questes e depois dos dados representados deve indagar-se que outras questes seria ainda possvel responder. importante que os alunos ganhem sensibilidade para as potencialidades das diversas formas de representao dos dados e a sua adequao em funo da natureza das variveis em jogo (qualitativas, nominais ou ordinais, e quantitativas, discretas ou contnuas), e tambm para alguns aspectos que facilmente induzem em erro, como aqui apresentamos. 4.2 Diagramas de Venn e de Carroll Comeamos por referir algumas formas de classificar e organizar nmeros ou objectos em listas ou tabelas simples, que no se podendo chamar propriamente instrumentos estatsticos, ajudam a organizar de uma forma simples alguns tipos de informao. Os diagramas de Venn so representaes grficas particularmente adequadas para os alunos mais novos. Utilizam crculos ou rectngulos para uma classificao rpida de objectos ou nmeros, que partilhem caractersticas comuns. Usualmente, considera-se um rectngulo que representa todo o conjunto a ser classificado, e dentro desse rectngulo consideram-se crculos que representam os elementos com as caractersticas de interesse. Os diagramas de Carroll so tabelas rectangulares para organizar dados ou objectos segundo critrios de sim/no. O nome atribudo a estes diagramas, uma homenagem a Lewis Carroll, matemtico e escritor ingls, que gostava muito de problemas de lgica e de jogos matemticos.

Organizao e tratamento de dados

44

Tarefa Nmero de letras do nome. Num primeiro momento, o professor desenha no quadro 2 crculos com a indicao de que num crculo se colocam nomes com 4 ou menos letras e no outro nomes com 4 ou mais letras. Depois, escolhe ao acaso 10 alunos, para irem ao quadro, colocar o seu nome no crculo adequado. No fim, uma representao possvel, em diagrama de Venn, pode ser a seguinte:

Algumas questes que podem ser colocadas: 1. Quantos alunos tm 4 letras no nome? 2. Quantos alunos tm mais de 4 letras no nome? A seguir, o professor pede aos alunos que disponham os nomes no seguinte diagrama de Carroll, de acordo com os critrios indicados:

Depois da tabela completa, algumas questes que se podem colocar: 1. Quantos rapazes tm o nome na tabela? 2. Quantas raparigas tm o nome com 4 ou menos letras? Tarefa Figuras geomtricas. O professor pede a cada aluno que desenhe no caderno uma figura geomtrica. De seguida pede a vrios alunos para irem ao quadro e representarem no seguinte diagrama de Venn, a figura que tinham desenhado no caderno. Pode surgir, por exemplo:

Organizao e tratamento de dados

45

Algumas questes: 1. 2. 3. 4. 5. 6. O que um quadrado? Um quadrado um rectngulo? E um rectngulo um quadrado? Quantos alunos desenharam figuras? Quantas das figuras desenhadas no so nem Tringulos, nem Rectngulos? E quantas das figuras desenhadas no so nem Tringulos, nem Rectngulos, nem Quadrados? 7. Como se explica que a resposta s questes 5. e 6. seja exactamente a mesma? Tarefa Nmeros de 1 a 30. O professor pede aos alunos que classifiquem num diagrama de Venn e noutro de Carroll, os nmeros de 1 a 30, segundo os seguintes critrios: ser ou no mltiplo de 3 e ser ou no par. Duas representaes possveis so:

Algumas questes que se podem colocar, relativas a ambos os diagramas: 1. Quantos mltiplos de 3 so nmeros pares? 2. Quais os nmeros que no so pares nem mltiplos de 3? 3. E que nmeros so simultaneamente pares e mltiplos de trs? Tarefa Mltiplos de 2 e 4, at 20. Representar num diagrama de Venn, os nmeros de 1 a 20 que sejam mltiplos de 2 e tambm mltiplos de 4.

Organizao e tratamento de dados

46

Algumas questes: Dos nmeros de 1 a 20, 1. 2. 3. 4. Quantos so mltiplos de 4? Quantos so mltiplos de 2? D exemplo de um mltiplo de 2 que no seja mltiplo de 4. Todos os mltiplos de 4 so mltiplos de 2?

Tarefa Figuras e slidos. O professor pede aos alunos para classificarem no diagrama de Carroll, que se apresenta, as seguintes figuras no plano e slidos geomtricos:

Cubo, quadrado, tringulo equiltero, pirmide, cilindro, rectngulo, trapzio, esfera, crculo, cone, prisma triangular, prisma com base quadrangular, paralelogramo, paraleleppedo.

Algumas questes: 1. Quais as figuras planas sem linhas perpendiculares? 2. Quais os slidos com linhas perpendiculares? 3. No conjunto indicado, h mais figuras planas ou slidos geomtricos?

Tarefa Ajudas a lavar a loia? Foi feito um inqurito numa escola onde se perguntava em tua casa, ajudas a lavar a loia?. Responderam 258 alunos, dos quais 175 eram raparigas. Responderam afirmativamente pergunta 118 raparigas e 51 rapazes. Preenche a tabela seguinte:
Rapariga Ajuda No ajuda Total Rapaz Total

A partir da tabela anterior, completa o seguinte diagrama de Venn:

Organizao e tratamento de dados

47

O que que representa e qual o valor: 1) De cada um dos crculos do diagrama anterior? 2) Da interseco dos dois crculos? 3) Da parte do rectngulo exterior aos crculos?

Tarefa Preferes Ma, Laranja ou Banana? Considera o seguinte diagrama de Venn, que foi construdo numa turma, em que cada aluno manifestou o seu gosto relativamente a 3 frutos.

Marca com um V (Verdadeiro) ou um F (Falso), cada uma das frases seguintes:


A Joana gosta de Banana A Rita gosta de tudo A Teresa no gosta de nada A turma tinha 13 alunos A Rita e a Sara gostam de Banana e Laranja A Joana ou gosta de Banana ou de Ma O Pedro e a Rita gostam dos mesmos frutos A Rita e o Manuel gostam de laranja O Pedro e a Filipa gostam de Laranja O Manuel, o Pedro e o David gostam de Ma 3 alunos no gostam de nenhum dos 3 frutos O Bernardo no gosta de Laranja 6 alunos gostam de Laranja 10 alunos gostam de Laranja ou Ma

Organizao e tratamento de dados

48

4.3 Tabelas e grficos para dados qualitativos


Como dissemos anteriormente, os dados qualitativos so os que resultam da observao de variveis qualitativas. Representam a informao que identifica alguma qualidade no susceptvel de medio ou contagem, mas unicamente de classificao, podendo assumir vrias categorias ou modalidades. Por exemplo, o estado civil de um indivduo pode assumir as categorias solteiro, casado, vivo ou divorciado. Por vezes codificam-se as variveis qualitativas com nmeros, como por exemplo, no caso da varivel sexo, em que se pode representar o sexo masculino por 1 e o feminino por 2. No entanto, o facto de as categorias estarem representadas por nmeros, no leva a varivel a mudar de natureza, pelo que, por exemplo, no faz qualquer sentido calcular a mdia destas observaes. 4.3.1 Esquemas de contagem grfica (tally charts) Existem algumas representaes muito simples que se podem construir directamente a partir do conjunto de dados ou durante o processo de recolha. Uma maneira possvel de ir registando os dados, medida que os vamos recolhendo, utilizar o esquema de contagem grfica (tally chart). Por exemplo, pretende-se averiguar, na turma, qual a cor preferida dos alunos. Ento os alunos vo, um a um, ao quadro registar a sua cor preferida, do seguinte modo: O primeiro aluno, que prefere a cor verde, escreve Verde e frente desenha um trao; O aluno seguinte que prefere a cor amarela, escreve Amarela e frente um trao; A seguir vem outro aluno que prefere a cor verde e coloca um trao ao lado do que j l estava; E assim sucessivamente, os alunos vo escrevendo as cores se a primeira vez que aparecem ou colocando traos frente das cores que j esto no quadro. O quinto trao coloca-se de forma oblqua a cortar os 4 traos anteriores. No fim obtm-se um esquema idntico ao seguinte:

Da representao anterior, imediatamente se conclui que a cor preferida a Vermelha, seguindo-se a Verde. Estes resultados podem sugerir ao professor que questione os alunos sobre qual o seu clube de futebol preferido. Ser que as preferncias de cor tm a ver com as preferncias clubsticas? Um esquema de contagem grfica para a varivel Cor dos olhos dos alunos da turma em referncia o seguinte:

Organizao e tratamento de dados

49

Como se verifica, predominam os olhos Castanhos, seguindo-se os Azuis. S 2 alunos tm olhos Verdes. Este esquema de contagem grfica tem a grande vantagem de: permitir identificar as diferentes categorias ou modalidades que a varivel qualitativa pode assumir no conjunto dos dados e permitir organizar os dados de tal maneira que facilmente se conta o nmero de elementos (frequncias absolutas) em cada uma dessas categorias. No sendo um passo necessrio para a construo das tabelas de frequncia (que a seguir se apresentam), um passo que, uma vez concludo, serve de base para a construo dessas tabelas. Tarefa O ms de aniversrio. O professor prope turma averiguar qual o ms em que h mais alunos a fazer anos. Ento distribui a seguinte folha, que passa de aluno para aluno, at todos terem assinalado com um trao o ms do seu aniversrio: Ms Janeiro Fevereiro Maro Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Qual o ms em que h mais alunos a fazer anos? Qual o ms em que h menos alunos a fazer anos? Quantos alunos estavam na turma, no dia em que se realizou esta tarefa?

4.3.2 Tabela de frequncias para dados qualitativos Os dados qualitativos so organizados na forma de tabelas de frequncias, com duas ou mais colunas. Na primeira coluna, coluna das categorias ou classes, indicam-se todas as categorias presentes no conjunto de dados ou amostra a analisar; na coluna seguinte, coluna das frequncias absolutas, regista-se o nmero de elementos da amostra, que pertencem a cada categoria (ou classe). usual juntar

Organizao e tratamento de dados

50

uma terceira coluna, coluna das frequncias relativas, onde se regista, para cada categoria (ou classe) o valor que se obtm dividindo a frequncia absoluta dessa categoria pela dimenso da amostra (nmero de elementos). Frequncia absoluta de uma categoria ou classe, o nmero de elementos da amostra iguais a cada uma das categorias; Frequncia relativa =
frequncia absoluta . dimenso da amostra

Uma tabela de frequncias reflecte a forma da distribuio da varivel em estudo, na amostra considerada, isto , quais as categorias ou modalidades que assume, assim como a frequncia (absoluta e/ou relativa) com que assume essas modalidades. Enquanto os alunos no conhecerem fraces ou numerais decimais, utilizamse unicamente frequncias absolutas na construo das tabelas de frequncias. Para o conjunto de dados da turma, vamos construir a tabela de frequncias respeitante s variveis Cor dos olhos e Transporte utilizado para ir de casa escola: Cor dos olhos
Categorias Castanhos Pretos Verdes Azuis Nmero de alunos 15 3 2 4

Transporte utilizado
Categorias Autocarro A p Metro Carro Nmero de alunos 5 8 5 6

A tabela correspondente varivel Cor dos olhos foi obtida a partir do esquema de contagem grfica construdo para esta varivel, na seco anterior. A partir das tabelas construdas, pode dar-se resposta a algumas questes. Por exemplo, a partir da tabela respeitante varivel Transporte utilizado, algumas questes so: a) b) c) d) Qual o(s) meio(s) de transporte mais utilizado? Qual o(s) meio(s) de transporte menos utilizado? Quantos alunos vo de carro ou de metro? A partir dos dados apresentados, de admitir que um nmero razovel de alunos mora perto da escola? e) Quantos alunos tem a turma? (admita que cada aluno preencheu uma das fichas a partir das quais se construiu o ficheiro Dados da Turma).

Se, ao organizar um conjunto de dados qualitativos, se verificar que existe uma categoria predominante d-se-lhe o nome de moda. Assim, no que diz respeito varivel Cor dos olhos, a moda a categoria Olhos castanhos, enquanto no que diz respeito varivel Transporte utilizado, a moda o A p. Estas tabelas podem ser complementadas com a coluna das frequncias relativas: Cor dos olhos
Categorias Castanhos Pretos Verdes Azuis Total Freq. abs. 15 3 2 4 24 Freq. rel. 0,625 0,125 0,083 0,167 1

Transporte utilizado
Categorias Autocarro A p Metro Carro Total Freq. abs. 5 8 5 6 24 Freq. rel. 0,208 0,333 0,208 0,250 1

Organizao e tratamento de dados

51

Nas tabelas anteriores introduzimos tambm uma linha com os totais das colunas. Esta metodologia aconselhvel, pois um processo de verificao de que as frequncias devem estar bem calculadas, j que: A soma das frequncias absolutas igual dimenso da amostra; A soma das frequncias relativas igual a 1. Esta ltima condio nem sempre se verifica devido ao facto de algumas frequncias relativas serem dzimas infinitas, obrigando a arredondamentos. Por exemplo, se somarmos as frequncias relativas na tabela que diz respeito varivel Transporte utilizado, obtemos o valor 0,999, que arredondado s unidades d 1. A utilizao das frequncias relativas aconselhada quando se pretendem comparar duas amostras que digam respeito mesma varivel, mas que tenham dimenso diferente. Exemplo Animal domstico preferido dos alunos das turmas A e B. Os professores de duas turmas da escola, A e B, pretendem averiguar se os alunos tm gostos idnticos relativamente ao animal domstico preferido. Assim, em cada turma os alunos disseram qual o animal domstico preferido e construram as tabelas de frequncia respectivas:
Animal domstico preferido Turma A Categoria Co Gato Passarinho(s) Peixe(s) N. de alunos 11 5 3 1 Animal domstico preferido Turma B Categoria Co Gato Passarinho(s) Peixe(s) N. de alunos 14 6 4 2

As duas tabelas foram apresentadas nas duas turmas (em conjunto) e houve alguns alunos que, tendo em conta os dados apresentados, exprimiram as suas opinies: Na turma B h mais alunos do que na turma A a preferirem o Co; Na turma B h o dobro dos alunos da turma A que preferem os Peixes. Ser que estas concluses esto correctas? Na verdade, as concluses no esto correctas pois esto baseadas nas frequncias absolutas e as turmas no tm o mesmo nmero de alunos. Assim, devem-se calcular as frequncias relativas, para se poderem tirar concluses correctas, no que diz respeito comparao das turmas. Adicionando uma coluna com as frequncias relativas a cada uma das tabelas, temos:
Animal domstico preferido Turma A Categoria Co Gato Passarinho(s) Peixe(s) Total N. de alunos 11 5 3 1 20 Freq. relativa 0,55 0,25 0,15 0,05 1 Animal domstico preferido Turma B Categoria Co Gato Passarinho(s) Peixe(s) N. de alunos 14 6 4 2 26 Freq. relativa 0,54 0,23 0,15 0,08 1

Organizao e tratamento de dados

52

Ao compararmos as frequncias relativas, verificamos que, afinal, na turma A h uma maior (embora pequena) frequncia de alunos a preferirem o Co. Verificamos tambm que, nas duas turmas, existe igual preferncia pelos Passarinhos e que, embora haja 2 vezes mais alunos da turma B do que da turma A, a preferirem os peixes, no podemos dizer que na turma B existe o dobro dos alunos da turma A, a preferirem esse animal. 4.3.3 Grfico de pontos e grfico de barras para dados qualitativos 4.3.3.1 Grfico de pontos A representao grfica mais simples que se pode obter e que no necessita de nenhuma organizao prvia dos dados, o grfico ou diagrama de pontos. Tal como o esquema de contagem grfica, uma representao que se pode ir construindo, no caso dos dados qualitativos, medida que se recolhem os dados. Comea-se por desenhar um eixo horizontal (ou vertical), onde se assinalam (igualmente espaadas) as diferentes categorias ou modalidades que a varivel assume no conjunto dos dados. Por cima de cada categoria (ou ao lado), marca-se um ponto sempre que ao recolher um dado ou ao percorrer o conjunto dos dados se encontrar um elemento da respectiva categoria. Por exemplo, para os dados da turma de referncia, podemos distinguir os seguintes passos na construo do grfico de pontos para a varivel Transporte utilizado:

A construo do grfico de pontos facilitada se se utilizar papel quadriculado. Neste caso desenha-se um ponto por quadrcula, como se apresenta a seguir:

A organizao dos dados num grfico de pontos permite visualizar quais as categorias que predominam e quais as menos frequentes. Ao investigarem qual o animal domstico preferido, a metodologia a seguir para a recolha de dados pelos alunos pode ser a utilizada no esquema de contagem grfica. O primeiro aluno a ir ao quadro, que j manifestou oralmente a sua preferncia

Organizao e tratamento de dados

53

pelo Co, comea por desenhar um eixo horizontal ou vertical, onde assinala uma posio para situar a categoria Co, escrevendo por baixo o nome Co e, por cima, desenhando um ponto. O aluno seguinte, que prefere o gato, assinala uma posio para a categoria Gato e procede como o aluno anterior. Os outros alunos vo desenhando pontos em cima dos que j l esto ou acrescentando categorias, em posies igualmente espaadas umas das outras. Se esta investigao tivesse sido colocada turma A da seco anterior, o resultado seria o seguinte:

Se na representao grfica anterior se envolverem os pontos com um rectngulo e a seguir se apagarem os pontos, obtemos um grfico de barras, que objecto de estudo da seco seguinte:

Alternativa ao grfico de pontos Uma alternativa ao grfico de pontos consiste em desenhar quadrados em vez de pontos. Enquanto que no grfico de pontos a preferncia de cada aluno representado por um ponto, nesta representao alternativa, cada aluno desenha um quadrado, obtendo-se um grfico como o que se apresenta a seguir:
Maria Daniel Isabel Tiago Ins Pedro Miguel Filipa Manel Jos Ana Jorde Sofia Snia Filipe Antn Miguel Joo Joana Teresa

Co

Gato

Passarinhos

Peixes

Co

Gato

Passarinhos

Peixes

Esta representao muito aliciante para os alunos, pois cada um tem a oportunidade de colocar o seu nome no quadrado correspondente ao seu animal preferido.

Organizao e tratamento de dados

54

Para se obter a frequncia em cada animal domstico, basta agora contar os quadrados respectivos 4.3.3.2 Grfico de barras Uma forma de visualizar a informao de uma tabela de frequncias atravs do grfico ou diagrama de barras. Para construir este grfico, comea-se por desenhar um eixo horizontal (ou vertical), onde se assinalam (igualmente espaadas) as diferentes categorias ou modalidades que a varivel assume no conjunto dos dados. A ordem por que se colocam as categorias arbitrria, a no ser que haja alguma ordem subjacente, como no caso dos dados qualitativos ordinais. Por cima de cada categoria (ou ao lado), desenha-se uma barra com altura proporcional ao nmero de casos observados nessa categoria. Desenha-se ainda um eixo vertical (horizontal), onde se marcam as frequncias. Ao contrrio das alturas das barras, que do uma mensagem muito precisa, a largura das barras no transmite qualquer informao. Deve, no entanto ter-se em ateno que, no mesmo grfico, as barras devem ter todas a mesma largura, pois as barras mais largas podem chamar mais a ateno, induzindo em erro. A observao que fizemos relativa s tabelas de frequncia, quando se utilizam para comparar amostras que digam respeito mesma varivel, mas de dimenso diferente, tem aqui igual cabimento. Neste caso, as alturas das barras tm de ser iguais s frequncias relativas das categorias para que a soma das alturas das barras em qualquer dos grficos seja igual a 1, permitindo a comparao. Se no tivssemos esta precauo e utilizssemos as frequncias absolutas, a comparao entre os grficos poderia induzir em erro. Eis os grficos de barras correspondentes s tabelas de frequncia construdas na seco 4.3.2 para as variveis Cor dos olhos e Transporte utilizado:

Ao contrrio do grfico de pontos, que no necessita de um eixo onde se marcam as frequncias, no grfico de barras ele faz parte integrante do grfico e no pode ser omitido. Por vezes, para facilitar a leitura das frequncias associadas s diferentes categorias, desenham-se linhas paralelas ao eixo onde esto assinaladas as categorias:

Organizao e tratamento de dados

55

Grfico de barras horizontais Os grficos de barras horizontais utilizam o eixo vertical para marcar as classes e o eixo horizontal para marcar as frequncias. So especialmente indicados no caso das variveis quantitativas, em que, por vezes, o nome das classes longo, sendo mais fcil coloc-los verticalmente do que ao lado uns dos outros. Exemplo Seguro do agricultor 1 . Com o objectivo de fazer um seguro, um agricultor teve de fazer o levantamento do nmero e tipo de rvores de fruto existentes no seu pomar. O resultado apresenta-se na tabela seguinte:
Classes Laranjeiras Limoeiros Pessegueiros Macieiras Pereiras Total Freq. abs. 320 135 257 335 379 1426 Freq. rel. (%) 22,4 9,5 18,0 23,5 26,6 100,0

O grfico de barras horizontais tem o seguinte aspecto:

Graa Martins et al (1999)

Organizao e tratamento de dados

56

A principal vantagem dos grficos, relativamente s tabelas, est na rapidez de leitura, pois permitem-nos ter uma percepo imediata de quais as categorias de maior e menor frequncia, assim como a ordem de grandeza de cada categoria relativamente s restantes. Para que um grfico de barras transmita a informao que se pretende, sem ambiguidade, deve ter associado: o nome da varivel que se est a estudar; os nomes das categorias que a varivel assume, no eixo horizontal (ou vertical); uma escala no eixo vertical (ou horizontal). Nesta escala devem estar marcadas as frequncias absolutas ou as frequncias relativas das categorias que a varivel assume no conjunto de dados considerados.

Tarefa Prato preferido (Sugerida por uma actividade do CensusAtSchool). Na escola, o Director pretende averiguar os pratos preferidos dos alunos que comem na cantina, pelo que encarrega uma comisso de fazer um inqurito a alguns alunos. A metodologia utilizada para seleccionar estes alunos, foi a de interrogar os que se dirigiam cantina, num dia escolhido ao acaso. A comisso encarregue do estudo apresentou ao Director um grfico e um pequeno relatrio com as concluses:

Relatrio: Os alunos interrogados apontaram 7 pratos distintos. Das respostas, pudemos tirar as seguintes concluses: a) O Hambrguer com batatas fritas foi o prato mais votado b) O nmero de alunos que escolheu Hambrguer com batatas fritas, foi o dobro dos que escolheram Frango assado c) Os Filetes de peixe receberam menos 4 votos do que o Hambrguer com batatas fritas d) O Esparguete Bolonhesa foi o segundo prato mais votado e) O Bacalhau com natas teve mais 4 votos do que o Peixe assado f) Houve quem votasse nas Ervilhas com ovos g) 5 alunos votaram no Bacalhau com natas O Director recebeu este pequeno relatrio e no ficou satisfeito, pois achou as concluses muito confusas. Afinal, quantos alunos tinham votado? E quantos votaram em cada prato?

Organizao e tratamento de dados

57

Podes ajudar a completar adequadamente o grfico anterior? (Colocar as categorias e numerar a escala do eixo vertical). 4.3.4 Pictograma Um pictograma uma representao grfica que usa smbolos alegricos s variveis que se esto a estudar. Por exemplo, se se estiver a estudar a varivel cor dos olhos, natural utilizar como smbolo um olho, enquanto que se o objecto do estudo for o sabor do gelado preferido, natural utilizar como smbolo um gelado. A representao idntica ao grfico de barras, com um eixo horizontal (ou vertical), mas onde se substitui a barra pelo nmero de smbolos correspondentes a cada categoria. Por exemplo, o pictograma correspondente varivel Cor dos olhos da turma de referncia, pode ter o seguinte aspecto:

Nota Por vezes uma figura representa mais do que um indivduo. Nessa altura deve estar junto representao grfica o valor de cada figura. Tarefa Bolachas preferidas. No seguinte pictograma apresenta-se o resultado de um inqurito a uma turma, sobre qual o sabor preferido de um determinado tipo de bolachas:

Algumas questes: a) Quantos alunos responderam a esta questo? b) Quantos alunos disseram preferir sabor a Limo? c) Qual o sabor mais popular? d) Que nome se d categoria mais preferida?

Organizao e tratamento de dados

58

A utilizao de pictogramas exige vrios cuidados, pois as figuras podem induzir em erro, como se ilustra nos exemplos seguintes. Exemplo Os passageiros de um navio. Considere um navio que transporta 525 pessoas, de acordo com a seguinte tabela de frequncias, para a varivel Tipo de passageiro:
Categorias Tripulao 1. classe 2. classe 3. classe Total Freq. Abs. 141 51 115 218 525

A utilizao do seguinte pictograma, para representar as frequncias das categorias da varivel em estudo, induz o leitor em erro:

H um princpio bsico de uma boa representao grfica, que neste caso foi quebrado o princpio das reas: a rea ocupada por parte de um grfico, deve ser proporcional ao valor que essa parte representa.

Ora, na figura anterior, a informao que se pretendia transmitir era a dada pelo comprimento do barco. Utilizaram-se figuras cujas reas no so proporcionais aos valores das categorias, no dando uma informao correcta sobre as frequncias correspondentes s diferentes categorias. Por exemplo, ao visualizar o grfico anterior ficamos convencidos de que o nmero de passageiros viajando em 3. classe mais do dobro dos que viajam em 2, quando na verdade no chega ao dobro. Uma representao grfica correcta seria a seguinte, utilizando um grfico de barras:

Organizao e tratamento de dados

59

Exemplo Campo de jogos (adaptado de Graa Martins et al. 1999). Numa escola o Director pretende construir um campo de jogos, pelo que gostaria de ter uma ideia de quais os jogos preferidos dos alunos. Encarregou um aluno de recolher a informao necessria, o qual utilizou a seguinte metodologia: elaborou uma lista de jogos possveis e percorreu todas as turmas da escola, em nmero de 20, perguntando dentro de cada turma qual a opinio dos alunos cujo nmero fosse um mltiplo de 5. Em trs turmas foram seleccionados 6 alunos e nas restantes 5. O resultado da recolha da informao tinha o seguinte aspecto Futebol Volei Basquete Tnis Andebol x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x xxxxxxxxxxxxxxx x xxxxxxxxxx xx

O aluno, ao perguntar a cada elemento da amostra a sua opinio, apontava o resultado com um x frente da modalidade seleccionada. A forma como a informao foi recolhida permite imediatamente concluir que a modalidade preferida foi o futebol. A fim de transmitir verbalmente a informao ao Director, o aluno construiu a seguinte tabela de frequncias
Classes Futebol Volei Basquete Tnis Andebol Total Freq. abs. 32 18 27 19 7 103 Freq. rel (%) 31.1 17.5 26.2 18.4 6.8 100

Ento o Director foi informado que as preferncias dos alunos vo para o futebol seguindo-se o basquete. Depende agora das disponibilidades financeiras contemplar as diferentes modalidades, tendo em conta as preferncias dos alunos. Procurando transmitir a informao graficamente, os alunos construram o seguinte pictograma, onde se substituiu a barra por uma figura humana:

Organizao e tratamento de dados

60

Na figura anterior a imagem correspondente classe futebol substancialmente maior que a que utilizada para as outras modalidades ou classes. Da dar uma ideia, errada, de que, por exemplo, a percentagem de alunos que preferem o futebol vrias vezes superior aos que preferem volei, quando nem sequer chega a ser o dobro. Este problema foi ocasionado pelo facto de se pretender que a figura humana ficasse proporcional, pelo que medida que se aumentou a altura, tambm se aumentou a largura. O grfico de barras correspondente tem o seguinte aspecto:

Grfico de barras para a varivel Jogo preferido

Na construo do grfico de barras, como j dissemos nas indicaes para a sua construo, deve ter-se em ateno que as barras devem ter a mesma largura, pois a mensagem que devem transmitir a que est contida nas diferentes alturas das barras. Se umas barras forem mais largas do que outras, temos tendncia a crer que as classes a que correspondem as barras mais largas tm maior frequncia do que a que efectivamente tm. Este um problema que no tido em conta na construo de muitos pictogramas, em que as barras so substitudas por figuras, para tornar a representao grfica mais atraente, como aconteceu no caso deste exemplo. Um pictograma possvel, o que se apresenta a seguir, em que a figura utilizada uma figura humana, que corresponde a uma percentagem de 5%, que se replica o nmero de vezes que for necessrio, sendo possvel utilizar uma fraco da figura:

Organizao e tratamento de dados

61

Pictograma para a varivel Jogo preferido

Exemplo Seguro do agricultor (cont.). Uma representao grfica possvel para este exemplo, apresentado na seco 4.3.3.2 seria a seguinte, em que se considera uma figura sugestiva, mas sem incorrer no erro da representao inicial do exemplo anterior.

Pictograma para a varivel Tipo de rvore

Embora seja comum dizer que uma imagem vale mais do que mil palavras, no podemos deixar de chamar a ateno para que esta frase tem sentido se a informao transmitida pela imagem for correcta, o que, como vimos, nem sempre acontece. Tarefa Os animais do jardim No jardim da escola, que tem um lago muito bonito, o professor decidiu ir com os alunos verificar que tipo de animais que havia no jardim. Verificaram que havia animais de 4 tipos: ces, peixes, patos e tartarugas, de acordo com o seguinte pictograma

Organizao e tratamento de dados

62

Algumas questes que podem ser colocadas, so as seguintes: Quantos patos h no jardim? Quantos peixes h no jardim? Quantos animais vivem no jardim? H alguns animais que existam na mesma quantidade? Se existirem, quais so? Quantos peixes h a mais do que patos? Ofereceram 2 tartarugas para o jardim da escola. Quantas tartarugas existem agora? No problema anterior, o que o dado? Dado o resultado da observao do tipo de animal, pelo que o conjunto de dados observados foi: Co, Co, Co, Peixe, Peixe, Peixe, Peixe, Peixe, Pato, Pato, Pato, Pato, Tartaruga, Tartaruga, Tartaruga Cada figura do pictograma representa cada dado, de uma forma sugestiva. A partir do pictograma facilmente se constri a tabela de frequncias absolutas e o grfico de barras associado: Tipo de animal Co Peixe Pato Tartaruga Total Frequncia absoluta 3 5 4 3 15

Organizao e tratamento de dados

63

4.3.5 Grfico circular Uma representao grfica muito utilizada, nomeadamente na comunicao social, o grfico circular. A base desta representao um crculo que representa a forma como o total de um conjunto de dados se distribui pelas categorias. O crculo dividido em sectores circulares, tantos quantas as categorias da varivel em estudo, e o ngulo de cada sector proporcional frequncia da categoria que representa. Assim, cada sector representa uma fraco do total de dados. Os alunos devem comear por aprender a ler a informao transmitida por estas representaes grficas e s posteriormente procederem sua construo. Para os alunos mais novos, a construo do grfico circular deve ser feita atravs de dobragens do crculo em 2, 4 ou 8 partes, pelo que para estes alunos s se recomenda a sua utilizao para representar frequncias relativas prximas de , , 1/8, ou para interpretar frequncias relativas relacionadas com estas. Exemplo A piza preferida nas turmas A e B. Na turma, o professor apresentou os resultados de um inqurito, sobre qual a piza preferida nas turmas A e B, utilizando os seguintes grficos circulares:
Turma A Turma B

Como se verifica, num grfico circular utilizam-se percentagens, j que a forma indicada para representar a fraco de cada categoria como parte do todo, em que este todo representado pelo crculo e equivale a 100%. Tivemos o cuidado de colocar estas percentagens, assim como os nomes das categorias, ao lado das fatias respectivas do crculo, para uma melhor leitura do grfico. Destas representaes grficas, imediatamente se conclui que: A maior parte dos alunos, tanto da turma A (50%), como da turma B (31%), preferem a piza Quatro queijos; A piza menos preferida, a de Vegetais, tanto para os alunos da turma A, como da turma B; Metade dos alunos da turma A prefere a piza Quatro queijos e metade dos restantes, prefere a piza Margarita; Na turma A h igual nmero de alunos a preferirem a piza de Frango e a piza de Atum, enquanto que na turma B existe igual nmero de alunos a preferirem a piza Margarita e a de Frango. Exemplo de algumas questes suplementares, envolvendo um desafio mais forte, so as seguintes:

Organizao e tratamento de dados

64

Podemos afirmar que o nmero de alunos da turma A que prefere piza Quatro queijos, superior ao nmero de alunos da turma B a preferir o mesmo tipo de piza? Sabe-se que na turma A, h 10 alunos a preferirem piza Quatro queijos. Quantos alunos tem a turma? Nas condies da alnea anterior, quantos alunos da turma A preferem piza de Vegetais? Se se duplicasse o nmero de alunos da turma A (situao pouco razovel, devido ao elevado nmero de alunos...) a preferirem cada tipo de piza, o que acontecia ao grfico circular?

Admitindo agora que tnhamos a tabela de frequncias correspondente piza preferida da turma A, vejamos como proceder construo do grfico circular respectivo:
Piza preferida Margarita Quatro queijos Vegetais Frango Atum Total Frequncia Absoluta 5 10 1 2 2 20 Frequncia Relativa (%) 25 50 5 10 10 100

Como 50% dos alunos preferem a piza Quatro queijos, ento metade do crculo corresponde a esta categoria; Como 25% dos alunos prefere piza Margarita, um quarto do crculo, corresponde categoria Margarita; O quarto do crculo restante deve ser dividido em 5 sectores aproximadamente iguais, considerando-se uma das partes para a categoria Vegetais e duas partes para a categoria Frango e outras duas para a categoria Atum. Finalmente pintam-se os sectores e colocam-se as etiquetas e as percentagens correspondentes

Nem sempre a construo do grfico circular to simples como no caso anterior, em que as frequncias relativas eram relativamente fceis de marcar. Por exemplo, no caso da turma B, mesmo necessrio dividir a amplitude do ngulo de 360 em amplitudes proporcionais s frequncias relativas das categorias para construir os sectores circulares. Estas amplitudes que se obtm multiplicando 360 pelas fre-

Organizao e tratamento de dados

65

quncias relativas das categorias so acrescentadas tabela de frequncia e para desenhar os sectores circulares necessrio utilizar um transferidor:
Piza preferida Margarita Quatro queijos Vegetais Frango Atum Total Frequncia Absoluta 7 8 2 7 2 26 Frequncia Relativa (%) 27 31 8 27 7 100 Amplitude do ngulo 97 111 27 98 27 360

Nota Em Graa Martins et al. (2007, p. 90) ensina-se a construir um grfico circular a partir de papel quadriculado e cartolina. A utilizao dos grficos circulares merece alguns cuidados, nomeadamente quando o nmero de categorias que a varivel assume for demasiado grande, tornando confusa a informao que procura transmitir. Por exemplo, admitamos que as preferncias dos alunos de uma outra turma foram as seguintes:

O grfico est bem construdo, com a legenda e as percentagens associadas s categorias indicadas, mas a mesma informao seria mais facilmente apreendida atravs de um grfico de barras, como se apresenta a seguir, em que se torna mais fcil de visualizar as diferenas entre as frequncias das diferentes categorias:

Nem sempre a utilizao de grficos circulares a mais conveniente Embora no exemplo anterior tenhamos utilizado dois grficos circulares para comparar os gostos de duas turmas, por vezes prefervel a utilizao de grficos de

Organizao e tratamento de dados

66

barras dispostos de forma adequada. Esta observao especialmente adequada para o caso em que nas distribuies em anlise, algumas categorias tenham valores prximos, o que faz com que as reas dos sectores circulares sejam difceis de comparar. Por exemplo, para distinguir os gostos dos rapazes dos gostos das raparigas da turma B, a utilizao dos grficos circulares

no to adequada como o grfico de barras

pois nesta representao o comprimento das barras torna mais fcil comparar as frequncias correspondentes s mesmas categorias. Da representao grfica anterior conclumos que a moda nos rapazes a piza Quatro queijos, enquanto que nas raparigas a Piza Margarita. Tarefa Animal domstico preferido. O grfico circular seguinte mostra o resultado de uma sondagem a 50 alunos de um escola, sobre qual o animal domstico preferido:

Estima o nmero de alunos que: a) Tm co b) Tm gato ou pssaro c) No tm animal domstico

Organizao e tratamento de dados

67

Tarefa Meio de transporte utilizado. Aos mesmos alunos da tarefa anterior perguntou-se qual o meio de transporte que utilizavam para ir para a escola. Os resultados obtidos esto na seguinte tabela:
Transporte utilizado Carro Transportes pblicos A p Autocarro da Cmara Outro N. de alunos 8 21 18 2 1

Completa a tabela seguinte com as frequncias relativas, com 2 casas decimais e em percentagem:
Transporte utilizado Carro Transportes pblicos A p Autocarro da Cmara Outro Total N. de alunos 8 21 18 2 1 50 Fraco do todo (2 casas decimais) Fraco do todo (percentagem)

Na figura seguinte apresentam-se 2 crculos, em que no primeiro esto marcadas 50 divises iguais e no segundo 100 divises iguais:

a) Cada um dos crculos anteriores pode servir para construir grficos circulares: num deles mais fcil utilizar as frequncias absolutas e no outro as frequncias relativas (em percentagem). Explica porqu. b) Constri os grficos circulares utilizando quer as frequncias absolutas, quer as frequncias relativas. Compara as representaes obtidas e descreve o que concluste. c) A partir da tabela de frequncias inicialmente dada, construiu-se o seguinte grfico de barras para os mesmos dados:

Organizao e tratamento de dados

68

i) Qual das representaes grficas preferes? O grfico circular ou o grfico de barras? ii) Qual o tipo de informao que realada pelo grfico circular? iii) Qual o tipo de informao que realada pelo grfico de barras? Nota No texto anterior alertmos para o facto de ser necessrio algum cuidado na utilizao do grfico circular, nomeadamente quando a distribuio a representar, apresenta muitas categorias (ou classes) ou quando os valores das frequncias de algumas das categorias esto prximos. No entanto uma representao por excelncia, quando o que se procura realar a forma como os dados se distribuem pelas categorias, j que representa a fraco de cada categoria como parte do todo, em que este todo representado pelo crculo e equivale a 100%. Assim, a escolha da representao grfica adequada para representar um conjunto de dados pode depender do que que se procura realar na distribuio desses dados. 4.3.6 Nem sempre um grfico com barras um grfico de barras... comum utilizarem-se grficos com barras para representar os prprios dados e no as frequncias com que as diferentes classes ou categorias surgem no conjunto de dados que se est a estudar. Por exemplo, admitamos que se estava interessado em saber qual o nmero de alunos de cada uma das turmas do 7. ano, de determinada escola. Depois de feita a contagem, chegou-se aos seguintes resultados: Turma A B C D E N. de alunos 27 26 25 26 25

A tabela anterior no uma tabela de frequncias, mas simplesmente uma tabela que apresenta os dados. Neste caso, a unidade observacional, isto o objecto do nosso estudo, sobre o qual pretendemos recolher informao, a turma, porque o nosso objectivo era saber quantos alunos tinha cada turma do 7. ano. O dado o

Organizao e tratamento de dados

69

resultado da nossa observao! Assim, os nossos dados so o nmero de alunos das turmas A, B, C, D e E ou seja 27, 26, 25, 26, 25 Uma forma possvel de representar a informao anterior, utilizando um grfico com barras, como o que se apresenta a seguir:

O grfico anterior, embora seja um grfico com barras, no o que se chama, em Estatstica, um grfico de barras, pois um grfico onde esto representados os dados e no as frequncias absolutas ou relativas de um conjunto de dados. Admitamos agora que considervamos um conjunto de 25 alunos do 7. e decidamos investigar a que turma pertencia cada aluno Agora, a unidade observacional o aluno e a caracterstica que estamos a estudar a turma a que pertence, pelo que os nossos dados sero do tipo A, C, B, A, E, C, ....,A Aps resumir a informao contida no conjunto de dados anteriores, atravs de uma tabela de frequncias, poderamos construir o grfico de barras associado. Um resultado possvel poderia ser:

Turma A B C D E Total

Freq. Absoluta 4 3 5 6 7 25

Este grfico, embora idntico ao apresentado no incio desta seco, um grfico de barras onde esto representadas as frequncias absolutas das categorias assumidas pela varivel em estudo Turma a que o aluno pertence, no conjunto dos dados. No outro grfico esto representados os dados obtidos ao observar a varivel Nmero de alunos por turma.

Organizao e tratamento de dados

70

Confuso entre dados e frequncia! A situao em que se confundem dados com frequncias mais comum do que se poderia pensar. Mesmo em obras cientficas aparecem situaes em que se faz essa confuso. Reproduzimos a seguir um exemplo, de entre os vrios que encontrmos, em livros de texto de Matemtica para o Ensino Bsico: O grfico representa as reas dos continentes

1. Qual o continente que tem menor rea? 2. Qual a rea da Europa em ha? 3. Qual o continente com maior rea? 4. Constri uma tabela de frequncias

A resposta apresentada para a questo 4 a seguinte: Continente Ocenia Europa sia Amrica frica rea milhes km2 9 10 44 42 30

No grfico anterior esto representadas as reas dos cinco continentes e essas reas so os dados resultantes da observao da varivel rea de cada continente. Assim, no tem qualquer sentido a questo 4, onde se pede para construir uma tabela de frequncias, pois nem o grfico apresenta as frequncias, nem a tabela uma tabela de frequncias. No entanto, tanto o grfico como a tabela apresentam correctamente os dados observados. Outro exemplo tambm encontrado num texto de Matemtica o seguinte: No jardim zoolgico contou-se o nmero de visitantes que durante uma semana assistiram ao espectculo dos golfinhos. Os resultados obtidos foram: Segunda 0; Sexta 1500; Tera 1000; Sbado 3000; Quarta 1500; Domingo 2500 5 feira 1250;

1. Elabora uma tabela de frequncias absolutas 2. Constri um grfico de barras correspondente, considerando as frequncias absolutas de 500 em 500 3. Indica os dois dias com maior nmero de visitantes. Porque ser?

Organizao e tratamento de dados

71

A resoluo apresentada a seguinte:


Dia da semana N. de visitantes

2 3 4 5 6 Sb. Dom.

0 1000 1500 1250 1500 3000 2500

Mais uma vez, nem a tabela anterior uma tabela de frequncias, nem o grfico um grfico de barras. Ateno s escalas! A principal vantagem dos grficos, relativamente s tabelas, est na rapidez de leitura, pois permitem-nos ter uma percepo imediata de quais as categorias de maior e menor frequncia, assim como a ordem de grandeza de cada categoria relativamente s restantes. Para que um grfico com barras, quer represente os dados ou as frequncias (grfico de barras) transmita a informao que se pretende sem ambiguidade, deve ter uma escala onde devem estar marcados o valor dos dados ou das frequncias (absolutas ou relativas). A manipulao das escalas, sobretudo a do eixo onde esto marcadas as frequncias, pode ser usada com o intuito de transmitir informao incorrecta, como se verifica nos dois exemplos seguintes. Exemplo Nmero de queixas recebidas num hospital, por negligncia mdica. Suponha que num determinado hospital o nmero de queixas, no perodo de 2003 a 2007, foi o seguinte: 8, 9, 12, 13 e 12. Foram apresentadas as seguintes representaes grficas para transmitirem a informao anterior:
13 Nmero de queixas

19 Nmero de queixas 17 15 13 11 9 7
2003 2004 2005 2006 2007

12 11 10 9 8 7

2003

2004

2005

2006

2007

A representao grfica da esquerda procura realar o facto do nmero de queixas ter aumentado substancialmente, enquanto que a do lado direito procura desvalori-

Organizao e tratamento de dados

72

zar esse aumento. Em nenhum dos grficos a escala se inicia no ponto 0, o que um erro. Por outro lado, no grfico do lado direito ainda se diminuiu a distncia entre os incrementos do eixo vertical, ao mesmo tempo que se aumentou a distncia entre as categorias no eixo horizontal. Uma representao correcta pode ser a seguinte:

Mais frente veremos outra representao grfica, o grfico de linha, mais sugestivo e apropriado para representar este tipo de informao, em que se procura representar a evoluo de uma varivel, com o tempo. Exemplo Quantidade de acar nos cereais para crianas. Uma empresa que vende cereais para crianas faz publicidade aos seus cereais da marca Que Bom, alegando que tm menos acar do que os da concorrncia. Para fundamentar a sua alegao apresenta o grfico do lado esquerdo da figura seguinte, onde compara os 9grs de acar, por 100grs do cereal Que Bom, com os 15, 14, 12, 11 e 11 gramas, de acar, por 100grs, respectivamente dos cereais A, B, C, D e E:
15 grs acar/100grs _
grs acar/100grs 15 _

14 _ 13 12 11 10 9 _ _ _ _ _

_ 10

5_

8_ A B C D E Que Bom

0_ A B C D E Que Bom

Organizao e tratamento de dados

73

4.4 Tabelas e grficos para dados quantitativos discretos


Como j vimos na seco 3.3, as variveis quantitativas de contagem, isto , que se referem a caractersticas que s se podem contar e no se podem medir, designam-se tambm por variveis quantitativas discretas. O resultado da observao destas variveis so os dados quantitativos discretos. Estas variveis s podem assumir um nmero finito ou infinito numervel de valores distintos. 2 4.4.1 Tabela de frequncias para dados quantitativos discretos A construo da tabela de frequncias para dados quantitativos discretos idntica construda para dados qualitativos, considerando-se agora para classes os valores distintos que surgem no conjunto de dados. Os dados discretos so organizados na forma de uma tabela de frequncias, com trs ou mais colunas. Na primeira coluna, coluna das classes, indicam-se todos os valores distintos, x * , presentes na amostra a analisar; na coluna seguinte, coluna i das frequncias absolutas ni, regista-se o nmero de vezes que cada valor x * , i surge na amostra. Numa terceira coluna, coluna das frequncias relativas (ou percentagens) fi, regista-se, para cada classe x * , o valor que se obtm dividindo a i frequncia absoluta pela dimenso da amostra (nmero de elementos). Pode ainda incluir-se na tabela de frequncias mais duas colunas, a coluna das frequncias absolutas acumuladas e a coluna das frequncias relativas acumuladas, onde, para cada classe, se coloca a soma das frequncias absolutas ou relativas, respectivamente. As colunas das frequncias acumuladas, nomeadamente a das frequncias relativas bastante til no clculo da mediana e dos quartis, medidas de localizao de alguns pontos importantes da distribuio dos dados, como veremos mais frente. No exemplo da turma de referncia, a varivel Nmero de irmos de natureza discreta e a tabela de frequncias construda a partir dos valores observados para os alunos da turma tem o seguinte aspecto:
N. de irmos Freq. Abs. ni 6 9 5 3 1 24 Freq. Rel. fi 0,250 0,375 0,208 0,125 0,042 1,000 Freq. Abs. Acum. 6 15 20 23 24 Freq. Rel. Acum. 0,250 0,625 0,833 0,958 1,000

x* i
0 1 2 3 4 Total

Da tabela anterior podemos retirar algumas concluses relativas a esta turma: Na turma predominam os alunos com um nico irmo, pelo que o valor de 1 para a varivel Nmero de irmos, a moda; 25% dos alunos no tm nenhum irmo; No h alunos com mais de 4 irmos; Mais de 95% dos alunos tm 3 ou menos irmos.

2 Recordemos que num conjunto infinito numervel pode estabelecer-se uma correspondncia entre os seus elementos e o conjunto dos nmeros naturais

Organizao e tratamento de dados

74

No caso das variveis qualitativas, ao construirmos as tabelas de frequncia, no considermos as frequncias acumuladas. Efectivamente, s para alguns casos especiais das variveis qualitativas, as variveis ordinais em que se pode estabelecer uma ordenao ou hierarquia entre as classes, que tem sentido calcular as frequncias acumuladas. Por exemplo, se os alunos da Turma de referncia fizessem um teste de Lngua Portuguesa e fossem classificados com as classificaes de No satisfaz, Satisfaz pouco, Satisfaz, Satisfaz muito e Satisfaz plenamente, uma tabela de frequncias possvel, seria a seguinte:
Classificao No satisfaz Satisfaz pouco Satisfaz Satisfaz muito Satisfaz plenamente Total Freq. Abs. ni 1 4 11 6 2 24 Freq. Rel. fi 0,042 0,167 0,458 0,250 0,083 1,000 Freq. Abs. Acum. 1 5 16 22 24 Freq. Rel. Acum. 0,042 0,208 0,667 0,917 1,000

Tendo em considerao a tabela anterior, poderamos concluir que: S 5 alunos, ou seja, cerca de 21% dos alunos que tiveram classificao negativa; Cerca de 79% (100%-21%) dos alunos tiveram nota positiva. Embora a varivel em estudo seja de tipo qualitativo, tem a particularidade de ser ordinal, pois pode-se estabelecer uma hierarquia entre as classes ou categorias que assume: No satisfaz menor que Satisfaz pouco, etc. No entanto, para os mesmos alunos, se estivermos a estudar a varivel Cor dos olhos, para a qual construmos a tabela de frequncias
Categorias Castanhos Pretos Verdes Azuis Total Freq. abs. 15 3 2 4 Freq. rel. 0,625 0,125 0,083 0,167 1

j pode dar origem a interpretaes erradas juntarmos, tabela, as colunas das frequncias acumuladas. No se pode dizer que 75% (62,5%+12,5%) dos alunos tm cor dos olhos menor ou igual a Pretos. Poderamos eventualmente interpretar esse valor dizendo que 75% dos alunos tm olhos Castanhos ou Pretos, mas no este o objectivo das frequncias acumuladas. 4.4.2 Grfico de pontos e grfico de barras para dados quantitativos discretos 4.4.2.1 Grfico de pontos Tal como para os dados qualitativos, a representao grfica mais simples que se pode obter e que no necessita de nenhuma organizao prvia dos dados, o grfico ou diagrama de pontos. uma representao que se pode ir construindo medida que se recolhem os dados. Comea-se por desenhar um eixo horizontal (ou vertical), onde se assinalam todos os valores que a varivel assume no conjunto dos dados. Por cima de cada valor (ou ao lado), marca-se um ponto sempre que ao

Organizao e tratamento de dados

75

recolher um dado ou ao percorrer o conjunto dos dados se encontrar um valor igual. Por exemplo, para os dados da turma de referncia, podemos distinguir os seguintes passos na construo do grfico de pontos para a varivel Nmero de irmos:

Se entre o mnimo e o mximo da amostra, houver alguns valores que no existam no conjunto dos dados a analisar, esses valores devem tambm ser assinalados no eixo, embora no se lhes associem quaisquer pontos. Por exemplo, o grfico de pontos correspondente varivel Nmero de letras no nome, da turma de referncia, tem o seguinte aspecto:

Da representao anterior, imediatamente se conclui que, na turma: Predominam os nomes com 12 letras; No h nomes com 18 ou 19 letras; O nome maior tem 20 letras. Para a construo do grfico de pontos recomenda-se a utilizao do papel quadriculado. O grfico de pontos d uma informao muito semelhante que transmitida pelo grfico de barras. 4.4.2.2 Grfico de barras Dado um conjunto de dados de tipo quantitativo discreto, para o qual se construiu uma tabela de frequncias, a representao grfica mais utilizada o grfico de barras. Para este tipo de dados, a construo do grfico de barras semelhante que fizemos para os dados de tipo qualitativo. Comea-se por desenhar um eixo (normalmente horizontal) e nesse eixo marcam-se os valores x * , que constituem i as classes. Nesses pontos marcam-se barras de altura igual respectiva frequncia absoluta ou relativa. Fazemos aqui uma observao idntica que j fizemos no caso da construo do grfico de pontos: deve marcar-se no eixo a sequncia completa dos valores entre o mnimo e o mximo observados, mesmo que alguns desses valores no constem da amostra. Por exemplo, para o caso da varivel Nmero de letras no nome, da turma de referncia, tem-se:

Organizao e tratamento de dados

76

N. de letras no nome

x* i
9 10 11 12 13 14 15 16 17 20 Total

Freq. Abs. ni 1 3 4 6 3 2 2 1 2 1 24

Freq. Rel. fi 0,042 0,125 0,167 0,250 0,125 0,083 0,042 0,042 0,083 0,042 1,000

As concluses que tiramos a partir da representao grfica anterior, so idnticas s obtidas a partir do grfico de pontos. Tarefa Nmero de irmos. O professor props na sua turma A averiguar o nmero de irmos dos alunos (da turma) e posteriormente comparar com o nmero de irmos dos alunos da turma de referncia. Para proceder recolha dos dados, sugeriu que se construsse no quadro um tally chart, onde cada aluno ia assinalar quantos irmos tinha. Admita que se obteve, como resultado, o seguinte esquema: Depois de todos os alunos presentes terem ido ao quadro, um dilogo possvel pode ser o seguinte: Professora A partir da representao anterior pode-se concluir quantos alunos esto inscritos na turma A? Aluno Pode-se concluir que neste dia do estudo esto presentes 26 alunos, mas no quantos alunos esto inscritos na turma, j que alguns podem ter faltado. A seguir, o professor prope que um dos alunos v ao quadro e, com a ajuda dos colegas, construa a tabela de frequncias para a varivel em estudo e o grfico de barras:
Turma A N. de irmos 0 1 2 3 4 Total N. de alunos 4 7 9 4 2 26

Os alunos chegaram a algumas concluses interessantes, tais como: Predominam os alunos com 2 irmos; H quatro alunos sem irmos; O nmero de alunos sem irmos igual ao nmero de alunos com 3 irmos. Para proceder comparao solicitada, construram o grfico de barras para a varivel Nmero de irmos da turma de referncia, tendo obtido o seguinte:

Organizao e tratamento de dados

77

Turma de referncia N. de irmos 0 1 2 3 4 Total N. de alunos 6 9 5 3 1 24

Os alunos queriam comear a fazer comparaes entre os dois grficos, mas o professor chamou a ateno para um ponto muito importante: que as duas turmas no tinham o mesmo nmero de alunos e por isso no correcto comparar representaes grficas em que as alturas das barras so as frequncias absolutas. necessrio juntar s tabelas de frequncias uma nova coluna com as frequncias relativas e construir outros grficos de barras em que as alturas das barras so as frequncias relativas. Agora sim, j se podem fazer comparaes, pois a soma das alturas das barras nos dois casos igual a 1. Este estudo apresenta-se a seguir:
N. de irmos 0 1 2 3 4 Total Turma A Freq. abs. 4 7 9 4 2 26 Freq. rel. 0,154 0,269 0,346 0,154 0,077 1,000 Turma de referncia N. de irmos Freq. abs. Freq. rel. 0 6 0,250 1 9 0,375 2 5 0,208 3 3 0,125 4 1 0,042 Total 24 1,000

Algumas concluses: De um modo geral, os alunos da turma A tm mais irmos que os alunos da turma de referncia; Enquanto que na turma A, cerca de 15% dos alunos no tm irmos, na turma de referncia esse valor aumenta para 25%; Na turma A predominam os alunos com 2 irmos, enquanto que na turma de referncia predominam os alunos com 1 irmo; Enquanto que na turma A, mais de 15% dos alunos tm 3 irmos, na turma de referncia esse valor no chega aos 13%. Perante as concluses anteriores, o professor lanou a seguinte questo: No sabemos a idade dos alunos da turma de referncia! Poderemos, no entanto, adiantar a hiptese de que so mais novos do que os alunos da turma A? Porque que o professor se lembrou de fazer esta suposio? Ainda continuando com o mesmo tema, o professor colocou as seguintes questes aos alunos: Calcular a totalidade de irmos dos alunos da turma;

Organizao e tratamento de dados

78

Se todos os alunos tivessem o mesmo nmero de irmos, quantos irmos teriam? Facilmente os alunos indicaram um processo para calcular o nmero total de irmos, pois bastou fazer 17+29+34+42 = 45 Para ver quantos irmos teriam, se todos tivessem o mesmo nmero de irmos, sugeriram que se dividisse o nmero total de irmos, pelo nmero total de alunos 45 1,7 26 Como interpretar este valor de 1,7, a que chamamos mdia do nmero de irmos? Se todos os alunos tivessem o mesmo nmero de irmos, cada aluno teria mais do que 1 irmo, mas no chegaria a ter 2 irmos, embora estivesse l perto. Quantos irmos mais seriam necessrios para dar os 2 irmos para cada aluno? Seriam necessrios 7 irmos, para ter no total 52 irmos, j que 52/26=2. Neste caso diramos que cada aluno tinha, em mdia, 2 irmos. Embora o grfico de barras seja a representao mais utilizada para dados discretos, a sua utilizao nem sempre a mais conveniente, nomeadamente quando o nmero de valores distintos assumidos pelos dados muito grande, dando origem a demasiadas classes. Exemplo - Candidatos a algumas vagas (Adaptado de Freedman, 1991). No Distrito Sanitrio de Chicago, a escolha dos tcnicos feita mediante um exame. Em 1966, havia 223 candidatos para 15 vagas. O exame teve lugar no dia 12 de Maro e os resultados dos testes (inteiros numa escala de 0 a 100) apresentam-se a seguir: 26 33 37 42 44 46 49 52 56 58 61 67 74 82 90 27 33 37 42 44 47 49 53 56 59 61 68 74 82 91 27 33 37 42 44 47 49 53 56 59 62 68 74 83 91 27 33 37 42 45 47 49 53 56 59 62 68 75 83 91 27 33 37 43 45 47 50 53 57 59 62 69 75 83 92 29 34 39 43 45 47 50 53 57 60 63 69 76 83 92 30 34 39 43 45 47 51 54 57 60 63 69 76 84 92 30 34 39 43 45 48 51 54 57 60 64 69 78 84 93 30 35 39 43 45 48 51 54 58 60 65 69 80 84 93 30 35 39 43 45 48 51 54 58 60 66 69 80 84 93 31 36 39 43 46 48 51 54 58 60 66 69 80 84 93 31 36 39 43 46 48 52 55 58 61 66 71 80 84 95 31 36 40 44 46 48 52 55 58 61 67 71 81 84 95 32 37 41 44 46 48 52 55 58 61 67 72 81 90 32 37 42 44 46 48 52 56 58 61 67 73 81 90

Neste caso, a construo da tabela de frequncias, segundo a metodologia descrita para dados discretos, conduziria a uma tabela com demasiadas classes. Assim, resolvemos tomar como classes uma partio natural, para os dados considerados, que a seguinte: considerar como classes os intervalos 20 a 29, 30 a 39, 40 a 49, 50 a 59, 60 a 69, 70 a 79, 80 a 89, 90 a 99.

Organizao e tratamento de dados

79

Classes 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 80 a 89 90 a 99 Total

Freq. abs. 6 36 52 46 36 12 20 15 223

Freq. rel. 0,027 0,161 0,233 0,206 0,161 0,054 0,090 0,067 1

Tabela de frequncias para os resultados dos testes

A representao grfica para os dados organizados desta forma j no pode ser um diagrama de barras, pois no existe um ponto onde colocar a barra, uma vez que as classes so intervalos. Veremos, mais frente, que a representao grfica adequada o histograma. A organizao dos dados na forma da tabela anterior permite realar o facto de predominarem as classificaes entre 40 e 49, diminuindo progressivamente para baixo e para cima desses valores. Temos, no entanto de estar conscientes de que ao fazer a reduo de dados h informao que sobressai, como a estrutura subjacente aos dados, embora haja outra informao que possivelmente se perde. Vejamos qual o aspecto da tabela se tivssemos considerado como classes todos os valores distintos da amostra, sem os agrupar: Classe 26 27 29 30 31 32 33 34 35 36 37 39 1 4 1 4 3 2 5 3 2 3 7 7 Classe 40 41 42 43 44 45 46 47 48 49 50 51 1 1 5 8 6 7 6 6 8 4 2 5 Classe 52 53 54 55 56 57 58 59 60 61 62 63 5 5 5 3 5 4 8 4 6 6 3 2 Classe 64 65 66 67 68 69 71 72 73 74 75 76 1 1 3 4 3 7 2 1 1 3 2 2 Classe 78 80 81 82 83 84 90 91 92 93 95 1 4 3 2 4 7 3 3 3 4 2

Tabela de frequncias para os dados sem estarem agrupados

O diagrama de barras correspondente tem o seguinte aspecto

Diagrama de barras dos resultados nos testes

Organizao e tratamento de dados

80

Da anlise da tabela e do grfico anterior verifica-se a existncia de uma lacuna, no havendo classificaes iguais a 85, 86, 87, 88 e 89 e o nmero de classificaes iguais ou superiores a 90 ser de 15, precisamente igual ao nmero de vagas, para os 223 candidatos. No ter havido batota da parte dos examinadores? Chamamos a ateno para que esta representao, com tantas classes, no evidencia o padro subjacente distribuio dos dados, j que apresenta toda a variabilidade neles existente. Como dissemos anteriormente, embora estejamos perante um conjunto de dados discretos, o tratamento adequado ser o mesmo dos dados contnuos, apresentado na prxima seco 4.5. 4.4.2.2 1 Grfico de barras para comparar dois ou mais conjuntos de dados Quando pretendemos comparar dois (ou mais) conjuntos de dados relativos mesma varivel, uma representao grfica adequada o grfico de barras, em que se apresentam, lado a lado, as distribuies das frequncias para cada um dos conjuntos de dados. De preferncia devem-se considerar sempre as frequncias relativas, pois se os conjuntos de dados no tiverem o mesmo nmero de elementos, no correcto utilizar as frequncias absolutas. No caso da tarefa Nmero de irmos da seco anterior, o grfico de barras utilizado para comparar as distribuies do nmero de irmos na Turma A e na Turma de referncia, tem o seguinte aspecto:

Repare-se que tivemos o cuidado de juntar uma legenda, onde se indica a que turma diz respeito cada cor das barras. Neste tipo de representao mais fcil a comparao das frequncias correspondentes s mesmas classes, uma vez que as barras esto adjacentes. Tarefa Alguns dados sobre o agregado familiar. Num inqurito realizado na escola, perguntou-se aos 26 alunos de uma turma do 6. ano: Qual a dimenso do seu agregado familiar (quantas pessoas viviam em casa)? Quantos so crianas? Quantos aparelhos de televiso tm em casa? Quantos carros tem o agregado familiar. A comisso encarregue do estudo apresentou os seguintes grficos A e B, que procuram resumir a informao contida nas respostas s 2 primeiras questes

Organizao e tratamento de dados

81

Grfico A

Grfico B

a) Qual dos grficos se refere varivel Nmero de pessoas do agregado familiar? Porque que o outro grfico no pode representar o nmero de pessoas do agregado familiar dos 26 alunos a quem foi colocada a questo? b) Quantos agregados familiares tm 2 pessoas? Essas duas pessoas podem ser ambas adultas? c) Dos 26 agregados familiares, 14 so constitudos por quantas pessoas? d) Quantas pessoas tem o maior agregado familiar? e) Quantas pessoas tm os 26 agregados familiares? f) Se o nmero de pessoas a que chegaste na alnea anterior estivesse dividido igualmente por todos os agregados familiares, quantas pessoas tinha cada agregado familiar? Interpreta o nmero a que chegaste. Considera agora tambm o outro grfico que representa o nmero de crianas por agregado familiar. a) Quantos agregados familiares tm 1 criana? b) Qual o nmero de crianas que predomina nos agregados familiares? c) Pensas que os agregados familiares so fundamentalmente constitudos por um casal com um filho? Explica o teu raciocnio. Com os dados obtidos nas respostas s outras duas questes, construram-se os dois grficos seguintes

a) Comparando os dois grficos, qual dos dois achas mais razovel para representar o Nmero de televises por agregado familiar? b) No grfico do lado esquerdo a classe 2 tem frequncia absoluta igual a 9 e no grfico da direita a classe 1 tem tambm frequncia absoluta igual a 9.

Organizao e tratamento de dados

82

No entanto as alturas das barras so diferentes. Como explicas esta situao? c) Completa os grficos com as legendas adequadas. Tarefa Cinco montinhos de feijes. Num determinado dia o professor organizou os alunos em 4 grupos e pediu a cada grupo para levar no dia seguinte uma mo cheia de feijes. Neste dia, encarregou cada grupo de dividir todos os feijes em montinhos com 1, 2, 3, 4 ou 5 feijes. Seriam necessrios fazer os montinhos necessrios at esgotar todos os feijes. Depois dos montinhos feitos, cada grupo foi ao quadro apresentar graficamente o resultado da organizao dos feijes pelos montinhos com os cinco tamanhos. Os resultados foram os seguintes:

a) Comenta as representaes utilizadas. b) Quantos feijes tinha cada grupo?

Organizao e tratamento de dados

83

4.5 Tabelas e grficos para dados quantitativos contnuos


Como vimos na seco 3.3, quando falmos das variveis, uma varivel quantitativa contnua aquela que passvel de ser medida usando um certo instrumento. Por exemplo, relativamente a um aluno da turma, podemos utilizar uma fita mtrica para medir a varivel altura, uma balana para medir a varivel peso, um termmetro para medir a temperatura, um relgio para medir o tempo que demora de casa escola, um teste a Matemtica para medir o nvel de conhecimentos nessa disciplina, etc. Os valores que resultam destas medies so dados quantitativos contnuos. No exemplo da turma de referncia as variveis tempo que demora de casa escola e comprimento do palmo so de natureza contnua. Estas variveis so apresentadas com um arredondamento ao minuto e ao centmetro, respectivamente, mas os seus verdadeiros valores podem ser quaisquer nmeros reais de um determinado intervalo. Em linguagem corrente pode dizer-se que uma varivel contnua no varia por saltos, isto , no passa de um valor a outro de um determinado intervalo, sem passar por todos os valores intermdios. Embora seja comum, quando encontramos um jovem que no vemos h algum tempo, exclamar: Mas que salto que deste! Ests to alto!, na realidade o jovem cresceu continuamente... Ao contrrio da varivel contnua, uma varivel discreta varia por saltos. Por exemplo, se uma famlia tem 2 filhos e teve um outro filho, obviamente que passou de 2 para 3, sem passar por valores intermdios. Tendo em conta a prpria definio de varivel contnua, quando temos uma amostra de dados contnuos, estes podem ser todos diferentes, ou quando muito, existem apenas alguns valores iguais. A ocorrncia de valores iguais com maior frequncia do que a que se esperaria para dados contnuos, deriva do facto do instrumento de medida no ter uma grande preciso. Por exemplo, os valores apresentados para as variveis contnuas tempo que demora de casa escola e comprimento do palmo encontram-se discretizados por uma limitao do instrumento que se utilizou para as medir. Outro exemplo de uma varivel contnua, que se apresenta discretizada a idade. Quando se diz que um jovem tem 9 anos, significa que j fez os 9 anos, mas ainda no fez os dez, pelo que o 9 representa um intervalo de valores que se pode exprimir da seguinte forma: 9idade<10. Mesmo existindo alguns valores iguais, o nmero de valores distintos pode ser to grande que a metodologia utilizada para construir as tabelas de frequncias de dados quantitativos discretos, em que se consideravam para classes os valores distintos nos dados, no pode ser aqui utilizada. Correramos o risco de a frequncia observada para cada valor distinto ser 1! Ento, a alternativa considerar classes na forma de intervalos. Ao organizar os dados na forma de intervalos, o nosso objectivo visualizar o padro subjacente a esses dados. Por exemplo, natural esperar que uma forma usual para a distribuio da varivel comprimento do palmo dos alunos do 3. ciclo tenha um aspecto simtrico, como o que se apresenta na figura seguinte,

Organizao e tratamento de dados

84

com uma concentrao de valores em volta dos 16cm, e cada vez menos valores medida que o comprimento para o palmo diminui ou aumenta. J para a varivel tempo de casa escola em que, de um modo geral, predominam os tempos mais pequenos, em detrimento dos tempos maiores, esperamos uma distribuio com uma forma enviesada, como a que se apresenta a seguir,

Como organizar os dados em classes? Perante um conjunto de dados quantitativos contnuos, ao agrup-los e ao represent-los graficamente, temos como objectivo que essa representao nos ajude a compreender os dados, fazendo sobressair algum padro subjacente. Algumas questes que procuramos responder so, por exemplo: A distribuio simtrica ou enviesada? Qual o centro da distribuio dos dados? Tem pequena ou grande variabilidade? O primeiro passo no processo de agrupamento dos dados saber em quantas classes vamos agrupar os dados. Muitas vezes o tipo da varivel que se est a estudar pode dar indicao do nmero de classes e de como construir essas classes. Exemplo Altura e peso dos alunos de uma escola do 1. ciclo. Pretendemos estudar as variveis altura e peso dos alunos de uma escola do 1. ciclo. Para isso, recolhemos a altura e o peso de 50 alunos dessa escola, obtendo os valores (em cm) para a altura e os valores (em kg) para o peso que se apresentam na seguinte tabela:

Organizao e tratamento de dados

85

Altura 132 145 150 149 130 135 145 130 148 150

Peso 26 39 45 45 26 30 40 28 40 47

Altura 135 145 136 143 137 141 135 141 145 136

Peso 29 35 30 32 30 30 29 32 35 30

Altura 146 141 144 159 157 158 134 146 145 148

Peso 40 33 35 57 49 58 30 40 34 43

Altura 142 143 146 151 135 143 140 146 156 133

Peso 32 34 40 46 30 38 31 43 45 29

Altura 143 147 147 135 132 140 138 154 150 130

Peso 35 40 40 29 28 30 30 47 45 28

Ao percorrer, na tabela, os dados referentes varivel altura, verificamos que o valor mnimo 130cm e o valor mximo 159cm. Assim, natural considerar como classes, para organizar os dados, as seguintes: 130 135 140 145 150 155 altura altura altura altura altura altura <135 <140 <145 <150 <155 <160

As classes so todas disjuntas e a sua unio contm todos os elementos da amostra, isto , cada elemento da amostra s pode pertencer a uma das classes, mas pertence necessariamente a uma dessas classes. Considerando agora os dados referentes varivel peso, verificamos que os valores mximos e mnimos so respectivamente 26kg e 58kg, pelo que uma escolha possvel para as classes : 25 30 35 40 45 50 55 peso peso peso peso peso peso peso <30 <35 <40 <45 <50 <55 <60

Do mesmo modo que anteriormente para a varivel altura, tambm as classes anteriores foram construdas sem ambiguidade, na medida em que cada elemento da amostra pertence a alguma das classes e s a uma das classes. Regra de Sturges Nos exemplos apresentados anteriormente, a formao de classes foi fcil de fazer de forma intuitiva. No entanto, isso nem sempre acontece. Nestes casos podemos usar a chamada regra de Sturges, que nos sugere o nmero de classes a usar para agrupar os dados: Regra de Sturges para organizar uma amostra, de dados contnuos, de dimenso n, pode considerar-se para nmero de classes o valor k, onde k o menor inteiro tal que 2k>n. Assim, se o nmero de elementos da amostra for 50, como nos exemplos apresentados anteriormente, o nmero aconselhado de classes 6, j que 25<50 e 26>50. Note-se que esta regra no tem que ser seguida letra e deve ser entendida como uma ajuda, quando no se tem qualquer ideia de quantas classes construir,

Organizao e tratamento de dados

86

para proceder ao agrupamento dos dados. apresentada como informao para o professor, que, para este nvel de ensino, no a deve ensinar aos alunos. Para a formao das classes, na forma de intervalos, com a mesma amplitude, considera-se a seguinte metodologia: Passo 1 Toma-se como amplitude h, de cada intervalo, um valor arredondado por excesso, do quociente que se obtm dividindo a amplitude da amostra (mximo mnimo) pelo nmero de classes, k. Passo 2 Formam-se as classes como intervalos fechados esquerda e abertos direita, ou vice-versa, isto , abertos esquerda e fechados direita, sendo o extremo esquerdo do primeiro intervalo o mnimo da amostra, ou o extremo direito do k-simo intervalo o mximo da amostra, respectivamente. Subdiviso em classes dos dados referentes varivel Tempo que demora de casa escola na Turma de referncia Os valores observados so, depois de ordenados 5 6 6 7 7 8 9 10 10 11 12 12 13 13 14 15 15 15 16 17 18 19 20 21 Como a dimenso da nossa amostra n=24, o menor inteiro k que satisfaz a condio 2k>24 k=5. Para obter a amplitude de classe h, vamos dividir a amplitude da amostra, que 16 (=21 5), por 5. Este quociente vem igual a 3,2, pelo que um valor aproximado por excesso , por exemplo, 3,25. Para a construo das classes vamos convencionar que todos os intervalos so fechados esquerda e abertos direita, isto , da forma [a, b[, onde o a pertence ao intervalo, mas o b j no pertence. Utilizando esta metodologia, temos os seguintes intervalos, para as classes: 1 2 3 4 5 classe: classe: classe: classe: classe: [5; 5+3,25[ [8,25; 8,25+3,25[ [11,50; 11,50+3,25[ [14,75; 14,75+3,25[ [18,00; 18,00+3,25[ [5; 8,25[ [8,25; 11,50[ [11,50; 14,75[ [14,75; 18,00[ [18,00; 21,25[

O valor de 3,25 que utilizmos para a amplitude de classe, como aproximao por excesso do valor 3,2, pouco natural. Mas o mesmo no acontece com 3 minutos e meio, pelo que outra alternativa possvel para a amplitude de classe ser h=3,5. Se se considerar este valor, o nmero de classes a usar ainda de 5, como se pode ver facilmente, j que as classes que assim se obtm [5; 8,5[, [8,5; 12,0[, [12,0; 15,5[, [15,5; 19,0[ e [19,0; 22,5[ contm todos os elementos da amostra. Se se pretender construir intervalos em que os limites sejam nmeros inteiros, podemos considerar como amplitude de classe 3 minutos ou 4 minutos, obtendose, respectivamente, as seguintes classes:

Organizao e tratamento de dados

87

Amplitude de classe igual a 3 minutos [5; 8[ [8; 11[ [11; 14[ [14; 17[ [17; 20[ [20; 23[

Amplitude de classe igual a 4 minutos [5; 9[ [9; 13[ [13; 17[ [17; 21[ [21; 25[

Repare-se que, quando se considerou como amplitude de classe 3 minutos, foi necessrio construir 6 classes, de modo a cobrirem a totalidade dos dados; por outro lado, quando se considerou como amplitude de classe o valor 4 minutos, consideraram-se 5 classes, mas a ltima classe s tem um elemento. Chamamos a ateno para que no correcto considerar a quarta classe na forma [17; 21], com o objectivo de evitar mais uma classe. A metodologia na construo dos intervalos de classe deve ser sempre a mesma: fechados esquerda e abertos direita, ou vice-versa. Deste modo, existe uma grande maleabilidade na construo dos intervalos de classe. Em muitas situaes, a regra bsica a seguir utilizar a informao disponvel sobre a varivel a estudar e o bom senso para a definio dos limites das classes. A regra de Sturges pode ser usada como um primeiro passo na indicao de um nmero apropriado de classes. Na verdade, o que ns procuramos um agrupamento dos dados em classes, para depois construirmos o histograma que, como veremos, deve evidenciar a estrutura subjacente aos dados. Assim, se se construrem muitas classes, essa representao apresentar muita da variabilidade presente nos dados, no conseguindo fazer sobressair o padro que procuramos. Tambm um nmero muito pequeno de classes esconder esse padro. 4.5.1 Tabela de frequncias para dados quantitativos contnuos Uma vez formadas as classes, a construo da tabela de frequncias idntica considerada para os dados discretos: Os dados contnuos so organizados na forma de uma tabela de frequncias, com trs ou mais colunas. Na primeira coluna, coluna das classes, consideram-se os intervalos (classes) escolhidos para agrupar os dados; na coluna seguinte, coluna das frequncias absolutas ni, regista-se o total de elementos da amostra, que pertencem a cada classe. Numa terceira coluna, coluna das frequncias relativas (ou percentagens) fi, regista-se, para cada classe, o valor que se obtm dividindo a frequncia absoluta pela dimenso da amostra. De um modo geral til acrescentar tabela de frequncias ainda mais trs colunas: coluna do representante de classe em que se considera, usualmente, o ponto mdio, xi, do intervalo de classe; coluna das frequncias absolutas acumuladas onde, para cada classe, se considera a soma da frequncia absoluta dessa classe com as frequncias absolutas das classes anteriores e coluna das frequncias rela-

Organizao e tratamento de dados

88

tivas acumuladas, que se calcula de forma idntica anterior, mas agora com as frequncias relativas. Vamos a seguir construir a tabela de frequncias para os dados observados para a varivel altura de um aluno da escola do 1. ciclo, considerados na seco anterior. Considermos as 6 classes a definidas, com intervalos de amplitude 5cm, fechados esquerda e abertos direita:
Classes [130, 135[ [135, 140[ [140, 145[ [145, 150[ [150, 155[ [155, 160[ Total Representante da Classe xi 132,5 137,5 142,5 147,5 152,5 157,5 Freq. Abs. ni 7 9 11 14 5 4 50 Freq. Rel. fi 0,14 0,18 0,22 0,28 0,10 0,08 1,00 Freq. Abs. Acum 7 16 27 41 46 50 Freq. Rel. Acum. 0,14 0,32 0,54 0,82 0,92 1,00 Freq. Rel. Acum. (%) 14 32 54 82 92 100

Decidimos ainda acrescentar uma outra coluna, com as frequncias relativas acumuladas, agora em percentagem. A frequncia absoluta da classe [130, 135[ 7, porque existem nos dados 7 valores maiores ou iguais a 130 e menores que 135. Para as outras classes a metodologia idntica. A soma das frequncias absolutas igual a 50, que o nmero de dados, enquanto que a soma das frequncias relativas igual a 1. Por vezes, esta soma no d exactamente 1, sendo esta situao devida ao facto dos valores das frequncias relativas serem arredondados. Como se verifica a partir da tabela predominam as alturas das classes centrais, havendo uma diminuio das frequncias para as classes inferiores e superiores. 4.5.2 Histograma Uma vez os dados agrupados numa tabela de frequncias, estamos aptos a construir o histograma, que a representao grfica mais utilizada para os dados quantitativos contnuos. O histograma um grfico, formado por uma sucesso de rectngulos adjacentes, tendo cada um por base um intervalo de classe e com rea igual (ou proporcional) frequncia relativa (ou absoluta) dessa classe. Ao contrrio do grfico de barras, em que estas esto separadas e em que o que relevante a altura de cada uma, no histograma as barras (rectngulos) esto juntas e o que importante a rea de cada uma. Considerando ento para reas das barras as frequncias relativas, vemos que a rea total ocupada pelo histograma igual a 1 ou 100%. Tendo em conta a definio de histograma, para a sua construo conveniente acrescentar uma nova coluna tabela de frequncias, com as frequncias relativas a dividir pela amplitude de classe. Os valores desta coluna sero as alturas dos rectngulos com base nas classes respectivas:

Organizao e tratamento de dados

89

Classes [130, 135[ [135, 140[ [140, 145[ [145, 150[ [150, 155[ [155, 160[ Total

Rep. Classe xi 132,5 137,5 142,5 147,5 152,5 157,5

Freq. Abs. ni 7 9 11 14 5 4 50

Freq. Rel. fi 0,14 0,18 0,22 0,28 0,10 0,08 1,00

Altura rectngulo classe i=fi/h 0,028 0,036 0,044 0,056 0,020 0,016

No histograma ao lado, a rea do rectngulo mais esquerda igual a 50,028=0,14; a rea do rectngulo seguinte 50,036=0,18 e assim sucessivamente, donde a rea total do histograma igual a 1 (soma das frequncias relativas). Suponhamos que em vez de construirmos o histograma como anteriormente, tnhamos considerado para alturas dos rectngulos as frequncias relativas. Ento, neste caso, as reas dos rectngulos j no seriam iguais s frequncias relativas, mas sim proporcionais e a rea total ocupada pelo histograma seria igual a 5, em que 5 a amplitude de classe: No histograma ao lado, a rea do rectngulo mais esquerda igual a 50,14; a rea do rectngulo seguinte 50,18 e assim sucessivamente, donde a rea total do histograma igual a 5 (=51 onde 1 a soma das frequncias relativas). Suponhamos ainda que agora se considerava para altura dos rectngulos as frequncias absolutas. O resultado seria o seguinte: No histograma ao lado, a rea do rectngulo mais esquerda igual a 57; a rea do rectngulo seguinte 59 e assim sucessivamente, donde a rea total do histograma igual a 250 (=550, onde 50 a soma das frequncias absolutas).

Organizao e tratamento de dados

90

Como se verifica, a imagem transmitida tem sempre o mesmo aspecto, j que as reas dos rectngulos ou so iguais s frequncias relativas, como o caso do primeiro dos 3 histogramas anteriores, ou so proporcionais, com a mesma constante de proporcionalidade, que igual amplitude de classe no caso do segundo histograma ou amplitude de classe vezes o nmero de dados, como o caso do terceiro histograma. Assim, o eixo vertical s serve como auxlio para a construo dos rectngulos, no transmitindo, no caso do histograma, qualquer informao relevante: No devemos perder de vista que o histograma representa os dados atravs das reas das barras e no das alturas, o que constitui uma grande diferena relativamente ao grfico de barras. Outra grande diferena que no histograma as barras esto juntas, para transmitir a ideia de continuidade da varivel em estudo, enquanto que no grfico de barras, estas so separadas. De um modo geral, se tivermos n dados e estes tiverem sido organizados em k classes, todas com a mesma amplitude h, e representarmos por ni e fi, respectivamente as frequncias absoluta e relativa da classe i, com i=1,...,k, a rea total ocupada pelo histograma ser igual a: a) 1, se se considerar para altura do rectngulo correspondente classe i, fi/h, com i=1,...,k. b) h, se se considerar para altura do rectngulo correspondente classe i, fi, com i=1,...,k. c) hn, se se considerar para altura do rectngulo correspondente classe i, ni, com i=1,...,k. Qualquer das formas anteriores pode ser utilizada para construir o histograma, excepto nas seguintes situaes: 1) As classes tm amplitudes diferentes, sendo, neste caso, necessrio utilizar o primeiro procedimento; 2) Pretende-se comparar histogramas de amostras com dimenso diferente, sendo, tambm necessrio utilizar o primeiro procedimento, para compararmos figuras com a mesma rea (igual a 1). Exemplo Durao de chamadas telefnicas 1 . Uma empresa, preocupada com os gastos em telefone, decidiu fazer um estudo sobre a durao (em minutos) das chamadas telefnicas. Assim, o departamento de controlo de qualidade recolheu uma amostra de dimenso 100, tendo construdo a seguinte tabela de frequncias, com os dados recolhidos:
Durao da chamada (em minutos) Classes [0, 2[ [2, 5[ [5, 10[ [10, 20[ [20, 30[ Total Freq. absoluta 28 37 23 9 3 100 Freq. relativa 0,28 0,37 0,23 0,09 0,03 1,00

Elaborou depois o seguinte histograma, que apresentou gerncia:

Graa Martins et al. (2007).

Organizao e tratamento de dados

91

Um dos gerentes, que sabia o que era um histograma, manifestou-se bastante preocupado com a percentagem de chamadas razoavelmente longas, j que a percentagem de chamadas com durao entre 5 e 10 minutos era um pouco superior s de durao entre 2 e 5 minutos e s um pouco inferior s de durao de 10 a 20 minutos, como se depreende pelas reas dos rectngulos correspondentes s classes respectivas. Pediu para consultar a tabela de frequncias e concluiu que aquela representao grfica no estava correcta, pois as reas dos rectngulos no eram proporcionais s frequncias, induzindo em erro. Ele prprio acrescentou mais uma coluna tabela de frequncias, com as alturas correctas dos rectngulos e construiu o histograma correspondente:
Durao da chamada (em minutos) Classes [0, 2[ [2, 5[ [5, 10[ [10, 20[ [20, 30[ Total Freq. absoluta 28 37 23 9 3 100 Freq. relativa 0,28 0,37 0,23 0,09 0,03 1,00 Freq. relativa/amplitude classe 0,140 0,122 0,046 0,009 0,003

Repare-se que as duas representaes so completamente diferentes. Agora, podemos concluir que predominam as chamadas com durao entre 2 e 5 minutos e que as chamadas com durao superior a 10 minutos so pouco frequentes. 4.5.3 Grficos das frequncias relativas acumuladas A partir da tabela de frequncias, em que se consideraram as frequncias relativas acumuladas, possvel construir grficos que apresentam a evoluo dessas fre-

Organizao e tratamento de dados

92

quncias ao longo das classes em que se organizaram os dados. Dois desses grficos so o chamado histograma cumulativo ou histograma acumulado e a funo cumulativa. Utilizam-se fundamentalmente na determinao grfica de valores aproximados para a mediana e quartis, quando os dados esto agrupados. Estas medidas sero estudadas mais frente, quando considerarmos as caractersticas amostrais, mas vamos indicar a forma de as obter devido ao facto de serem muito simples de compreender e de usar na construo de um diagrama de extremos e quartis, uma representao grfica muito til. Como veremos, a mediana, representada por Me, um valor que divide a amostra ordenada ao meio, isto , 50% dos elementos da amostra so menores ou iguais mediana e os restantes 50% so maiores ou iguais mediana. Uma vez a amostra dividida em duas partes com igual nmero de elementos, cada uma destas partes ainda pode ser dividida ao meio. s medianas da parte inferior e superior dos dados, chamamos respectivamente 1. quartil e 3. quartil e representamos por Q1 e Q3. Assim, o 1. quartil, a mediana e o 3. quartil dividem a amostra (ordenada) em 4 partes iguais, cada uma contendo 25% dos dados. Para obter graficamente estas medidas para os dados relativos altura de 50 alunos de uma escola do 1. ciclo, mas a partir dos dados agrupados, consideremos de novo a tabela da seco 4.5.1, que j contm as frequncias relativas acumuladas:
Classes [130, 135[ [135, 140[ [140, 145[ [145, 150[ [150, 155[ [155, 160[ Total Rep. Classe xi 132,5 137,5 142,5 147,5 152,5 157,5 Freq. Abs. ni 7 9 11 14 5 4 50 Freq. Rel. fi 0,14 0,18 0,22 0,28 0,10 0,08 1,00 Freq. Abs. Acum 7 16 27 41 46 50 Freq. Rel. Acum. 0,14 0,32 0,54 0,82 0,92 1,00 Freq. Rel. Acum. (%) 14 32 54 82 92 100

Repare-se que da tabela anterior ficamos a saber que a mediana se encontra na classe [140, 145[, j que antes desta classe se acumulam 32% dos dados e nesta classe que se atinge os 50%. Admitindo que a frequncia se distribui uniformemente sobre a amplitude de classe, isto , a frequncia de 22% (=54%-32%) se distribui uniformemente sobre o intervalo de amplitude 5cm, atravs da resoluo de uma equao de proporcionalidade, obtm-se o incremento que devemos adicionar a 140cm, para obter a mediana: 22=54-32 18=50-32 x= 5=145-140 x

18 5 3,6 22 Ento o valor aproximado para a mediana ser 143,6 (=140+3,6).

O processo que acabmos de descrever para a mediana pode tambm ser utilizado para obter valores aproximados para os quartis e equivalente seguinte resoluo grfica:

Organizao e tratamento de dados

93

75% Freq. rel. acum. %

50%

25%

0 130 135 Q 140 1 145 Me Q 150 155 160

Os rectngulos do grfico anterior tm por altura a frequncia relativa acumulada e por essa razo se chama histograma cumulativo ao grfico obtido. linha poligonal que se desenhou na figura anterior chama-se funo cumulativa. Pode dizer-se que esta funo que til na determinao dos quartis e da mediana, pelo que o histograma cumulativo s serviu como meio auxiliar para a sua construo, no tendo, neste momento, qualquer outra utilidade ou interpretao (observe-se que a funo cumulativa se pode construir independentemente do histograma cumulativo). Como a figura sugere o valor da mediana encontra-se prximo de 144. Do mesmo modo podemos avanar que o 1. quartil deve andar prximo de 138, enquanto o 3. quartil deve estar prximo de 148.

4.6 Outras representaes grficas


Para representar dados quantitativos usmos at aqui vrias representaes, de que destacamos o grfico de barras e o histograma, de um modo geral utilizados para representar dados quantitativos discretos ou contnuos, respectivamente. Existem outras representaes grficas que podem ser utilizadas para dados quantitativos de qualquer tipo e que so o caule-e-folhas e o diagrama de extremos e quartis, e ainda o grfico de linha, especialmente adequado para representar observaes de variveis que variam ao longo do tempo. 4.6.1 Grfico (ou diagrama) de caule-e-folhas Pode considerar-se que o grfico ou diagrama em caule-e-folhas um tipo de representao que se situa entre a tabela e o grfico, uma vez que, de um modo geral, apresenta os verdadeiros valores da amostra, mas de uma forma sugestiva, que faz lembrar o histograma.

Organizao e tratamento de dados

94

A base da construo de uma representao em caule-e-folhas est na escolha de um par de dgitos adjacentes nos dados, que vai permitir dividir cada dado do conjunto de dados em duas partes: o caule e a folha, que se dispem para um e outro lado de um trao vertical, como exemplificamos a seguir. Tarefa Quantos segundos se consegue estar sem respirar 2 . Gostaramos de ter uma ideia de quantos segundos conseguimos estar sem respirar. Suponha que um grupo de alunos fez esta experincia na turma e obteve os seguintes valores: 59, 38, 47, 23, 48, 55, 37, 48, 53, 37, 52, 39, 54, 57, 38, 46, 40, 41, 62, 63, 38, 65, 44, 68, 27, 35, 46, 60. Podem ser feitas perguntas do tipo: Quantos segundos esteve sem respirar o aluno que aguentou menos tempo? E o aluno que aguentou mais tempo? O professor pode, com a ajuda dos alunos, organizar os dados num diagrama de caule-e-folhas.

Como o menor e o maior dos valores anteriores so, respectivamente, 23 e 68, para organizar os dados num grfico de caule-e-folhas, vamos comear por considerar os seguintes caules (algarismos das dezenas dos valores iniciais): 2 3 4 5 6 Depois de considerar um segmento de linha vertical, ao lado dos caules, vamos pendurar as folhas, nos caules respectivos. Exemplificamos a seguir, um grfico com a primeira folha, um outro com a primeira e a segunda folha e, finalmente, o grfico com as folhas todas: 2 3 4 5 6 2 3 4 5 6 8 9 2 3 4 5 6 3 8 7 9 2 7 7 8 5 3 7 8 3 5 9 6 2 8 8 0 4 0 8 1 7 5 4

costume ordenar as folhas correspondentes a cada caule, de modo que o grfico final o seguinte: 2 37 3 5 778889 4 0 1466788 5 2 3 4 5 79 6 0 2358 Repare-se que agora muito fcil ordenar o conjunto de dados inicial, pois basta percorrer o grfico de caule-e-folhas: 23, 27, 35, 37, 37, 38, 38, 38, 39, 40, 51, 44, 46, 46, 47, 48, 48, 52, 53, 54, 55, 57, 59, 60, 62, 63, 65 e 68.

Graa Martins et al. (2007), p. 62.

Organizao e tratamento de dados

95

Sugesto Pode ser repetida a tarefa anterior, mas depois de ter inspirado e expirado, profundamente, 3 vezes. interessante comparar os resultados agora obtidos, com os anteriores. de notar que a representao em caule-e-folhas: , em geral, muito simples de fazer e torna-se, por isso, acessvel, at a alunos do 1. ciclo. necessrio ter algum cuidado na escolha do exemplo, para que no haja problemas na escolha do(s) dgito(s) que vo constituir os caules - denominados dgito(s) dominantes. D uma informao visual sobre a forma como os dados esto distribudos. Permite identificar os dados iniciais, pelo que muito til para ordenar rapidamente a amostra. uma representao muito sugestiva para comparar duas amostras. Facilita o clculo da mediana e dos quartis.

Escolha dos dgitos dominantes Na construo de um grfico de caule-e-folhas nem sempre imediata a escolha dos dgitos dominantes. Se essa escolha conduzir a muitos caules o resultado final tem pouco de representao grfica, pois ser muito disperso. Se conduzir a poucos caules, para alm de poder esconder padres nos dados, torna-se de pouca utilidade na ordenao da amostra. Vamos ver o que acontece, por exemplo, com os dados da varivel Altura de um aluno de uma escola do 1. ciclo, de que se tem uma amostra de 50 dados, considerados no incio da seco 4.5 e que repetimos a seguir:
132 145 150 149 130 135 145 130 148 150 135 145 136 143 137 141 135 141 145 136 146 141 144 159 157 158 134 146 145 148 142 143 146 151 135 143 140 146 156 133 143 147 147 135 132 140 138 154 150 130

As alturas variam entre 130cm e 159cm. Se tomarmos como dgito dominante o das centenas, ficaremos apenas com 1 caule. Se tomarmos os dois primeiros dgitos (at classe das dezenas), ficaremos com 3 caules, o que tambm pouco tendo em conta que a dimenso da amostra n=50. Este problema pode ser resolvido subdividindo em dois, cada um dos 3 caules que se obtm no segundo caso. No primeiro desses dois caules, identificado com um asterisco (*), colocam-se as folhas de dgitos 0, 1, 2, 3, e 4 e no outro, identificado com um ponto (.), as folhas de dgitos 5, 6, 7, 8, e 9. Deste modo ficamos ao todo com 6 caules que um nmero razovel para a dimenso de amostra que temos. H ainda a possibilidade de subdividir cada caule em 5, um para as folhas 0 e 1, outro para as folhas 2 e 3, e assim por diante at ao ltimo que ter as folhas 8 e 9, mas iramos obter 15 caules que j excessivo. A subdiviso de cada caule s pode ser feita em 2 ou 5 sub caules, para que cada um destes possa ficar com igual nmero de folhas associado e como na notao decimal temos 10 folhas possveis, ou associamos 5 ou 2 folhas a cada caule. Um grfico de caule-e-folhas para representar os dados anteriores (onde a unidade de cada caule a dezena de centmetros) , ento:

Organizao e tratamento de dados

96

13* 13. 14* 14. 15* 15.

2 5 3 5 0 9

0 5 1 9 0 7

0 6 1 5 1 8

4 7 1 8 4 6

3 5 4 5 0

2 6 2 5

0 5 5 8 3 3 0 3 0 6 6 5 8 6 6 7 7

Para construirmos o diagrama anterior percorremos os dados, coluna a coluna. O diagrama final deve apresentar-se com as folhas ordenadas: 13* 13. 14* 14. 15* 15. 0 5 0 5 0 6 0 5 0 5 0 7 0 5 1 5 0 8 2 5 1 5 1 9 2 5 1 5 4 3 6 2 6 4 6 7 8 3 3 3 3 4 6 6 6 7 7 8 8 9

A partir do diagrama anterior facilmente se obtm a amostra ordenada: 130 138 145 154 130 140 145 156 130 140 146 157 132 141 146 158 132 133 134 135 135 135 135 135 136 136 137 141 141 142 143 143 143 143 144 145 145 145 146 146 147 147 148 148 149 150 150 150 151 159

A amostra ordenada ou a prpria representao em caule-e-folhas com as folhas ordenadas, so utilizadas para o clculo de algumas estatsticas ordinais, isto , medidas que nos do uma ideia da proporo ou percentagem de elementos da amostra menores ou maiores que determinado valor. Por exemplo, na amostra anterior, como o mximo 159, obviamente que 100% dos elementos da amostra so menores ou iguais a 159. Tambm se podem calcular outras percentagens: 6% (3 elementos) dos elementos da amostra so menores ou iguais a 130; 10% (5 elementos) dos elementos da amostra so menores ou iguais a 132; 24% (12 elementos) dos elementos da amostra so menores ou iguais a 135; 28% (14 elementos) dos elementos da amostra so menores ou iguais a 136; 32% (16 elementos) dos elementos da amostra so menores ou iguais a 138; 44% (22 elementos) dos elementos da amostra so menores ou iguais a 142; 52% (26 elementos) dos elementos da amostra so menores ou iguais a 143; etc.

evidente que para contar o nmero de elementos para calcular as percentagens anteriores no teramos necessidade de dispor da amostra ordenada, se tivermos uma representao em caule-e-folhas, como a situao presente. Efectivamente esta operao de contagem mais fcil a partir do caule-e-folhas (com as folhas ordenadas) do que propriamente a partir da amostra ordenada. Um problema inverso do anterior , dada uma percentagem, procurar um valor que satisfaa determinadas condies. Por exemplo, qual o valor tal que 50% dos elementos da amostra so menores ou iguais a ele e os outros 50% so maiores ou iguais a ele, ou seja, com a notao introduzida na seco anterior, qual o valor da mediana Me?

Organizao e tratamento de dados

97

Se a nossa amostra tivesse um nmero mpar de dados, ento seria o dado do meio, quando a amostra est ordenada. Como temos 50 elementos, ento temos dois elementos no meio, pelo que qualquer valor entre esses dois estava em condies de satisfazer a nossa pretenso. No entanto, para evitar que nesta situao de termos um nmero par de dados, cada um escolha um valor diferente para a mediana, convenciona-se que esta a semi-soma desses dois elementos do meio. A partir do caule-e-folhas facilmente verificamos que os elementos na posio 25 e 26 so iguais a 143. Ento o valor procurado 143 (=(143+143)/2). Se determinarmos, pelo mesmo processo, as medianas de cada uma das partes, em que os dados ficam divididos pela mediana, obtemos os quartis, respectivamente 1. quartil se for o da parte inferior e 3. quartil se for da parte superior. No caule-efolhas seguinte assinalmos a negro a metade inferior: 13* 13. 14* 14. 15* 15. 0 5 0 5 0 6 0 5 0 5 0 7 0 5 1 5 0 8 2 5 1 5 1 9 2 5 1 5 4 3 6 2 6 4 6 7 8 3 3 3 3 4 6 6 6 7 7 8 8 9

Como temos agora 25 elementos, a mediana o elemento do meio, ou seja o que est na posio 13, o valor 136. Ento o 1. quartil 136. Para determinar o 3. quartil, podemos ver qual o elemento que est na posio do meio da parte superior, a itlico, ou seja o que est na posio 13, mas agora a contar do fim, obtendo 147. Chamamos a ateno para que na leitura do caule-e-folhas, a partir do fim, se comea sempre, em cada linha, pela folha mais afastada: 159 158 157 156 154 ... Comparao entre o caule-e-folhas e o histograma O caule-e-folhas d uma imagem muito semelhante ao histograma. Vamos exemplificar, rodando de 90, no sentido contrrio ao ponteiro do relgio, o caule-efolhas anterior e comparar com o histograma construdo na seco anterior, para os mesmos dados:

Organizao e tratamento de dados

98

No exemplo anterior, os caules correspondem s classes do histograma. Repare-se que pendurmos no caule 13* as folhas correspondentes aos valores 130, 130, 130, 132, 132, 133 134, que so precisamente os elementos da amostra pertencentes classe [130; 135[, e assim sucessivamente, para os outros caules e as outras classes. A situao anterior, em que os caules correspondem s classes do histograma, s acontece quando estas tm amplitude 2, 5 ou 10 vezes uma potncia de 10, em que os dois primeiros casos correspondem a dividir um caule em 5 sub caules ou 2 sub caules, como no exemplo anterior. De um modo geral, mesmo que no haja esta identificao entre os caules e as classes, o aspecto grfico apresentado pelo caule-e-folhas e pelo histograma idntico, dando a mesma informao sobre a forma como se distribui a varivel subjacente aos dados. De um modo geral, existe maior flexibilidade na construo do histograma, na medida em que no temos as restries na construo das classes, que temos no caule-e-folhas para a construo dos caules, sendo esta uma grande vantagem dos histogramas relativamente aos caule-e-folhas. Por outro lado, o caule-e-folhas tem a vantagem de manter a informao existente na amostra, no havendo necessidade de construir previamente as classes, que uma operao que introduz sempre alguma subjectividade na construo do histograma. Utilizao do caule-e-folhas para comparar 2 amostras O grfico caule-e-folhas muito til para comparar observaes que digam respeito mesma varivel, mas que tenham sido recolhidas de grupos (populaes) distintos. Exemplo O tempo de sono do Pedro e do David 3 . A seguir apresentam-se os tempos de sono (em horas), medidos durante 30 noites seguidas, de dois jovens. Compare-os. Pedro 9.3 5.3 7.3 6.7 5.8 4.7 5.6 5.9 9.4 7.6 David 9.5 7.1 7.5 7.9 6.4 6.2 7.5 7.7 7.6 8.8

8.7 9.4 6.6 6.0 6.9 9.9 6.3 8.9 10.1 9.6

8.7 7.4 6.3 5.9 10.0 6.5 8.6 7.7 9.0 7.9

7.1 8.3 7.1 7.9 7.5 6.2 8.2 8.7 8.5 7.6

7.1 7.4 7.4 7.8 6.2 8.6 8.4 6.6 8.1 7.1

Para representar os caule-e-folhas paralelos, determinamos os caules (comuns) a partir da amostra de maior amplitude, ou seja, neste caso, dos dados correspondentes ao David.

Adaptado de Graa Martins (2005), p. 55.

Organizao e tratamento de dados

99

9 9 8 3 3 9 7 6 4 9 7 9 7 7 4 4 3 9 1

7 3 6 0 5 3 6 6 0 6 0

4. 5* 5. 6* 6. 7* 7. 8* 8. 9* 9. 10*

2 6 1 5 1 5 5

2 2 4 1 5 2 6 1 5 3 7 1 1 4 4 6 6 7 8 9 9 4 8

Os dados relativamente ao Pedro encontram-se para o lado esquerdo, enquanto que os referentes ao David esto para o lado direito. A representao anterior permite realar a maior disperso do sono do Pedro, enquanto que o David mais regular, com uma durao de sono de um modo geral entre as 7 e as 8 horas. Tarefa (Para os alunos mais novos) Vamos comparar as idades dos nossos pais e das nossas mes. O professor sugere ao alunos da turma a elaborao de um estudo para averiguar as idades dos pais dos alunos. Para recolher a informao sobre as idades, o professor divide algumas folhas de papel A4, cor-de-rosa e azul, em 8 partes e d a cada aluno uma parte azul e uma parte cor-de-rosa, com a indicao de as trazer no dia seguinte preenchidas da seguinte forma: 1. Cada rectngulo de papel dobrado ao meio, vinca-se a dobra e torna-se a abrir;

2. O rectngulo de papel cor-de-rosa para escrever a idade da me, enquanto que o papel azul para escrever a idade do pai; 3. No lado esquerdo do rectngulo de papel coloca-se o algarismo das dezenas da idade, enquanto que no lado direito do papel se coloca o algarismo das unidades, que constituiro as folhas

4. Os rectngulos so novamente dobrados ao meio, ficando os algarismos pelo lado de fora e as folhas viradas para cima

Organizao e tratamento de dados

100

Em cada uma de duas cartolinas grandes, uma para colocar os rectngulos cor-derosa e outra os rectngulos azuis, desenha-se um eixo vertical e marcam-se, do lado esquerdo desse eixo os algarismos das dezenas (algarismos dominantes), que sero os caules. Agora cada aluno vai colocar os seus rectngulos de papel, que constituem as folhas, junto dos caules respectivos (o algarismo que ficou virado para baixo deve coincidir com o caule onde o aluno coloca o seu rectngulo de papel).

Depois de todos os alunos terem colocado os seus rectngulos de papel nos lugares devidos, obteve-se as seguintes representaes em caule-e-folhas, uma com as idades das mes e outra com as idades dos pais:

Para finalizar, devem ordenar-se as folhas de cada caule:

O professor sugere agora aos alunos que em vez de andarem a colocar os rectngulos de papel em duas cartolinas separadas, juntem as cartolinas como se apresenta a seguir e coloquem os rectngulos com as idades das mes para o lado esquerdo e os rectngulos com as idades dos pais para o lado direito, sem esquecer que os menores valores so sempre os que esto mais perto dos caules:

Organizao e tratamento de dados

101

Eis alguns exemplos de observaes que podem evidenciar-se na discusso desta situao por toda a turma: O facto de terem escrito as idades dos pais e das mes em papis de cor diferente, permite agora comparar facilmente estes dois conjuntos de dados; Se tivessem feito numa cartolina transparente o caule-e-folhas referente a um dos conjuntos de dados, por exemplo a que tem as idades das mes, bastava inverter essa cartolina transparente e fazer coincidir os caules das duas cartolinas, que se obtinha uma representao idntica anterior; As representaes anteriores permitem concluir que nas mes predominam as idades volta dos vinte e tal anos, enquanto que nos pais predominam as idades volta dos trinta e tal anos, isto , os pais so, de um modo geral, mais velhos que as mes; A me mais nova tem 19 anos, enquanto que a mais velha tem 40 anos; O pai mais novo tem 24 anos, enquanto que o mais velho tem 42 anos; A mediana para as idades das mes igual a 27 anos e meio (como temos um nmero par de dados, no existe o elemento do meio, pelo que se somam as duas idades do meio dos dados ordenados e divide-se por 2), enquanto que a mediana para as idades dos pais 33 anos e meio. Tarefa Qual a espcie de milho mais vantajosa? 4 Os cientistas desenvolveram uma nova variedade de milho, mais rica em certos aminocidos, constituintes das protenas, do que o milho normal. Para testar a eficcia desta nova espcie de milho na alimentao animal, foi dada uma rao com este milho, geneticamente modificado, a 20 pintainhos machos, com 1 dia de vida. A um grupo de controlo, constitudo por outros tantos pintainhos, com o mesmo tempo de vida, foi dada uma rao idntica, mas em que o milho modificado foi substitudo pelo milho normal. Aps 21 dias, o aumento de peso (em gramas) dos pintainhos foi: 380 283 356 350 345 Milho normal 321 366 349 402 410 329 384 316 455 360 356 462 399 272 431 361 434 406 427 430 Milho modificado 447 401 375 403 393 426 318 467 407 420 477 392 339 410 326

Exemplo de observaes que o professor pode partilhar com os alunos ao propor esta tarefa: Pretende-se com esta experincia testar a eficcia de um produto novo, relativamente a um produto habitual. Neste caso, pretende-se saber se o milho modificado melhor ou pior que o milho normal;

Adaptado de Moore (1997b), p. 234.

Organizao e tratamento de dados

102

A recolha de dados para este tipo de experincia pressupe que se constituam dois grupos: a um grupo d-se o produto que se quer testar e ao outro grupo, que se chama grupo de controlo, d-se o produto habitual; Este tipo de experincia muito utilizado quando se pretende testar a eficcia de um novo medicamento. Por vezes, ao grupo de controlo d-se aquilo a que se chama um placebo. Um placebo um produto aparentemente idntico ao produto que se quer estudar, mas sem as mesmas propriedades qumicas. Os indivduos que tomam o placebo, pensam que esto a tomar o medicamento. Est provado que apesar de o placebo ser uma substncia inerte, tem propriedades teraputicas, pois o facto de um indivduo estar a tomar uma substncia que pensa que o vai curar, contribui para a cura o chamado efeito placebo. Quando se escolhem os indivduos para os grupos que vo constituir o grupo do verdadeiro medicamento e o grupo do placebo, estes no sabem a que grupo pertencem. Para representar os dados anteriores, o professor deve analisar os dados com os alunos para os ajudar na escolha dos caules convenientes. Uma situao possvel seria escolher para caules os dois primeiros dgitos, mas esta escolha originaria um nmero demasiado grande de caules: ficaramos com mais caules do que dados! Uma outra possibilidade ser escolher para caules o algarismo das centenas originando 3 caules. Mas se escolhermos para caules o algarismo das centenas, como escolher ento as folhas, j que ficamos depois com dois algarismos? Tem-se duas alternativas: ou se truncam todos os dados, do ltimo algarismo, ficando com 2 algarismos, ou se consideram folhas com 2 dgitos. A primeira alternativa a mais utilizada, embora as duas representaes finais sejam idnticas.

Algumas sugestes de representaes:


Milho normal 7 6 4 1 8 5 9 2 5 4 5 6 2 8 8 2 3 4 6 4 7 0 9 3 1 0 9 2 3 0 2 6 0 2 2 7 3 1 Milho modificado

ou
Milho normal
72 60 45 16 84 50 99 29 56 49 31 56 55 66 10 21 62 83 80 02

Milho modificado 2 3 4
61 47 75 01 93 34 18 03 92 26 39 06 26 67 07 27 20 77 30 10

ou ainda, considerando na primeira das representaes anteriores 2 sub caules para cada caule, j que se encontram penduradas um nmero exagerado de folhas num dos caules
Milho normal 8 4 9 8 8 6 4 6 2 5 3 2 5 1 6 7 1 5 0 5 2. 3* 3. 4* 4. 1 6 0 6 2 7 0 7 3 9 0 9 0 1 2 2 2 3 3 4 Milho modificado

O professor pode utilizar a ltima representao para pedir aos alunos que concluam da eficcia do milho modificado, no aumento do peso dos pintainhos. Pode ainda pedir que calculem a mediana dos dois grupos de dados e que comparem os valores obtidos.

Organizao e tratamento de dados

103

4.6.2 Diagrama de extremos e quartis Utilizando a mediana e os quartis, que se aprendeu a determinar nas duas seces anteriores, juntamente com o mnimo e o mximo que se obtm directamente a partir da amostra ordenada, pode construir-se uma representao grfica muito simples, mas que evidencia de uma forma extremamente eficaz a forma como os dados se distribuem. Esta representao construda com base nestes 5 nmeros, chama-se diagrama de extremos e quartis e constri-se da seguinte forma: 1 Desenha-se um rectngulo que tem de comprimento a amplitude entre os dois quartis, calculados a partir dos dados, e por altura um valor qualquer, que no tem qualquer interpretao; 2 Do meio dos lados do rectngulo, perpendiculares base, saem dois segmentos de recta que unem esses lados respectivamente com o mnimo e o mximo do conjunto dos dados. 3 No interior do rectngulo desenha-se um trao que assinala a posio da mediana. Na figura seguinte apresentamos o diagrama de extremos e quartis para o conjunto de dados da varivel Altura de um aluno de uma escola do 1. ciclo, de que se tem uma amostra de 50 dados, considerados no incio da seco 4.5. Para estes dados j construmos, nas seces anteriores, o histograma, o grfico de caule-e-folhas e obtivemos para a mediana e para o 1. e 3. quartis, respectivamente os valores 143, 136 e 147. Dos dados tambm se verifica que o mnimo 130 e o mximo 159:

Da representao grfica anterior sobressaem algumas caractersticas, nomeadamente: as alturas no se distriburem de forma simtrica, tanto na parte central dos dados, como na parte mais afastada do centro; se os dados fossem simtricos, a mediana deveria situar-se a meio do rectngulo, o que no acontece; os 25% dos valores superiores tambm se encontram mais dispersos do que os 25% dos dados inferiores, isto , existe uma maior variabilidade nas alturas dos alunos mais altos; Observao - O diagrama de extremos e quartis apresentado anteriormente foi colocado na horizontal. No entanto tambm poderia ser apresentado na vertical, como na figura seguinte que se obtm quando se utiliza a folha de clculo Excel:

Organizao e tratamento de dados

104

Utilizao do diagrama de extremos e quartis para comparar vrias amostras Os diagramas de extremos e quartis, quando colocados em paralelo, so muito teis para comparar 2 ou mais amostras. Fazem sobressair as semelhanas e diferenas entre a forma como os dados se distribuem, permitindo comparar a localizao da mediana e dos quartis para as diferentes amostras, assim como a maior ou menor disperso dos dados. A seguir apresenta-se o diagrama de extremos e quartis paralelos para a tarefa proposta na seco anterior, sobre a eficcia do milho modificado:

A representao anterior torna evidente que o milho modificado produz, de um modo geral, maior aumento de peso nos pintainhos. Tambm se verifica que o aumento de peso apresenta menor variabilidade com este tipo de milho do que com o milho normal, o que significa que ao fim de um certo tempo a tomar a rao composta por milho modificado, os pintainhos tm um aspecto mais uniforme do

Organizao e tratamento de dados

105

que se tivessem sido alimentados com rao composta com milho normal. Notamos ainda, sobretudo para os dados do milho normal, na parte central dos dados (nos 50% dos dados do meio da amostra ordenada), um ligeiro enviesamento para a direita, isto , existe uma maior disperso entre os dados compreendidos entre o 3. quartil e a mediana, do que entre a mediana e o 2. quartil. Se no houver inconveniente para a sade, parece que o milho modificado uma boa aposta! Ao comparar vrias distribuies de dados, devemos estar atentos : Forma da distribuio; Simetria ou ausncia de simetria; Variabilidade apresentada.

Os diagramas de extremos e quartis so particularmente teis para comparamos a distribuio de vrios conjuntos de dados, realando aspectos particulares, como: Comparao das medianas; Comparao da disperso entre os dados, utilizando as amplitudes entre os quartis; Identificao de possveis outliers (valores muito grandes ou muito pequenos, relativamente aos restantes).

Tarefa Qual o nmero de letras do nosso nome? Na escola os alunos vo organizar um passeio e o professor props que se mandassem fazer camisolas com o primeiro e ltimo nome de cada aluno, no peito. O preo de cada camisola tem um valor fixo, ao qual acrescido do preo do nome e este tanto maior quanto mais letras tiver o nome. Por isso, o professor encarregou os alunos de fazerem um estudo sobre o nmero de letras do nome.

4.7 Formas frequentes de distribuio de dados


Dada uma amostra, o aspecto do histograma reflecte a forma da distribuio da populao de onde os dados foram recolhidos, sugerindo-nos a escolha de um modelo terico para essa distribuio. Ao agruparmos os dados, perdemos alguma informao contida nesses mesmos dados, mas em contrapartida obtemos informao sobre a estrutura da populao que eles pretendem representar. Alguns histogramas apresentam formas que, pela frequncia com que surgem, merecem referncia especial e que referimos de seguida 5 . Distribuies simtricas A distribuio das frequncias faz-se de forma aproximadamente simtrica, relativamente a uma classe mdia:

Graa Martins (2005).

Organizao e tratamento de dados

106

Um caso especial importante de uma distribuio simtrica aquele que sugere a forma de um "sino". Esta distribuio surge em amostras provenientes de Populaes Normais, termo cujo significado ser explicado mais tarde, no mbito das Probabilidades.

Distribuies enviesadas A distribuio das frequncias faz-se de forma acentuadamente assimtrica, apresentando valores substancialmente mais pequenos num dos lados, relativamente ao outro:

Distribuies com caudas longas A distribuio das frequncias faz-se de tal forma que existe um grande nmero de classes nos extremos, cujas frequncias so pequenas, relativamente s classes centrais:

Uma distribuio deste tipo pode ser sintoma da existncia de elementos que no pertencem populao ou que foram recolhidos de forma incorrecta (denominados outliers). Distribuies com vrios "picos" ou modas A distribuio das frequncias apresenta dois ou mais "picos" a que chamamos modas, sugerindo que os dados so constitudos por vrios grupos distintos, ou que h uma mistura de populaes com distribuies distintas:

Por exemplo, se ao representarmos os pesos de uma amostra de indivduos, na forma de um histograma e obtivermos uma representao idntica anterior, temos sintomas da existncia de uma mistura de duas populaes distintas. Podemos, por exemplo, averiguar se no teremos uma amostra de indivduos do sexo

Organizao e tratamento de dados

107

masculino ou feminino, ou at de indivduos do mesmo sexo mas de classes etrias diferentes. No caso das variveis contnuas 6 os modelos tericos so caracterizados pelas chamadas curvas de densidade. Estas so funes no negativas, que tm a particularidade de terem uma rea unitria entre o eixo dos xx e o grfico que as representa. Por exemplo, o seguinte grfico

pode ser considerado a funo densidade do modelo Normal, e a sua aplicao pode ser sugerida por um histograma com a forma de sino, como o que apresentmos atrs como caso especial de uma distribuio simtrica. Os histogramas enviesados apresentados anteriormente tambm sugerem, para as populaes de onde as amostras foram seleccionadas, modelos com funes densidade com grficos com o seguinte aspecto:

As distribuies com enviesamento para a direita so bem mais frequentes do que as que apresentam enviesamento para a esquerda. Uma varivel que pode ser bem modelada por uma distribuio com enviesamento para a esquerda a idade da reforma de um trabalhador. Efectivamente, a grande acumulao de idades das pessoas reformadas verifica-se volta da classe etria dos 60 ao 70 anos. Para valores inferiores aos 60 anos h algumas pessoas que se reformam, mas com muito menor frequncia. Outro exemplo de uma distribuio com um enviesamento para a esquerda o que se obtm representando graficamente os resultados de um teste demasiado acessvel para os alunos a que se destina. A maior parte dos alunos tem notas muito boas e s alguns alunos, os que no estudaram nada ou so muito fracos, que tm uma nota reduzida. Ao contrrio de um teste demasiado acessvel, temos um teste demasiado difcil. Neste caso, os resultados apresentam uma distribuio com enviesamento para a direita. A representao grfica de um teste adequado para os alunos a que se destina assemelha-se ao modelo Normal. Espera-se um nmero razovel de alunos com nota volta da mdia das notas, com a frequncia de alunos com nota alta ou baixa, a diminuir medida que nos afastamos daquela mdia. A seguir apresentamos alguns exemplos com esquemas de histogramas estilizados, que procuram traduzir a distribuio subjacente a vrias variveis quantitativas contnuas. Exemplo Salrios de trabalhadores 7 . Recolheram-se os preos dos salrios mensais de trs tipos de trabalhadores. Os trabalhadores do grupo B ganham cerca de duas vezes mais do que os trabalhadores do grupo A; os trabalhadores do grupo

6 7

Graa Martins et al. (2007). Adaptado de Freedman (1991).

Organizao e tratamento de dados

108

C ganham mais 1500 euros por ms do que os do grupo A. Qual dos esquemas seguintes, de histogramas, se refere a cada um dos grupos?

Para resolvermos esta questo, podemos pensar que se se diz que os trabalhadores do grupo B ganham o dobro dos trabalhadores do grupo A, isto significa, por exemplo, que enquanto a maior parte dos trabalhadores do grupo B aufere um salrio volta de 4000 euros, os do grupo A auferem um salrio volta de 2000 euros. Os trabalhadores do grupo C tambm tm um salrio claramente superior aos do grupo A. Ento natural esperar que a figura (2) corresponde aos trabalhadores do grupo A, pois a nica cuja mdia claramente inferior a 4000. Por outro lado, se os trabalhadores do grupo C ganham 1500 euros a mais do que os do grupo A, isto significa que a distribuio dos salrios dos trabalhadores do grupo C ter um aspecto idntico ao dos trabalhadores do grupo A, mas deslocada para a direita de 1500 euros. Ento a figura (3) corresponder aos salrios dos trabalhadores do grupo C. Por excluso de partes a figura (1) deve corresponder aos salrios dos trabalhadores do grupo B, sendo de facto compatvel com a condio dada do seu salrio ser cerca de duas vezes maior que o dos trabalhadores do grupo A. A distribuio com o aspecto (1) no muito usual para representar salrios, sendo mais usuais as distribuies com o aspecto (2) ou (3). Efectivamente, em geral, a distribuio dos salrios tem um aspecto assimtrico, com um enviesamento para a direita. Isto deve-se ao facto de a maior parte dos salrios se concentrarem numa determinada regio, havendo alguns (poucos) salrios que so substancialmente superiores aos restantes, provocando uma cauda da distribuio, alongada para a direita. Exemplo Qual o aspecto da distribuio? 8 . Seguidamente apresentam-se seis esquemas de histogramas, quatro dos quais apresentam os resultados do estudo, numa pequena cidade, das quatro caractersticas seguintes: a) Alturas de todos os elementos das famlias, em que os pais tenham idade inferior a 24 anos. b) Alturas dos casais (marido e mulher). c) Alturas de todos os indivduos da cidade. d) Alturas de todos os automveis.

Adaptado de Freedman (1991).

Organizao e tratamento de dados

109

Quais dos esquemas de histogramas podem representar cada uma das variveis anteriores? Pensando na varivel que representa a altura de um elemento, escolhido ao acaso, de uma famlia, em que os pais tenham idade inferior a 24 anos, esperamos obter um histograma com uma mancha idntica (2), onde se vislumbram 3 pontos, volta dos quais se nota uma maior frequncia, e que correspondero altura dos filhos entre 80 e 90cm, que para casais com idades inferiores a 24 anos, ainda devem ser muito pequenos, e altura dos membros do casal ou do marido, respectivamente volta de 165cm e 190cm, aproximadamente:

Quando consideramos a distribuio das alturas dos elementos de um casal, natural esperar um esquema idntico ao da figura (3), com duas modas, reflectindo que de um modo geral, as alturas dos homens concentram-se em torno de um valor um pouco superior ao valor em torno do qual se concentram as alturas das mulheres. Ao escolher um indivduo ao acaso, na cidade, esperamos que a distribuio das alturas seja descrita pela figura (4) que apresenta um enviesamento para a esquerda, correspondente s alturas das crianas, que esto em minoria. Finalmente, quando se estuda a varivel que representa a altura de um carro, o histograma adequado o que corresponde mancha (1) que traduz o facto de os carros terem quase todos a mesma altura, andando volta de 125cm. Caule-e-folhas, histograma ou diagrama de extremos e quartis J na seco 4.6.1, quando apresentmos a representao dos dados em caule-efolhas, frismos o facto de a informao transmitida pelo histograma sobre o padro da distribuio da populao subjacente aos dados, ser idntica transmitida pelo grfico de caule-e-folhas. Adiantamos que o mesmo se verifica com o diagrama de extremos e quartis. Por exemplo, as seguintes representaes, obtidas para o mesmo conjunto de dados, do o mesmo tipo de informao, sugerindo que a distribuio da populao tem um enviesamento para a direita:

Organizao e tratamento de dados

110

Como j referimos, quando se faz a representao dos dados, perde-se sempre alguma informao que eles contm, mas em contrapartida obtemos informao sobre a estrutura da populao de onde eles provm. Das representaes grficas anteriores, aquela em que se perdeu mais informao foi o diagrama de extremos e quartis, mas tambm foi a mais simples de ser construda bastou recolher, a partir dos dados, informao sobre cinco nmeros (mnimo, mximo, 1. quartil, 3. quartil e mediana). Ao construir o histograma tambm perdemos alguma da informao contida nos dados, uma vez que os agrupmos em classes, mas em contrapartida ficmos com uma ideia do padro da distribuio subjacente aos dados. A representao em que se perde menos informao o caule-e-folhas, mas como tambm j vimos, devido especificidade da escolha dos caules, a sua construo pode apresentar menos maleabilidade do que o histograma.

4.8 Representaes grficas e tabelas de frequncias para dados bivariados


Embora a representao de dados bivariados no faa parte do programa do ensino bsico, pensamos ser oportuno a introduo de uma breve referncia representao deste tipo de dados. Uma representao grfica frequentemente utilizada e com grande divulgao na comunicao social, o grfico de linha (ou srie temporal), que abordaremos a seguir, no mais do que uma representao grfica da forma como duas variveis se relacionam uma com a outra, mas numa situao especial, em que uma das variveis o tempo. No nosso dia-a-dia temos muitas vezes necessidade de recolher informao sobre duas (ou mais) variveis acerca do mesmo indivduo. Por exemplo: quando os pais levam o filho ao pediatra ele recolhe informao sobre o peso e a altura da criana; quando um adulto vai ao mdico, este recolhe informao sobre a idade, o peso, o nvel de colesterol, a tenso mxima e mnima, etc.; quando algum pretende comprar um carro, recolhe informao sobre a cilindrada e o consumo mdio aos 100km; a um aluno candidato Universidade pede-se a nota de candidatura e a nota na prova especfica (esta prova varia de Faculdade para Faculdade); em estudos econmicos estuda-se o salrio de um indivduo e o nvel de escolaridade que detm; o governo interessa-se pela evoluo da taxa de desemprego, ao longo dos ltimos anos;

Organizao e tratamento de dados

111

para impor uma taxa mxima de lcool para os condutores, o governo encomendou um estudo sobre a associao entre a taxa de lcool e o tempo de reaco; quando troveja, associamos a distncia a que se encontra a trovoada, com o tempo que demora o trovo, aps vermos o relmpago; etc.

4.8.1 Diagrama de disperso Nos casais, espera-se que a idade da mulher esteja relacionada com a idade do marido. Ser verdade que quanto mais velha a mulher, mais velho o marido? Propomos fazer um estudo sobre esta questo, pelo que vamos utilizar a informao sobre as idades da mulher e do marido da Tarefa Vamos comparar as idades dos nossos pais e das nossas mes, da seco 4.6.1. Das representaes a consideradas, j conclumos que os homens tendem a ser mais velhos que as mulheres, mas na verdade nem todos os maridos so mais velhos do que as mulheres, nem to pouco conseguimos saber qual a percentagem de homens que so mais velhos do que as respectivas mulheres. Efectivamente, com os dados relativos aos pais e s mes separados, nada podemos concluir. Uma soluo que o professor arranjou, para em qualquer altura recuperar os pares de dados trazidos, pelos alunos, nos dois pedaos de papel, foi numerar (na parte de dentro do papel) com o mesmo nmero, o par de pedaos de papel dado a cada aluno. Assim, conseguiuse reconstituir as idades dos casais, que se apresentam na tabela seguinte:
Idade da mulher Idade do marido 19 28 24 29 20 27 28 26 26 31 25 24 27 39 23 33 32 37 31 34 35 35 32 42 34 40 40 41

Representmos num sistema de eixos coordenados os pontos de coordenadas (Idade da mulher, Idade do marido), como se apresenta a seguir:

Na representao anterior, a que chamamos diagrama de disperso, apercebemo-nos que, de um modo geral, medida que a idade da mulher aumenta, tambm aumenta a idade do marido. Dizemos de um modo geral, porque nem sempre isso acontea, mas existe tendncia a que homens mais velhos estejam casados com mulheres mais velhas. Diagrama de disperso uma representao grfica para dados bivariados (pares de dados) quantitativos, em que cada par de dados (x, y) representado por um ponto de coordenadas (x, y), num sistema de eixos coordenados.

Organizao e tratamento de dados

112

Este tipo de representao muito til, pois permite realar algumas propriedades entre os dados, nomeadamente no que diz respeito ao tipo de associao entre as variveis representadas por x e y. No exemplo anterior, a nuvem de pontos, embora um pouco dispersa, apresenta uma forma alongada, que pode ser representada por uma recta com declive positivo:

Quanto mais perto os pontos se dispuserem ao longo de uma recta, maior ser o grau de associao entre as duas variveis. Essa associao diz-se positiva, se a recta tiver declive positivo. O exemplo anterior um caso de uma associao positiva. A associao ser negativa, se a recta tiver declive negativo. Neste caso, quanto maior for o valor de uma das variveis, menor ser, de um modo geral, o valor da outra varivel. Tarefa Vamos comer queijo, mas no exageremos... 9 . O queijo, proveniente do leite, um alimento rico em clcio. No entanto, necessrio no abusar, j que, de um modo geral, um alimento muito calrico e a maior parte das vezes rico em gordura. Na tabela seguinte apresentamos, para vrios tipos de queijo, a quantidade de gordura e o nmero de calorias, por cada 100 gramas de queijo: Alimento (100g) Queijo Brie Queijo Camembert Queijo da Ilha Queijo da Serra curado Queijo da Serra fresco Queijo de Azeito Queijo de vora Queijo de Serpa Queijo de Tomar Queijo flamengo 20% Queijo flamengo 30% Queijo flamengo 45% Queijo fresco Gordura (g) 20 23 26 32 27 25 34 26 27 8 14 23 21 Calorias 263 313 357 385 327 309 412 330 305 185 246 315 265

Adaptado de Graa Martins et al. (2007).

Organizao e tratamento de dados

113

Queijo Gorgonzola Queijo Gruyre Queijo Parmeso Queijo Roquefort Queijo Suo

37 20 28 32 29

407 315 401 371 357

- Alimento com baixo teor em gordura mas podendo ter um elevado contedo em calorias. - Alimento intermedirio: consumir com moderao. - Alimento rico em gordura: comer pontualmente ou moderar o seu consumo.

A tabela anterior permite vrios estudos no que diz respeito quantidade de gordura e ao nmero de calorias dos diferentes tipos de queijo. Uma possvel abordagem comear por tentar relacionar as duas variveis Quantidade de gordura (em gramas) e Nmero de calorias. O diagrama de disperso para estas variveis tem o seguinte aspecto:

No grfico anterior ntida a forte associao linear positiva entre a Quantidade de gordura e o Nmero de calorias, como alis seria de esperar. Este exemplo, que ser abordado mais frente, pode ser aproveitado pelo professor para discutir com os alunos sobre os malefcios de ingerir alimentos com grande quantidade de gordura e j que o queijo faz bem, pois tem clcio, necessrio para uma boa formao dos ossos, devemos escolher os tipos de queijo com menos gordura, que tambm tm, de um modo geral, menos calorias. 4.8.2 Grfico de linhas Um grfico de linhas um caso especial de um diagrama de disperso. utilizado para representar, visualmente, a forma como uma varivel evolui em relao a outra varivel, sendo esta outra varivel, quase sempre, o tempo. Por exemplo, repare no grfico que fez parte do Desafio 23 do ALEA (www.alea.pt ) e que foi retirado de uma notcia que apareceu no jornal Dirio de Notcias do dia 5 de Abril de 2008. Nesse desafio apresentou-se o grfico tal e qual como apareceu na comunicao social e fazia parte do desafio responder s questes que se acrescentam a seguir:

Organizao e tratamento de dados

114

O grfico apresenta a evoluo da facturao total, em milhes de euros, do mercado discogrfico portugus de 2000 a 2007. A partir da informao contida no grfico, pede-se que se responda a algumas questes.

Fonte: AFP

Questo 1: Embora a tendncia da evoluo da facturao seja nitidamente decrescente, houve alguns anos em que se verificou um ligeiro crescimento. Entre que anos consecutivos se registou esse crescimento na venda de msica gravada? Qual o valor do crescimento, em percentagem? Apresenta o resultado aproximado s dcimas. Questo 2: Na notcia afirma-se que o mercado portugus da msica gravada facturou, em 2007, menos 13,7% que em 2006. De acordo com o grfico, esta afirmao verdadeira? Justifica a tua resposta. Questo 3: De 2000 para 2007, qual o decrscimo, em percentagem, verificado na facturao discogrfica? Apresenta o resultado aproximado s dcimas. Este exemplo pode ser trabalhado com os alunos, com o auxlio do professor, quando aqueles estiverem a estudar e a interpretar a variao de uma funo representada por um grfico. Tarefa As vendas esto a correr bem? A proprietria de uma livraria, montou, num canto da sala, uma mquina de caf, a ttulo de experincia. Os lucros com a venda dos livros estavam a baixar, de modo que a venda do caf talvez ajudasse a equilibrar o negcio. Passado algum tempo, decidiu averiguar se o negcio com a mquina de caf era compensador. Assim, pediu a um grupo de alunos do 3. ciclo, da escola ao lado da livraria, que costumavam passar por l para folhear uns livros, para lhe fazerem um pequeno estudo sobre se valeria a pena continuar com o negcio. Os jovens decidiram ajudar a senhora. Depois de trocarem algumas impresses uns com os outros de como atacar o problema, uma coisa no tinham dvidas: precisavam de dados! Felizmente a dona da livraria tinha registado as quantias auferidas com a venda do caf, nos ltimos 20 dias. Os jovens registaram os dados, tendo a senhora garantido que a ordem apresentada, era a ordem pela qual os dados tinham sido recolhidos: 300, 100, 200, 300, 100, 200, 200, 300, 300, 300, 200, 300, 400, 300, 300, 400, 500, 400, 400, 500 Na posse dos dados, comearam a pensar na metodologia a seguir, de forma a extrair alguma informao que pudesse ajudar a proprietria. Nessa discusso, alguns dos alunos decidiram calcular algumas medidas, fazer algumas representaes grficas, ou seja, tentar arranjar alguns processos teis de conseguir que eles falassem, pois aquele conjunto de valores no lhes estava a dizer nada...

Organizao e tratamento de dados

115

J todos sabiam calcular a moda e a mdia, pelo que comearam por a. No entanto, um deles alertou para o facto de reduzir um conjunto de dados a 2 medidas era talvez demasiado drstico, pelo que decidiram fazer duas representaes grficas, nomeadamente uma representao em caule-e-folhas e um diagrama de disperso com os pares (dia, quantia auferida). Ao tomarem esta deciso, tentaram realar alguns pontos, tais como: Alguns aspectos dos dados apresentados pelo caule-e-folhas, que no sobressaiam a partir do diagrama de disperso; Alguns aspectos dos dados apresentados pelo diagrama de disperso, que no sobressaiam a partir do caule-e-folhas; Qual das representaes interessaria mais proprietria da livraria.

Apresentamos a seguir um pequeno relatrio com a anlise dos dados fornecidos pela proprietria da livraria: Relatrio Questo Foi-nos pedido que elaborssemos um estudo, para averiguar se a venda de caf na livraria estaria a resultar. A proprietria da livraria, forneceu-nos uma tabela com as vendas nos 20 ltimos dias, no nos tendo fornecido mais nenhuma informao, nomeadamente os custos com a manuteno da mquina, os custos do gro de caf, ou com a mo-de-obra envolvida neste pequeno negcio. Metodologia utilizada Clculo de algumas estatsticas: Moda 300 Mdia 300 Mediana 300

O facto de as 3 medidas anteriores serem iguais, levou-nos a desconfiar que a distribuio dos dados era simtrica, o que se veio a confirmar com o grfico de caulee-folhas, que apresentamos a seguir: 10 20 30 40 50 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

A distribuio dos dados simtrica, razoavelmente concentrada em torno da mdia de 300 euros, no se tendo registado quantias muito baixas ou muito elevadas. Como a representao anterior no nos diz nada sobre a forma como o negcio est a evoluir, construiu-se um grfico de linhas, que se apresenta a seguir:

Organizao e tratamento de dados

116

Evoluo das quantias auferidas nos ltimos 20 dias

Este grfico bem elucidativo ao mostrar que o negcio evolui de forma positiva, com tendncia para crescer. Esta uma caracterstica importante, que no era realada no caule-e-folhas, mas que naturalmente vai interessar dona da livraria. Concluso Tendo em linha de conta a informao que nos foi facultada, conclumos que com a venda do caf a proprietria aufere uma quantia mdia diria de 300 euros, havendo uma tendncia para este valor aumentar. Tarefa Registo da temperatura mxima e mnima no Porto, Lisboa, Faro, Ponta Delgada e Funchal. Pretende-se averiguar se haver indcios de diferena na temperatura nas trs cidades apontadas de Portugal continental, uma do norte, outra do centro e outra do Sul e das duas cidades dos arquiplagos dos Aores e Madeira, respectivamente. Para poderem responder a esta questo, os alunos resolveram fazer uma recolha de dados durante 20 dias. Para fazerem a tarefa, o professor arranjou cinco folhas quadriculadas, uma para cada cidade, como a que se apresenta a seguir. Pendurou na parede, com fita-cola e colocou ao p das folhas dois lpis, um azul e outro encarnado. Os alunos foram divididos em grupos de dois e cada grupo ficou encarregue de ouvir no noticirio da manh, num dia especificado pelo professor, sem esquecer os fins-de-semana, a previso das temperaturas mxima e mnima para as cinco cidades. Quando os alunos chegavam turma, apontavam com o lpis azul a temperatura mnima e com o lpis encarnado a temperatura mxima, de cada cidade, na folha respectiva. Ao fim dos 20 dias, completam o grfico de linha unindo os pontos azuis e os pontos encarnados. Algumas questes que podem ser abordadas: Qual o valor mximo e mnimo obtido para as temperaturas recolhidas, para cada cidade? No caso das cidades de Portugal Continental, estes valores estaro associados localizao geogrfica das cidades? Para cada cidade calcula, para cada dia, a diferena entre a temperatura mxima e a temperatura mnima. Utilizando uma representao grfica adequada, compara os cinco conjuntos de dados obtidos.

Se a escolha de dados tivesse sido feita noutra estao do ano, pensas que obterias dados com aspecto diferente? Haver alguma(s) das cidades onde a estao do ano tenha menor influncia do que noutra(s) cidades? Justifica a tua resposta.

Organizao e tratamento de dados

5 Caractersticas amostrais
Uma descrio numrica das distribuies de dados feita atravs de alguns nmeros que realam alguns aspectos especficos da distribuio dos dados, nomeadamente no que diz respeito localizao de alguns pontos importantes, como o centro da distribuio, ou disperso ou variabilidade apresentada pelos dados.

Organizao e tratamento de dados

118

Organizao e tratamento de dados

119

5.1 Introduo
Vimos, no captulo anterior, alguns processos de resumir a informao contida nos dados, utilizando tabelas e grficos. Veremos, neste captulo, um outro processo de resumir essa informao utilizando determinadas medidas, na forma de nmeros, calculadas a partir dos dados e que servem para os caracterizar, que se chamam estatsticas. Das medidas ou estatsticas que iremos definir, destacam-se as medidas de localizao, nomeadamente as que localizam o centro da distribuio dos dados, tambm chamadas medidas de tendncia central, e as medidas de disperso, que medem a variabilidade dos dados. Observemos que, ao resumir a informao contida nos dados na forma de alguns nmeros, estamos a proceder a uma reduo "drstica" desses dados. Assim, aquelas medidas devem ser convenientemente escolhidas, de modo a representarem o melhor possvel o conjunto de dados que pretendem sumariar. Definiremos vrias medidas, mas notamos desde j que no se pode dizer que uma melhor do que outra, de uma forma geral. Cada uma delas tem as suas vantagens e os seus inconvenientes e a escolha da medida a usar depende do contexto e da situao em causa. No 1. ciclo s se estuda uma destas medidas a moda. No 2. ciclo surgem os conceitos de mdia aritmtica, extremos e amplitude. E, finalmente, no 3. ciclo, os alunos aprendem a mediana, os quartis e amplitude interquartil, devendo ser capazes de escolher as medidas de localizao mais adequadas para resumir a informao contida nos dados. O estudo destas medidas no deve redundar na realizao de exerccios de clculo repetitivos, em que a prpria natureza dos dados nem chega a ser bem discutida, e, frequentemente, se perdem de vista as questes a que se queria responder. Pelo contrrio, na explorao de situaes significativas para os alunos com dados fornecidos pelo professor como os que se apresentam neste captulo ou com dados recolhidos pelos prprios alunos que estes conceitos devem ser considerados, aproveitando-se, para isso, as oportunidades relevantes. Como complemento de informao para o professor, para alm das medidas de localizao e disperso includas no Programa, apresentamos ainda neste captulo algumas medidas adicionais (percentis, desvio mdio absoluto e desvio-padro).

5.2 Medidas de localizao


Ser mesmo necessrio utilizar os dois tipos de medidas, isto de localizao e de disperso, para caracterizar um conjunto de dados? O exemplo seguinte procura responder a esta questo. Suponha que dois alunos do 7. ano obtiveram as seguintes notas no 3. perodo: Pedro Joo 4 5 3 2 3 2 3 3 3 4 3 3 4 5 3 3 4 3 3 3

O Pedro e o Joo tiveram a mesma mdia de 3.3, mas o Joo no transitou de ano, pois teve duas negativas. Quer dizer que utilizmos uma medida de reduo dos dados, a mdia, que no suficiente para caracterizar e diferenciar os dois conjuntos de dados. Efectivamente, se representarmos num diagrama de caule-e-folhas os dois conjuntos, obtemos duas representaes com aspecto diferente, j que na

Organizao e tratamento de dados

120

segunda representao se verifica uma maior variabilidade, isto , os dados esto mais dispersos: 3 4 3333333 444 2 3 4 5 22 33333 4 55

Para definir as medidas que vo ser utilizadas para resumir a informao contida nos dados, utilizamos a seguinte notao para representar os dados x1, x2, x3, , xn onde x1, x2,...., xn, representam, respectivamente, a 1. observao ou 1 dado, a 2. observao ou 2 dado, a n-sima observao ou n-simo dado, a serem consideradas ou considerados para constituir a amostra de dimenso n. Esta notao no pressupe uma ordenao. Uma medida de localizao um nmero que nos d informao sobre a ordem de grandeza dos dados da amostra, no s da parte central da distribuio dos dados, onde se concentram a maior parte dos dados, como tambm nas caudas. De entre as medidas de localizao, merecem destaque especial as que indicam o centro de uma amostra. Vimos no captulo anterior que uma representao grfica adequada para um conjunto de dados contnuos era, por exemplo, o histograma. Vimos tambm que um histograma pode ter vrios aspectos, apresentando, nomeadamente, uma forma simtrica ou enviesada. No caso particular do histograma ser perfeitamente simtrico, no h dvida em dizer qual o centro dessa distribuio:

No entanto, a situao anterior, a existir, muito rara, pois devido aleatoriedade presente nos dados, os histogramas no apresentam aquele aspecto. Por outro lado, quando o histograma enviesado, a situao ainda se torna mais complicada, pois difcil dizer o que o centro. Existem ento, vrios processos para definir o centro, cujas medidas no do necessariamente o mesmo resultado. Destas medidas destacamos a mdia e a mediana, a definir seguidamente. Apresentaremos ainda outras medidas de localizao, no para representarem o centro da distribuio dos dados, mas sim outros pontos representativos da aglomerao das caudas, de que destacamos os quartis.

Organizao e tratamento de dados

121

5.2.1 Mdia A mdia amostral, ou simplesmente mdia, a medida de localizao do centro da amostra mais vulgarmente utilizada. Representa-se por x e calcula-se utilizando o seguinte processo: Somam-se todos os elementos da amostra; Divide-se o resultado da soma pelo nmero de elementos da amostra.

Por exemplo, para os dados referentes varivel nmero de letras do nome, da Turma de referncia, vem que a mdia do nmero de letras dos nomes dos primeiros 10 alunos considerados na tabela,
Nome Ana Godinho Ana Sofia Silva Andreia Sousa Carolina Martins Daniela Silva David Leal Diogo Oliveira Filipa Duarte Helena Afonso Ins Martins Joana Manso Joo Miguel Ribeiro Joo Pedro Batista Liliana Isabel Cruz Maria Margarida Cabral Miguel Esteves Nuno Pestana Patrcia Santos Pedro Pinheiro Raquel Loureiro Rita Martins Simo Valente Sofia Matias Tiago Neves Nmero de letras no nome 10 13 12 15 12 9 12 12 12 11 10 17 16 17 20 13 11 14 13 14 11 12 11 10

igual a
10 + 13 + 12 + 15 + 12 + 9 + 12 + 12 + 12 + 11 = 11,8 10

O que significa uma mdia de 11,8 letras para o nmero de letras dos nomes dos 10 alunos? Obviamente que no h 11,8 letras! O que aquele valor significa que 12 letras nos do um valor que representa razoavelmente bem o nmero de letras dos nomes daqueles 10 alunos, isto , se pretendssemos distribuir equitativamente as 118 letras dos nomes dos 10 alunos, dando a cada um o mesmo nmero de letras, ou um nmero aproximado de letras, esse valor andaria volta de 12 letras. Neste caso no poderamos dar 12 letras a cada um dos 10 alunos, pois seriam necessrias 120 letras, mas poderamos dar 12 letras a 8 dos alunos e 11 aos 2 restantes e ficavam todos com um nmero igual ou aproximado de letras. Se em vez do nmero de letras dos nomes, aqueles valores significassem a quantia, em euros, que cada aluno tinha no bolso, e pretendssemos calcular a mdia

Organizao e tratamento de dados

122

das quantias que os 10 alunos tinham nos bolsos, a interpretao do valor 11,8 euros j no traria qualquer problema, pois se quisssemos distribuir os 118 euros equitativamente pelos 10 alunos, seria possvel dar a cada um a mesma quantia, ou seja 11 euros e 80 cntimos. A mdia uma estatstica largamente utilizada no dia a dia. Quando um empregador pergunta a um candidato a um emprego, qual a mdia da sua licenciatura, quer avaliar, a partir de um nico nmero, todo o percurso escolar desse candidato como aluno (estamos a admitir que a mdia da licenciatura a mdia aritmtica simples, como a que foi aqui apresentada, o que nem sempre acontece). A mdia , alis, uma estatstica com que o aluno se confronta durante todo o percurso escolar! Pode dizer-se que a mdia o ponto de equilbrio de todos os elementos da amostra, na medida em que equilibra os valores grandes com os pequenos. Esta caracterstica pode-se tornar uma vantagem em certas situaes: Quando o que se pretende representar a quantidade total expressa pelos dados, utiliza-se a mdia.

Na realidade, ao multiplicar a mdia pelo nmero total de elementos, obtemos a quantidade pretendida!

Utilizando a notao introduzida anteriormente para representar a amostra, a mdia obtm-se a partir da expresso:

x=

x 1 + x 2 + x 3 + ... + x n n

A mdia ser sempre uma medida representativa dos dados? No, a mdia nem sempre uma boa medida para representar os dados. O seguinte exemplo elucidativo do que acabamos de dizer. Suponha um aluno que ao longo do ano fez 6 testes, em que teve negativa em 5 deles e uma positiva, no primeiro teste, que era muito simples: 19 8,9 7,8 9,4 8,6 9,3

Pois este aluno teve uma mdia positiva, igual a 10,5, ou seja 11! Embora todas as notas, menos uma, estejam no intervalo [7,8; 9,4], o valor obtido para a mdia no reflecte o conjunto das notas do aluno! Uma medida que se pretendia representativa dos dados, no est a conseguir esse objectivo, pois se nos disserem que um conjunto de dados tem mdia 10,5, imediatamente pensamos em

Organizao e tratamento de dados

123

valores que no se afastam muito deste valor, uns menores e outros maiores, numa proporo aproximada. O que acontece que a mdia muito sensvel a valores muito grandes ou muito pequenos, vulgarmente chamados de outliers, dizendo-se por isso que uma medida pouco resistente. A pouca resistncia vem precisamente do facto de ser muito influenciada e no resistir a estes valores, mesmo que existam em pequena quantidade, quando comparados com todos os restantes valores. No caso do exemplo foi o valor 19 que inflacionou a mdia. Alm disso, temos alguma razo para pensar que o aluno efectivamente no deveria ter mdia positiva, pois s teve uma boa nota no primeiro teste, ainda por cima muito simples, como afirmado. Sendo a mdia uma medida to sensvel aos dados, preciso ter cuidado com a sua utilizao, pois pode dar uma imagem distorcida dos dados que pretende representar!

Efectivamente a mdia constitui um bom resumo dos dados nos casos em que estes se distribuem de forma aproximadamente simtrica, com uma zona central de maior concentrao e caudas que no se alonguem demasiado. Esquematicamente podemos posicionar a mdia da forma que se segue, tendo em conta a representao grfica na forma de histograma:

mdia

mdia

mdia

No histograma do lado esquerdo temos uma figura aproximadamente simtrica, pelo que o centro est bem definido. No histograma do centro o enviesamento para a direita provoca uma deslocao da mdia para a direita; finalmente no histograma da direita o enviesamento provoca uma deslocao da mdia para a esquerda. Quando a distribuio dos dados apresenta um grande enviesamento, tem pouco interesse utilizar a mdia como centro da distribuio dos dados. Alis, quando a distribuio dos dados no for aproximadamente simtrica o prprio conceito de centro da distribuio que deixa de ter sentido, pelo que nenhuma medida de tendncia central tem interesse como resumo da informao contida nos dados. Exemplo da pouca resistncia da mdia Considerando os valores 2, 3, 3 e 4, construmos um diagrama de barras e posicionmos a mdia. De seguida. altermos um desses valores para estudar o seu comportamento. interessante verificar que um diagrama de barras (ou histograma) se comporta como um balanc, em que o ponto de apoio a mdia. Ao contrrio da mediana, como se ver adiante, a percentagem de elementos para um e outro lado da mdia no necessariamente igual a 50%.

Organizao e tratamento de dados

124

Repare-se como varia a mdia, medida que se altera um dos dados. Para restabelecer o equilbrio entre o valor que est a aumentar e os restantes valores, a mdia tambm est a aumentar. Pode-se sempre calcular a mdia? No, a mdia s pode ser calculada para dados quantitativos! Chamamos a ateno para que, com dados de tipo qualitativo, no tem sentido calcular a mdia, mesmo que os dados sejam nmeros. Se, por exemplo, temos um conjunto de 1s e 2s para representar as categorias da varivel sexo, em que se utilizou o 1 para representar o sexo masculino e o 2 para o sexo feminino (varivel codificada), no tem qualquer significado calcular a mdia daquele conjunto de dados. A mdia s se pode calcular para dados quantitativos, quer discretos, quer contnuos. Clculo da mdia para dados discretos agrupados Em amostras de dados quantitativos discretos aparecem muitos valores repetidos e, em vez de se somarem separadamente todos os valores da amostra, podem agrupar-se os valores que se repetem, obtendo-se
x=
* * x 1 n1 + x * n2 + ... + x k nk 2 , n

onde x*, x*, ..., x* representam os k valores distintos que surgem na amostra e ni 1 2 k representa a frequncia absoluta com que surge x* , i=1, 2, ..., k. i Por exemplo, para calcular a mdia do nmero de letras do nome dos 24 alunos da turma de referncia, podemos considerar a tabela de frequncias com os dados agrupados, construda na seco 4.4.2.2

Organizao e tratamento de dados

125

N de letras no nome

x* i

9 10 11 12 13 14 15 16 17 20 Total

Freq. Abs. ni 1 3 4 6 3 2 1 1 2 1 24

Freq. Rel. fi 0,042 0,125 0,167 0,250 0,125 0,083 0,042 0,042 0,083 0,042 1,000

e utiliz-la para calcular a mdia do nmero de letras dos nomes dos 24 alunos:
x = 9 1 + 10 3 + 11 4 + 12 6 + 13 3 + 14 2 + 15 1 + 16 1 + 17 2 + 20 1 24

obtendo-se para x = 12,8 letras. Na figura seguinte apresentamos a posio da mdia:

O grfico anterior mostra-nos um enviesamento para a direita na distribuio do nmero de letras do nome dos 24 alunos. Retirando os valores correspondentes aos 3 nomes com mais letras, esperamos que a mdia diminua. Efectivamente, calculando agora a mdia sem esses 3 valores obtemos o valor 12, diminuindo a mdia de cerca de uma unidade:

Sugesto Verificar como que se pode calcular a mdia, quando os dados esto agrupados, utilizando as frequncias relativas, em vez de utilizar as frequncias absolutas.

Organizao e tratamento de dados

126

Clculo da mdia para dados contnuos agrupados Para dados quantitativos contnuos, j organizados em classes, utiliza-se a frmula anteriormente apresentada para calcular um valor aproximado para a mdia dos dados agrupados, sendo agora x* o representante ou marca da i-sima classe, que i representmos por xi, e ni a respectiva frequncia absoluta. O valor que se obtm para a mdia, quando os dados esto agrupados , neste caso, um valor aproximado, j que no estamos a calcular a mdia com os verdadeiros valores. Assim, utilizando a tabela de frequncias construda, na seco 4.5.1, para a varivel altura de um aluno da escola do 1 ciclo
Classes [130, 135[ [135, 140[ [140, 145[ [145, 150[ [150, 155[ [155, 160[ Total Rep. Classe xi 132,5 137,5 142,5 147,5 152,5 157,5 Freq. Abs. ni 7 9 11 14 5 4 50 Freq. Rel. fi 0,14 0,18 0,22 0,28 0,10 0,08 1,00

podemos obter um valor aproximado para a mdia das alturas:


x 132,5 7 + 137,5 9 + 142,5 11 + 147,5 14 + 152,5 5 + 157,5 4 50

143,8cm O valor obtido para a mdia, considerando os dados agrupados, uma aproximao do valor obtido quando se consideram todos os dados. Na figura seguinte apresenta-se a posio da mdia (aproximada) no histograma correspondente tabela de frequncias anterior:

A distribuio dos dados no apresenta um grande enviesamento, pelo que a posio da mdia reflecte razoavelmente bem o centro da distribuio dos dados. Sugesto Verificar que o valor obtido para a mdia quando se consideram todos os dados igual a 142,7cm. Tarefa Nmero de vogais e de consoantes do nome. Na turma o professor desenhou no quadro uma tabela com 2 colunas e pediu a cada aluno que fosse preencher a tabela, indicando na primeira coluna o nmero de vogais do primeiro e ltimo nome e na segunda coluna o nmero de consoantes.
Para os nomes dos alunos da turma de referncia obter-se-ia a tabela seguinte:

Organizao e tratamento de dados

127

N de vogais 5 7 7 6 6 4 8 6 6 4 5 10 8 8 9 6 5 6 6 8 4 6 6 5

N de consoantes 5 6 5 9 6 5 4 6 6 7 5 7 8 9 11 7 6 8 7 6 7 6 5 5

a) O professor pediu aos alunos que organizassem os dados numa tabela de frequncias e construssem o diagrama de barras para cada um dos conjuntos de dados. Pediu ainda que respondessem s seguintes questes: i) Qual o aspecto apresentado pelos diagramas de barras construdos para os dois conjuntos de dados? ii) A forma apresentada pelos diagramas de barras permite estimar o valor aproximado para as mdias dos dois conjuntos de dados? Utilizando as tabelas de frequncia com os dados agrupados, calcule as mdias dos conjuntos de dados e compare-as com os valores estimados a partir dos diagramas de barras. iii) Os nomes tm, de um modo geral, mais vogais ou mais consoantes? O que que permitiu responder dessa maneira? iv) Quantos alunos tm no nome mais vogais do que a mdia? E mais consoantes do que a mdia? Este resultado era esperado a partir das representaes grficas dos dados? Para os dados da turma de referncia, as tabelas de frequncia e os diagramas de barras correspondentes so os seguintes:
N. de vogais no nome N. de vogais 4 5 6 7 8 9 10 Total N. de alunos 3 4 9 2 4 1 1 24 N. de consoantes no nome N. de consoantes 4 5 6 7 8 9 10 11 Total N. de alunos 1 6 7 5 2 2 0 1 24

Organizao e tratamento de dados

128

O grfico do lado esquerdo bastante atpico, apresentando 2 modas, com uma das modas, no ponto 6, bastante mais frequente que a outra moda, no ponto 8. Estamos numa situao em que a mdia no reflecte o comportamento dos dados, mas esperamos que esteja entre o 6 e o 7, mas mais perto do 6. Relativamente ao grfico do lado direito, temos um enviesamento para a direita, pelo que estimamos que a mdia do nmero de consoantes esteja entre o 6 e o 7, talvez mais perto do 7. Utilizando as tabelas de frequncias, calcularam-se as mdias para o nmero de vogais e para o nmero de consoantes dos nomes dos 24 alunos:
Mdia do nmero de vogais 4 3 + 5 4 + ... + 10 1 151 = x = 6,3 24 24

Mdia do nmero de consoantes 4 1 + 6 4 + ... + 11 1 156 = x = =6,5 24 24

Os valores obtidos para as mdias esto perfeitamente dentro do intervalo de valores que espervamos obter a partir das representaes grficas. Estes valores levam-nos a concluir que os nomes tm em mdia, aproximadamente o mesmo nmero de vogais e consoantes, com alguma predominncia de nomes com mais consoantes do que vogais. No que diz respeito aos dados sobre o nmero de vogais e de consoantes no nome, temos, respectivamente: 16 nomes com um nmero de vogais inferior mdia e 8 nomes com um nmero de vogais superior mdia. 14 nomes com um nmero de consoantes inferior mdia e 10 nomes com um nmero de consoantes superior mdia. Os valores anteriores so sintomticos da falta de simetria da distribuio dos dados. b) Se lista de nomes anteriores juntasse o nome da professora, que se chama Maria Natividade Almeida Jorge, espera-se que a mdia do nmero de vogais e do nmero consoantes, se mantenha, aumente ou diminua? Porqu? Como procederia para calcular a mdia de cada conjunto de dados a que acrescentou mais um elemento? Considerando os dados da turma de referncia, esperamos que as mdias aumentem um pouco, pois estamos a acrescentar a cada um dos conjuntos de dados, um novo dado maior que os restantes, j que o novo nome tem 14 vogais e 13 consoantes. Para calcular as novas mdias vamos aproveitar alguns dos resultados obtidos para calcular as mdias anteriores:
Mdia do nmero de vogais 151 + 14 =6,6 x = 25 Mdia do nmero de consoantes 156 + 13 x = 6,8 25

Organizao e tratamento de dados

129

Apresentamos a seguir algumas tarefas para consolidar os conhecimentos sobre a mdia. Tarefa Desvios entre os dados e a mdia. Na turma o professor perguntou a 10 alunos que tinham o estojo de lpis em cima da mesa, quantos lpis (incluindo lpis de cor) tinham no estojo. As respostas obtidas 2, 3, 3, 4, 4, 4, 5, 8, 8, 9, encontram-se representadas no seguinte diagrama de pontos:

O professor pediu aos alunos para calcularem o nmero total de lpis existentes nos 10 estojos, tendo um dos alunos, o Miguel, chegado rapidamente concluso que tinham, ao todo, 50 lpis. De seguida o professor perguntou se algum dos alunos saberia dizer com quantos lpis ficaria cada um dos 10 alunos, se se distribussem os 50 lpis por todos, mas de forma igual. Todos responderam ao mesmo tempo que seriam 5 lpis! Cada um dos 10 alunos ficaria com 5 lpis e o grfico de pontos que ilustra esta situao o seguinte

Imagine que a linha horizontal representa um balanc que est em equilbrio no ponto de apoio assinalado no ponto 5. Existem agora vrios processos de manter o balanc em equilbrio, mas sem estarem todos os valores acumulados no ponto 5. Vejamos algumas situaes: Deslocamos um dos pontos para a posio 7, mas para que o balanc mantenha o equilbrio teremos de proceder de uma de duas maneiras: ou deslocamos um dos valores para a posio 3 ou 2 valores para a posio 4, como se apresenta a seguir

Se tivssemos deslocado um dos pontos para a posio 8, em vez da posio 7, para que o balanc mantivesse o equilbrio teramos de proceder de uma das seguintes formas:

Organizao e tratamento de dados

130

Peguemos na ltima situao e desloquemos um outro ponto da posio 5 para a posio 9. Como contrabalanar este ponto que afastmos da posio onde estava de 4 unidades (9-5=4)? Teremos de deslocar outro ou outros pontos da posio 5, mas agora para o lado esquerdo e de tal modo que as distncias somem tambm 4 unidades. Uma situao possvel a que se apresenta a seguir (verifique se h mais situaes possveis):

Colocmos 2 pontos na posio 3, pois a soma das suas distncias posio 5 igual a 4 ((5-3)+(5-3)), como se pretendia. Retiremos ainda um outro ponto da posio 5 e coloquemos na posio 8. Para compensar este afastamento de 3 unidades, podemos deslocar para o outro lado, e a igual distncia, um outro ponto:

Repare-se que a representao a que chegmos, foi a que nos foi dada inicialmente, representando a distribuio dos dados. Da forma como chegmos a esta representao, verificamos que distncia total dos pontos superiores a 5, igual distncia total dos pontos inferiores a 5:

Organizao e tratamento de dados

131

Este ponto que goza desta propriedade precisamente a mdia que, como j tnhamos afirmado anteriormente, o ponto de equilbrio da distribuio dos dados. Se em vez de falarmos em distncias, falarmos nas diferenas entre os valores e a mdia, obviamente que as diferenas entre os valores abaixo da mdia e a mdia tm sinal negativo. Como a soma dessas diferenas igual, em valor absoluto, soma das diferenas dos valores acima da mdia, para a mdia, vem que a soma das diferenas entre todos os valores da amostra e a mdia, igual a zero. Propriedade Se a todos os valores da amostra, subtrairmos a mdia, a soma das diferenas obtidas igual a zero. (x1- x ) +(x2- x ) ++(xn- x ) =0 Repare-se que a propriedade anterior uma consequncia directa do facto da mdia ser o ponto de equilbrio da distribuio dos dados. Para valores superiores mdia, as diferenas so positivas mas para valores inferiores mdia, as diferenas so negativas, sendo os totais das diferenas dos valores acima da mdia e abaixo da mdia iguais em valor absoluto. Tarefa Quais as idades dos meus filhos? Qual a minha idade? Qual a idade da minha mulher? O professor chegou turma e disse: a mdia das idades dos meus 4 filhos 4 anos. O mais novo tem 2 e o mais velho 8. Que idades podem ter os meus dois outros filhos? O professor desenhou no quadro o grfico de pontos que ilustrava a situao que acabava de descrever:

4 mdia

Entretanto desenrolou-se o seguinte dilogo: Miguel (aluno): Oh professor, os outros dois filhos so gmeos? Professor: Por acaso so! Miguel: Ento tm 3 anos, porque se a mdia 4, a distncia que vai do 8 ao 4 4, e a que vai do 2 ao 4 2, pelo que falta somar 2 unidades, para que o total das

Organizao e tratamento de dados

132

distncias dos valores superiores a 4 seja igual ao total das distncias dos valores menores que 4. Se considerar dois pontos no valor 3, fica tudo certo!

4 mdia

As idades dos filhos do professor so 2, 3, 3 e 8 anos. Comentrio Como a idade uma varivel, que embora seja contnua, considerada em nmeros inteiros, poder-se-ia dar o caso de os filhos no serem gmeos e terem ambos 3 anos. Tambm se poderia dar o caso de um dos filhos ter tambm 2 anos, como o irmo mais novo e o outro ter 4 anos. Mas o dilogo no acabou aqui... Professor: a mdia das idades dos meus filhos com a minha idade igual a 9 anos. Que idade tenho eu? Tiago (aluno) Oh professor, eu vou fazer aqui umas contas rpidas e j lhe digo! Professor Explica essas contas que vais fazer, para todos ouvirmos. Tiago Sabemos que 2 + 3 + 3 + 8 + idade professor =9 5

16 + idade professor =9 5 Ento 16+idade professor=45 e portanto Idade professor=29 anos


Professor Muito bem, Tiago. Conseguiste calcular a minha idade utilizando a definio da mdia. Miguel - Oh professor, eu sei resolver isto de outra maneira! Professor Ento explica-nos como que fazes. Miguel Todas as idades dos seus filhos so inferiores mdia, que 9. Calculei as distncias dessas idades mdia

Idades 2 3 3 8 Total

Distncias para a mdia 9-2=7 9-3=6 9-3=6 9-1=1 20

Pelas contas que acabei de fazer, sei que a idade do professor tem de ser superior mdia de 20 unidades. Ento a idade do professor 29 anos, pois 20+9=29!
Professor Muito bem Miguel. Mas agora ainda quero colocar outra questo. Qual a mdia das idades da minha famlia, sabendo que a minha mulher tem 28 anos?

Organizao e tratamento de dados

133

Andr Vou responder eu! Se a soma das idades dos filhos do professor com a idade do professor 45 anos, como vimos h pouco, ento temos

45 + 28 73 = 12,2 anos 6 6 A mdia aproximadamente 12 anos.


Professor Muito bem Andr. Vejo que no te enganaste ao colocar no denominador o valor 6, pois estamos a fazer a mdia das idades de 6 pessoas. Estava com receio que colocasses no denominador 2, por no numerador s teres 2 parcelas. Andr Mas a primeira parcela j o resultado da soma de 5 valores e eu para poupar tempo no os escrevi todos e pus logo o resultado. Tarefa Idade mdia dos finalistas do curso de Matemtica de 1950. No jantar comemorativo dos 50 anos do curso, chegou-se concluso que a idade mdia dos matemticos presentes era 71,5 anos. No ano seguinte os convivas resolveram comemorar de novo e, ao calcular a idade mdia dos presentes, chegou-se concluso que esta tinha descido e era 71,2 anos. Como possvel que, tendo a idade dos presentes aumentado de um ano, a mdia tenha baixado?

Vamos ver de seguida uma outra medida de localizao do centro da amostra, alternativa mdia a mediana.
5.2.2 Mediana

A mediana um valor que divide a amostra ao meio: metade dos valores da amostra so inferiores ou iguais (no superiores) mediana e os restantes so maiores ou iguais (no inferiores) mediana. Por outras palavras, at mediana (inclusive) est, quanto muito, 50% da amostra; para l da mediana (inclusive) est tambm, quanto muito, 50% da amostra. Como obter a mediana? Para determinar a mediana fundamental, comear por ordenar os dados. Entretanto podem-se verificar duas situaes, quanto dimenso da amostra: Se a dimenso da amostra mpar, h um dos elementos da amostra ordenada que tem tantos elementos para a esquerda como para a direita e esse elemento central a mediana. Se a dimenso da amostra par, no h nenhum elemento que tenha a propriedade de a dividir ao meio. H dois valores centrais e define-se a mediana como sendo a mdia aritmtica desses dois valores. Vejamos como calcular a mediana para alguns valores das dimenses das amostras:

Organizao e tratamento de dados

134

N mpar
Valor de n dimenso da amostra 3 5 7 9 11 ... 27 ... n ... A mediana o elemento na posio: 2 3 4 5 6 ... 14 ... n+1 2

N par
Valor de n dimenso da amostra 4 6 8 10 12 ... 26 ...
n

A mediana a semisoma dos elementos nas posies: 2 e 4 3 e 4 4 e 5 5 e 6 6 e 7 ... 13 e 14 ... ... n n e +1 2 2

Repare-se que da forma como se calcula a mediana, quando a dimenso n da amostra mpar, a mediana um elemento da amostra. Quando n par, s ser um elemento da amostra se os dois elementos centrais forem iguais. Uma regra prtica para obter a posio da mediana consiste em fazer o quociente n +1 : 2 Se este quociente for um nmero inteiro, o que se verifica quando n mpar, toma-se para mediana o elemento nessa posio;

Organizao e tratamento de dados

135

Se este quociente terminar em 0,5, o que se verifica quando n par, considera-se a sua parte inteira e faz-se a semi-soma do elemento a que corresponde essa ordem, com o elemento da ordem seguinte. Por exemplo, suponhamos que se pretende saber qual a mediana do nmero de letras do nome dos alunos da turma de referncia: 10, 13, 12, 15, 12, 9, 12, 12, 12, 11, 10, 17, 16, 17, 20, 13, 11, 14, 13, 14, 11, 12, 11, 10 Para calcular a mediana necessrio comear por ordenar a amostra: 9, 10, 10, 10, 11, 11, 11, 11, 12, 12, 12, 12, 12, 12, 13, 13, 13, 14, 14, 15, 16, 17, 17, 20 Temos 24 elementos, pelo que a mediana a semi-soma dos elementos da 12. 24 + 1 posio ( = 12,5 ) e da 13. posio. Como os elementos nestas posies so 2 iguais a 12, a mediana 12. Esquematicamente podemos posicionar a mediana da forma que se segue, tendo em conta a representao grfica na forma de histograma:

mediana

mediana

mediana

Ao contrrio da mediana que divide o histograma em duas partes com reas iguais, a mdia, como vimos, o ponto de equilbrio do histograma, em que se entra em linha de conta no s com a frequncia das classes, mas tambm, com a distncia a que esto do centro. Assim, na figura anterior, enquanto que no histograma do lado esquerdo, a mdia coincidir com a mediana, no do centro, que apresenta um enviesamento para a direita, a mdia ser puxada para a direita da mediana. Por outro lado, no histograma que apresenta o enviesamento para a esquerda, a mdia ser puxada para a esquerda da mediana:

mediana <mdia

mdia <mediana

Como j referimos, a mdia, ao contrrio da mediana, uma medida muito pouco resistente, isto , muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno nmero na amostra. Estes valores, que chammos de outliers, so os responsveis pela m utilizao da mdia em muitas situaes em que teria mais significado utilizar a mediana.

Organizao e tratamento de dados

136

Por exemplo, na situao considerada para exemplificar a pouca resistncia da mdia, e que voltamos a apresentar a seguir, verifica-se que, ao contrrio da mdia, a mediana no se altera, quando se altera um dos dados:

A mediana tem como principal desvantagem o facto de, no seu clculo, s fazer intervir 1 ou 2 valores da amostra. No entanto, esta desvantagem transforma-se em vantagem, por comparao com a mdia, quando a distribuio da amostra muito enviesada. A mediana muito resistente e no afectada pelos valores extremos, como acabmos de ver no exemplo anterior, em que a mediana no de alterou. Resumindo, como a mdia influenciada quer por valores muito grandes, quer por valores muito pequenos, se a distribuio dos dados for enviesada para a direita (alguns valores grandes como outliers), a mdia tende a ser maior que a mediana; se for aproximadamente simtrica, a mdia aproxima-se da mediana e se for enviesada para a esquerda (alguns valores pequenos como outliers), a mdia tende a ser inferior mediana. Representando as distribuies dos dados (esta observao vlida para as representaes grficas na forma de diagrama de barras ou de histograma) na forma de uma mancha, temos, de um modo geral (Graa Martins, 2005):

Observe-se que o simples clculo da mdia e da mediana nos pode dar informao sobre a forma da distribuio dos dados.

Organizao e tratamento de dados

137

Clculo da mediana quando os dados esto agrupados

No estudo de dados qualitativos ordinais (isto , onde se pode considerar uma ordem subjacente s categorias) faz sentido indicar a categoria mediana. A categoria mediana aquela onde, pela primeira vez, a frequncia relativa acumulada atinge ou ultrapassa os 50%. Esta mesma definio serve para identificar a classe mediana no caso de se estar perante dados agrupados, quer sejam discretos, quer sejam contnuos. Consideremos o exemplo apresentado na seco anterior sobre a varivel nmero de letras no nome dos alunos da turma de referncia, cuja tabela de frequncias se apresenta a seguir:
N. de letras no nome

x* i

9 10 11 12 13 14 15 16 17 20 Total

Freq. Abs. ni 1 3 4 6 3 2 1 1 2 1 24

Freq. Rel. fi 0,042 0,125 0,167 0,250 0,125 0,083 0,042 0,042 0,083 0,042 1,000

Para podermos calcular a mediana, a partir da tabela dos dados agrupados, vamos juntar tabela uma nova coluna com as frequncias relativas acumuladas:
N. de letras no nome

x* i

9 10 11 12 13 14 15 16 17 20 Total

Freq. Abs. ni 1 3 4 6 3 2 1 1 2 1 24

Freq. Rel. fi 0,042 0,125 0,167 0,250 0,125 0,083 0,042 0,042 0,083 0,042 1,000

Freq. Rel. Acum. % 4,2 16,7 33,4 58,4 70,9 79,2 83,4 87,6 95,9 1

Reparando na tabela, verifica-se que a frequncia relativa acumulada atinge o valor 50% quando se soma a frequncia relativa correspondente ao valor 12. Ento a mediana igual a 12. Numa tabela idntica anterior, com os dados agrupados, pode-se verificar uma situao especial como a que se apresenta a seguir:
N. de letras no nome

x* i

9 10 11 12 13 14 15 16 17 20 Total

Freq. Rel. fi 0,042 0,125 0,200 0,133 0,125 1,000

Freq. Rel. Acum. % 4,2 16,7 36,7 50,0 62,5 1

Organizao e tratamento de dados

138

Na tabela anterior verifica-se que 50% dos alunos tm nomes com 12 ou menos letras e os outros 50% tm nomes com 13 ou mais letras. Esta situao s se pode verificar se o nmero de elementos da amostra for par. Como vimos anteriormente, neste caso a mediana ser a semi-soma dos dois elementos centrais, pelo que a mediana seria 12,5. No caso de se tratar de uma varivel contnua, como por exemplo a varivel altura de um aluno da escola do 1. ciclo, estudada na seco 4.5.1 e cuja tabela se apresenta a seguir, a classe mediana tambm se consegue identificar facilmente, pois basta verificar qual a classe a que corresponde uma frequncia acumulada igual a 50%:
Classes [130, 135[ [135, 140[ [140, 145[ [145, 150[ [150, 155[ [155, 160[ Total Representante da Classe xi 132,5 137,5 142,5 147,5 152,5 157,5 Freq. Abs. ni 7 9 11 14 5 4 50 Freq. Rel. fi 0,14 0,18 0,22 0,28 0,10 0,08 1,00 Freq. Abs. Acum. 7 16 27 41 46 50 Freq. Rel. Acum. 0,14 0,32 0,54 0,82 0,92 1,00 Freq. Rel. Acum. (%) 14 32
54

82 92 100

Da tabela anterior conclui-se que a classe mediana a classe [140, 145[. No entanto, ao contrrio do que se verifica com as variveis discretas agrupadas, em que a mediana est bem determinada, no caso de dados contnuos a classe mediana depende do agrupamento que se fizer para os dados. Vimos na seco 4.5.2 um processo de obter um valor aproximado para a mediana a partir da tabela de frequncias ou a partir do histograma acumulado. Nota No existe uma notao nica para representar a mediana. As notaes mais usuais so m, M ou Me.
Tarefa Notas no teste de Matemtica das turmas 9. A e 9. B. Na turma o professor apresentou as notas que os seus alunos das turmas 9. A e do 9. B tinham tido no mesmo teste a Matemtica. Pretendia que os alunos lhe dissessem qual seria a turma que teve um melhor desempenho no teste.

Notas da Turma 9. A 10,6 9,8 10,4 10,8 11,2 10,2 11,6 10,6 9,8 10,4 11,2 11,8 10,6 11,6 Notas da Turma 9. B 9,4 10,0 11,0 8,2 13,6 10,0 9,4 11,2 7,4 12,4 15,0 11,2 9,8

12,2 12,4 11,4 10,8 13,8 8,6

12,6 15,6 7,2

16,8 10,8 9,4

8,8

Para comparar as duas turmas, o professor sugeriu que os alunos se organizassem em grupos e cada um dos grupos tentaria retirar alguma informao relevante a partir dos dados. Depois de alguma discusso, ficou decidido que um dos grupos iria fazer uma representao grfica dos dados e um outro grupo iria apresentar os resultados utilizando a mdia e a mediana, para terem uma ideia do comportamento global das turmas. Os outros grupos no especificaram qual a forma como iriam pegar no problema, pelo que se houvesse alguma informao relevante que no tivesse sido apresentada pelos 2 grupos, tambm interviriam na apresentao final das concluses.

Organizao e tratamento de dados

139

Antes de comearem a organizar os dados, um aluno reparou que na turma B tinha havido uma nota muito boa, mas este facto no significava que a turma B tivesse tido um melhor desempenho. O comportamento individual no reflecte o comportamento da turma.
Apresentao do 1. grupo

O professor pediu-nos para compararmos os resultados num teste a Matemtica, dos alunos do 9. A e do 9. B. Para termos uma ideia do comportamento global das notas, decidimos representar os dois conjuntos de dados numa representao em caule-e-folhas, que tem a mais valia de permitir obter, de uma forma muito simples, os dados ordenados: Notas da Turma 9. A 6 88 64862846 682462 42 8 7 8 9 10 11 12 13 14 15 16 Notas da Turma 9. B 24 28 4484 008 022 64 6 60 8

Numa primeira anlise, as representaes grficas anteriores permitem-nos concluir que os alunos da turma A foram mais regulares, havendo uma concentrao de notas volta dos valores 10 e 11, o que nos leva a sugerir que a mdia deve estar compreendida entre estes dois valores. Se se considerar que uma nota superior a 9,5 positiva, podemos dizer que na turma A houve apenas uma negativa. No que diz respeito turma B, houve alunos com notas mais baixas mas, em contrapartida, tambm houve alunos com notas mais altas. Como se pode ver, houve uma maior disperso das notas. No que diz respeito mdia, estimamos que deve estar perto de 11.
Apresentao do 2. grupo

Temos dois conjuntos de dados, referentes s notas de duas turmas e pretendemos averiguar qual a turma que teve um melhor desempenho no teste. Vamos utilizar como medidas de comparao a mdia e a mediana. Na utilizao da mdia temos que ter os cuidados devidos, j que esta medida muito pouco resistente, sendo facilmente influenciada por valores grandes ou pequenos, ou seja, valores que saiam fora do mbito da maior parte dos restantes. Para calcular a mediana temos de ter os dados ordenados, que se apresentam a seguir: Notas da Turma 9. A 8,6 9,8 9,8 10,2 10,4 10,4 10,6 10,6 10,6 10,8 10,8 11,2 11,2 11,4 11,6 11,6 11,8 12,2 12,4 13,8 Notas da Turma do 9. B 7,2 7,4 8,2 8,8 9,4 9,4 12,6 13,6 15,0 15,6 16,8 9,4 9,8 10,0 10,0 10,8 11,0 11,2 11,2 12,4

Utilizando a expresso que nos permite calcular a mdia, conclumos que os dois conjuntos de dados tm a mesma mdia, igual a 10,99. O clculo da mediana

Organizao e tratamento de dados

140

pode-nos trazer mais alguma informao interessante sobre as notas das duas turmas. Como temos um nmero par de dados, a mediana ser a semi-soma dos elementos de ordem 10. e 11., na amostra ordenada. Resumimos na seguinte tabela as caractersticas amostrais mdia e mediana dos dois conjuntos de dados:
Mdia Notas turma A Notas turma B 10,99 11 10,99 11 Mediana 10,8 11 10,4 10

Os resultados anteriores so sintomticos da falta de regularidade anunciada pelos nossos colegas, quando apresentaram a representao grfica dos dados. Efectivamente, enquanto que na turma A a mdia e a mediana so muito prximas, o mesmo no acontece na turma B, sintoma da falta de simetria dos dados. Conclumos tambm que nesta turma, 50% dos alunos tm nota menor ou igual a 10,4. Uma investigao mais cuidada aos dados ordenados, permite-nos verificar que na turma A, s 30% dos alunos que tm nota menor ou igual a 10,4. Se alm disso nos preocuparmos com a percentagem de notas negativas, verificamos que na turma A s houve uma negativa, ou seja 5% de negativas, enquanto que na turma B houve 7 negativas (ou seja, 35%). Somos assim de opinio, que a turma A teve um melhor desempenho, embora na turma B tenha havido as duas melhores notas do teste.
Tarefa Mdia ou mediana dos salrios? O professor chegou aula e colocou a seguinte situao que lhe tinha sido colocada por um amigo que trabalha numa empresa que emprega 160 trabalhadores. Na empresa, iam em breve discutir um aumento de salrios e o administrador estava um pouco renitente em dar um aumento superior inflao, pois alegava que a mdia dos salrios naquela empresa, estava de acordo com a mdia dos salrios auferidos pelos trabalhadores daquele ramo de actividade. O amigo do professor estava confuso com esta situao, pois tinha comparado salrios de vrios amigos seus, de outras empresas, e quase todos ganhavam mais que ele. Como explicar esta situao?

Dados fornecidos pelo amigo do professor, sobre os 6 nveis de salrios existentes na empresa:
Salrio (em euros) N empregados 400 23 450 58 600 50 700 20 1000 7 5000 2

Quando o professor apresentou a tabela anterior, houve logo um aluno, o Miguel, que interpelou o professor, tendo-se estabelecido o seguinte dilogo: Miguel Oh professor, eu acho que a mdia no uma boa medida para caracterizar esses dados! Professor Ento porqu, Miguel? Miguel Porque estou a ver que h dois salrios que so muito grandes, quando comparados com os restantes. Como ns aprendemos que a mdia no uma medida boa quando h destes valores esquisitos, de certeza que esses dois salrios vo fazer com que a mdia, venha grande e acaba por ser uma medida enganadora. Professor A esses valores esquisitos de que falas, d-se o nome de outliers, que efectivamente quer dizer estranhos, fora do contexto dos restantes. Mas ento o que que propes? Miguel Penso que se deve calcular a mediana.

Organizao e tratamento de dados

141

Professor Vamos ento calcular a mediana e a mdia e aproveitamos para comparar os dois resultados. Clculo da mdia:
x =
x

400 23 + 450 58 + 600 50 + 700 20 + 100 7 + 5000 2 160

602 euros

Clculo da mediana: Para calcular a mediana considera-se a tabela das frequncias relativas acumuladas
Salrio (em euros) N empregados Freq. Rel. (%) Freq. Rel. acum. (%) 400 23 14,38 14,38 450 58 36,25
50,63

600 50 31,25 81,88

700 20 12,50 94,38

1000 7 4,38 98,75

5000 2 1,25 100,00

A partir da tabela anterior conclumos que a mediana 450 euros, porque corresponde ao valor em que se atingiu a frequncia relativa acumulada de 50%. O Miguel tinha razo. A mediana d-nos uma ideia mais correcta do nvel dos salrios, que so de um modo geral baixos. Na verdade 50% dos salrios so menores ou iguais a 450 euros. A mdia muito superior mediana, o que acontece sobretudo devido aos 2 salrios de 5000 euros, eventualmente dos administradores, que inflacionaram a mdia. Repare-se que, dos 160 trabalhadores, s 29 que tm um salrio superior mdia. O professor decidiu falar com o amigo e sugerir-lhe que na discusso sobre os aumentos dos salrios invocassem o facto de a mediana ser to baixa. Se os administradores ainda continuassem a querer utilizar a mdia, como medida de referncia, ento deviam sugerir-lhe que no contassem para a mdia os 9 salrios mais altos. A distribuio ainda continha algum enviesamento para a direita, mas agora a mdia viria igual a 525, mais prxima da mediana.
Uma situao caricata Num autocarro viajavam 25 trabalhadores da empresa X, que em mdia ganhavam 450 euros por ms. O nvel de vida destes trabalhadores aumentou de um momento para o outro, quando entrou no autocarro o administrador da empresa, pois passaram a ganhar muito mais, em mdia! Tarefa Nmero de cigarros fumados por dia 1 . O professor apresentou na aula um histograma que representa o resultado de um estudo sobre o Tabaco e a Sade Pblica e em que apresentado o nmero de cigarros que fumado por dia por indivduos do sexo masculino:

Adaptada de Freedman et al. (1991).

Organizao e tratamento de dados

142

Nesse estudo era dito que os intervalos considerados para o nmero de cigarros por dia incluam o limite superior e no o limite inferior e que a percentagem de homens que fumava 10 ou menos cigarros, por dia, era de 15%. Algumas questes relativamente ao estudo apresentado: a) Qual a percentagem de homens que fuma mais de meio mao, mas no mais de 1 mao, por dia? b) Qual a percentagem de homens que fuma mais de um mao, mas no mais de 2 maos, por dia? c) Estime a percentagem de homens que fuma mais de 3 maos por dia? d) Estime a percentagem de homens que fuma entre 2 e 3 maos por dia? e) Tendo em ateno o histograma anterior, espera que a mediana seja superior ou inferior mdia? Estime valores para essas caractersticas. f) Obtenha valores aproximados para a mdia e a mediana e compare os valores obtidos com os valores estimados na alnea anterior. g) O que que se pretende mostrar com a figura seguinte?

5.2.3 Moda 2

Uma outra medida que costuma ser apresentada como medida de tendncia central a moda. No entanto a moda uma medida que, a este nvel, tem pouco interesse, como medida de localizao do centro da distribuio dos dados, e deve a sua importncia ao facto de ser a nica medida que pode ser calculada para dados qualitativos, para os quais no se possa estabelecer uma hierarquia entre as vrias categorias que a varivel pode assumir, no sendo possvel, portanto, nem calcular a mdia nem a mediana. Em amostras de dados qualitativos d-se o nome de moda ou categoria modal, categoria de maior frequncia na amostra. Em amostras de dados quantitativos discretos, designa-se por moda qualquer valor que esteja ladeado por valores de menor frequncia. As modas so, pois, picos na distribuio de frequncias. Em amostras de dados quantitativos contnuos, aps subdiviso em classes, ficam identificadas as classes modais, que so aquelas que esto ladeadas de classes de menor frequncia. Em curvas que modelam situaes da vida real, d-se o nome de moda a qualquer mximo relativo da curva de densidade. Os modelos tericos de interesse tm uma nica moda e usual dizer que o aparecimento de vrias modas pode evidenciar
2

Esta seco segue de perto a seco 3.2.5 de Graa Martins et al (2007).

Organizao e tratamento de dados

143

mistura de populaes e nesta anlise que poder ter interesse a identificao da moda ou modas. Para ilustrar esta ideia, tome-se o exemplo das alturas na populao portuguesa. Se considerarmos somente a subpopulao dos homens, a distribuio das suas alturas no deve afastar-se muito do seguinte padro:

Note-se que a zona de maior concentrao ou densidade, est entre 1,70m e 1,80m, sendo a moda (mximo relativo da curva) igual a 1,75m. A forma da distribuio das alturas das mulheres dever ser idntica, mas localizada em torno de 1,60m:

Que aconteceria se considerssemos as duas subpopulaes em conjunto? Onde ficaria a moda? Em 1,75m, em 1,60m ou algures entre estes dois valores? Na verdade o que acontece que surgem duas modas!... Uma, um pouco direita de 1,60m e outra, um pouco esquerda de 1,75m:

A bimodalidade torna-se ainda mais evidente se a zona central de uma das distribuies se encontrar muito afastada da zona central da outra e se a percentagem de observaes pertencentes a cada uma das duas subpopulaes for idntica. Retomando o exemplo das alturas, se numa amostra de 100 indivduos tivermos 10 mulheres e 90 homens muito pouco provvel que o histograma apresente bimodalidade, contrariamente ao que dever ocorrer em amostras com 50 homens e 50 mulheres.

Organizao e tratamento de dados

144

Ainda a propsito deste exemplo, chamamos mais uma vez a ateno, para o facto de o histograma ser uma representao grfica que, para alguns conjuntos de dados, pode mudar sensivelmente de aspecto, quando se altera a amplitude de classe ou o ponto onde se comeam a construir as classes. Assim, para o mesmo conjunto de dados pode acontecer haver representaes grficas diferentes, nomeadamente em termos do nmero de modas. Sendo ento a moda uma medida com uma aplicao relativamente restrita, tem algum interesse quando dispomos de uma amostra de grande dimenso, mas com um nmero restrito de valores distintos. Por exemplo, uma boa utilizao da moda na indicao do nmero de filhos de uma famlia tpica portuguesa, ou no tamanho do p de uma mulher. O dono de uma sapataria tem interesse em saber qual o tamanho mais vendido, pois ser nesse tamanho que vai investir mais, no princpio de cada poca.
Confuso entre dado mais frequente e dado com o maior valor!

Por vezes verifica-se haver alguma confuso entre dado mais frequente e dado com o maior valor. Para justificar o que acabmos de dizer, apresentamos a seguir dois exemplos retirados de textos de Matemtica do Ensino Bsico.
O grfico representa o nmero de peixes que cinco amigos pescaram num dia:

1.1 1.2 1.3 1.4

Como se chama este tipo de grfico? Quantos peixes pescou o Antnio mais que o Pedro? Quantos peixes pescaram ao todo os cinco amigos? Classifique a distribuio quanto moda. Justifique.

O grfico anterior apresenta os dados da varivel que se est a estudar Nmero de peixes pescados num dia, por cada um de cinco amigos. A partir desse grfico verificamos que os dados so 30, 20, 25, 25, 30 pelo que temos dois dados com a mesma frequncia, ou seja, temos duas modas: o 25 e o 30 (Seguramente que no era esta a resposta que os autores do exemplo pretendiam para a questo 1.4!). Ainda um segundo exemplo:
O grfico seguinte mostra o nmero de hectares de floresta ardida, em Portugal Continental, entre os anos de 2003 e 2007

Organizao e tratamento de dados

145

Classifica a distribuio quanto moda.

No exemplo anterior a varivel em estudo rea ardida (em milhares de ha) em cada um dos anos considerados, pelo que os dados so (em milhares de ha) 416, 128, 320, 80, 17 Como os dados so todos diferentes, no existe moda (Seguramente que o que os autores pretendiam no era a resposta anterior!). Nota A representao considerada anteriormente grfico de linha, a adequada para representar este tipo de dados, em que se estuda a evoluo da varivel com o tempo.
Observao - Quando se pretende saber qual o centro de uma distribuio de dados, a resposta a esta pergunta fcil se a distribuio for aproximadamente simtrica e unimodal (s com uma moda). Se a distribuio dos dados apresentar outras formas, nomeadamente enviesamento ou vrias modas, j o conceito de centro da distribuio dos dados pode no fazer sentido, como j referimos anteriormente ao tratarmos das medidas de tendncia central mdia e mediana. 5.2.4 Quartis

A mdia e a mediana do-nos duas formas diferentes de localizarmos o centro da distribuio dos dados. Existem outras medidas, os quartis, que localizam outros pontos da distribuio dos dados, que no o centro, e que tm a mais valia de servirem para definir uma medida da variabilidade existente entre os dados. Como vimos na definio de mediana, esta divide a amostra ordenada em duas partes com igual percentagem de elementos. Considerando cada uma destas partes e calculando a mediana, obteremos o 1. e 3. quartis, que j foram utilizados na construo do diagrama de extremos e quartis. A mediana, que tambm se poderia designar de 2. quartil, e os 1. e 3. quartis localizam pontos que dividem a distribuio dos dados em quatro partes, com igual percentagem de elementos. Da vem o nome de quartis!

Organizao e tratamento de dados

146

H vrios processos para calcular os quartis, nem todos conducentes aos mesmos valores, mas a valores prximos, desde que a amostra tenha uma dimenso razovel, que a situao de interesse em estatstica, em que se procura reduzir a informao contida nesses dados, atravs de algumas medidas. A metodologia que, a este nvel, recomendamos para obter os quartis a seguinte: Ordenar os dados e calcular a mediana Me; O 1. quartil, Q1, a mediana dos dados que ficam para a esquerda de Me; O 3. quartil, Q3, a mediana dos dados que ficam para a direita de Me. Ao calcular os quartis pelo processo anterior, podem-se levantar algumas dvidas, no caso em que a dimenso da amostra mpar. Efectivamente, neste caso a mediana coincide com um dos elementos da amostra e poderamos optar por consider-lo includo nas duas metades em que fica dividida a amostra, ou no o considerar em nenhuma das metades. A nossa opo consider-lo pertencente s duas metades. Por analogia com a definio que demos para a mediana, podemos dizer que at ao 1. quartil (inclusive) est, pelo menos, 25% da amostra; para l do 1. quartil (inclusive) est, pelo menos, 75% da amostra. De forma anloga podemos dizer que at ao 3. quartil (inclusive) est, pelo menos, 75% da amostra; para l do 3. quartil (inclusive) est, pelo menos 25% da amostra.
Tarefa Notas no teste de Matemtica das turmas 9. A e 9. B (cont.). Na comparao dos resultados das duas turmas, podemos tambm utilizar os quartis, na medida em que quanto maiores forem, melhor ter sido o comportamento da turma. Vejamos ento quais os quartis para os dois conjuntos de dados considerados. Para o seu clculo vamos considerar as amostras j ordenadas:

Notas da Turma 9. A 8,6 9,8 9,8 10,2 10,4 10,4 10,6 10,6 10,6 10,8 10,8 11,2 11,2 11,4 11,6 11,6 11,8 12,2 12,4 13,8 Notas da Turma 9. B 7,2 7,4 8,2 8,8 9,4 9,4 9,4 12,6 13,6 15,0 15,6 16,8 9,8 10,0 10,0 10,8 11,0 11,2 11,2 12,4

Como temos um nmero par de dados, a mediana, como j se viu, a semi-soma dos dois elementos centrais. Cada uma das partes em que ficaram divididos os dados pela mediana, tem 10 elementos. A mediana de cada uma destas partes ser ainda a semi-soma dos dois elementos centrais, assinalados a negro, obtendo-se para os quartis os valores seguintes:
1. quartil 3. quartil
11,6 + 11,6 = 11,6 2

Notas turma 9. A Notas turma 9. B

10,4 + 10,4 = 10,4 2

9,4 + 9,4 = 9,4 2

12,4 + 12,6 = 12,5 2

Da tabela anterior conclumos que pelo menos 25% dos alunos da turma 9. B tiveram negativa, enquanto que na turma 9. A foram menos de 25% a ter negativa, j que 25% tiveram nota menor ou igual a 10,4. Por outro lado, 25% dos alunos da turma 9. B tiveram nota maior ou igual a 12,5. Mais uma vez se comprova que a turma 9. A mais regular, pois 50% das notas esto no intervalo de amplitude 1,2

Organizao e tratamento de dados

147

(=11,6-10,4), enquanto que na turma 9. B, 50% dos alunos esto num intervalo de amplitude 3,1 (=12,5-9,4). O comportamento das duas turmas visvel quando se comparam os dois diagramas seguintes:
Notas da turma 9. A

Notas da turma do 9B

evidente a existncia de um comportamento diferente das duas turmas: uma maior variabilidade na turma 9. B, com alguns alunos a terem notas piores e tambm alguns alunos a terem notas melhores.
5.2.5 Percentis 3

Os percentis de que a mediana e os quartis so casos particulares, so medidas de localizao com grande interesse, nomeadamente para avaliar a posio relativa dos dados. Por exemplo, suponha que uma me vai, com o seu beb de 6 meses, consulta de rotina, do pediatra. Este, depois de pesar e medir a criana, consulta umas tabelas e s nessa altura comenta com a me, o estado de crescimento do seu filho. Pode acontecer que alguns dos seus comentrios sejam desta forma: -Minha senhora, o seu filho, no que diz respeito ao peso, est no percentil 90. Vamos ter que ter algum cuidado! Afinal o que significa o percentil 90? Significa que 90% das crianas com 6 meses tm um peso menor ou igual ao do beb e s 10% tm um peso maior ou igual! De um modo geral define-se percentil p de um conjunto de dados, como sendo o valor que tem p% dos dados menores ou iguais a ele, e os restantes maiores ou

3 Esta seco, que foi integralmente retirada de Graa Martins et al (2007), inclui-se a ttulo informativo, com um cunho complementar, uma vez que os percentis no fazem parte do programa.

Organizao e tratamento de dados

148

iguais. O 1. e o 3. quartis tambm so conhecidos como percentil 25% e 75%, respectivamente. Analogamente, a mediana o percentil 50%.
Exemplo A obesidade um problema. A comunicao social tem alertado a opinio pblica para o problema da obesidade, nomeadamente nas crianas. Ento, como que poderemos saber se o nosso filho est obeso? Como que o mdico, alm da sua experincia, sossega a me sobre a sade e bem estar do seu filho? Existem tabelas, que apresentam, para cada idade, os valores dos percentis para as variveis peso e altura. A tabela seguinte, que se retirou da Internet, apresenta, para os vrios meses de idade, valores adequados, entre os quais deve estar o peso (em kg) da criana. Estes valores poderiam ser, por exemplo, os percentis 25% e 75% 4 , considerando-se um peso normal, aquele que se encontre nos 50% dos pesos centrais, quando se considera o conjunto dos pesos dos bebs (da populao que se est a estudar, quer seja portuguesa, italiana, inglesa, alem, etc.) com determinada idade:
Ao nascer Mnimo 2.750 Mximo 4.000 9 meses Mnimo 7.900 Mximo 10.500 1 ms 3.500 5.000 10 meses 8.300 10.900 2 meses 4.000 6.000 11 meses 8.500 11.250 3 meses 4.750 7.000 1 ano 8.800 4 meses 5.500 7.800 5 meses 6.000 8.500 6 meses 6.500 9.000 7 meses 7.000 9.700 8 meses 7.500 10.000

1 ano 1 ano 1 ano 1 ano 1 ano 1m 2m 3m 4m 5m 9.000 9.250 9.500 9.700 9.800 12.800 12.000 12.400 12.600

11.500 11.800

1 ano 1 6m 7m Mnimo 10.000 Mximo 13.000

ano 1 ano 1 ano 1 ano 1 ano 2 anos 8m 9m 10m 11m

2 anos 2 anos 1m 2m

10.150 13.300

10.300 10.500 10.600 10.700 10.900 11.000 11.200 13.600 13.800 14.000 14.200 14.500 14.650 14.800

2 anos 2 anos 2 anos 2 anos 2 anos 2 anos 2 anos 2 anos 2 anos 3m 4m 5m 6m 7m 8m 9m 10m 11m Mnimo 11.300 Mximo 15.000 3 anos Mnimo 12.600 Mximo 17.000 11.500 15.250 11.600 15.500 11.750 11.900 12.000 12.100 12.250 12.400 15.700 15.900 16.000 16.300 16.500 16.750 4 anos 4 anos 5 anos 4m 8m 16.000 21.800

3 anos 3 anos 4 anos 4m 8m 13.200 17.700 13.750 18.500

14.300 15.000 15.500 19.300 20.200 21.000

A partir da tabela anterior, conclumos que um peso razovel, nem muito magro, nem muito gordo, para um beb de 2 anos e meio, ser um peso compreendido no intervalo [11,750kg, 15,700kg].
Exemplo Conversa entre me e filho. Imagine a seguinte conversa entre uma me e o seu filho de 15 anos. Filho - Me, tive 14 no teste de Biologia! Me E ento isso bom ou nem por isso? Filho Como assim? Digo que tive 14 e ainda me perguntas se isso bom? Me Pois, pergunto E at pergunto a que percentil que corresponde essa nota? Filho Mas o que isso de percentil? No sei do que ests a falar! Me Quantos alunos na tua escola fizeram esse teste? Filho Foram 100, porqu?

Na apresentao da tabela no indicado o que representam o mnimo e o mximo.

Organizao e tratamento de dados

149

Me E quantos tiveram nota maior que 14? Filho Bom, no vi bem, mas parece-me que foram uns 80! Me Afinal, no tens razo para estar to satisfeito! Ficaste no percentil 20. S 20% dos teus colegas tiveram nota menor ou igual tua. Esse exame foi mesmo muito fcil.

5.3 Medidas de variabilidade


Consideremos de novo as notas dos alunos das turmas 9. A e 9. B, consideradas na seco 5.2.2 e de novo na seco 5.2.4. Nos estudos e discusses envolvendo estes dois conjuntos de dados, verificmos que apesar de apresentarem a mesma mdia, tm um comportamento bastante diferente, no que diz respeito variabilidade. Como tambm adiantmos, as notas da turma 9. B apresentam, uma maior variabilidade ou disperso. Representando, de novo, os dois conjuntos na forma de diagramas de pontos
Notas da turma 9. A

Notas da turma 9. B

mais uma vez, visvel que a distribuio das notas da turma 9. B apresenta uma maior variabilidade que a distribuio das notas da turma do 9. A, pelo que se levanta o problema de arranjar uma medida que possa ser utilizada para medir essa maior ou menor variabilidade e que possa caracterizar os dois conjuntos de dados, com distribuies to diferentes, mas com a mesma mdia. Apresentamos a seguir as medidas de variabilidade mais vulgarmente utilizadas e que so a amplitude, a amplitude interquartil e o desvio padro.
5.3.1 Amplitude

A amplitude a medida mais simples que pode ser utilizada para medir a variabilidade apresentada por um conjunto de dados. Obtm-se fazendo a diferena entre o mximo e o mnimo dos dados:
Amplitude = mximo mnimo

No caso das notas das turmas 9. A e 9. B, temos que a Amplitude (notas da turma 9. A) = 13,8 8,6 = 5,2 Amplitude (notas da turma 9. B) = 16,8 7,2 = 9,6

Como se esperava, a turma 9. B apresenta uma amplitude maior.

Organizao e tratamento de dados

150

Esta medida, muito simples de calcular, pode tambm ser muito enganadora. baseada em dois nicos dados, que podem ser muito atpicos na distribuio de todos os dados do conjunto. uma medida muito pouco resistente, pois depende muito da existncia de valores muito pequenos ou muito grandes, a que demos o nome de outliers, no nosso conjunto de dados. uma medida que normalmente no utilizada, sobretudo se a distribuio dos dados apresentar enviesamento ou outliers.
5.3.2 Amplitude interquartil

Uma outra medida de variabilidade, alternativa amplitude, a amplitude interquartil. Esta medida, ao contrrio da amplitude definida anteriormente, s entra em linha de conta com a parte central dos dados e calcula-se fazendo a diferena entre o 3. e o 1. quartis. A amplitude interquartil, que j foi utilizada na construo do diagrama de extremos e quartis, d-nos informao sobre a amplitude do intervalo que contm 50% dos dados centrais. Esta informao, visvel no diagrama de extremos e quartis pelo comprimento da caixa.
Amplitude interquartil = Diferena entre o 3. quartil e o 1. quartil

Para as notas das turmas 9. A e 9. B, temos Amplitude interquartil (notas da turma 9. A) Amplitude interquartil (notas da turma 9. B) = 11,6 10,4 = 1,2 = 12,5 9,4 = 3,1

Como se verifica e era espectvel, a amplitude interquartil superior para as notas da turma 9. B. Na interpretao da amplitude interquartil tem que se ter em ateno que uma amplitude interquartil nula no significa, necessariamente, a no existncia de variabilidade. Por exemplo os seguintes dados 10 11 13 14 14 14 14 14 14 14 14 14 14 16 17 18

apresentam variabilidade, mas, no entanto, a amplitude interquartil nula. Efectivamente o 1. e 3. quartis so iguais a 14, fazendo com que a diferena entre os quartis venha igual a zero. Propriedades da amplitude interquartil A amplitude interquartil ser tanto maior, quanto maior for a variabilidade presente nos dados; Se no houver variabilidade, isto , se os dados forem todos iguais, ento a amplitude interquartil vem igual a zero; No entanto, se a amplitude interquartil de um conjunto de dados for nula, no significa necessariamente que no haja variabilidade; A amplitude interquartil uma medida de variabilidade que se utiliza frequentemente, sobretudo se os dados apresentarem algum enviesamento ou outliers.

Organizao e tratamento de dados

151

5.3.3 Outras medidas de variabilidade: O desvio mdio absoluto e o desvio padro

Quando estudmos as medidas de localizao do centro da distribuio dos dados dissemos que as mais utilizadas so a mdia e a mediana. Ento, ao pesquisarmos medidas de variabilidade, natural que procuremos medidas que meam a variabilidade relativamente a estas medidas de localizao, que representam valores tpicos da distribuio dos dados. Se falarmos, por exemplo, na altura mdia de um conjunto de alunos, natural querermos saber qual a variabilidade das alturas desses alunos relativamente a essa mdia. Tero os alunos alturas semelhantes? Tero alturas muito afastadas da mdia? Como medir essa variabilidade? Para introduzir a noo de variabilidade, vamos retomar um exemplo da seco 5.2.1:
Tarefa Desvios entre os dados e a mdia (cont.). Na turma o professor perguntou a 10 alunos que tinham o estojo de lpis em cima da mesa, quantos lpis (incluindo lpis de cor) tinham no estojo. As respostas obtidas 2, 3, 3, 4, 4, 4, 5, 8, 8, 9, encontram-se representadas no seguinte diagrama de pontos:

Vimos que a mdia dos valores considerados igual a 5, mas tambm vimos que havia outras configuraes, ou outros conjuntos de 10 dados que mantinham a mesma mdia. Alguns desses conjuntos apresentam-se a seguir: 1. 2.

3.

4.

5.

6.

Organizao e tratamento de dados

152

Qualquer dos conjuntos representados anteriormente apresenta variabilidade. Qual o que apresenta maior variabilidade? E que tipo de variabilidade estamos a pretender medir? Se repararmos no conjunto de dados correspondente representao 5 e 6, respectivamente os dados 2 e os dados 2 2 2 3 4 6 7 8 8 8 2 2 2 2 8 8 8 8 8

verificamos que no primeiro caso existem 5 valores iguais a 2 e 5 valores iguais a 8, enquanto que no segundo caso s dois dos valores que se repetem e com menor frequncia. Qual dos dois conjuntos apresenta maior variabilidade? Se pedirmos a um grupo de alunos para responderem a esta questo, dir-nos-o que o primeiro conjunto apresenta menor variabilidade, pois intuitivamente esto a interpretar a variabilidade em termos de mais ou menos iguais, uns relativamente aos outros, independentemente de considerarem um ponto padro como referncia, nomeadamente a mdia. Vejamos ento como medir a variabilidade de cada um dos conjuntos representados anteriormente, considerando como ponto de referncia a mdia. Comecemos por, em cada representao, substituir o ponto que representa o dado, pelo seu desvio para a mdia. Estes desvios sero positivos se os valores forem inferiores mdia e positivos se forem superiores mdia:

1.

2.

3.

4.

5.

6.

J sabemos que a soma dos desvios positivos igual soma dos desvios negativos, pelo que vamos considerar uma medida de variabilidade que entre em linha de con-

Organizao e tratamento de dados

153

ta com a soma dos desvios em valor absoluto. Para cada um dos conjuntos de dados anteriores temos:
1. Dados: 4, 4, 4, 5, 5, 5, 5, 6, 6, 6 Valor Desvio para Desvio para a a mdia mdia em valor absoluto 4 -1 1 4 -1 1 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 6 1 1 6 1 1 6 1 1 Total 0 6 6 Mdia dos desvios absolutos = =0,6 10 2. Dados: 2, 4, 4, 5, 5, 5, 5, 6, 6, 8 Valor Desvio para Desvio para a a mdia mdia em valor absoluto 2 -3 3 4 -1 1 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 6 1 1 6 1 1 8 3 3 Total 0 10 10 Mdia dos desvios absolutos = =1,0 10

3. Dados: 3, 4, 4, 5, 5, 5, 5, 5, 5, 9 Valor Desvio para Desvio para a a mdia mdia em valor absoluto 3 -2 2 4 -1 1 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 9 4 4 Total 0 8 8 Mdia dos desvios absolutos = =0,8 10

4. Dados: 4, 4, 4, 5, 5, 5, 5, 5, 5, 8 Valor Desvio para Desvio para a a mdia mdia em valor absoluto 4 -1 1 4 -1 1 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 8 3 6 Total 0 10 6 Mdia dos desvios absolutos = =0,6 10

5. Dados: 4, 4, 4, 5, 5, 5, 5, 6, 6, 6 Valor Desvio para Desvio para a a mdia mdia em valor absoluto 2 -3 3 2 -3 3 2 -3 3 2 -3 3 2 -3 3 8 3 3 8 3 3 8 3 3 8 3 3 8 3 3 Total 0 30 30 Mdia dos desvios absolutos = =3,0 10

6. Dados: 2, 2, 2, 3, 4, 6, 7, 8, 8, 8 Valor Desvio para Desvio para a a mdia mdia em valor absoluto 2 -3 3 2 -3 3 2 -3 3 3 -2 2 4 -1 1 6 1 1 7 2 2 8 3 3 8 3 3 8 3 3 Total 0 10 24 Mdia dos desvios absolutos = =2,4 10

Para cada um dos conjuntos de dados calculmos a mdia dos desvios em valor absoluto e vamos considerar esta medida, a que chamamos desvio mdio absoluto, como uma medida da variabilidade dos nossos dados. Comparando os resultados obtidos, verificamos que o conjunto de dados que apresenta maior variabili-

Organizao e tratamento de dados

154

dade o 5., enquanto que o 1. e o 4. apresentam a menor variabilidade, igual a 0,6. Este resultado a que chegmos de certo modo esperado, pois reparando nas diferentes representaes grficas, verificamos que estes conjuntos so os que apresentam a distribuio com os dados mais perto da mdia.
Desvio mdio absoluto - Consideremos uma amostra (x1,x2,...,xn) com mdia x . Para medir a variabilidade dos dados relativamente mdia, comea-se por calcular, para cada dado, a diferena entre ele e a mdia, a que chamamos desvio:

x1- x , x2- x , x3- x , ..., xn- x Para obter a variabilidade de todos os dados, seria natural somar todos os desvios. Acontece que, como j vimos, a soma destes desvios sempre igual a zero, pelo que esta soluo no serve. Ento, vamos considerar no os prprios desvios, mas os seus valores absolutos:
x1- x , x2- x , x3- x , ..., xn- x

Define-se desvio mdio absoluto como sendo a mdia destes desvios absolutos: Desvio mdio absoluto =
x 1 x + x 2 x + x 3 x + ... + x n x n

Recordemos que a substituio dos desvios pelos seus valores absolutos foi devida ao facto de a soma dos desvios ser igual a zero, uma vez que a soma dos desvios positivos cancela com a soma dos desvios negativos. Uma alternativa a considerar os mdulos dos desvios, consiste em considerar os quadrados dos desvios e em construir uma outra medida custa de uma mdia destes quadrados. Intuitivamente esta medida, a que vamos chamar varincia, no nos parece uma boa alternativa, pois resulta uma medida cujas unidades so o quadrado das unidades originais dos dados. Este inconveniente ultrapassado se utilizarmos como medida de variabiliade a raiz quadrada da varincia, a que damos o nome de desvio padro.
Desvio padro - Consideremos ento a amostra (x1,x2,...,xn) com mdia x . Para medir a variabilidade dos dados relativamente mdia, comea-se por calcular, para cada dado, a diferena entre ele e a mdia:

x1- x , x2- x , x3- x , ..., xn- x Para obter a variabilidade de todos os dados, vamos considerar no os prprios desvios, mas os seus quadrados: (x1- x )2, (x2- x )2, (x3- x )2, ..., (xn- x )2 Define-se varincia e representa-se por s2, a medida que se obtm somando os quadrados dos desvios e dividindo pelo nmero de observaes menos uma: s2=
(x 1 x )2 + (x 2 x )2 + (x 3 x )2 + ... + (x n x )2 n 1

Para que a medida da variabilidade venha na mesma unidade dos dados originais, a media que se considera s, a raiz quadrada da varincia, a que se d o nome de desvio padro s=
(x1 x )2 + (x2 x )2 + (x3 x )2 + ... + (xn x )2 n1

Organizao e tratamento de dados

155

Notas

1. No processo que leva construo da varincia, o motivo que nos leva a considerar os quadrados dos desvios, assim como anteriormente, na definio do desvio mdio absoluto se consideraram os desvios absolutos, j tem uma explicao a soma dos desvios das observaes para a mdia, sempre igual a zero, pelo que ou consideramos os desvios em valor absoluto, ou os seus quadrados. 2. Mas ento porque que no consideramos a mdia desses desvios ao quadrado, dividindo a sua soma por n em vez de (n-1), como est proposto? A este nvel, a resposta que pode ser dada prende-se de certo modo com o motivo que nos levou a considerar os quadrados, em vez dos prprios desvios: como a soma dos n desvios igual zero, basta conhecer (n-1) desses desvios, para que o n-simo fique automaticamente determinado. Assim, como s temos (n-1) desvios independentes, dividimos por (n-1) em vez de n. Esta uma forma simplista de abordar o problema, pois esta mesma razo levar-nos-ia a considerar para o desvio mdio absoluto o quociente da soma dos desvios absolutos por n-1, em vez de ser por n, como fizemos. Vamos ento adiantar um pouco mais a explicao, embora corramos o risco de a tornar mais complicada.... O que acontece que em Estatstica, normalmente o nosso objectivo estudar populaes a partir de amostras recolhidas dessas populaes. Quando se recolhe uma amostra, procede-se ao seu estudo grfico para tentar obter a estrutura ou padro da distribuio da populao de onde se retirou a amostra e arranjar um modelo para essa populao, e tambm se calculam algumas caractersticas amostrais, que pretendem estimar caractersticas populacionais correspondentes, que so os parmetros. Por exemplo para conhecer o parmetro valor mdio das alturas ou altura mdia dos portugueses adultos (populao constituda pelas alturas de todos os portugueses adultos), recolhe-se uma amostra, uma vez que impraticvel observar a altura de todos os portugueses e calcular a mdia. A partir da amostra recolhida, calculamos a mdia e este valor um valor aproximado do parmetro altura mdia pretendido. Dizemos que a mdia da amostra observada uma estimativa do valor mdio da populao de onde se observou a amostra. Ora o mesmo se passa se pretendermos conhecer o parmetro varincia da populao, tambm chamado de varincia populacional. Para estimar este parmetro, calculamos a varincia da amostra observada e agora que chegmos ao ponto crucial: pode-se mostrar que a varincia que se calcula a partir da amostra, dividindo a soma dos quadrados dos desvios por n-1 d uma melhor estimativa da varincia populacional, do que se dividirmos por n. Como em Estatstica, de um modo geral o nosso objectivo fazer Inferncia Estatstica, isto , inferir propriedades da populao, a partir das propriedades verificadas na amostra, convm que, no caso de estarmos a estimar parmetros, que as estimativas sejam as melhores possveis. Embora as boas propriedades manifestadas pela varincia amostral, quando se pretende estimar a varincia populacional, quando se considera n-1, j no se verifiquem quando calculamos o desvio padro, mesmo assim, ainda prefervel considerar n-1 em vez de n. 3. Alguma literatura apresenta o desvio padro s, considerando n em vez de n-1: s=
(x1 x )2 + (x2 x )2 + (x3 x )2 + ... + (xn x )2 n

Devemos acrescentar que este procedimento embora no esteja correcto, conduz a uma estimativa que tambm pode ser utilizada, desde que n seja suficientemente grande, ou seja, quando
n 1, n 1

pois neste caso ss.

Organizao e tratamento de dados

156

No que diz respeito ao desvio mdio absoluto, no nos vamos preocupar se se divide por n ou por n-1, pois a medida que efectivamente utilizada em Estatstica, como medida da variabilidade de uma amostra o desvio padro e no o desvio mdio absoluto. Por isso, as razes invocadas para o desvio padro e que se prendem com a Inferncia Estatstica, no tm aqui cabimento.
Tarefa Temperaturas de duas cidades 5 . Na seguinte tabela so apresentadas as temperaturas (C) mdias mensais das cidades A e B:
Jan Cidade A Cidade B 3,9 9,4 Fev 5,6 11,1 Mar 10,0 11,7 Abr 15,0 13,3 Mai 19,4 14,4 Jun 23,3 16,7 Jul 25,6 17,2 Ago 25,0 17,8 Set 21,7 18,3 Out 15,6 16,1 Nov 10,6 12,8 Dez 6,1 9,4

a) A partir dos dados da tabela calcula a mediana das temperaturas mdias mensais das duas cidades. Antes de calcular a mediana tens que ter alguma preocupao prvia com os dados? As medianas das temperaturas das duas cidades, so prximas? b) Uma vez que os centros das distribuies dos dois conjuntos de dados esto muito prximos, podemos concluir que no existe diferena entre estas duas cidades, no que diz respeito s temperaturas mdias mensais? c) Qual das cidades apresenta maior variabilidade nas suas temperaturas mensais? (Responde observando os diagramas de pontos) d) Qual a temperatura mensal mais alta para a cidade A? E a mais baixa? Qual a diferena de temperaturas? Que nome ds a esta diferena? e) Calcula a amplitude das temperaturas mensais da cidade B. f) Considera as temperaturas da cidade A, inferiores mediana e calcula a mediana do conjunto de temperaturas considerado. Que nome ds a este valor? g) Faz o mesmo que na alnea anterior, mas agora com as temperaturas superiores mediana. Que nome ds ao valor obtido? h) Verifica que um quarto dos valores so inferiores ou iguais ao 1. quartil, um quarto so superiores ou iguais ao 3. quartil e metade esto entre o 1. e o 3. quartis. i) Calcula a amplitude interquartil da distribuio das temperaturas mensais da cidade A. j) A amplitude interquartil da distribuio das temperaturas mensais da cidade A superior amplitude interquartil da distribuio das temperaturas mensais da cidade B, que 5,55C? A resposta que deste alnea c) j previa a concluso a que chegaste?

Adaptado de Rossmann et al. (2001), p. 83.

Organizao e tratamento de dados

157

k) A tabela seguinte apresenta algumas estatsticas relativas distribuio das temperaturas mensais da cidade B. Completa-a com as estatsticas correspondentes da distribuio das temperaturas mensais da cidade A:
Mnimo Cidade A Cidade B 9 11,40 13,85 16,95 18 1 quartil Mediana 3 quartil mximo

Constri diagramas de extremos e quartis paralelos para as temperaturas das duas cidades, e compara as duas cidades no que diz respeito s temperaturas mdias mensais. m) A mdia das temperaturas mensais da cidade A 15,15C. Completa os dois valores em falta na coluna desvio para a mdia da tabela seguinte:
Ms Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total Temperatura 3,9 5,6 10,0 15,0 19,4 23,3 25,6 25,0 21,7 15,6 10,6 6,1 181,8 Desvio para a mdia -11,25 -9,55 -0,15 4,25 8,15 10,45 6,55 0,45 -4,55 -9,05 Valor absoluto do desvio 11,25 9,55 0,15 4,25 8,15 10,45 6,55 0,45 4,55 9,05 Quadrado do desvio 126,5625 91,2025 0,0225 18,0625 66,4225 109,2025 42,9025 0,2025 20,7025 81,9025

l)

Depois de preencheres a coluna Desvio para a mdia com os valores que faltam, calcula a soma dos 12 desvios. Ficaste admirado com o valor a que chegaste? Porqu? n) Para obter uma medida da variabilidade dos dados, vamos trabalhar com as distncias dos valores relativamente mdia, pelo que vamos considerar os desvios em valor absoluto. Completa a coluna dos desvios em valor absoluto e depois calcula a soma dos valores dessa coluna. Consegues dizer, s fazendo uma operao de dividir, a que igual a soma dos desvios positivos? o) Calcula a mdia dos valores absolutos dos desvios. Que nome ds medida obtida? p) Uma alternativa a calcular os desvios para a mdia em valor absoluto, considerar os quadrados dos desvios. Completa a coluna dos quadrados dos desvios e depois calcula a soma desses quadrados. q) Divide a soma obtida na alnea anterior por 11 (dimenso da amostra menos 1). Que nome ds medida obtida? r) Para converter a medida obtida na alnea anterior, s unidades originais dos dados, calcula a sua raiz quadrada. Que nome ds medida obtida? s) Com o auxlio da mquina de calcular ou da folha de Excel do computador, calcula o desvio padro das temperaturas mensais da cidade B. Compara com o desvio padro obtido para as temperaturas mensais da cidade A. Qual o maior? Era o que esperavas? Sugesto esta tarefa pode ser aproveitada para comparar as temperaturas registadas pelos alunos em duas cidades, como por exemplo, Lisboa e Porto.

Organizao e tratamento de dados

158

Tarefa Vamos comparar os consumos dos carros. Para comparar o consumo mdio de trs tipos de carros, nomeadamente carros de famlia (Grandes), carros utilitrios (Pequenos) e carros Desportivos, recolheu-se informao junto de algumas marcas de carros, do consumo mdio de gasolina, por 100km. Os resultados obtidos so apresentados no seguinte diagrama de pontos:

Para cada uma destas trs amostras de carros, calculou-se a amplitude interquartil e o desvio padro e construiu-se o diagrama de extremos e quartis. A partir das representaes grficas anteriores e sem fazeres quaisquer clculos, associa cada par de estatsticas e cada diagrama de extremos e quartis a cada um dos tipos de carros considerados.
Amplitude interquartil Desvio padro Tipo 0,3 0,59 ? 1,5 1,09 ? 0,7 0,47 ?

Tarefa Vamos comparar as notas no mesmo teste de Ingls de alunos de trs escolas diferentes. De cada uma de trs escolas da zona de Lisboa, A, B e C, foram seleccionados 100 alunos e registaram-se as notas obtidas no exame nacional de Lngua Portuguesa. O professor pediu a trs grupos de alunos que resumissem a informao contida nos dados. Um dos grupos calculou algumas caractersticas amostrais e os outros dois grupos fizeram representaes grficas:

Organizao e tratamento de dados

159

A Mdia Amplitude interquartil Desvio padro 16,1 1,85 1,4

B 12,1 2,05 1,51

C 13,9 1,8 1,4

i.

ii.

iii.

a) Completa a seguinte tabela, estabelecendo as correspondncias entre as caractersticas amostrais e as representaes grficas construdas Caractersticas amostrais Histograma Diagrama de extremos e quartis A 3 B C ii

b) Qual o aspecto mais relevante sobre o comportamento a Ingls dos alunos das trs escolas?

Organizao e tratamento de dados

160

6 Probabilidade
Neste captulo fazemos uma introduo Probabilidade experimental de um acontecimento, obtida atravs da repetio de um nmero grande de vezes da experincia conducente realizao desse acontecimento. Considera-se tambm a Probabilidade terica como modelo probabilstico em situaes especiais de simetria. Ainda utilizando estes modelos, do-se indicaes sobre o clculo de probabilidades de alguns acontecimentos.

Organizao e tratamento de dados

162

Organizao e tratamento de dados

163

6.1 Introduo1
A probabilidade, como acontece com muitas outras noes que usamos com frequncia, no fcil de definir, a menos que estejamos em condies de recorrer a conceitos matemticos precisos. No entanto, sabemos us-la com percia, em muitas situaes prticas, mesmo sem disso nos apercebermos. Qualquer um de ns, em face de um determinado acontecimento futuro, capaz de fazer conjecturas sobre a probabilidade da sua realizao. Quantas vezes nos ouvimos fazer afirmaes do gnero muito provvel que..., pouco provvel que..., mais provvel que.... Embora os juzos probabilsticos que exprimimos sejam, a maior parte das vezes, em termos comparativos, h situaes em que nos sentimos seguros em atribuir um valor numrico possibilidade da realizao de um determinado acontecimento. Por exemplo, se nos perguntarem qual a probabilidade de existir um homem com trs metros de altura, respondemos certamente que essa probabilidade zero, j que o nosso conhecimento nos faz acreditar que esse acontecimento impossvel. Por outro lado, se nos perguntarem qual a probabilidade de o Sol nascer amanh, no temos dvida em afirmar que um. Se pretendermos decidir quem, entre duas pessoas deve fazer um determinado trabalho, podemos fazer a escolha atirando uma moeda ao ar. Neste caso assumimos implicitamente que, procedendo deste modo, estamos a ser justos j que atribumos probabilidades iguais (na escala de 0 a 1 corresponderia a ) a cada um de poder vir a realizar o dito trabalho. O termo Probabilidade utilizado todos os dias de forma mais ou menos intuitiva, pois nos mais variados aspectos da nossa vida, est presente a incerteza: Se no avistarmos nuvens, dizemos que pouco provvel que chova; Dizemos que a probabilidade do prximo beb, de uma determinada famlia, ser do sexo masculino aproximadamente 50%; Dizemos que a probabilidade de lanar uma moeda de 1 euro ao ar e sair a face com o 1, 50%; Dizemos que a probabilidade de ganhar no Euromilhes quase nula; O poltico interroga-se sobre qual a probabilidade de ganhar as prximas eleies; O aluno interroga-se sobre qual a probabilidade de obter nota positiva num teste de respostas mltiplas, para o qual no se preparou e responde sistematicamente ao acaso; Para tratar determinada doena, o mdico pretende saber se um novo medicamento oferece maior probabilidade de cura que o medicamento habitual; O fabricante desejaria saber se um produto que pretende lanar no mercado, ter uma boa probabilidade de aceitao; Numa fbrica, o departamento de controlo de qualidade pretende averiguar a probabilidade de uma mquina no avariar no prximo ano; Um empresrio txtil precisa de saber qual a probabilidade de conseguir vender camisas de homem de tamanho maior ou igual que 45, para saber se deve fazer camisas destes nmeros; etc.

Nesta introduo seguimos de perto Graa Martins et al (1999) e Graa Martins et al (2007)

Organizao e tratamento de dados

164

Todos estes exemplos tm uma caracterstica comum, que o facto de no se conseguir prever com exactido e de antemo, qual o resultado da situao de incerteza. Perante as vrias possibilidades que se nos apresentam, no sabemos qual a que se vai verificar. Ao emitirmos um juzo de valor, como fizemos em alguns dos exemplos considerados, no estamos mais do que a anunciar o nosso grau de convico na realizao de algum acontecimento. Para exprimir esta convico estamos a recorrer, embora intuitivamente, frequncia relativa com que o acontecimento se pode repetir. A probabilidade est presente sempre que estivermos perante um fenmeno aleatrio, isto , um fenmeno para o qual no sabemos de antemo qual o resultado que se vai verificar, na prxima repetio (admite-se que o fenmeno se pode repetir), mas para o qual possvel verificar uma certa regularidade a longo termo, ou seja, para um grande nmero de repeties do fenmeno. esta ltima caracterstica do fenmeno aleatrio que o distingue de um processo catico, j que ambos tm a caracterstica comum de no se conseguir antecipar com exactido qual o resultado que se vai obter quando se realizam. Fenmenos aleatrios So fenmenos para os quais os resultados das realizaes individuais so incertos, mas em que se admite ser possvel encontrar um padro genrico de comportamento.

So exemplos de fenmenos aleatrios aqueles que tm como resultado observvel: A chave do totoloto em cada semana; A resposta de uma doena a um tratamento feito com determinado medicamento; O estado do tempo no dia seguinte; O comportamento dos eleitores nas prximas eleies legislativas; O comportamento de um aluno no exame de resposta mltipla, para o qual no estudou; O comportamento do mercado perante um produto novo para lavar a roupa; O comprimento do prximo beb a nascer na cidade; etc.

6.2 Probabilidade acontecimento

emprica

ou

experimental

de

um

Nos fenmenos determinsticos, conseguimos dizer o que vai acontecer quando o fenmeno se realiza, mas o mesmo no acontece com os fenmenos aleatrios. No temos dvidas de que ao lanar ao ar uma moeda de um euro, ela cai, mas no sabemos qual a face que fica virada para cima quando ela assenta no stio em que caiu, quer seja o cho, a nossa mo ou em cima de uma mesa. No exemplo anterior o resultado A moeda cai, obtido como consequncia do lanamento da moeda ao ar, no um resultado incerto, pois temos a certeza que a moeda no fica no ar2! No entanto, j um resultado incerto A face Euro fica virada para

Estamos a pensar numa experincia feita num ambiente normal, no planeta Terra...

Organizao e tratamento de dados

165

cima, pois no temos a certeza que isso acontea. A nossa curiosidade leva-nos ento a tentar antecipar o que vai acontecer quando lanamos a moeda ao ar e exprimimos essa necessidade utilizando a linguagem da probabilidade ao dizer A probabilidade de lanar uma moeda de um euro ao ar e sair a face Euro 50%. realizao do fenmeno aleatrio chamamos experincia aleatria. Assim, no caso do lanamento da moeda a experincia aleatria consiste em lanar a moeda ao ar e verificar qual a face que fica virada para cima. A experincia aleatria porque no sabemos se a face Euro ou a face Nacional que vai ficar virada para cima. Em contrapartida, a experincia que consiste em lanar a moeda ao ar e ver se cai, j no aleatria! A repetio de experincias aleatrias associadas a determinado fenmeno aleatrio o processo utilizado para a aquisio de dados, que, uma vez analisados, nos permitem inferir propriedades do fenmeno aleatrio em estudo. Admitamos, por exemplo, que tnhamos uma moeda de um euro e que pretendamos verificar se havia alguma razo para suspeitar que a moeda no era equilibrada, isto , se seriam diferentes as possibilidades de sair a face Euro ou a face Nacional quando se lana a moeda ao ar. Para recolher dados que nos permitam responder questo anterior, vamos repetir um grande nmero de vezes a experincia aleatria que consiste em lanar a moeda ao ar e verificar a face que fica voltada para cima. Suponhamos que aps a repetio da experincia 50 vezes, se tinha observado a seguinte sequncia, onde representamos por E a face Euro e por N a face Nacional: E E E N E N E E E N N N N N N N E E N N E E E N N N E E E N N N E E E N E N E E N E E N N E N E E N

Se resumirmos numa tabela de frequncia os dados anteriores, obtemos o seguinte resultado:

Face Euro

virada

N de vezes 26 24

Frequncia relativa 26/50 24/50

Frequncia relativa % 52% 48%

para cima Nacional

Nestes 50 lanamentos, a face Euro ficou virada para cima 26 vezes, pelo que a proporo de vezes que se obteve a face Euro est prxima dos 50%. Intuitivamente somos levados a concluir que no temos razo para rejeitar o modelo que tnhamos idealizado, de que a moeda era equilibrada. Repare-se que a situao descrita anteriormente uma situao tpica de uma investigao estatstica: Formula-se uma conjectura; Recolhem-se dados que permitam avaliar da veracidade dessa conjectura; Exprime-se uma posio sobre a veracidade ou no da conjectura.

Organizao e tratamento de dados

166

Suponhamos, no entanto, que em vez da sequncia anterior se tinham obtido os seguintes dados: E E E E E N E N E E N E N E E E E E E E E E N N E E N E E E E N N E N E N E E N N E N N E E N E E N Ao resumir as observaes anteriores numa tabela de frequncia, obtemos o seguinte resultado:

Face virada para cima Euro Nacional

N de vezes 33 17

Frequncia relativa 33/50 17/50

Frequncia relativa % 66% 34%

Ser que nestas circunstncias ainda continuaramos a dizer que A probabilidade de lanar uma moeda de um euro ao ar e sair a face euro 50%? A nossa intuio leva-nos a dizer que algo de errado se passa com a moeda e que deve ter algum defeito, pois se a moeda fosse equilibrada esperaramos que a proporo de vezes que sai a face Euro fosse aproximadamente igual proporo de vezes que sai a face Nacional, como se observou na primeira sequncia. Como dissemos anteriormente, a repetio da experincia aleatria permitiu recolher dados que, uma vez analisados, nos permitem inferir propriedades do fenmeno aleatrio em estudo e que, neste caso, se pode traduzir na seguinte concluso sobre a conjectura A moeda equilibrada e sobre o que acontece quando se lana a moeda ao ar: A moeda no equilibrada e no prximo lanamento da moeda mais provvel sair a face Euro do que a face Nacional.

Porque que necessrio repetir a experincia um grande nmero de vezes? Na definio de fenmeno aleatrio diz-se que: ... quando o fenmeno se realiza, no se conhece o resultado que se vai obter, mas, no entanto, verifica-se um padro genrico de comportamento ou uma regularidade a longo termo. Isto significa que medida que formos repetindo a experincia aleatria associada a esse fenmeno, comeamos a observar que o fenmeno tem um comportamento previsvel. o que acontece no caso do lanamento da moeda equilibrada. No sabemos o que acontece em cada realizao do fenmeno, mas ao fim de muitas realizaes podemos afirmar que a proporo de vezes que se verifica a face Euro est prxima de 50%. Esta regularidade no se verifica quando repetimos a experincia um nmero pequeno de vezes. Suponhamos, por exemplo, que s tnhamos realizado as primeiras 10 experincias cujos resultados foram:

Organizao e tratamento de dados

167

Repare-se que a proporo de vezes que se verificou a face Euro foi de 60%. Vejamos ainda o que se passa com as restantes observaes, mas consideradas em sries de 10:
Proporo de faces Euro

E N N N

E E N E

N N N N

E N E N

E E N E

N E E E

E N N N

E N N E

E E E E

E N N N

80% 40% 30% 50%

Como se verifica da tabela anterior, existe uma grande variabilidade na proporo de faces Euro nas sequncias de 10 observaes:

E se se tivessem considerado sries de 5 lanamentos? Vejamos o que acontece com a proporo de faces euro nas 10 sequncias de 5 lanamentos:
Sequncias Proporo de faces Euro

E N E N N E N E N E

E N E E E N N N E N

E N N E N N N N N E

E E E E N E E E N E

E N E E E N N N E N

100% 20% 60% 80% 40% 40% 20% 40% 40% 60%

Como se verifica do grfico anterior, existe uma grande variabilidade nas propores de vezes que surge a face Euro, no lanamento da moeda 5 vezes. Voltemos novamente situao dos 50 lanamentos da moeda. Se voltssemos a repetir a experincia outras 50 vezes iramos obter a mesma percentagem de faces Euro? No necessariamente, mas o melhor confirmar. Obviamente que estar a repetir a experincia 50 vezes bastante maador, mas enquanto no soubermos como rodear este problema simulando a experincia, assunto a tratar mais frente, vamos recolher vrias amostras de dimenso 50 (os dados de cada amostra obtm-se repetindo a experincia de lanar a moeda 50 vezes) e registar a percentagem de faces Euro, obtidas: 1 amostra E E E N E N N N E E N E N N E E N N N E N E N N N E E E E E E N N E E N N E N N N E E N N E N N N E

2 amostra N N E N N N E N E E N E E N N N E N N E N E N E N N E E N E N E E E N N E N N E E E E N N E E N E N

Organizao e tratamento de dados

168

3 amostra N N E N E E E E N E N E N E N N E N N E N E E N E E E N E N E N N E N N E E N N E E N N N E E E N E

4 amostra N E N E N E N N E N N N N E E N N N E E E N N E N E N E E E E N E E E E N N E E N N N E N E N E N N

5 amostra N E E N N N E N N E N E N E E N N N E N N E N E E N N N E E E E E E N E E E N N N E E N E E E E E N

6 amostra N N E E E E N N E E E N E E N N E E N E N E N N N E E E N N N E E E N N N N N N N N E E E N E E E N

7 amostra N E N N E E E N N N N E E N E E N N N E N E N N E N N E N E N E E N E N N N N E E N E N N E N E E N

8 amostra N E E N N N N N N E E N E E E N E E N E E N E N E N N E N N E E N N E E N E N N E E E N N E E E E N

9 amostra E N N E N E E N E N E E E N E N N E N N E E E E E N N E E E E E N N E N E N N E E E N E N E N N N E

10 amostra N N N N E N E E E E E E E E N E E N E N N N E E E E E N E N N N N N E E N N N E E E E E E N E N N N

Na seguinte tabela de frequncias apresentam-se as percentagens de faces Euro das 10 amostras que decidimos recolher:
Proporo de faces Euro 48% 48% 52% 48% 54% 50% 44% 52% 56% 54%

1 amostra 2 amostra 3 amostra 4 amostra 5 amostra 6 amostra 7 amostra 8 amostra 9 amostra 10 amostra

Como estvamos espera, no obtivemos sempre a mesma percentagem de faces Euro, mas obtivemos valores razoavelmente prximos de 50%!

Organizao e tratamento de dados

169

E se em vez de repetir a experincia 50 vezes, repetssemos 100? Sem muito trabalho podemos verificar o que acontece, pois basta juntar as amostras anteriores 2 a 2 para obter amostras de dimenso 100:
Proporo de faces Euro 1 e 2 amostras 3 e 4 amostras 5 e 6 amostras 7 e 8 amostras 9 e 10 amostras 48% 50% 51% 47% 54%

No h dvida! medida que aumentamos o nmero de repeties da experincia aleatria, mais prximas umas das outras e de 50% ficam as percentagens de faces Euro obtidas:

Dimens o de cada amostra

Proporo de faces Euro

10

50

100 Este exemplo d-nos confiana que se aumentarmos ainda mais o nmero de repeties da experincia, a proporo de faces Euro vai ter tendncia a estabilizar volta de 50%. Para finalizar, verifique-se que se tivssemos considerado conjuntamente as 500 repeties (das 10 amostras de dimenso 50) da experincia aleatria, a percentagem de faces Euro obtidas seria de 50,6%, valor bem prximo de 50%. Esta regularidade estatstica utilizada para quantificar a probabilidade de um acontecimento, identificando-a com a frequncia relativa com que esse acontecimento se observa, para um grande nmero de realizaes da experincia. Em termos estatsticos estimmos a probabilidade (desconhecida) da realizao de um acontecimento, pela frequncia relativa ou percentagem de vezes com que esse acontecimento se verifica. usual chamar a esta percentagem a probabilidade emprica ou experimental.

Organizao e tratamento de dados

170

Probabilidade emprica (ou frequencista) A probabilidade de um determinado acontecimento aleatrio a percentagem de vezes que se espera que ele acontea, se se repetir a experincia, um grande nmero de vezes, nas mesmas condies. Exemplo Qual o animal domstico preferido

Consideremos a seguinte tabela que resultou de organizar a informao referente a uma sondagem feita a 50 alunos de uma escola, sobre qual o animal domstico preferido:
Animal domstico preferido Co Gato Peixe Passarinho Outro qualquer N de alunos 35 8 4 2 1 50 Freq. Relativa 0,70 0,16 0,08 0,04 0,02 1,00

Suponhamos que na altura em que se recolheu a informao da tabela, se pretendia recolher informao sobre a preferncia de mais um aluno da escola, escolhido ao acaso. Algumas questes que se podem colocar sobre este aluno, no que diz respeito ao animal domstico preferido, so as seguintes: Qual ser o animal domstico mais provvel, da preferncia deste aluno? Qual ser um valor aproximado para a probabilidade deste aluno preferir o Co?

Na tabela anterior, verificamos que dos 50 alunos, 35 preferem o Co. Ento, natural esperar que este outro aluno tambm prefira o Co. Por outro lado, j que a frequncia relativa do acontecimento O animal domstico preferido o Co de 0,70, esperamos que a probabilidade deste acontecimento esteja prxima de 0,70 ou 70%. No exemplo anterior, a experincia consiste em seleccionar um aluno ao acaso e em averiguar qual o animal domstico preferido. Existem vrias respostas possveis e por essa razo que o resultado da experincia aleatrio: antes de registar a resposta do aluno, no temos informao suficiente para saber, de entre os acontecimentos O animal domstico preferido o Co, O animal domstico preferido o Gato, O animal domstico preferido o Peixe, O animal domstico preferido o Passarinho, O animal domstico preferido Outro qualquer, qual o acontecimento que se vai verificar. As probabilidades assumem valores numa escala de 0% a 100% (ou 0 a 1). Se um acontecimento impossvel, atribui-se-lhe uma probabilidade de 0% (ou 0). Se temos a certeza que um acontecimento se vai verificar, ou seja, se um acontecimento certo, ento atribui-se-lhe a probabilidade de 100% (ou 1). A probabilidade pode-se exprimir sob a forma de percentagem, decimal ou fraco.

Organizao e tratamento de dados

171

Podemos utilizar uma escala de probabilidade para situar alguns acontecimentos, quanto credibilidade atribuda sua realizao na prxima repetio da experincia aleatria:

A probabilidade de um acontecimento no se verificar igual a 100% (ou 1) menos a probabilidade de se verificar. Assim, como atribumos anteriormente um valor aproximado de 70% ao acontecimento O animal domstico preferido o Co, podemos dizer que um valor aproximado para a probabilidade do acontecimento O animal domstico preferido no o Co cerca de 30%. Exemplo Qual a probabilidade?3 Um computador est programado para calcular vrias probabilidades. Associe as respostas numricas com as descries verbais seguintes: (a) -50% (i) to provvel acontecer, como no acontecer (b) 0% (ii) muito provvel que acontea, mas no certo (c) 10% (iii) Isto no pode acontecer (d) 50% (iv) Pode acontecer, mas pouco provvel (e) 90% (v) Isso acontecer, de certeza (f) 100% (vi) H um erro no programa (g) 200% Nos valores numricos, existem 2 que no podem ser probabilidades. Assim, s podem ser atribudos a um erro no programa, donde (vi) corresponde a (a) e (g). Se um acontecimento to provvel de acontecer, como de no acontecer, ento temos que a sua probabilidade cerca de 50% e, portanto, (i) corresponde a (d). As outras associaes so (ii) a (e); (iii) a (b); (iv) a (c) e (v) a (f). No ensino bsico,, a probabilidade deve ser introduzida de uma forma intuitiva. De seguida descrevemos uma tarefa, que pode ser dividida em vrias sesses, em que se descreve um processo que pode ser utilizado para introduzir a linguagem da probabilidade nos alunos do 1 ciclo. Tarefa A escala de probabilidade. Com o objectivo de promover o domnio da linguagem da probabilidade, o professor pede aos alunos que relatem acontecimentos do dia a dia em que introduzam os termos impossvel, certo, provvel, muito provvel, pouco provvel. Depois de algum tempo dedicado a esta discusso, o professor desenha uma linha no quadro e no incio da linha marca um zero. Ento o professor diz aos alunos que 0 ser a probabilidade que se vai atribuir a um acontecimento impossvel e que o maior valor possvel para a probabilidade ser 1 ou 100%, sendo o 1 marcado no fim da linha, a que corresponde o acontecimento certo:

Freedman et al (1991)

Organizao e tratamento de dados

172

Alguma discusso em volta de alguns termos utilizados pelos alunos, permite acrescentar linha anterior mais algumas indicaes, chegando seguinte representao:

O professor pede aos alunos que vo sucessivamente ao quadro escrever algumas frases para depois, em conjunto as situarem no eixo anteriormente desenhado, de acordo com a credibilidade que lhes atribuem. Poder haver alguma discusso sobre a posio onde colocar as frases, pois a credibilidade que se atribui a cada acontecimento, no necessariamente igual para todos os alunos. Algumas das frases que os alunos escreveram, foram: A Amanh vai chover B Hoje vou ver televiso quando chegar a casa C Uma pedra de gelo num copo de gua derrete D O Benfica vai ganhar a taa E Se lanar uma moeda de 1 Euro ao ar, vai aparecer a face Euro F Se retirar uma carta ao acaso, de um baralho, obtenho um Rei G Amanh quando for passear, vou encontrar um dinossurio vivo H Amanh quando for ao parque, vou ver passarinhos I Amanh o Sol vai nascer Numa sesso seguinte o professor divide os alunos em grupos de 3 ou 4 e d a cada grupo uma folha A4, onde est desenhada a Escala de Probabilidade, e uma folha com um conjunto de declaraes (O professor pode pedir aos alunos para fazerem a sua prpria folha de declaraes).
Folha A4 com a escala de Probabilidade

Organizao e tratamento de dados

173

Folha com as declaraes

Os alunos, de cada grupo, devem comear por recortar esta folha, de modo a separarem as declaraes. Depois, em conjunto, posicionam-nas na escala de probabilidade, de acordo com a credibilidade que atriburem a cada uma dessas frases. Sugere-se que utilizem clipes. A meio da sesso, a folha de um dos grupos pode apresentar o seguinte aspecto:

A sugesto de prenderem as declaraes folha, com um clipe, com a escala de Probabilidade, prende-se com o facto de depois de alguma discusso conjunta, os grupos poderem rever as suas convices na credibilidade atribuda realizao de alguns dos acontecimentos, atribuindo-lhes uma posio diferente na escala.

Organizao e tratamento de dados

174

Tarefa Sero os jogos justos (ou equilibrados)?

Na turma o professor prope alguns jogos para serem jogados com uma moeda ou com um dado por pares de alunos e pretende que no fim do jogo os alunos concluam se o jogo justo ou no, isto , se dar a mesma possibilidade de ganhar a ambos os jogadores. Para estes jogos o professor levou algumas moedas de 1 euro, alguns dados de 6 faces e um punhado de feijes. 1 jogo Este jogo jogado por dois alunos, por exemplo o Pedro e a Rita, que tm partida uma caixa com 20 feijes e um dado. O jogo consiste em lanar um dado e se sair face com um nmero par de pintas, o Pedro retira um feijo da caixa e fica com ele. Se sair face com um nmero mpar de pintas a Rita que retira o feijo. Ganha o jogo quem tiver mais feijes quando se esgotar a caixa. Algumas questes: partida quais so as expectativas sobre quem vai ganhar o jogo? Ser o jogo justo? Se jogarem 2 vezes o mesmo jogo, de esperar que ganhe o mesmo jogador? 2 jogo Este jogo jogado por dois alunos, por exemplo a Maria e a Joana, que tm partida uma caixa com 20 feijes e um dado. O jogo consiste em lanar um dado e se sair face em que o nmero de pintas um nmero primo, a Maria retira um feijo da caixa e fica com ele. Se sair uma face com um nmero de pintas que no seja nmero primo, a Joana que retira o feijo. Ganha o jogo quem tiver mais feijes quando se esgotar a caixa. Algumas questes: partida quais so as expectativas sobre quem vai ganhar o jogo? Ser o jogo justo? Se jogarem 2 vezes o mesmo jogo, de esperar que ganhe o mesmo jogador? 3 jogo Este jogo jogado por dois alunos, por exemplo o Joo e o Bernardo, que tm partida uma caixa com 20 feijes e duas moedas de um Euro. O jogo consiste em lanar as moedas e se sarem duas faces iguais, o Joo retira um feijo da caixa e fica com ele. Se sarem duas faces diferentes, o Bernardo que retira o feijo. Ganha o jogo quem tiver mais feijes quando se esgotar a caixa. Algumas questes: partida quais so as expectativas sobre quem vai ganhar o jogo? Ser o jogo justo? Se jogarem 2 vezes o mesmo jogo, de esperar que ganhe o mesmo jogador? 4 jogo Este jogo jogado por dois alunos, por exemplo a Sara e o Santiago, que tm partida uma caixa com 20 feijes e dois dados. O jogo consiste em lanar os dois dados e se a soma das pintas for menor ou igual 6 a Sara retira um feijo da caixa e fica com ele. Se a soma das pintas for maior ou igual a 8 o Santiago que retira o feijo. Se a soma das pintas for 7, ningum retira feijes. Ganha o jogo quem tiver mais feijes quando se esgotar a caixa. Algumas questes:

Organizao e tratamento de dados

175

partida quais so as expectativas sobre quem vai ganhar o jogo? Ser o jogo equilibrado? Se jogarem 2 vezes o mesmo jogo, de esperar que ganhe o mesmo jogador?

Todos estes jogos devem ser orientados pelo professor, que deve chamar a ateno para o facto de em qualquer um dos deles se pretender a repetio da experincia aleatria 20 vezes. Deve indicar que isso no pode ser considerado um nmero razovel de vezes, de forma a estabilizar as frequncias relativas com que os acontecimentos se realizam. No entanto, a partir dos resultados obtidos com as 20 repeties, os alunos podem conjecturar sobre se o jogo ser justo ou no, tendo em conta o nmero de feijes que cada aluno que compe o par conseguiu ganhar. Se o nmero de feijes for muito diferente natural que se ponha a hiptese de que o jogo no seja justo. Podem tambm os alunos colocar a hiptese de o nmero de vezes que jogaram o jogo no ser suficiente para decidirem sobre se o jogo ser equilibrado ou no, e sugerirem que se faam mais algumas jogadas. Eventualmente podero jog-lo mais algumas vezes, registando o vencedor num esquema de contagem grfica (tally chart). Tarefa O que mais provvel?

Numa turma com 24 alunos, 16 so raparigas e 8 so rapazes. Dos 24 alunos, metade tm olhos castanhos e a outra metade, olhos de outra cor. Tambm se sabe que 8 dos alunos (rapazes ou raparigas) so louros. O professor que usa fichas, todos os dias selecciona uma ficha ao acaso, depois de ter baralhado as fichas como quem baralha um baralho de cartas, para que o aluno com o nome que consta na ficha seleccionada v ao quadro resolver um problema. Na prxima ida ao quadro: mais provvel que seja seleccionado um rapaz ou uma rapariga? mais provvel que o aluno tenha olhos castanhos ou de outra cor? mais provvel que o aluno seja louro ou no seja louro? Quais as estimativas para as probabilidades dos acontecimentos anteriores? Para responder s trs primeiras questes, os alunos devem ter sensibilidade para verificar que quantos mais alunos houver pertencentes a determinada categoria, mais provvel ser seleccionado um aluno pertencente a essa categoria, se a seleco for feita aleatoriamente (ao acaso), como pressuposto, ao exigir que as fichas sejam baralhadas. Assim, ser mais provvel ser seleccionada uma rapariga, do mesmo modo que mais provvel ser seleccionado um aluno que no seja louro e existe igual probabilidade de ser seleccionado um aluno de olhos castanhos e um que no tenha olhos castanhos. Para responder ltima questo, decidiram registar numa folha as caractersticas do aluno seleccionado (sempre seleccionando uma ficha ao acaso) durante 30 aulas consecutivas, tendo obtido os seguintes registos:

Organizao e tratamento de dados

176

Dia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Total Freq. Rel.

Rapariga

Olhos castanhos

Louro

0 1 0 1 1 0 1 1 0 1 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 0 0 0 1 1
20 20/30 67%

0 1 0 1 1 0 1 1 0 1 0 0 1 0 0 1 1 0 1 1 1 1 1 0 1 0 0 0 0 1
16 16/3053%

0 1 0 1 1 0 1 0 0 0 0 0 1 0 0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 1
12 12/30=40%

Na tabela anterior representou-se por um 1 sempre que se verificava o acontecimento de interesse, e por 0 caso contrrio. Por exemplo, sempre que era seleccionada uma rapariga colocava-se um 1. Caso contrrio escrevia-se um 0. Assim, no 1. dia em que comearam a fazer os registos, verificou-se que foi ao quadro um rapaz que no tinha olhos castanhos e no era louro. Repare-se que com esta forma de registar as observaes, para obter as frequncias absolutas basta somar a coluna de 0s e 1s. Da tabela de de de anterior conclui-se que uma estimativa para a probabilidade: ser seleccionada uma rapariga aproximadamente 67%; ser seleccionado um aluno de olhos castanhos aproximadamente 53%; ser seleccionado um aluno louro anda volta de 40%.

Assim, numa prxima chamada ao quadro espera-se que o aluno seja rapariga e espera-se que o aluno no seja louro. Quanto ao facto de ter ou no olhos castanhos, espera-se que tanto possa acontecer uma coisa como outra. O professor deve chamar a ateno para que a partir da tabela anterior ainda se podem estimar as probabilidades de outros acontecimentos. Como estimar, por exemplo, a probabilidade de seleccionar uma rapariga de olhos castanhos e loura? Basta contar o nmero de linhas em que h trs 1s e dividir esse valor por 30,

Organizao e tratamento de dados

177

para obter a frequncia relativa com que se observou o acontecimento pretendido. No caso considerado a estimativa obtida de 40%(=12/30). O professor pode sugerir ainda que estimassem as probabilidades de outros acontecimentos, tais como: O prximo aluno a ser chamado ser rapaz de olhos castanhos e no louro; O prximo aluno a ser chamado ser uma rapariga loura; O prximo aluno a ser chamado ser rapaz de olhos no castanhos e no louro; etc. Tarefa Qual o meio de transporte utilizado pelos alunos para irem para a escola?4

Num determinado dia o professor decidiu juntamente com os alunos fazerem um pequeno trabalho de investigao sobre o meio de transporte utilizado para irem para a escola. Decidiu escrever no quadro os meios de transporte que julgava serem os utilizados e pediu a cada um dos alunos que fosse ao quadro e assinalasse qual o meio de transporte que utilizou, frente da categoria respectiva: Autocarro Carro A p Comboio Bicicleta O primeiro aluno a ir ao quadro, e que utilizava o autocarro, em vez de colocar simplesmente um trao ou uma cruz frente da categoria Autocarro, resolveu desenhar uma figura estilizada, que representava um rapaz: Autocarro Carro A p Comboio Bicicleta Os outros alunos acharam a ideia muito interessante e no fim obtiveram o seguinte pictograma, correspondente ao meio de transporte utilizado pelos alunos presentes na turma, naquele dia: Autocarro Carro A p Comboio Bicicleta Algumas questes, baseadas no pictograma anterior e a serem trabalhadas com os alunos, podem ser as seguintes:
4

Esta tarefa foi sugerida por um exemplo de Watson (2006).

Organizao e tratamento de dados

178

1. O que que se ganhou em ter utilizado uma figura masculina ou feminina, em vez de utilizar simplesmente um trao ou uma cruz? 2. Quantos alunos estavam na turma naquele dia? 3. Se se tivesse feito o mesmo estudo noutro dia, ter-se-ia obtido um pictograma perfeitamente igual? 4. Um aluno que chegou atrasado aula, j depois de se ter feito a representao grfica anterior, disse que tinha vindo de Carro. Este aluno ser rapaz ou rapariga? Justificar a resposta. 5. Admitindo que o Ricardo no tinha ido escola naquele dia, por estar doente, representar numa escala de probabilidade, a credibilidade atribuda a cada uma das seguintes afirmaes, relacionadas com o transporte utilizado pelo Ricardo para ir, no dia seguinte, para a escola: a) O Ricardo utiliza o Comboio b) O Ricardo utiliza a Bicicleta c) O Ricardo utiliza o Autocarro d) O Ricardo utiliza o Carro As respostas s questes anteriores podem ser vrias e o professor deve ter a preocupao de investigar quais os argumentos que conduzem s respostas dos alunos. Por exemplo, pode-se esperar que algum aluno responda questo 4. dizendo que rapaz. Ao dar esta resposta, o aluno estar eventualmente a utilizar um raciocnio baseado no padro da sequncia: 2 raparigas, um rapaz, 2 raparigas, 1 rapaz! Neste caso o professor deve chamar a ateno que a ordem pela qual esto representados os smbolos no tem interesse relevante. Orienta-se ento a discusso para o argumento frequencista: dos 5 alunos que viajaram de carro, 4 eram raparigas. Ento mais provvel que um outro aluno que viaje de carro, seja rapariga. Na resposta questo 5, a credibilidade atribuda opo c) pode ser superior atribuda opo b). Efectivamente dos alunos que viajaram de bicicleta, s 1 que rapariga, o que nos inclina para uma forte credibilidade a que o Ricardo tenha viajado de Bicicleta. No entanto, verifica-se que dos 27 alunos, 9 viajaram de autocarro, acabando por ser este o meio de transporte mais utilizado. Com to poucos dados recolhidos, no podemos ter certeza sobre quaisquer afirmaes que faamos, mas podemos formular algumas conjecturas e atribuir-lhes um certo grau de credibilidade. Tarefa Como seleccionar uma de duas pessoas, de uma forma justa 5. Na turma, constituda por 2 rapazes o Tiago e o Ricardo, e 16 raparigas, era necessrio escolher um aluno rapaz para pertencer a uma comisso que tinha de integrar os dois sexos. Como s havia dois rapazes decidiram atirar uma moeda de 1 euro ao ar. Se sasse a face Euro (E) seria escolhido o Ricardo, caso contrrio, se sasse a face Nacional (N) seria o Tiago. Antes de lanarem a moeda, o Tiago questionou o professor sobre se esse processo de seleco seria justo. Embora fosse um processo habitual de fazer uma escolha entre duas situaes, quem que lhe garantia que seria de 50% a possibilidade de ser ele o escolhido? Ou por outras palavras, o que ele desejava saber era se a moeda era equilibrada.

Graa Martins et al. (2007), p.164

Organizao e tratamento de dados

179

Decidiram fazer uma experincia que consistia em lanar a moeda algumas vezes e registar os resultados obtidos. A fim de 10 lanamentos, os resultados obtidos foram os seguintes: N E N N N E E E E E Estes resultados no sossegaram o Tiago, pois ele comeou a pensar que s teria 40% de possibilidades de ser seleccionado, uma vez que em 10 vezes a moeda s lhe foi favorvel 4 vezes! O professor chamou ento a ateno para o facto de se ter de realizar a experincia um grande nmero de vezes, pois com 10 lanamentos no podemos tirar qualquer concluso. Fizeram ento mais 90 lanamentos, tendo obtido os seguintes resultados:
N. do lan. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 Result. N E N N N E E E E E N E N E N E N N E N N E N N E N N N E N N E E N N E N E E N. de faces N 1 1 2 3 4 4 4 4 4 4 5 5 6 6 7 7 8 9 9 10 11 11 12 13 13 14 15 16 16 17 18 18 18 19 20 20 21 21 21 Freq. Rel. da face N 1,000 0,500 0,667 0,750 0,800 0,667 0,571 0,500 0,444 0,400 0,455 0,417 0,462 0,429 0,467 0,438 0,471 0,500 0,474 0,500 0,524 0,500 0,522 0,542 0,520 0,538 0,556 0,571 0,552 0,567 0,581 0,563 0,545 0,559 0,571 0,556 0,568 0,553 0,538 N. do lan. 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 Result. E N N N E N E N E E E N E E E E E N N N E N N E N N E E E N N E N N E N N E E N. de faces N 26 27 28 29 29 30 30 31 31 31 31 32 32 32 32 32 32 33 34 35 35 36 37 37 38 39 39 39 39 40 41 41 42 43 43 44 45 45 45 Freq. Rel. da face N 0,510 0,519 0,528 0,537 0,527 0,536 0,526 0,534 0,525 0,517 0,508 0,516 0,508 0,500 0,492 0,485 0,478 0,485 0,493 0,500 0,493 0,500 0,507 0,500 0,507 0,513 0,506 0,500 0,494 0,500 0,506 0,500 0,506 0,512 0,506 0,512 0,517 0,511 0,506

Organizao e tratamento de dados

180

40 41 42 43 44 45 46 47 48 49 50

E N N E E E E E N N N

21 22 23 23 23 23 23 23 24 25 26

0,525 0,537 0,548 0,535 0,523 0,511 0,500 0,489 0,500 0,510 0,520

90 91 92 93 94 95 96 97 98 99 100

N E E E E N N E N N N

46 46 46 46 46 47 48 48 49 50 51

0,511 0,505 0,500 0,495 0,489 0,495 0,500 0,495 0,500 0,505 0,510

O grfico seguinte mostra a evoluo da frequncia relativa da sada da face N, medida que se fazem os sucessivos lanamentos da moeda:

Tendo em conta os resultados anteriores, verifica-se que a frequncia relativa da sada da face Nacional, tende a estabilizar volta dos 50%. Assim, no temos razo para rejeitar a hiptese de a moeda ser equilibrada, dando 50% de probabilidade a cada face. Ainda a regularidade a longo termo... Neste momento, em que j nos apercebemos do que a regularidade a longo termo, pertinente questionarmos: Ser que o acaso pode ser governado? Ento no estamos a admitir que a longo termo possvel obter um padro genrico de comportamento do fenmeno aleatrio? Efectivamente, quando observamos o fenmeno em estudo um nmero suficientemente grande de vezes (nas mesmas condies...), verifica-se um comportamento que pode ser modelado, isto , podemos arranjar um modelo para exprimir a aleatoriedade. Mas ateno! Esta regularidade no existe a no ser a longo termo! E a longo termo significa que temos de repetir a experincia, nas mesmas condies, um nmero suficiente de vezes at verificarmos que a frequncia relativa com que o acontecimento se realiza tem tendncia a estabilizar. Na situao comum do lanamento de uma moeda ou de um dado, no podemos dizer qual a face que sai no prximo lanamento. No entanto se lanarmos a moeda ou o dado (equilibrados) um nmero razovel de vezes, esperamos que aproximadamente metade das vezes saia a face Euro da moeda e aproximadamente um sexto das vezes saia a face 1 do dado, de modo que a frequncia relativa com que se verifica a face Euro anda volta de 50% e a frequncia relativa com que se verifica a face 1 anda volta de 17%. Suponha agora que lana a moeda 8 vezes e que obteve a seguinte sequncia:

Organizao e tratamento de dados

181

ENEENNNN Se lanar novamente a moeda, o que que espera que saia? Embora lhe apetecesse dizer que no prximo lanamento mais provvel que saia a face Euro, para equilibrar o nmero de faces Euro, com o nmero de faces Nacional, na verdade no prximo lanamento tanto pode sair a face Euro como a face Nacional, j que os sucessivos lanamentos so independentes uns dos outros a moeda no tem memria... Exemplo Os dissabores da regularidade a longo termo...6. A regularidade a longo termo se no for bem compreendida, pode acarretar alguns dissabores! Foi o que aconteceu com aquele casal que tinha planeado ter 4 filhos. Depois de nascerem 4 raparigas, e na expectativa de terem um rapazinho, ainda tentaram mais 3 vezes e ficaram com uma linda equipa de 7 raparigas! Depois destas 7 raparigas o mdico assegurou-lhes que era praticamente certo que o beb seguinte seria rapaz. Infelizmente para este casal, os fenmenos aleatrios que consistem em ter mais uma criana ou lanar mais uma vez a moeda, so idnticos. Efectivamente 8 raparigas de seguida, muito improvvel, mas uma vez nascidas 7 raparigas, no de todo improvvel que o prximo beb seja rapariga e foi! Tarefa O jogo ser justo7? O professor prope aos alunos realizarem o seguinte jogo, para o qual necessrio algumas fichas ou berlindes ou at botes, desde que s difiram na cor: os alunos organizam-se em 5 grupos, e cada grupo escolhe uma ficha de cor diferente. As cinco fichas (amarela, verde, vermelha, azul, branca) so colocadas num copo de plstico opaco (ou numa caixa ou num saco...) e procede-se extraco, com reposio, de 30 fichas. Sempre que se retira uma ficha, regista-se a cor e repe-se novamente no copo, antes de retirar a seguinte. Ganha o grupo cuja cor tenha sado mais vezes. Ser que o jogo justo (equilibrado)? Na prxima vez que se jogar o jogo ser que ganha o mesmo grupo? Se ganhar o mesmo grupo significa que o jogo no justo?

O professor, sem que os alunos se tenham apercebido, retirou duas das fichas, por exemplo a amarela e a verde e colocou duas fichas vermelhas em sua substituio. Pediu aos alunos para jogarem novamente o jogo e registarem os resultados. Depois de o jogo ser jogado algumas vezes, o professor questiona os alunos sobre se: Haver algum grupo que esteja a ganhar mais vezes que os outros grupos? Os resultados so diferentes, quando comparados com a situao anterior?

Depois de alguma discusso sobre a composio das fichas no copo de plstico, o professor mostra o seu contedo e pede aos alunos para fazerem uma previso sobre qual ser o prximo grupo a ganhar, se repetirem novamente o jogo. Note-se que este tipo de actividade importante para desenvolver conceitos bsicos de probabilidade. Neste jogo, se cada grupo for representado por uma cor, o jogo ser justo, j que cada grupo tem a mesma possibilidade de ganhar.
6 7

Adaptado de Moore (1997) Sugerido por Way (1997)

Organizao e tratamento de dados

182

Contudo, como as seleces so aleatrias, no temos a garantia que todas as cores saiam com igual frequncia. Quando se alterou a composio das fichas no copo, espera-se que haja uma alterao nos resultados. Para j, h dois grupos que no podem ganhar! Esta actividade mostra tambm a forma como os dados nos podem ajudar a tomar decises. O jogo permitiu gerar dados os quais so usados para tomar decises acerca da composio das fichas no copo. Tarefa Qual a composio do saco de berlindes? O professor chega aula com um saco que contm 10 berlindes de duas cores, de entre cinco cores possveis e pretende que os alunos: digam quais as cores dos berlindes que esto no saco e que estimem quantos berlindes so de cada cor.

O professor comea por indicar qual a metodologia para a recolha de dados: Pede a um aluno que retire um berlinde do saco, mostre o berlinde aos colegas para se aperceberem de qual a cor, e reponha o berlinde no saco. Uma vez que a memria curta, a cor do berlinde registada no quadro. Admitindo que o berlinde era azul, regista um A.

Esta forma de realizar a experincia consiste numa extraco com reposio. Neste momento, associado experincia anterior podemos dizer que o acontecimento O saco tem berlinde(s) de cor azul um acontecimento certo, com probabilidade 100%. O professor pede a outros alunos que procedam como o primeiro aluno. O segundo aluno a tirar o berlinde tambm tirou um berlinde azul, mas o terceiro aluno tirou um berlinde vermelho. Aps estas trs extraces com reposio, tem-se o seguinte registo no quadro (antes de cada extraco, os berlindes so baralhados dentro do saco)

Neste momento os alunos j tm a resposta primeira questo: no saco existem berlindes de cores Azul e Vermelha. Ficmos tambm a saber que o acontecimento

Organizao e tratamento de dados

183

O saco contm berlindes de cor diferente de Azul ou Vermelha um acontecimento impossvel, a que associamos a probabilidade de 0% (recordemos que o professor tinha dito que s havia duas cores distintas de berlindes no saco). O professor prope que se continue a realizar a mesma experincia de retirar o berlinde, registar a cor e repor o berlinde no saco. Aps 10 realizaes da experincia, os resultados obtidos foram

Aps as 10 extraces o professor lembra que o saco contm 10 berlindes e pergunta se neste momento podemos dizer que o saco tem 6 berlindes azuis e 4 vermelhos? de esperar que se coloquem questes acerca desta situao, e que alguns alunos respondam que no, pois o mais natural que ao retirar ao acaso os berlindes do saco, alguns berlindes tenham sido retirados mais do que uma vez e alguns nunca tenham chegado a ser retirados. O que fazer ento, para estimar a proporo de berlindes de cada cor? Alguns alunos j alertados para o raciocnio frequencista, sugerem que se faam vrias extraces (com reposio), sendo de esperar que ao fim de muitas extraces a frequncia relativa com que se verificou a sada de cada cor, possa reflectir a composio do saco. razovel admitir que se o saco contiver uma maior proporo de berlindes azuis, estes saiam com maior frequncia. Ao fim de 80 extraces os resultados encontram-se resumidos na seguinte tabela de frequncias:
Cor do berlinde Azul Vermelha Freq. Abs. 54 26 80 Freq. Rel. 0,675 0,325 1,00

O que concluir da tabela e do diagrama circular anteriores? A frequncia relativa da sada de berlindes de cor azul 0,675. Ento esperamos que aproximadamente 68% dos berlindes do saco sejam azuis. Respondendo questo inicial, como o saco tem 10 berlindes, estimamos que 7 berlindes sejam azuis e 3 berlindes sejam vermelhos. Se procedermos a uma nova extraco de um berlinde, qual a cor que esperamos que o berlinde tenha?

Esperamos que seja Azul, j que a probabilidade de retirar um berlinde azul anda volta de 68%, enquanto que a probabilidade de retirar um berlinde vermelho anda volta de 32%.

Organizao e tratamento de dados

184

Para fazer a inferncia sobre a composio do saco, um factor importante com que se teve de entrar em linha de conta, foi o nmero de repeties da experincia aleatria. Intuitivamente estamos confiantes que quanto maior for o nmero de repeties da experincia, ou seja, quanto maior for a dimenso da amostra recolhida, melhor ser o resultado da nossa inferncia. Na determinao da composio do saco de berlindes, pode acontecer que algum dos alunos sugira o seguinte raciocnio, para estimar o nmero de berlindes azuis: fazer vrias sucesses de extraces de 10 berlindes (nmero de berlindes do saco) e contar em cada sucesso de 10 extraces, quantos berlindes azuis se obtiveram. Por exemplo, suponhamos que se tinha procedido a 8 sucesses de 10 extraces, com os seguintes resultados:
V A A A A V A A A A A A V A A A A A V V A A A A V A A A A A A V A V V A A V A A A A A V V V A A A A V A A A V A A A A V V V A A A V A A V A A A V V A A A A A V N de berbindes azuis 7 7 7 7 6 6 9 8

O nmero de berlindes azuis em 10 berlindes, variou entre 6 e 9. Qual o melhor valor para representar os 8 valores obtidos? Naturalmente a mdia! Assim, calculando a mdia dos dados anteriores

7 8

7,125

obtemos 7,125, pelo que escolhemos o inteiro 7 (valor inteiro mais prximo de 7,125) como o nmero de berlindes azuis no saco. Ser que este raciocnio que acabmos de fazer diferente do raciocnio frequencista que utilizmos inicialmente? Vejamos que no! Se contabilizarmos o total de berlindes azuis no total de extraces realizadas, ento a proporo de berlindes de cor azul ser 57/80=0,7125. Admitindo que esta proporo reflecte a proporo de berlindes azuis no saco, consideramos que no saco de 10 berlindes, cerca de 70% so azuis, ou seja 7. Tarefa Os sacos de berlindes. O professor organiza os alunos em grupos de 3 ou 4. D a cada um dos grupos um saco mistrio com 4 berlindes. Cada grupo conhece a cor dos berlindes que esto no seu saco, mas no pode dizer aos outros grupos. A experincia consiste em cada grupo fazer 30 extraces, com reposio, de berlindes do seu saco registando a cor dos berlindes que saram antes de os repor novamente no saco. Sugere-se que cada grupo tenha uma folha idntica seguinte para o acompanhamento da experincia: Folha 1. Verifica a composio do saco e regista, numa tabela, todos os resultados possveis que poders obter se retirares um berlinde, ao acaso, do saco. 2. Se realizares 30 experincias de retirar um berlinde e rep-lo no saco, quantas vezes esperas que se verifica cada um dos resultados? Preenche a tabela seguinte com as tuas predies:

Organizao e tratamento de dados

185

Resultado

Nmero de vezes que se espera que se verifique o resultado

3. Realiza agora a experincia sugerida na alnea anterior e preenche a tabela seguinte:


Resultado Frequncia absoluta

4. Compara os resultados obtidos na tabela anterior, com os da tabela da alnea 2. Depois de cada grupo realizar a experincia, regista no quadro a tabela com os resultados obtidos. A partir dessas tabelas, tentam descrever a composio dos sacos uns dos outros. claro que os berlindes podem ser substitudos por botes do mesmo tamanho e feitio, s diferindo na cor, ou caricas de refrigerantes tambm do mesmo tamanho, ou fichas feitas pelos prprios alunos, em cartolina grossa, etc. Tarefa Qual o tipo de prato que os alunos preferem? Numa escola o Director pretende saber como se distribui a preferncia dos alunos, relativamente a um conjunto de pratos de referncia, ou seja, qual a probabilidade de cada prato ser o preferido, para satisfazer o mais possvel os alunos que vo comer cantina. Encarregou um grupo de alunos de recolher a informao necessria, tendo estes utilizado a seguinte metodologia: Elaboraram uma lista com os pratos que a cantina indicou; Colocaram-se entrada da cantina na hora do almoo; De entre os alunos que iam chegando para almoar, s eram seleccionados para responder de cinco em cinco alunos. Por exemplo, seleccionava-se para responder o 5 aluno a chegar, o 10, o 15, etc. O resultado da recolha da informao apresentou o seguinte aspecto:
Esparguete Bolonhesa Peixe assado com batatas e legumes Filetes no forno com arroz e salada Bacalhau com natas e salada Rolo de carne com pur e salada | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

A partir dos dados anteriores os alunos construram uma tabela de frequncias e um grfico de barras, tendo elaborado um pequeno relatrio que entregaram ao Director:

Organizao e tratamento de dados

186

Relatrio Questo: Foi-nos pedido que investigssemos junto dos nossos colegas que vo comer cantina, quais so os pratos preferidos, da seguinte lista de pratos: Esparguete Bolonhesa, Peixe assado com batatas e legumes, Filetes no forno com arroz e salada, Bacalhau com natas e salada ou Rolo de carne com pur e salada.

Metodologia: Decidimos recolher uma amostra de alunos a quem fizemos


a pergunta sobre qual destes pratos era o seu preferido. A seleco dos alunos foi feita da seguinte forma: s interrogvamos os alunos que chegavam cantina, de cinco em cinco. Esta forma de seleccionar evitou que atrasssemos a fila, o que aconteceria de perguntssemos a todos os alunos, assim como evitou, quanto a ns, que nas respostas os alunos no fossem influenciados uns pelos outros, por estarem prximos e ouvirem as respostas uns dos outros. A partir das respostas recebidas construmos uma tabela de frequncias e um grfico de barras, que se apresentam a seguir

Prato preferido Esparguete Bolonhesa Peixe assado com batatas e legumes Filetes no forno com arroz e salada Bacalhau com natas e salada Rolo de carne com pur e salada Total

Freq. abs 13 6 10 21 27 77

Freq. Rel. 0,1688 0,0779 0,1299 0,2727 0,3506 1

Concluses: Da tabela e do grfico anteriores sobressai que o prato


preferido o Rolo de carne com pur e salada, sendo o menos preferido o Peixe assado com batatas e legumes. Conclumos que aproximadamente 35% dos alunos inquiridos preferem o Rolo de carne com pur e salada, cerca de 27% preferem o Bacalhau com natas e salada, cerca de 17% o Esparguete Bolonhesa, cerca de 13% os Filetes no forno com arroz e salada e finalmente s cerca de 8% dos alunos que preferem o Peixe assado no forno com batatas e legumes. Como acreditamos que a nossa amostra foi bem seleccionada e representativa dos alunos que almoam na cantina, pensamos que estas propores devem ser reflectidas para a populao constituda por todos os alunos que almoam na cantina. Assim, recomendamos que em 35% dos dias que na cantina decidirem fazer um destes pratos, se faa o Rolo de carne. Recomendamos ainda que em cerca de 27% desses dias se faa o Bacalhau com natas. Destes pratos, o peixe assado com batatas e legumes s deve ser feito cerca de 8% das vezes.

Organizao e tratamento de dados

187

Nota: No processo de seleco dos alunos para responderem questo de interesse, algum do grupo sugeriu que se colocasse numa mesa, entrada da cantina, um inqurito e se pedisse aos alunos para o preencherem e colocarem numa caixa, bem visvel. Escusavam de estar a perder tempo espera que os alunos fossem chegando para os interrogarem! No entanto depois de alguma troca de impresses abandonaram esta ideia, pois chegaram concluso que este processo de seleco da amostra, por resposta voluntria, conduz quase sempre a uma amostra enviesada, isto uma amostra que no representativa da populao que se pretende estudar. Lembraram-se alis, que este um processo muitas vezes utilizado, erradamente, pela comunicao social para fazer sondagens, junto da populao. Tarefa Qual a probabilidade do prximo condutor utilizar a Via Verde? O professor props aos alunos estimarem a probabilidade de um condutor, escolhido ao acaso de entre os que passam frente da Escola, utilizar a Via Verde. Baseado numa notcia que tinha lido na comunicao social, o professor tinha formulado a conjectura de que 25% dos automobilistas utilizam a Via Verde. Sero os dados recolhidos pelos alunos consistentes com esta conjectura, ou pelo contrrio, pemna em causa? A recolha de dados foi devidamente planeada entre o professor e os alunos, tendo estes sido distribudos em grupos de dois alunos, em que cada grupo iria num dos intervalos, para a porta da escola, verificar quantos carros passavam e destes quantos tinham o identificador de Via Verde. Para uma recolha de dados mais eficiente, um dos elementos do grupo levava uma folha onde apontaria o que o colega lhe dissesse e que se traduzia em Sim ou No. Por exemplo, suponhamos que o grupo 1 obteve o seguinte registo:
Via Verde Sim No |||||||||| |||||||||||||||||||||||||||||||||||| Total Registo das ocorrncias N de carros 11 36 47

Ao fim de uma semana de recolha de dados, os 12 grupos de alunos juntaram os resultados obtidos na seguinte tabela, onde se registam tambm os valores acumulados e as frequncias relativas correspondentes:
Grupo 1 2 3 4 5 6 7 8 9 10 11 12 Total N de carros com Via Verde 12 14 12 4 15 14 19 15 17 7 14 14 157 N de carros 47 56 38 29 49 58 65 46 73 44 57 63 625 N de carros com Via Verde acumulado 12 26 38 42 57 71 90 105 122 129 143 157 N de carros acumulado 47 103 141 170 219 277 342 388 461 505 562 625 Freq. rel. carros com Via Verde 0,2553 0,2524 0,2695 0,2471 0,2603 0,2563 0,2632 0,2706 0,2646 0,2554 0,2544 0,2512

Organizao e tratamento de dados

188

O grfico de linha anterior mostra a evoluo da percentagem de carros com Via Verde, perto dos 25%, com tendncia a aproximar-se deste valor, medida que o nmero de carros vistos aumenta. Este resultado permite-nos inferir que a nossa conjectura estava certa e que efectivamente a percentagem de carros com Via Verde anda volta de 25%. Assim, estimamos que a probabilidade de o prximo carro, que passa frente da escola, ter Via Verde de cerca de 25%.

6.3 Seleco de uma amostra de uma populao com o objectivo de estimar uma probabilidade
Nas seces anteriores falamos frequentemente em seleccionar amostras de populaes, com o objectivo de inferir para essas populaes as propriedades verificadas na amostra. Assim, uma vez que se pretende estender populao as propriedades estudadas na amostra, esta tem que ser representativa da populao, isto , tem que reflectir a composio da populao. Uma amostra que no seja representativa da Populao diz-se enviesada e a sua utilizao pode dar origem a interpretaes erradas, como se sugere nos seguintes exemplos: utilizar uma amostra constituda por 10 benfiquistas, para prever o vencedor do prximo Benfica Sporting! utilizar uma amostra constituda por leitores de determinada revista especializada, para tirar concluses sobre a populao em geral.

O planeamento de um estudo estatstico, que comea com a forma de seleccionar a amostra, deve ser feito de forma a evitar amostras enviesadas. Alguns processos que provocam quase sempre amostras enviesadas so, por exemplo, a amostragem por convenincia e a obteno de uma amostra por resposta voluntria. Este ltimo processo usado, com muita frequncia, pelas estaes de televiso, com resultados por vezes contraditrios com os que se obtm quando se utiliza um processo correcto de seleccionar a amostra. comum, quando se est a debater um tema de interesse geral, como por exemplo a Despenalizao do aborto, ou os Touros de morte em Portugal, os meios de comunicao social convidarem a populao a ligar ou a enviar uma mensagem para um ou outro nmero conforme a opinio for de Sim ou No. De um modo geral, um segmento da populao com muito interesse no tema que responde a esta solicitao, fazendo com que a amostra obtida seja enviesada.

Organizao e tratamento de dados

189

A utilizao de uma amostragem por convenincia tambm se realiza frequentemente, quando se selecciona a amostra a partir de uma listagem dos elementos de determinado clube ou grupo, como por exemplo a Ordem dos Engenheiros ou a Associao dos Professores. O problema da seleco da amostra um problema para o qual, nesta fase, no possvel avanar nenhuma teoria, mas sobre o qual se podem tecer algumas consideraes gerais, tanto no que diz respeito Ao nmero de elementos que devemos seleccionar, ou seja, dimenso da amostra; Como forma de seleccionar esses elementos da populao, para constiturem a amostra. No que diz respeito dimenso da amostra: Esta dimenso depende muito da variabilidade da populao subjacente. Por exemplo, se relativamente populao constituda pelos alunos do 10. ano de uma escola secundria, estivermos interessados em estudar a mdia das suas idades, a dimenso da amostra a recolher no necessita de ser muito grande j que a varivel idade apresenta valores muito semelhantes, numa classe etria muito restrita. No entanto se a caracterstica a estudar for o tempo mdio que os alunos levam a chegar de casa escola, j a amostra ter de ter uma dimenso maior, uma vez que a variabilidade da populao muito maior. Cada aluno pode apresentar um valor diferente para esse tempo. Num caso extremo, se numa populao a varivel a estudar tiver o mesmo valor para todos os elementos, ento bastaria recolher uma amostra de dimenso 1 para se ter informao completa sobre a populao; se, no entanto, a varivel assumir valores diferentes para todos os elementos, para se ter o mesmo tipo de informao, com a mesma preciso, seria necessrio investigar todos os elementos. Assim, quanto maior for a variabilidade da caracterstica que se est a estudar, maior ter que ser a dimenso da amostra a recolher. A dimenso da amostra ter de ser tanto maior, quanto maior for a preciso exigida. Existem tcnicas que permitem obter valores mnimos para as dimenses das amostras a recolher e que garantem estimativas com uma determinada preciso exigida partida. Uma vez garantida essa preciso, a opo por escolher uma amostra de maior dimenso, uma questo a ponderar entre os custos envolvidos e o ganho com o acrscimo de preciso. Nos exemplos da seco anterior esta exigncia j foi manifestada. Por exemplo, quando numa tarefa da seco anterior, procurmos estimar a proporo de condutores com Via Verde, obviamente que sabemos partida que o intervalo (0, 1) contm essa proporo. Mas este saber no nos adianta nada! Ns precisamos de uma maior preciso, isto , de dois valores a e b, entre 0 e 1, tal que o intervalo [a, b] tenha uma pequena amplitude (quanto menor for a amplitude do intervalo, maior a preciso) e que com uma grande confiana contenha essa proporo:

Organizao e tratamento de dados

190

Note-se que a confiana de que estamos a falar pode ser medida em termos de probabilidade (a estudar ao nvel do ensino secundrio). Convm ainda observar que a dimenso da amostra a recolher no directamente proporcional dimenso da populao a estudar, isto , se por exemplo para uma populao de dimenso 1000 uma amostra de dimenso 100 for suficiente para o estudo de determinada caracterstica, no se exige necessariamente uma amostra de dimenso 200 para estudar a mesma caracterstica de uma populao anloga, mas de dimenso 2000, quando se pretende obter a mesma preciso. Como dizia George Gallup, um dos pais da consulta da opinio pblica (Tannenbaum, 1998, p. 438): Whether you poll the United States or New York State or Baton Rouge (Louisiana) you need the same number of interviews or samples. Its no mystery really if a cook has two pots of soup on the stove, one far larger than the other, and thoroughly stirs them both, he doesnt have to take more spoonfuls from one than the other to sample the taste accurately. Finalmente chama-se a ateno para o facto de que se o processo de amostragem originar uma amostra enviesada, aumentar a dimenso no resolve nada, antes pelo contrrio! Por exemplo, quando pretendemos estimar a altura mdia dos alunos de uma escola, no pelo facto de se perguntar a altura a todos os elementos da equipa de basquete da escola, em vez de s a alguns, que obtemos uma melhor estimativa para essa altura mdia de todos os alunos da escola!

6.3.1 Amostra aleatria simples sem reposio e com reposio To importante como a dimenso da amostra a forma como os elementos so seleccionados da populao. Como podemos estar confiantes de que a amostra obtida representativa? Um princpio fundamental que se tem de ter presente o da aleatoriedade. Temos de utilizar um processo que garanta que qualquer elemento da populao tenha alguma possibilidade de pertencer amostra: Amostra aleatria ou probabilstica e amostra no aleatria Dada uma populao, uma amostra aleatria ou probabilstica uma amostra tal que qualquer elemento da populao tem alguma probabilidade de ser seleccionado para a amostra. Numa amostra no aleatria, alguns elementos da populao podem no ter qualquer possibilidade de serem seleccionados para a amostra. Suponha o caso de um aluno que foi encarregue de seleccionar uma amostra de alunos da escola, para averiguar quantas horas passam por dia frente da televiso. Este aluno decide s perguntar aos colegas do sexo feminino! Esta

Organizao e tratamento de dados

191

amostra no aleatria, pois h parte dos alunos que nunca podero ser seleccionados para pertencer amostra. Existem algumas tcnicas para obter amostras aleatrias. Exemplificamos duas dessas tcnicas que conduzem s amostras aleatrias simples e amostras estratificadas. Amostra aleatria simples sem reposio Dada uma populao, uma amostra aleatria simples de dimenso n um conjunto de n unidades da populao, tal que qualquer outro conjunto de n unidades teria igual probabilidade de ser seleccionado. Uma amostra destas pode ser escolhida sequencialmente da populao, escolhendo um elemento de cada vez, sem reposio, pelo que em cada seleco cada elemento tem a mesma probabilidade de ser seleccionado. Exemplificamos a seguir um processo de obter uma amostra aleatria simples. Exemplo Como seleccionar alunos de uma turma. Consideremos a populao constituda pelos 18 alunos de uma turma do 10. ano de uma determinada escola secundria, em que a caracterstica de interesse a estudar a altura mdia desses alunos. Uma maneira possvel de recolher desta populao uma amostra aleatria, seria escrever cada um dos indicadores (n. do aluno, nome, ) dos elementos da populao num quadrado de papel, inserir todos esses bocados de papel numa caixa e depois seleccionar tantos quantos a dimenso da amostra desejada. A recolha tem de ser feita sem reposio pois quando se retira um papel (elemento da populao), ele no reposto enquanto a amostra no estiver completa (com a dimenso desejada). Qualquer conjunto de nmeros recolhidos desta forma dar origem a uma amostra aleatria, constituda pelas alturas dos alunos seleccionados. O processo que acabmos de descrever no prtico se a populao a estudar tiver dimenso elevada. Neste caso, um processo de seleccionar uma amostra aleatria simples consiste em utilizar uma opo da calculadora, a funo randInt(i,j), que gera nmeros aleatrios8 inteiros dentro dos limites especificados i e j. Para seleccionar uma amostra de uma populao utilizando a calculadora procede-se em duas etapas: atribui-se um nmero a cada elemento da populao, sequencialmente, por exemplo de 1 at N (dimenso da populao); utiliza-se a calculadora para gerar nmeros inteiros entre 1 e N. Tm de se gerar, pelo menos, tantos nmeros quantos os necessrios para constiturem a amostra. Dizemos pelo menos, pois se durante o processo da gerao se obtiver algum nmero igual a algum que j tenha sado, deita-se esse nmero fora e gera-se um outro. Exemplo (cont.) - Considerando a populao do exemplo anterior, constituda por 18 elementos, vamos numer-los com os nmeros 1, 2, 3, , 17, 18 (podia ser utilizado qualquer outro conjunto de 18 nmeros sequenciais). Para seleccionar uma amostra de dimenso 4 geramos 4 nmeros na calculadora, utilizando a opo randInt(1,18). Como dissemos anteriormente, se se pretende uma amostra aleatria simples sem reposio, quando se geram os nmeros, se se obtiverem

Pseudo-aleatrios

Organizao e tratamento de dados

192

nmeros repetidos, tem de se proceder a novas geraes para se obterem nmeros diferentes. Uma alternativa ao tipo de amostragem descrito anteriormente considerar a amostra com reposio: Amostra aleatria com reposio para obter uma amostra aleatria com reposio, quando um elemento seleccionado da populao, verifica-se a caracterstica de interesse e repe-se na populao, antes de se seleccionar o prximo elemento. Embora saia fora do mbito deste nvel, podemos adiantar que estes dois processos de amostragem no so equivalentes se a dimenso da populao no for suficientemente grande. Uma inferncia baseada numa amostra de dimenso n, recolhida sem reposio , de um modo geral, mais correcta do que a baseada numa amostra da mesma dimenso, mas recolhida com reposio. No entanto, se a dimenso da populao for muito grande, quando comparada com a dimenso da amostra que se recolhe, j podemos considerar os dois processos equivalentes. alis simples de explicar porque que se verifica esta situao: se a populao tiver uma grande dimenso, a probabilidade de seleccionar o mesmo elemento duas vezes muito pequena, pelo que praticamente indiferente que o elemento seleccionado para pertencer amostra seja posteriormente reposto ou no, antes de seleccionar o prximo elemento. Quando que se costuma considerar que a populao muito grande, utilizando-se at o termo populao infinita? quando a sua dimenso pelo menos 20 vezes maior que a dimenso da amostra que se pretende seleccionar. 6.3.2 Amostra estratificada Por vezes sabemos que a nossa populao constituda por alguns grupos mais ou memos homogneos entre si, relativamente caracterstica que se est a estudar. Neste caso dizemos que a populao constituda por estratos e a melhor forma de recolher uma amostra desta populao recolher uma amostra estratificada. Por exemplo se se pretende estimar a idade mdia dos alunos de uma escola secundria, possvel considerar trs estratos mais ou menos homogneos quanto caracterstica Idade e que so os anos de escolaridade 10., 11. e 12. anos. Posteriormente, selecciona-se de cada um destes estratos uma percentagem de elementos que iro constituir a amostra, sendo esta percentagem, de um modo geral, proporcional dimenso dos estratos. Amostra estratificada - Uma vez identificados os estratos, extrai-se de cada um destes estratos uma amostra, de forma aleatria. O conjunto de todas estas amostras constitui a amostra pretendida. Tarefa O meio de transporte utilizado pelos alunos para irem para a escola. Como seleccionar uma amostra para fazer este estudo? A Junta de Freguesia estava interessada em conhecer o meio de transporte utilizado pelos alunos para irem para a escola da sua zona, que s tinha o 3 ciclo, pois pretendia saber se seria necessrio pedir um reforo nas carreiras de autocarros que servem a escola.

Organizao e tratamento de dados

193

Assim, pediu ao Director que lhe fornecesse a informao desejada. Conhecedor deste pedido, um grupo de 3 alunos, que pretendia fazer um pequeno projecto sobre Estatstica, no mbito dos seus trabalhos escolares, ofereceu-se para realizar este estudo. O primeiro passo para a realizao do estudo, foi a planificao da recolha de dados. A amostra a recolher deveria reflectir a constituio da populao, isto , se um dos anos tivesse mais alunos seria necessrio recolher para a amostra mais alunos desse ano. Ento, ter de constituir-se a amostra com uma percentagem de alunos de cada ano de escolaridade, de modo a representar, o melhor possvel, todos os alunos da escola. Esta percentagem teria de ser calculada em funo do nmero de alunos que se pretendessem inquirir. Por exemplo, para simplificar, admitamos que a escola tem um total de 469 alunos, assim distribudos pelos 3 anos: 7. ano 140 alunos; 8. ano 148 alunos; 9. ano 181 alunos Admitamos que, depois de algumas consideraes sobre o nmero de alunos a inquirir, se tinha decidido recolher uma amostra de dimenso 75. O problema da escolha da dimenso da amostra sai fora do mbito deste nvel de ensino. Deve-se, no entanto, referir que quanto maior for a dimenso da amostra, mais fiveis sero os resultados, mas tambm mais tempo ser necessrio para os obter (neste caso no se pe a questo dos gastos em dinheiro, como normalmente a situao deste tipo de estudos). Neste caso, vamos admitir que o grupo decidiu inquirir 75 colegas, pois acharam razovel que cada um fizesse cerca de 25 entrevistas. O 1. passo para a seleco da amostra calcular a proporo de cada ano, na populao: N de alunos por ano Ano Proporo 7. 140 (6 turmas) 0,298507 8. 148 (6 turmas) 0,315565 9. 181 (7 turmas) 0,385928 469 Total O 2. passo calcular quantos alunos se vo seleccionar de cada ano para pertencerem amostra, o que ser feito tendo em conta as propores obtidas anteriormente: Ano 7. 8. 9. Total Proporo 0,298507 0,315565 0,385928 0,298507x75=22,39 0,315565x75=23,67 0,385928x75=28,94 N de alunos da amostra 22 24 29 75

Perante os resultados anteriores decidiram que cada um dos 3 alunos que constitua o grupo que estava a realizar o estudo ficaria encarregue de inquirir cada ano de escolaridade. Como seleccionar agora os alunos de cada ano? Podem definir-se vrias estratgias. Por exemplo, no caso do 7. ano de escolaridade, com 6 turmas, de 4 das turmas escolhem aleatoriamente 4 alunos e das outras 2 escolhem 3 alunos. Esta escolha pode ser feita atravs do n. do aluno, utilizando a funo randInt(1, n. alunos da turma), da calculadora, ou ento utilizando o seguinte processo para a escolha dos alunos de uma das turmas com 25 alunos: quando tocar para um dos

Organizao e tratamento de dados

194

intervalos, so seleccionados, por exemplo, o 2., o 8., o 14. e o 20. alunos a sarem da sala. Este processo que acabamos de descrever, de seleccionar o 2., o 8., o 14. e o 20., tem a particularidade, como se nota imediatamente, de a diferena entre os nmeros ser constante e neste caso igual a 6. Temos aqui um caso particular da amostragem sistemtica, que desenvolveremos mais em pormenor na seco seguinte. 6.3.3 Amostra sistemtica Uma alternativa amostragem aleatria simples sem reposio, a amostragem sistemtica, particularmente indicada quando temos uma listagem dos indivduos da Populao. Por exemplo, se pretendermos seleccionar uma amostra de 75 alunos de uma Escola com 1350 alunos, considera-se um ficheiro com o nome dos 1350 alunos ordenados por ordem alfabtica (ou por qualquer outra ordem). Considera-se o quociente 1350/75=18 e dos primeiros 18 elementos da lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos sistematicamente todos os elementos distanciados de 18 unidades. Assim, se o elemento seleccionado aleatoriamente de entre os primeiros 18, foi o 14, os outros elementos a serem seleccionados so 32 (=14+18), 50 (=32+18), 68 (=50+18), etc. Obviamente que o quociente entre a dimenso da populao e a da amostra no necessariamente inteiro, como anteriormente, mas no h problema pois considera-se a parte inteira desse quociente. Na seco anterior apresentou-se um exemplo de uma amostragem sistemtica. Numa turma com 25 alunos, em que se pretendia seleccionar 4 alunos, utilizou-se o seguinte processo: 1) Fez-se o quociente 25/4, tendo-se obtido a parte inteira igual a 6; 2) Dos alunos com os nmeros de 1 a 6, escolheu-se aleatoriamente 1, tendo-se obtido, por exemplo, o nmero 2; 3) Os alunos seleccionados so os nmeros 2, 8 (=2+6), 14 (=8+6) e 20 (=14+6). Amostra aleatria sistemtica Dada uma populao de dimenso N, ordenada por algum critrio, se se pretende uma amostra de dimenso n, escolhe-se aleatoriamente um elemento de entre os k primeiros, onde k a parte inteira do quociente N/n. A partir desse elemento escolhido, escolhem-se todos os k-simos elementos da populao para pertencerem amostra.

Organizao e tratamento de dados

195

6.4 Experincia aleatria, Espao de resultados, Acontecimentos.


Como dissemos na seco 3.3, o objectivo da Estatstica o estudo de Populaes, isto conjunto de indivduos (no necessariamente pessoas) com algumas caractersticas comuns que se pretendem estudar. Por exemplo, podemos estar interessados em estudar a caracterstica Nmero de irmos de cada aluno de uma escola. O fenmeno que consiste em observar esta caracterstica um fenmeno aleatrio, pois no sabemos, antes de fazer a pergunta ao aluno, qual a resposta que ele vai dar. No entanto j no teria interesse averiguar a caracterstica O aluno tem nome?, pois sabemos que neste caso todos os alunos teriam de dar a mesma resposta e que Sim. Assim, a observao de uma caracterstica que tenhamos interesse em estudar e a que chammos Varivel (seco 3.3), no mais que a observao de um fenmeno aleatrio, caracterizado pela existncia de variabilidade dos seus resultados e em que a preocupao permanente a de construir um modelo que traduza essa variabilidade. Um princpio fundamental da Estatstica compreender que: A variabilidade existe e pode ser modelada Existem situaes, que so alis as mais correntes em Estatstica, em que no possvel observar a caracterstica em estudo em todos os elementos da Populao estudando-se s uma parte da Populao - a Amostra. Como o nosso objectivo inferir propriedades para a populao a partir do estudo dos dados da amostra, as amostras constitudas pelos dados recolhidos devem representar convenientemente as populaes subjacentes. Como vimos na seco anterior, dizemos que neste caso as amostras so representativas das populaes de onde foram seleccionadas. Como tambm vimos na seco anterior, esta fase da seleco de uma amostra com o objectivo de tirar concluses para a populao muito importante, pois se a amostra no for convenientemente seleccionada, as concluses que depois retiramos para a populao podem ser falsas. Por exemplo, no seria correcto, recolher informao junto de alguns rapazes da escola sobre quantas horas passam por semana a jogar no computador, se pretendermos saber quantas horas todos os alunos da escola gastam nessa actividade. De um modo geral, as raparigas no so to entusiastas desta forma de passar o tempo... Assim, ao admitir a representatividade de uma amostra, seleccionada de uma populao com o objectivo de estudar determinada caracterstica, estamos a admitir que a proporo de indivduos na populao, com essa caracterstica, preservada na amostra. Por outro lado, ao inferir para a populao as propriedades verificadas na amostra, estamos tambm a admitir a preservao da proporo verificada na amostra, para a populao, sendo esta a base do raciocnio inferencial em Estatstica, isto do raciocnio que nos permite a partir do conhecimento da parte conjecturar para o todo e posteriormente tomar decises, quantificando o erro das decises tomadas (questo que se situa fora do mbito desta brochura). Ao processo utilizado para a aquisio dos dados que constituem a amostra, damos o nome de experincia aleatria. Como j referimos anteriormente, experincia aleatria o processo de observar um resultado de um fenmeno aleatrio.

Organizao e tratamento de dados

196

Quando se realiza uma experincia aleatria: obtm-se um resultado, de entre um conjunto de resultados conhecidos de antemo, mas no se tem conhecimento suficiente sobre o resultado que ir sair em cada realizao da experincia. Admite-se ainda que a experincia se pode repetir e que as repeties so realizadas nas mesmas circunstncias e so independentes. A experincia tem de se repetir tantas vezes quantas as observaes necessrias para constituir a nossa amostra. Na seleco de uma amostra temos de ter em considerao que se deve recolher um nmero razovel de dados para que as nossas inferncias sejam mais precisas. Um ponto importante a referir, que, embora seleccionando o mesmo nmero de elementos da populao, raramente se obtm duas amostras com os mesmos dados. precisamente esta aleatoriedade presente na repetio da experincia e por conseguinte, no processo de recolha de dados, ou dito ainda de outro modo, na seleco da amostra, que, ao produzir um determinado padro de comportamento, nos vai permitir inferir para a Populao as propriedades verificadas na Amostra que entretanto se seleccionou. Se, por exemplo, estivermos interessados em averiguar se uma moeda equilibrada, temos de repetir a experincia de lanar a moeda um nmero grande de vezes. Se aps um grande nmero de lanamentos da moeda se verifica que a percentagem de vezes que a face Euro surge, superior percentagem de vezes da face Nacional, podemos inferir que a moeda no equilibrada. No poderamos tirar esta concluso, mesmo que em 10 lanamentos da moeda a face Euro tivesse surgido 8 vezes, pois uma repetio de 10 experincias no permite visualizar nenhum padro de comportamento da moeda. A seleco aleatria de uma amostra, de dimenso razovel, permite que os resultados do estudo da amostra possam ser estendidos para a Populao (ver seco 6.3 sobre a seleco da amostra). So exemplos de experincias aleatrias: Perguntar a uma pessoa ao acaso, da sua cidade, quantas pessoas constituem o seu agregado familiar; Perguntar a um aluno ao acaso, da escola, qual o animal domstico preferido; Lanar uma moeda de 1 Euro ao ar e ver o resultado que sai; Lanar uma moeda de um euro ao ar 10 vezes e ver quantas vezes sai a face euro; Ao acordar, de manh, ir janela e num perodo de 5 minutos, ver quantos carros encarnados passam; Medir o tempo que de manh se leva a chegar escola; Perguntar a um aluno ao acaso, da escola, quantas mensagens de telemvel enviou no dia anterior; Escolher ao acaso 3 alunos da turma (com 10 rapazes) e verificar quantos so rapazes. As situaes anteriores so exemplos de experincias aleatrias, porque alm de envolverem aleatoriedade, o que se pretende observar est bem especificado. O mesmo no se passa com a seguinte situao: ao acordar, de manh, ir janela.

Organizao e tratamento de dados

197

Efectivamente, na situao anterior no se especificou o que se pretende observar, ou seja, qual o fenmeno aleatrio em estudo, de modo a termos uma experincia aleatria. No entanto, associado situao anterior so experincias aleatrias (Graa Martins et al, 1999): Ao acordar, de manh, ir janela e ver se chove; Ao acordar, de manh, ir janela e contar num perodo de 5 minutos, quantos carros encarnados passam. Ao conjunto de todos os resultados possveis associados realizao de uma experincia aleatria, chamamos espao de resultados ou espao amostral. Espao de resultados conjunto cujos resultados so os que consideramos como possveis, ao modelar um fenmeno aleatrio. Exemplo Espaos de resultados. Para cada uma das experincias aleatrias consideradas anteriormente construa o espao de resultados associado. N de pessoas do agregado familiar {1, 2, 3, 4, ...} Perguntar a um aluno ao acaso, da escola, qual o animal domstico preferido {co, gato, peixe, passarinho, tartaruga, coelho, hmster, rato, tartaruga, ...} Lanar uma moeda de 1 Euro ao ar e ver o resultado que sai {face Euro, face Nacional} Lanar uma moeda de um euro ao ar 10 vezes e ver quantas vezes sai a face euro {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Medir o tempo que leva a chegar escola de manh (em minutos) {1, 2, 3, 4, 5, 6, 7, ... } Perguntar a um aluno da escola, escolhido ao acaso, quantas mensagens de telemvel enviou no dia anterior {0, 1, 2, 3, 4, 5, 6, 7, ... } Escolher ao acaso 3 alunos da turma (com 10 rapazes) e verificar quantos so rapazes {0, 1, 2, 3} Ao acordar, de manh, ir janela e ver se chove {chove, no chove} Ao acordar, de manh, ir janela e contar num perodo de 5 minutos, quantos carros encarnados passam {0, 1, 2, 3, 4, ...} A definio correcta do espao de resultados associados a uma experincia um passo fundamental para de seguida definirmos acontecimentos. No entanto, nem sempre esta definio simples, sendo um processo que, por vezes, envolve alguma idealizao no modelo utilizado para interpretar a realidade. Exemplo Lanamento da moeda9. Admita que tem uma moeda de um Euro, equilibrada. Mas o que uma moeda equilibrada? a moeda relativamente qual

Graa Martins (2005), p. 128

Organizao e tratamento de dados

198

se admite, partida, que existe igual possibilidade de sair face Euro ou face Nacional ou no prximo lanamento que faamos com ela estamos a admitir o princpio da simetria, de que falaremos a seguir. Estamos, assim, a pensar num modelo matemtico para traduzir o facto de que em qualquer lanamento da moeda, s temos dois resultados possveis, face Euro e face Nacional e em que a probabilidade de sair a face Euro igual de sair a face Nacional e igual a 1/2:
Modelo para o resultado do lanamento da moeda equilibrada

Resultado Probabilidade

Face Euro 1/2

Face Nacional 1/2

No nos estamos a preocupar, por exemplo, com a fora ou direco com que atiramos a moeda, nem to pouco com o desgaste acusado pela moeda aps sucessivos lanamentos! Tambm no estamos a encarar a hiptese da moeda cair de p! Se nos estivssemos a preocupar em arranjar um modelo que traduzisse mais fielmente a realidade, estaramos a arranjar um modelo matemtico to complicado que seria impossvel de tratar e no nos serviria para nada. O estatstico George Box dizia: Todos os modelos so maus, alguns modelos so teis. Assumindo ento o modelo anterior, um pouco simplista, para o lanamento da moeda, se lanarmos a moeda repetidas vezes, esperamos que o nmero de faces Euro seja aproximadamente metade do nmero de lanamentos. Se, por outro lado, recolhermos uma amostra de dimenso 1, isto , se fizermos um nico lanamento, no sabemos qual o resultado que se vai verificar, se ser face Euro ou face Nacional, mas dizemos que a probabilidade de sair face Euro 1/2. Como refere Bartholomew (1995) We all depend on models to interpret our everyday experiences. We interpret what we see in terms of mental models constructed on past experience and education. They are the constructs that we use to understand the pattern of our experiences. O comportamento de grandes grupos de indivduos, pode ser tambm considerado aleatrio e o processo utilizado para definir um modelo, o de verificar o que que se passa com um grande conjunto de indivduos (Graa Martins, 2005), como exemplificamos a seguir. Exemplo Tempo de vida10. Se nos perguntassem qual a probabilidade de uma determinada pessoa morrer no prximo ano, obviamente que no saberamos dizer. No entanto, se observarmos milhes de pessoas, poderemos obter um padro para o comportamento das mortes. assim que poderemos dizer que a proporo de homens, com idades compreendidas entre 25 e 34 anos, que morrero no prximo ano, anda volta de 0,21%. Esta percentagem, verificada para um conjunto grande de indivduos, ser entendida como a probabilidade de que um homem jovem morra no prximo ano. Para as mulheres com aquela idade, a probabilidade de morrer ser cerca de 0,07%. Estamos, a partir da observao de resultados verificados numa amostra, a inferir para toda a populao constituda pelos indivduos da classe etria considerada. Estes modelos tm muito interesse para as

10

Moore (1997).

Organizao e tratamento de dados

199

companhias de seguros, quando se trata nomeadamente de seguros de vida, j que lhes vai permitir definir uma poltica de preos para as aplices, sendo at natural que cobrem mais por um seguro de vida a um homem, do que a uma mulher. Pode ainda acontecer que tenhamos de idealizar um modelo que no corresponde realidade, mas para o qual no exista outra possibilidade de o definir. Por exemplo se pensarmos na experincia aleatria que consiste em averiguar o tempo de vida T de uma pessoa escolhida ao acaso, consideramos para espao de resultados S = {Todos os valores de T, tal que T>0}. Ser que uma pessoa pode ter 500 anos? E 400? E 200? Temos dificuldade em estabelecer um limite superior para o valor de T, pelo que temos de nos abstrair um pouco da realidade considerando aquele modelo para o espao de resultados. Acontecimento um subconjunto do espao de resultados. Considerando a experincia aleatria que consiste em perguntar a uma pessoa residente na sua cidade, escolhida ao acaso, quantas pessoas constituem o seu agregado familiar, o espao de resultados constitudo por todos os inteiros no negativos (excludo o zero). Alguns acontecimentos so: 3 pessoas, que podemos representar por {3} Entre 2 e 4 pessoas (inclusive), que podemos representar por {2, 3, 4} Mais de 3 pessoas, que podemos representar por {4, 5, 6,...} Menos de 10 pessoas, que podemos representar por {1, 2, 3,..., 9} De um modo geral os acontecimentos so representados por letras maisculas A, B, etc. Diz-se que se realizou o acontecimento A, quando o resultado da experincia pertence a A. Quando os acontecimentos so constitudos por um nico resultado, dizem-se acontecimentos elementares. Exemplo Lanamento de dois dados

Considerando a experincia aleatria que consiste em lanar dois dados e verificar as faces que ficam voltadas para cima, pretende-se identificar o espao de resultados e os acontecimentos o nmero de pintas igual nos dois dados e a soma das pintas 7. Para descrever o espao de resultados vamos considerar dois dados, um vermelho e um verde, para os distinguir. O espao de resultados constitudo por todos os pares de dados considerados na figura a seguir. O nmero de elementos do espao de resultados 36 = 6X6.

Organizao e tratamento de dados

200

Chamamos a ateno que, por exemplo, o par (1,3) no o mesmo que o par (3,1). No par ordenado, o primeiro elemento refere-se a um dos dados (neste caso o dado vermelho) e o segundo elemento refere-se ao outro dado (o dado verde). O acontecimento A, o nmero de pintas igual nos dois dados constitudo pelos pares

ou em notao em termos dos pares ordenados, referindo-nos ao nmero de pintas A = {(1,1), (2,2), (3,3), (4,4), (5,5), (6,6)} Finalmente o acontecimento a soma das pintas 7 constitudo pelos pares

ou em notao em termos dos pares ordenados B = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} Qual a diferena entre o espao de resultados associado experincia aleatria do lanamento de dois dados e a experincia que consiste no lanamento do mesmo dado duas vezes? O espao de resultados idntico nas duas experincias. Considermos dados de cores distintas para justificar a nossa opo para descrever o espao de resultados como um conjunto de pares ordenados, mas bvio que este mesmo espao serve para modelar o lanamento de dois dados idnticos ou dois lanamentos de um mesmo dado. Associado experincia que acabmos de descrever no exemplo anterior, poderamos ter considerado o seguinte espao de resultados S: S = {sarem dois 1s, sair um 1 e um 2, sair um 1 e um 3, sair um 1 e um 4, sair um 1 e um 5, sair um 1 e um 6, sarem dois 2s, sair um 2 e um 3, sair um 2 e um 4, sair um 2 e um 5, sair um 2 e um 6, sarem dois 3s, sair um 3 e um 4, sair um 3 e um 5, sair um 3 e um 6, sarem dois 4s, sair um 4 e um 5, sair um 4 e um 6, sarem dois 5s, sair um 5 e um 6, sarem dois 6s}. Qual a desvantagem em considerar este espao de resultados? Como veremos mais frente, se o espao de resultados for constitudo por resultados igualmente possveis, o que no acontece nesta situao, podemos utilizar uma regra conhecida pela regra de Laplace, para atribuir probabilidades a acontecimentos associados ao fenmeno em estudo.

Organizao e tratamento de dados

201

Ainda associado ao lanamento dos dois dados, suponhamos que o fenmeno aleatrio que estvamos interessados em estudar, era o resultado da soma das pintas das faces que ficam voltadas para cima. Neste caso o espao de resultados S={2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Nota histrica (Freedman et al. 1991) - No sculo XVII, os jogadores italianos costumavam fazer apostas sobre o nmero total de pintas obtidas no lanamento de 3 dados. Acreditavam que a possibilidade de obter um total de 9 era igual possibilidade de obter um total de 10. Por exemplo, diziam que uma combinao possvel para dar um total de 9 seria 1 pinta num dos dados, 2 pintas num outro dado, 6 pintas no terceiro dado Abreviando o resultado anterior para 1 2 6, todas as combinaes para dar o 9 so: 126 135 144 234 225 333

Analogamente, obtinham 6 combinaes para o 10: 145 136 226 235 244 334

Assim, os jogadores argumentavam que o 9 e o 10 deveriam ter a mesma possibilidade de se verificarem. Contudo, a experincia mostrava que o 10 aparecia com uma frequncia um pouco superior ao 9. Pediram a Galileu que os ajudasse nesta contradio, tendo este realizado o seguinte raciocnio: Pinte-se um dos dados de branco, o outro de cinzento e o outro de preto. De quantas maneiras se podem apresentar os trs dados depois de lanados? O dado branco pode apresentar 6 possibilidades diferentes. Para cada uma destas possibilidades o dado cinzento pode apresentar 6 possibilidades, obtendo-se 6 6 possibilidades para os dois dados. Correspondendo a cada uma destas possibilidades, o dado preto pode apresentar 6 possibilidades obtendo-se no total 6 6 6 = 216 possibilidades. Galileu listou todas as 216 maneiras de 3 dados se apresentarem depois de lanados. Depois percorreu a lista e verificou que havia 25 maneiras de obter um total de 9 e 27 maneiras de obter um total de 10. O raciocnio dos jogadores no entrava em linha de conta com as diferentes maneiras como os dados se podiam apresentar. Por exemplo o triplo 3 3 3, que d o 9, corresponde unicamente a uma forma de os dados se apresentarem, mas o triplo 3 3 4 que d o 10, corresponde a 3 maneiras diferentes:

pelo que o raciocnio dos jogadores deve ser corrigido de acordo com a tabela seguinte: Triplos para o 9 1 1 1 2 2 3 2 6 3 5 4 4 3 4 2 5 3 3 Total N de maneiras Triplos para o 10 de obter o triplo 6 1 4 5 6 1 3 6 3 2 2 6 6 2 3 5 3 2 4 4 1 3 3 4 25 Total N de maneiras de obter o triplo 6 6 3 6 3 3 27

Por vezes para definirmos o espao de resultados associados com determinadas experincias, necessrio acrescentar algo sobre a metodologia da realizao da experincia. Por exemplo se pretendermos obter o espao de resultados associado experincia aleatria que consiste em retirar duas bolas de uma caixa contendo quatro bolas brancas e duas pretas, necessrio saber se aps retirar a primeira bola ela reposta ou no na caixa. Na seco 6.3.1 j falmos no processo de amostragem sem reposio e com reposio. Vamos de seguida exemplificar esse processo, no contexto da construo do espao de resultados.

Organizao e tratamento de dados

202

Extraces com reposio e sem reposio Colocaram-se11 numa caixa 3 papis com o nome de 3 meninas: Ana, Maria e Filipa. Considere a experincia aleatria que consiste em retirar da caixa 2 papis e verificar os nomes que saram. Qual o espao de resultados? Para responder a esta questo necessrio saber se a extraco se faz com reposio, isto , se uma vez retirado um papel e verificado o nome se volta a colocar o papel na caixa, antes de proceder extraco seguinte, ou se a extraco feita sem reposio, isto , uma vez retirado um papel, ele no reposto antes de se proceder prxima extraco. No esquema seguinte procuramos representar as duas situaes:

Admitimos que na 1. extraco saiu o papel com o nome da Maria. Na 2. extraco, saiu o nome da Filipa nos dois casos, mas na extraco com reposio havia uma possibilidade em trs de ele sair, tal como na 1. extraco, enquanto que na extraco sem reposio havia uma possibilidade em duas de ele sair. Quer dizer que neste caso havia uma maior probabilidade de sair o nome da Filipa. Os espaos de resultados correspondentes s duas situaes com reposio e sem reposio, so: Espao de resultados com reposio Ana, Ana Ana, Maria Ana, Filipa Maria, Ana Maria, Maria Maria, Filipa Filipa, Ana Filipa, Maria Filipa, Filipa Espao de resultados sem reposio Ana, Maria Ana, Filipa Maria, Ana Maria, Filipa Filipa, Ana Filipa, Maria

11

Graa Martins et al (1999).

Organizao e tratamento de dados

203

O acontecimento saiu o nome da Maria constitudo pelos seguintes resultados, considerando a extraco com reposio e sem reposio, respectivamente: Acontecimento Saiu o nome da Maria Resultados Ana, Maria Maria, Ana Maria, Maria Maria, Filipa Filipa, Maria Ana, Maria Maria, Ana Maria, Filipa Filipa, Maria

Com reposio

Sem reposio

Exemplo O saco de berlindes. Considere a experincia aleatria que consiste em extrair 2 berlindes, de um saco com 3 berlindes vermelhos e 2 azuis . Que espao de resultados se associa a esta experincia? Para j necessrio saber se a extraco se faz com reposio ou sem reposio. Vamos considerar as duas situaes. Para identificar o espao de resultados ser mais fcil numerar os berlindes, pelo que vamos numerar os berlindes vermelhos com 1, 2 e 3 e os azuis com 4 e 5. Com reposio Quando se retira um berlinde verifica-se a cor e torna-se a repor o berlinde no saco antes de extrair o prximo. um espao de resultados pode ser constitudo por todos os resultados, em nmero de 25, do esquema seguinte, em que se considera primeiro os berlindes como normalmente se apresentam, e a seguir numerados para ser mais fcil a interpretao:

Sem reposio Neste caso o espao de resultados constitudo por todos os resultados do espao do esquema anterior, exceptuando os pares constitudos pelo mesmo berlinde:

Organizao e tratamento de dados

204

O acontecimento tirar 2 berlindes de cor diferente constitudo pelos resultados

tanto no esquema com reposio, como sem reposio. Podemos considerar mais do que um espao de resultados ao modelar um fenmeno aleatrio? Sim! A associao de um espao de resultados a uma certa experincia aleatria nem sempre nica. No caso do exemplo anterior, podemos assumir que o espao de resultados associado experincia que consiste em retirar 2 berlindes de um saco com 3 berlindes vermelhos e 2 azuis constitudo pelos resultados elementares {2 berlindes vermelhos, 1 berlinde vermelho e 1 berlinde azul, 2 berlindes azuis} quer a extraco se faa com ou sem reposio. Este alis, o espao de resultados mais intuitivo e que nos vem imediatamente ao pensamento quando idealizamos ou realizamos a experincia considerada. Normalmente -nos indiferente qual o berlinde seleccionado em cada tiragem, porque estamos interessados unicamente na cor. No entanto, como veremos mais frente, quando pretendermos associar probabilidades aos seus resultados, esta associao no imediata como no espao de resultados considerado inicialmente, j que os seus resultados no so todos igualmente possveis. Do mesmo modo, o espao de resultados associado experincia aleatria que consiste em lanar 2 moedas de 1 Euro e ver o resultado que sai, tambm pode ser interpretado como sendo {(Euro, Euro), (Euro, Nacional), (Nacional, Euro), (Nacional, Nacional)} ou {(2 faces Euro), (2 faces Nacional), (1 face Euro e 1 face Nacional)}. Tambm, do mesmo modo que no caso anterior, este ltimo espao de resultados no tem os resultados todos igualmente possveis ao contrrio do primeiro.

Organizao e tratamento de dados

205

6.4.1

Utilizao de diagramas de Venn para representar acontecimentos

Uma tcnica utilizada para visualizar o espao de resultados e os acontecimentos associados a uma experincia aleatria, consiste em utilizar um rectngulo para representar o espao de resultados e crculos para representar os acontecimentos. A essas representaes chamamos diagramas de Venn. Exemplo Famlias de 2 filhos. Considere a experincia aleatria que consiste em verificar o sexo dos filhos das famlias de 2 filhos. O espao de resultados constitudo pelos resultados S={MM, MF, FM, FF}. Seja A o acontecimento pelo menos um dos filhos do sexo masculino. Representando num diagrama de Venn, temos

Exemplo A caixa de disquetes. Considere a experincia aleatria que consiste em retirar 2 disquetes, de uma caixa de 5 disquetes, em que 2 esto avariadas. Represente, atravs de um diagrama de Venn, o espao de resultados e o acontecimento A = {pelo menos uma disquete est avariada}. Representando as disquetes boas por B1, B2 e B3 e as avariadas por A1 e A2, temos

onde representamos, por exemplo, por B1B2, a sada das disquetes boas B1 e B2.

De um modo geral os diagramas de Venn no so construdos escala, pelo que a rea ocupada dentro do espao de resultados com a figura utilizada para representar um acontecimento no , por este motivo, necessariamente proporcional probabilidade de esse acontecimento se realizar. No entanto, se a rea ocupada pelo espao de resultados fosse igual unidade e os diagramas de Venn fossem construdos escala, j as figuras utilizadas para representar os acontecimentos seriam construdas de forma a que as suas reas fossem iguais s probabilidades dos acontecimentos, que representam, se realizarem.

Organizao e tratamento de dados

206

6.4.2

Utilizao de diagramas em rvore para representar acontecimentos

Um outro processo utilizado para visualizar acontecimentos o diagrama em rvore. Este processo especialmente adequado quando a experincia aleatria implica a ocorrncia de uma sequncia de passos. Por exemplo, admitamos que uma loja que vende piza, tem duas modalidades para a base da piza, nomeadamente Base Alta ou Base Baixa e tem 3 alternativas para o tamanho: Pequena, Mdia ou Grande. Uma pessoa que escolha uma destas pizas, ao acaso, de quantas maneiras possveis que pode fazer a escolha, tendo em considerao o critrio da base e do tamanho? O primeiro passo ser a escolha da base, seguindo-se o tamanho da piza:

1 passo

2 passo

O espao de resultados associado a esta experincia aleatria, que consiste em seleccionar, ao acaso, uma piza, constitudo pelos seguintes resultados: {(Base Alta, Pequena), (Base Alta, Mdia), (Base Alta, Grande), (Base Baixa, Pequena), (Base Baixa, Mdia), (Base Baixa, Grande)} Suponhamos ainda que cada piza pode ter na cobertura 2 ou 3 tipos de queijo. Agora, de quantas maneiras diferentes se pode escolher a piza? Considerando agora mais um 3 passo, temos:

Organizao e tratamento de dados

207

1 passo

2 passo

3 passo

Assim, o espao de resultados associado experincia aleatria que consiste em seleccionar uma piza ao acaso, tendo em considerao a base, o tamanho e a cobertura, constitudo pelos resultados: {(Base Alta, Pequena, 2 queijos), (Base Alta, Pequena, 3 queijos), (Base Alta, Mdia, 2 queijos), (Base Alta, Mdia, 3 queijos), (Base Alta, Grande, 2 queijos), (Base Alta, Grande, 3 queijos), (Base Baixa, Pequena, 2 queijos), (Base Baixa, Pequena, 3 queijos), (Base Baixa, Mdia, 2 queijos), (Base Baixa, Mdia, 3 queijos), (Base Baixa, Grande, 2 queijos), (Base Baixa, Grande, 3 queijos)} Associados ao espao acontecimentos:
Acontecimento Seleccionar uma piza ao acaso e ela ser Mdia e de 3 queijos Seleccionar uma piza ao acaso e ela ser Mdia

de

resultados

anterior,

podemos

considerar

vrios

Resultados para que o acontecimento se realize: (Base Alta, Mdia, 3 queijos) (Base Baixa, Mdia, 3 queijos) (Base Alta, Mdia, 2 queijos) (Base Alta, Mdia, 3 queijos) (Base Baixa, Mdia, 2 queijos) (Base Baixa, Mdia, 3 queijos)

Seleccionar uma piza ao acaso e ela ter Base Alta e ser de 2 queijos

(Base Alta, Pequena, 2 queijos) (Base Alta, Mdia, 2 queijos) (Base Alta, Grande, 2 queijos)

Os resultados que compem os acontecimentos anteriores obtm-se muito facilmente a partir da rvore, percorrendo os ramos que satisfaam as caractersticas desejadas. Por exemplo, ao pretender que a piza seja Mdia, verificamos que existem dois ramos com a caracterstica Mdia, e cada um destes ramos ainda se divide em dois raminhos. Assim, todos os raminhos que tenham o

Organizao e tratamento de dados

208

n na caracterstica Mdia, sero resultados do acontecimento Seleccionar uma piza ao acaso e ela ser Mdia. Tarefa A caixa de bombons. O professor leva para a sala de aula uma grande caixa cheia de bombons de trs tipos, em igual proporo. Cada bombom ou tinha uma amndoa, ou uma noz, ou uma cereja. O professor pediu ao Pedro para retirar dois bombons ao acaso. De quantas (e quais) maneiras possveis que o Pedro pode tirar os dois bombons? O professor pediu ainda para descreverem o acontecimento O Pedro retirou pelo menos um bombom com amndoa, que vamos, para simplificar, representar pelo acontecimento A. O que se pretende o espao de resultados associado experincia aleatria que consiste em retirar 2 bombons e verificar o tipo de bombom. Utilizando ainda o diagrama em rvore temos:

S={noz noz, noz amndoa, noz cereja, amndoa noz, amndoa amndoa, amndoa cereja, cereja noz, cereja amndoa, cereja cereja} O acontecimento A constitudo pelos seguintes resultados: A={noz amndoa, amndoa noz, amndoa amndoa, amndoa cereja, cereja amndoa} Os diagramas em rvore so uma boa opo para representar, de uma forma sistemtica, todos os resultados possveis quando estamos perante uma sequncia de acontecimentos, como no caso anterior e na tarefa seguinte. Tarefa Quantas toiletes pode a Mariana vestir? Certa manh a Mariana estava muito indecisa sobre o que devia vestir para ir para a escola. Tinha 1 saia de ganga e 2 pares de calas, um de ganga preta e outro de ganga azul, que ficavam muito bem com 3 t-shirts e que condiziam com dois pares de tnis, uns castanhos e outros brancos. Experimentou tantas toiletes, vestiu, despiu, vestiu..., que acabou

Organizao e tratamento de dados

209

por chegar atrasada escola! s capaz de dizer quantas toiletes diferentes a Mariana poderia ter experimentado?

Tendo em considerao o diagrama em rvore anterior, a Mariana se tivesse experimentado todas as combinaes possveis de peas de vesturio e calado, teria experimentado 18 toiletes! Para obter cada uma das toiletes, basta seguir os ramos da rvore. De acordo com o diagrama anterior, a primeira e ltima toiletes so, respectivamente (Saia de ganga, t-shirt amarela, tnis castanhos) e (Calas azuis, t-shirt vermelha, tnis brancos). Tarefa Quais os resultados que fazem com que o Pedro ganhe o jogo? O professor props o seguinte jogo a ser jogado pelo Pedro e pelo Marco. Lana-se uma moeda de um Euro ao ar e se sair a face Euro, o Pedro ganha o jogo. Se sair a face Nacional, lana-se novamente a moeda ao ar e se sair a face Euro o Pedro ganha o jogo e se sair a face Nacional, ganha o Marco. Quais os resultados possveis deste jogo e quais os resultados que fazem com que o Pedro ganhe o jogo?

Organizao e tratamento de dados

210

O esquema seguinte traduz o jogo anterior: num primeiro lanamento da moeda, ou sai face Euro ou face Nacional. Se sair face Euro o jogo acaba e o Pedro ganha. Se sair face Nacional lana-se novamente a moeda e o Pedro ganha novamente se sair face Euro. Assim, o Pedro ganha se se verificar Euro ou (Nacional, Euro), enquanto que o Marco ganha se se verificar (Nacional, Nacional)

6.4.3 Operaes com acontecimentos O facto de interpretarmos acontecimentos como conjuntos, aliada utilizao dos diagramas de Venn para os visualizar, vai-nos permitir introduzir alguma terminologia utilizada quando falamos de acontecimentos. Assim, representando os acontecimentos associados a um determinado espao de resultados S, por A, B, C, ..., temos: Acontecimento complementar Acontecimento complementar do acontecimento A, o acontecimento constitudo por todos os resultados do espao de resultados S, que no esto em A. Este acontecimento representa-se por ou Ac

Quando um acontecimento se realiza, o seu complementar no se pode realizar. Exemplo Lanamento do dado. Considere a experincia que consiste em lanar um dado com 6 faces e em verificar qual o nmero de pintas da face que fica virada para cima. O espao de resultados associado S={1, 2, 3, 4, 5, 6}. Se representar por A o acontecimento sada de uma face com um nmero mpar de pintas, temos A={1, 3, 5}. O acontecimento complementar de A o acontecimento sada de uma face com um nmero par de pintas, que representamos por ={2, 4, 6}

Organizao e tratamento de dados

211

Acontecimento interseco Acontecimento interseco dos acontecimentos A e B, o acontecimento constitudo pelos resultados que pertencem simultaneamente a A e a B. Este acontecimento representa-se por A B ou (AeB)

ou

Para que o acontecimento interseco de dois acontecimentos se realize, necessrio que os dois acontecimentos se realizem simultaneamente. Exemplo Lanamento do dado (cont.). Sejam B e C os acontecimentos: Acontecimento B O nmero de pintas maior ou igual a 3 ou seja B={3, 4, 5, 6} Acontecimento C O nmero de pintas menor ou igual a 4 ou seja C={1, 2, 3, 4} Acontecimento interseco BeC={3, 4} seguintes

Acontecimentos disjuntos ou mutuamente exclusivos Acontecimentos disjuntos ou mutuamente exclusivos so acontecimentos que no tm resultados comuns

Quando dois acontecimentos so mutuamente exclusivos, a realizao de um deles implica que o outro no se realize. Exemplo Lanamento do dado (cont.). Sejam D e E os seguintes acontecimentos Acontecimento D O nmero de pintas menor ou igual a 2 ou seja D={1, 2} Acontecimento E O nmero de pintas maior que 4 ou seja E={5,6} Os acontecimentos D e E so mutuamente exclusivos

Organizao e tratamento de dados

212

Acontecimento impossvel Acontecimento impossvel o acontecimento que resulta da interseco de acontecimentos disjuntos ou mutuamente exclusivos, ou seja, o acontecimento que no tem qualquer resultado do espao de resultados. Representa-se pelo smbolo (um zero cortado por um trao). Exemplo Lanamento do dado (cont.). Sejam D e E os acontecimentos considerados anteriormente. Ento DeE={}= Acontecimento unio Acontecimento unio dos acontecimentos A e B o acontecimento constitudo por todos os resultados de A ou de B. Representa-se por A B ou (AouB)

ou

Para que a unio de dois acontecimentos se realiza, basta que um dos acontecimentos se realize. Exemplo Lanamento do dado (cont.). Sejam F e G os seguintes acontecimentos Acontecimento F O nmero de pintas menor ou igual a 3 ou seja F={1, 2, 3} Acontecimento G O nmero de pintas maior que 2 e menor que 6 ou seja G={3, 4, 5} Acontecimento unio FouG={1, 2, 3, 4, 5}

Organizao e tratamento de dados

213

Tarefa Lanamento de duas moedas de 1 euro. O professor prope aos alunos realizar a experincia aleatria que consiste em lanar 2 moedas de 1 euro e verificar as faces que ficam viradas para cima. a) Quais os resultados que constituem o espao de resultados? b) Representando por A o acontecimento A face Euro verifica-se 1 vez e por B o acontecimento A face Nacional verifica-se pelo menos 1 vez. Quais os resultados que compem os acontecimentos , AouB e AeB? Resoluo: Os resultados da experincia aleatria que consiste em lanar 2 moedas, e verificar as faces que ficam voltadas para cima, podem ser representados num diagrama em rvore, como se apresenta a seguir:

No esquema anterior representmos por E a face Euro e por N a face Nacional. a) Ento o espao de resultados S = {EE, EN, NE, NN} O espao de resultados tambm poderia ser obtido a partir de uma tabela de dupla entrada:
2 moeda 1 moeda

E EE NE

N EN NN

E N b) A = {EN, NE} B = {EN, NE, NN} = {EE, NN} AouB = {EN, NE, NN} AeB = {EN, NE}

Observe-se que os acontecimentos A e B tm a particularidade de A estar contido em B, pois todos os resultados de A so resultados de B. Assim, como se visualiza no seguinte diagrama de Venn, quando dois acontecimentos A e B so tais que um est contido no outro, por exemplo A contido em B, a unio destes dois acontecimentos o acontecimento B, enquanto que a interseco o acontecimento A:

Organizao e tratamento de dados

214

Tarefa Lanamento de trs moedas de 1 euro 1 verso Considere-se a experincia aleatria que consiste em lanar 3 moedas de 1 euro e verificar as faces que ficam viradas para cima. a) Quais os resultados que constituem o espao de resultados? b) Considere os seguintes acontecimentos: i) A a face Euro aparece 2 vezes ii) B a face Nacional aparece pelo menos 2 vezes c) Quais os resultados que compem os acontecimentos AouB e AeB? Considerando ainda um diagrama em rvore para representar os resultados da experincia aleatria que consiste em lanar 3 moedas e verificar as sequncias das faces que ficam voltadas para cima, temos

a) Do esquema anterior verifica-se que S = {EEE, EEN, ENE, ENN, NEE, NEN, NNE, NNN} b) A = {EEN, ENE, NEE} B = {ENN, NEN, NNE, NNN} c) AouB = {EEN, ENE, NEE, ENN, NEN, NNE, NNN} e AeB = {}= Numa representao em diagrama de Venn, temos

Repare-se que o acontecimento unio de A e B o acontecimento que se realiza sempre que no sarem 3 faces Euro no lanamento das 3 moedas. 2 verso - Consideremos ainda a experincia aleatria que consiste em lanar as 3 moedas de 1 euro, mas agora pretende-se observar quantas vezes sai a face Euro. Qual o espao de resultados associado? Quais os resultados que compem A e B? Neste caso o que se pretende registar o n de vezes que sai a face Euro e no as sequncias de faces. Assim S = {0, 1, 2, 3} A partir deste novo espao de resultados, os acontecimentos A e B so: A = {2} e B = {0,1} (Para que a face Nacional aparea pelo menos 2 vezes, a face Euro no pode aparecer nenhuma vez ou s pode aparecer 1 vez.

Organizao e tratamento de dados

215

6.5 Modelo de Probabilidade para um fenmeno aleatrio. Probabilidade de um acontecimento


No que se segue vamos admitir que os fenmenos aleatrios que se vo estudar so fenmenos cujos espaos de resultados so finitos. Assim, definir um modelo de probabilidade, para um fenmeno aleatrio, implica: A identificao de um espao de resultados; Uma forma de atribuir um nmero a cada um dos resultados, isto , a cada acontecimento elementar, a que chamaremos probabilidade. O processo de atribuir probabilidades deve ser tal, que algumas regras bsicas devem ser satisfeitas para todos os modelos: Regra 1 Uma probabilidade deve ser um nmero no negativo; Regra 2 A soma das probabilidades dos acontecimentos elementares que compem o espao de resultados igual a 1. Observe-se que a definio anterior no exclui a possibilidade de um acontecimento elementar ter probabilidade zero. No entanto, em espaos finitos uma probabilidade igual a zero interpretada, na prtica, como uma impossibilidade, pelo que qualquer resultado do espao de resultados, com probabilidade nula, pode ser eliminado do espao de resultados (Feller, 1968, p. 22). 6.5.1 Probabilidade de um acontecimento Admitamos, para j, que tnhamos um modelo de probabilidade associado a um fenmeno aleatrio (veremos a seguir alguns processos para atribuir probabilidades aos resultados de um espao de resultados). Uma vez definido esse modelo, como obter a probabilidade de um acontecimento? Probabilidade de um acontecimento A probabilidade de um acontecimento A representa-se por P(A) e define-se como sendo a soma das probabilidades dos acontecimentos elementares que compem A. Regras para a Probabilidade A interpretao que fizemos de Probabilidade de um acontecimento, no incio deste captulo, como a proporo de vezes que o acontecimento se verifica, quando repetimos a experincia um grande nmero de vezes, sugere-nos um conjunto de regras a que deve obedecer qualquer forma de atribuir probabilidades a acontecimentos de um mesmo espao de resultados S: Regra 1 Qualquer que seja o acontecimento A, tem-se que P(A) 0; Regra 2 A probabilidade do espao de resultados, S, igual a 1, P(S)=1; Regra 3 Dados os acontecimentos A e B, disjuntos, ento a probabilidade de A ou B se realizarem, P(A B), ou P(AouB), igual soma das probabilidades de A e de B se realizarem,

P(AouB) = P(A) + P(B)

Organizao e tratamento de dados

216

Propriedades da Probabilidade Tendo em conta as regras anteriores, e com a ajuda dos diagramas de Venn, podem-se deduzir as seguintes propriedades para a probabilidade de acontecimentos de um mesmo espao de resultados S: Propriedade 1 A probabilidade do acontecimento impossvel igual a zero, P()=0 P(S ou ) = P(S) + P() 1 = 1 + P() P() = 0

Propriedade 2 A probabilidade P(A) de qualquer acontecimento A tal que 0P(A)1 Esta propriedade imediata tendo em conta que A constitudo por alguns resultados do espao de resultados e a soma das probabilidades de todos os resultados igual a 1 Propriedade 3 A probabilidade do acontecimento acontecimento A, P( ) igual a P( ) = 1 P(A) complementar do

Esta propriedade imediata tendo em conta que: P(A ou )=P(A) + P( ) de acordo com a Regra 3

P(S) = 1 = P(A) + P( ) de acordo com a Regra 2

Propriedade 4 Dados dois acontecimentos A e B, a probabilidade de A ou B ou ambos se realizarem, P(A B), igual soma das probabilidades de A e de B se realizarem, menos a probabilidade de A e B se realizarem conjuntamente: P(A B)=P(A)+P(B)-P(A B) Para calcular a probabilidade de que A ou B ou ambos os acontecimentos se realizem, somamos as probabilidades dos acontecimentos elementares que compem A e B. Se houver acontecimentos elementares comuns aos dois acontecimentos, as suas probabilidades esto a ser contabilizadas duas vezes, pelo que temos de subtrair a probabilidade conjunta, soma das probabilidades. Nota Quando perguntamos a algum se quer fruta ou doce para a sobremesa, ser que a pessoa tem de escolher uma de entre as duas alternativas, ou poder escolher as duas? Esta ambiguidade no existe se perguntarmos Amanh vais para a escola de tnis ou de sandlias? Normalmente quando utilizamos o termo ou

Organizao e tratamento de dados

217

ele no tem um significado disjuntivo ou exclusivo, pelo que quando se pede a probabilidade de os acontecimentos A ou B ocorrerem, significa que pode ocorrer qualquer um dos dois ou ambos os acontecimentos. Se pretendermos obter a probabilidade de A ou B ocorrerem, mas sem que ambos possam ocorrer, ento, como facilmente se verifica construindo o diagrama de Venn P(A B)=P(A)+P(B)-2xP(A B)

6.5.2 Processos de construo de modelos de probabilidade ou como atribuir probabilidades aos acontecimentos elementares A probabilidade comeou por ser estudada por matemticos franceses que desenvolveram modelos matemticos associados aos chamados jogos de azar. Neste caso, quase sempre possvel encontrar um espao de resultados para cujos elementos, partida, no se tem razo para admitir que no tenham igual probabilidade de ocorrer. o que acontece com a moeda ou o dado, que admitimos serem equilibrados e portanto cada face tem igual possibilidade de sair, ou com o baralho de cartas, em que admitimos que cada uma das cartas tem a mesma possibilidade de ser extrada. Esta situao, embora bastante restritiva, muito simples de ser tratada, como se descreve a seguir. 6.5.2.1 Situao de simetria Regra de Laplace Admitamos ento que estamos numa situao de simetria, em que damos igual possibilidade realizao de cada resultado de um espao de resultados. Por exemplo ao lanar dois dados equilibrados, damos igual possibilidade a cada um dos 36 resultados possveis constitudos pelos pares ordenados (em que os nmeros indicam o n de pintas de cada um dos dois dados): (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) Ento, se os 36 resultados so todos igualmente possveis, tendo em conta as Regras 1 e 2 a satisfazer por qualquer Regras 1, 2 e 3, enunciadas para a Probabilidade, a cada um dos resultados atribui-se probabilidade 1/36. De um modo geral, se um espao de resultados tem n resultados e todos so igualmente possveis, ento a cada acontecimento elementar atribumos a probabilidade 1/n. O resultado anterior imediato, tendo em considerao as regras que enuncimos para a Probabilidade. Efectivamente, se temos n resultados igualmente possveis e a soma das probabilidades de todos os resultados, considerados como acontecimentos elementares, tem de ser igual a 1 (Regra 2 e Regra 3) e alm disso a probabilidade de qualquer acontecimento elementar maior que 0 (Regra 1 e o facto de em espaos finitos uma probabilidade igual a zero ser interpretada, na

Organizao e tratamento de dados

218

prtica, como uma impossibilidade, pelo que qualquer resultado do espao de resultados com probabilidade nula pode ser eliminado do espao de resultados (Feller, 1968, p. 22)), vem imediatamente que cada acontecimento elementar tem probabilidade 1/n. No que diz respeito probabilidade de qualquer acontecimento A, associado a um espao de resultados, em que os resultados so igualmente possveis, a regra 3, permite-nos atribuir-lhe uma probabilidade da seguinte forma: Se o acontecimento A for constitudo por m resultados, ou seja m acontecimentos elementares, e o espao de resultados for constitudo por n resultados, a probabilidade de A igual soma de m parcelas iguais a 1/n, ou seja, igual a m/n.

Se um espao de resultados, S, tem n resultados e todos so igualmente possveis, ento a probabilidade de qualquer acontecimento A, igual ao quociente entre o nmero de resultados de A e o nmero de resultados de S. Mais geralmente, temos o seguinte resultado conhecido como Regra ou Lei de Laplace Define-se probabilidade do acontecimento A associado a um espao de resultados S, com n resultados igualmente possveis, como sendo a razo entre o nmero m de resultados favorveis a A (resultados que compem A), e o nmero n de resultados possveis (resultados que constituem S): m P(A) = n Este processo de atribuir probabilidades aos acontecimentos exige uma enumerao correcta do espao de resultados e a consequente enumerao de quais os resultados elementares que compem os acontecimentos para os quais pretendemos atribuir probabilidades. S aparentemente que se tem uma tarefa simples! Seno vejamos: admitamos que se pretende calcular a probabilidade de no lanamento de duas moedas de um euro, se obter igual nmero de faces Euro (E) e faces Nacional (N). No h dvida de que o espao de resultados constitudo pelos resultados S={EN, EE, NE, NN}, todos igualmente possveis, e sendo o acontecimento A, sada de 1 face Euro e 1 face nacional A={EN, NE}, temos que P(A)=2/4, ou seja P(A)=50%. Suponhamos agora que lanamos 4 vezes a moeda e pretendemos obter a probabilidade de igual nmero de faces Euro e Nacional. Agora temos S= ={EEEE, EEEN, EENE, EENN, ENEE, ENEN, ENNE, ENNN, NEEE, NEEN, NENE, NENN, NNEE, NNEN, NNNE, NNNN} e A={EENN, ENEN, ENNE, NEEN, NENE, NNEE } e P(A)=6/16, ou seja P(A)=37,5%. E se lanarmos a moeda 6 vezes? O espao de resultados constitudo por 64 resultados, todos igualmente possveis, dos quais 20 constituem o acontecimento Igual nmero de faces Euro e faces Nacional. Continuando a representar este acontecimento por A, vem P(A)=31,25%. Nota: Para concluir que o espao de resultados anteriormente referido, constitudo por 64 resultados possveis, basta pensar da seguinte forma: Temos 6 espaos para preencher com as letras E ou N:

Organizao e tratamento de dados

219

_ _ _ _ _ _ No primeiro espao podemos colocar o E ou o N, pelo que temos 2 possibilidades: E _ _ _ _ _ ou N _ _ _ _ _ No espao seguinte temos outras 2 possibilidades, que combinadas com as anteriores do 2x2=22 possibilidades: E E _ _ _ _ ou E N _ _ _ _ ou N E _ _ _ _ ou N N _ _ _ _ Repetindo o processo at 6 posio, o nmero de resultados diferentes 26. Para saber quantos destes resultados tm 3 faces Euro, podemos raciocinar da seguinte forma: 3 faces Euro seguidas E _ _ _ E E _ _ E E E _ _ E E E _ _ E E _ _ _ E Nmero de resultados 4

2 faces Euro seguidas E E E _ _ _ E E E E E _ _ _ _ E E E E _ _ _ _ E _ E _ E _ _ _ _ E _ E E E E _ _ _ E _ _ E _ E _ E _ _ E _ _ E E E _ _ _ _ E E E E E _ _ _ E E E 12

Sem faces Euro seguidas E E _ E _ _ E _ E _ _ E _ E E _ E _ _ _ _ E E E 4

Assim, o nmero de resultados possveis com 3 faces Euro e 3 faces Nacional igual a 20. E se o nmero de vezes que lanamos a moeda for 10? Generalizando o processo utilizado anteriormente para obter o nmero de resultados possveis chegamos a 1024 (=210) resultados, todos igualmente possveis. Podemos adiantar que destes

Organizao e tratamento de dados

220

resultados, 252 tm igual nmero de faces Euro e faces Nacional, mas a forma de chegar a este valor no simples. Ento a probabilidade de se realizar o acontecimento Igual nmero de faces Euro e faces Nacional, representado por A, ser P(A) = 252/1024 ou seja P(A)25%. Como facilmente se depreende, medida que o nmero de lanamentos da moeda aumenta, mais complicada a tarefa de construir o espao de resultados associado. A ttulo de curiosidade, acrescentamos que se lanarmos a moeda 100 vezes, o nmero de resultados do espao de resultados igual a 1 267 650 600 228 229 401 496 703 205 376 e que a probabilidade de obter igual nmero de faces Euro e faces Nacional aproximadamente igual a 8%. Existem instrumentos matemticos de que a anlise combinatria um exemplo, que nos facilitam estes processos de contagem, mas que saem fora do mbito deste curso. O mito dos 50%! Outra situao que merece reflexo o mito dos 50%. Com frequncia ao resultado de uma situao aleatria erradamente atribuda a probabilidade de 50%, quando temos dois resultados em jogo. Por exemplo, na confeco de um artigo produzido por uma mquina, este pode sair defeituoso ou no defeituoso. Embora s consideremos estas duas situaes, como os resultados possveis da anlise do artigo, no tem sentido considerar que estes acontecimentos so igualmente provveis. Do mesmo modo no tem qualquer sentido admitir que a probabilidade de ganhar o Euromilhes seja de 50%, embora os resultados possveis para um jogador sejam ganhar ou no ganhar. Quem sabe se muita gente no joga, a pensar que tem 50% de probabilidade de ganhar!

6.5.2.2 Probabilidade experimental ou frequencista Quando no possvel utilizar o argumento da simetria, admitindo que os resultados do espao de resultados so igualmente possveis, ento recorre-se definio de fenmeno aleatrio e como j anteriormente frismos, temos em considerao a regularidade que se observa na sua repetio, para quantificarmos a percentagem de vezes que um acontecimento se realiza, como sendo a sua probabilidade. Apresentamos a seguir, formalmente, a definio de probabilidade experimental ou frequencista, resultante de todo o desenvolvimento feito nas seces iniciais deste captulo. Define-se probabilidade (experimental ou frequencista) de um acontecimento A e representa-se por P(A) como sendo o valor volta do qual tende a estabilizar a frequncia relativa da realizao de A, num grande nmero de repeties da experincia aleatria. Mais uma vez chamamos a ateno para que esta regularidade tem que ser uma regularidade a longo termo. Esta regularidade no tem que existir, a no ser ao fim de um nmero muito grande de repeties do fenmeno aleatrio. Nem, to pouco, existe a lei das compensaes! Se, por exemplo, no lanamento de uma moeda de um euro, que admitimos ser equilibrada, obtivermos a seguinte sequncia de resultados

Organizao e tratamento de dados

221

Euro, Nacional, Nacional, Euro, Nacional no podemos esperar que no prximo lanamento saia a face Euro, para tentar compensar com mais uma face Euro, as trs faces Nacional. Do mesmo modo, se obtivermos em seis lanamentos de uma moeda a sequncia Euro, Euro, Euro, Euro, Euro, Euro ser que mais provvel que no prximo lanamento se verifique a face Nacional? De modo nenhum, pois a moeda no tem memria e no pelo facto de nos lanamentos anteriores ter sado a face Euro, que faz com que no prximo lanamento a face Nacional tenha maior possibilidade de sair. Os sucessivos lanamentos so independentes. Outra situao, no intuitiva, resultante de uma interpretao abusiva da regularidade a longo termo considerar as seguintes proposies como equivalentes (Moore, 1997b, p. 421): Em muitos lanamentos de uma moeda equilibrada, a proporo de faces Euro aproximadamente 50% Em muitos lanamentos de uma moeda equilibrada, o nmero de faces Euro aproximadamente metade do nmero de lanamentos Na realidade, enquanto que a primeira assero verdadeira, o mesmo no se passa com a segunda. A regularidade a longo termo significa que a frequncia relativa da sada de face Euro tende a estabilizar volta de 50%. Por exemplo, se lanarmos uma moeda 3000 vezes, em que se registou o nmero de faces Euro aps 100, 500, 1000, 2000 e 3000 lanamentos, um resultado possvel poderia ter sido o seguinte: N lanamentos N faces Euro obtidas x
49 253 495 993 1510

Metade dos lanamentos y


50 250 500 1000 1500

|y - x|

Freq. Relativa da face Euro


0,49 0,51 0,50 0,50 0,50

100 500 1000 2000 3000

1 3 5 7 10

Como se verifica, pode acontecer que o nmero de faces Euro obtidas, se afaste de metade do nmero de lanamentos, no impedindo que a frequncia relativa tenha tendncia a estabilizar volta do valor 50%. Tarefa Qual o jogo preferido? Do-lhe a escolher entre fazer 10 ou 100 jogadas com uma moeda de 1 euro, equilibrada, para ganhar uma viagem, nas seguintes situaes: Ganha a viagem se a proporo de vezes que aparece a face Euro estiver entre 40% e 60%. Escolhe fazer 10 ou 100 jogadas? Ganha a viagem se o nmero de vezes que aparece a face Euro for igual a metade dos lanamentos. Escolhe fazer 10 ou 100 jogadas? De acordo com o que foi dito anteriormente, a proporo ou frequncia relativa da sada da face Euro tende a estabilizar volta de 50% (moeda equilibrada) medida

Organizao e tratamento de dados

222

que o nmero de lanamentos da moeda aumenta, pelo que na primeira situao se deve escolher fazer 100 jogadas. Tambm de acordo com o que dissemos anteriormente, no verdade que em muitos lanamentos da moeda equilibrada, o nmero de vezes que sai a face Euro seja igual a metade do nmero de lanamentos, pelo que na segunda situao escolheramos s fazer 10 jogadas. Alis, os resultados do exemplo apresentado na seco anterior permitem-nos inferir que medida que se aumenta o nmero de lanamentos, diminua a probabilidade de obter igual nmero de faces Euro e faces Nacional. 6.5.2.3 Probabilidade subjectiva A maior parte das vezes no se pode repetir a experincia as vezes que se quer, nem to pouco assumir que os resultados da experincia so igualmente possveis. Por exemplo, qual a probabilidade de um aluno obter uma nota superior a 14 na disciplina de Bioestatstica, onde se encontra matriculado no 1 semestre, no curso de Biologia de determinada faculdade? Nem desejvel que a experincia se repita, nem devemos atribuir igual possibilidade aos acontecimentos nota superior a 14 e nota menor ou igual que 14. No entanto, se formos ver o currculo do aluno poderemos atribuir uma probabilidade elevada (ou baixa) ao acontecimento em causa. A probabilidade diz-se, neste caso, subjectiva, pois foi baseada em informao anterior e num julgamento subjectivo. Por exemplo, se lhe perguntarem qual a probabilidade do prximo presidente da Repblica ser homem, o que responde? No natural esperar que exista igual probabilidade de ser homem ou mulher e com a informao que se tem do passado, natural atribuir a esse acontecimento uma probabilidade de 100%. Uma vez que existe algo de arbitrrio na atribuio de probabilidades a acontecimentos seguindo esta teoria, de difcil aplicao, embora recentemente esteja a ter grande sucesso. Probabilidade subjectiva atribui-se a um acontecimento uma probabilidade com base na experincia e informao anteriores. 6.5.3 Exemplos de modelos de probabilidade Nesta seco apresentaremos alguns modelos de probabilidade e trabalharemos algumas das propriedades da probabilidade, formalizadas na seco 6.5.1. Exemplo Lanamento da moeda de um euro - Consideremos a experincia aleatria que consiste em verificar qual a face que fica voltada para cima, quando se lana uma moeda de um euro. Um modelo de probabilidade que normalmente se mostra adequado para descrever o fenmeno associado o seguinte Resultados Probabilidade Face Euro E 1/2 Face Nacional N 1/2

Na tabela anterior apresentam-se os resultados possveis e as probabilidades desses resultados ocorrerem. Como dissemos no incio da seco 6.4, pode eventualmente acontecer que, ao lanar a moeda, ela fique em p! No entanto este resultado to raro, que lhe atribumos a probabilidade 0, no incluindo sequer o resultado Ficar em p, como um resultado possvel. Ao atribuir igual probabilidade sada da face Euro e da face Nacional, estamos a admitir que a moeda foi

Organizao e tratamento de dados

223

construda de tal modo que se a lanarmos muitas vezes, aproximadamente 50% das vezes sair a face Euro e as outras 50% das vezes a face Nacional. Se tivssemos alguma razo para admitir que a moeda no era equilibrada, j o modelo anterior no servia. Exemplo Lanamento do dado Consideremos a experincia aleatria que consiste em lanar um dado e verificar qual a face que fica voltada para cima. Tambm neste caso, um modelo que normalmente se mostra adequado para descrever o fenmeno aleatrio associado o seguinte Face Probabilidade 1/6 1/6 1/6 1/6 1/6 1/6

Mais uma vez, ao considerar o modelo anterior, estamos a admitir que o dado foi construdo de tal modo que qualquer face ter igual probabilidade de sair, o que nos leva a questionar se o modelo se adequa! Na verdade, admitindo que o cubo que vai dar origem ao dado tinha sido construdo nas devidas condies de modo que cada face tinha igual probabilidade de sair, quando se desenham as pintas, no estaremos a alterar a estrutura do cubo? Naturalmente que uma face com 6 pintas ser um pouco mais pesada que uma com 1 pinta devido ao peso da tinta! E j agora, tambm no ter influncia a forma como se agarra o dado, assim como a forma como se lana? O facto que se pretendermos arranjar um modelo ideal que entre em considerao com todos estes factores, no vamos conseguir arranjar modelo nenhum. Ento vamos adoptar o modelo anterior, que bastante satisfatrio e traduz razoavelmente bem o fenmeno em estudo, ou seja, o fenmeno que consiste em verificar qual a face que fica virada para cima quando se lana um dado, aparentemente normal. O facto de se admitir este modelo de probabilidade para o n de pintas da face que fica virada para cima ao lanar um dado permite-nos agora construir modelos para experincias mais elaboradas, envolvendo vrios lanamentos de um dado, ou o lanamento de vrios dados. Mais uma vez chamamos a ateno para que os modelos de probabilidade, no so mais do que modelos! So idealizaes matemticas que tentam traduzir, o melhor possvel, a realidade associada ao fenmeno que procuram descrever. Tarefa Dados especiais12. O professor chegou aula e apresentou quatro indicaes para as probabilidades dos resultados do lanamento de um dado: Face 1 dado 2 dado 3 dado 4 dado Probabilidade Probabilidade Probabilidade Probabilidade 1/7 1/6 1/6 1 1/7 1/6 1/6 1 1/7 1/6 1/6 2 1/7 1/12 1/6 1 1/7 1/12 1/6 1 1/7 1/3 1/3 2

12

Adaptado de Moore (1997), p. 415

Organizao e tratamento de dados

224

Quais destas indicaes esto correctas, s se pode saber lanando o dado um grande nmero de vezes. No entanto alguns dos modelos propostos no so modelos de probabilidade legtimos. Porqu? Nesta situao, em que se argumenta que os dados so especiais, no havendo nenhuma razo para admitir que os dados so equilibrados, s pela experimentao se poderia validar cada um dos modelos. No entanto, s o modelo respeitante ao dado 2 que legtimo, pois nenhum dos outros pode ser modelo de probabilidade, j que a soma das probabilidades de todos os resultados no igual a 1. O modelo 4 ainda tem outro defeito, que apresentar probabilidades superiores a 1. Tarefa A caixa de pastilhas M&M. O professor leva para a aula uma caixa de pastilhas M&M, com 100 pastilhas, e diz aos alunos que existem pastilhas de 6 cores. A composio das caixas tal que a probabilidade de tirar uma pastilha ao acaso e ela ter cada uma das cores dada pela seguinte tabela: Cor Probabilidade
Vermelha Amarela Castanha Laranja Verde Azul

0,25

0,25

0,15

0,10

0,20

a) O professor no disse qual a probabilidade de a pastilha ter cor azul. Qual essa probabilidade? Como a soma das probabilidades tem de dar igual a 1, ento a probabilidade da pastilha ter a cor azul 0,05. b) O professor pediu a um aluno para tirar 1 pastilha da caixa. i) Qual a probabilidade da pastilha ser vermelha? ii) E qual a probabilidade de ser vermelha ou amarela? iii) E qual a probabilidade de no ser vermelha? A probabilidade de ser vermelha 0,25 ou 25%. A probabilidade de ser vermelha ou amarela, P(vermelha ou amarela)=P(vermelha)+P(amarela), pois os acontecimentos Ser vermelha e Ser amarela so disjuntos. Ento a probabilidade pretendida 0,50 ou 50%. A probabilidade de no ser vermelha igual a 0,75 (=1-0,25) ou 75%. c) O professor decidiu distribuir, ao acaso, as pastilhas pelos 20 alunos da turma, cabendo a cada um 5 pastilhas. Qual a cor ou cores que se espera surjam com maior frequncia? Quantas pastilhas se esperam de cor vermelha? E de cor azul? As pastilhas em maior proporo so as vermelhas e amarelas, numa proporo de 25% cada cor. Ento nas 100 pastilhas espera-se que cerca de 25 sejam vermelhas e cerca de 25 sejam amarelas. A cor que existe em menor proporo a azul e espera-se que sejam cerca de 5 pastilhas azuis nas 100 pastilhas. Tarefa O tipo sanguneo. Como se sabe, muito importante que um pas tenha conhecimento da forma como se distribui o tipo de grupo sanguneo, de entre os seus cidados. Esta importncia reside em vrios factores, nomeadamente na previso de stocks. De acordo com informao disponvel na pgina do Instituto Portugus do Sangue (http://www.ipsangue.org/maxcontent-documento-231.html e revista ABO n 29 de Janeiro/ Maro de 2007) a distribuio, mdia, dos grupos sanguneos na populao portuguesa faz-se de acordo com o seguinte modelo de probabilidade

Organizao e tratamento de dados

225

Tipo sanguneo Probabilidade

O 42%

A 47%

B 8%

AB 3%

Da tabela anterior conclumos que se seleccionarmos um indivduo ao acaso na populao portuguesa, o mais provvel que seja do grupo sanguneo A e o menos provvel que seja do grupo sanguneo AB. Quando referimos anteriormente que a distribuio , em mdia, a que se apresenta, significa que h algumas alteraes de regio para regio (ver referncia anterior do Instituto Portugus do Sangue). A distribuio do tipo de sangue no idntica para todas as populaes. Por exemplo, para a populao espanhola o modelo anterior no adequado, j que a distribuio do tipo de sangue se faz (em mdia) de acordo com o modelo Tipo sanguneo Probabilidade O 45% A 42% B 10% AB 3%

(http://pt.wikipedia.org/wiki/Grupo_sangu%C3%ADneo)

Como se verifica, ao contrrio do que se passa com a populao portuguesa, na populao espanhola mais provvel que um espanhol, seleccionado ao acaso, tenha sangue de tipo O. Esta tarefa pode ser adequada para o professor falar na turma sobre a compatibilidade entre os tipos sanguneos que se apresenta no diagrama seguinte:

Como se exemplifica na figura anterior, o grupo sanguneo O dador universal, pois pode doar sangue a qualquer pessoa, independentemente do seu tipo de sangue. No entanto s pode receber sangue de pessoas com o mesmo tipo de sangue O. O grupo sanguneo AB receptor universal, pois pode receber sangue de qualquer tipo; no entanto, s pode doar sangue a pessoas do mesmo tipo AB. Os grupos A ou B podem receber sangue dos seus respectivos grupos ou do grupo O. importante o conhecimento deste esquema, pois numa situao de aflio em que no se tenha tempo de averiguar o grupo sanguneo de um indivduo a necessitar de sangue, sabe-se que se pode dar o grupo O. Tendo em considerao a tabela da distribuio do tipo de grupo sanguneo da populao portuguesa e o esquema anterior, responda s seguintes questes:

Organizao e tratamento de dados

226

a) O Ricardo tem sangue de tipo O. Se precisar de sangue, qual a probabilidade de escolhendo um indivduo ao acaso de entre a populao portuguesa, ele possa dar sangue ao Ricardo? O Ricardo s pode receber sangue de tipo O, pelo que a probabilidade de algum lhe poder dar sangue, se for seleccionado ao acaso de 0,42 ou 42%. b) A Rita tem sangue de tipo AB. Se precisar de sangue, qual a probabilidade de escolhendo um indivduo ao acaso de entre a populao portuguesa, ele possa dar sangue Rita. Qualquer pessoa pode dar sangue Rita, pelo que a probabilidade igual a 1 ou 100%. c) A Joana tem sangue de tipo A. Se precisar de sangue, qual a probabilidade de escolhendo um indivduo ao acaso de entre a populao portuguesa, ele possa dar sangue Joana. A Joana pode receber sangue tipo O ou tipo A. Assim a probabilidade que uma pessoa seleccionada ao acaso possa dar sangue Joana 0,89 (=0,42+0,47) ou 89%. Exemplo Se seleccionar, ao acaso, uma pessoa residente em Portugal, mais provvel que seja homem ou mulher? De acordo com o Censo 2001 (www.ine.pt), a populao residente em Portugal, distribui-se da seguinte forma, quanto ao sexo: Sexo Masculino Feminino N de residentes 5000141 5355976 Qual a probabilidade de escolhendo um residente ao acaso, ele ser do sexo feminino? De acordo com a tabela anterior, podemos definir o seguinte modelo de probabilidade para o fenmeno aleatrio que consiste em averiguar o sexo de uma pessoa escolhida ao acaso, de entre a populao residente: Sexo Masculino Feminino Probabilidade 0,48 0,52 Para obter o modelo anterior, considermos como probabilidades dos acontecimentos Masculino e Feminino as suas frequncias relativas na populao considerada. Admitindo que os 10356117 residentes so igualmente possveis de ser seleccionados, 5000141 e 5355976 so, respectivamente, o nmero de resultados favorveis ocorrncia dos acontecimentos Masculino e Feminino. Assim, respondendo questo colocada: A probabilidade de seleccionar um residente ao acaso e ele ser do sexo Feminino 0,52, ou P(sexo feminino) = 0,52 Exemplo A idade da populao residente em Portugal - Consideremos a experincia que consiste em seleccionar uma pessoa ao acaso de entre a populao residente em Portugal e verificar qual a classe etria a que pertence, tendo em conta a seguinte classificao: entre 0 e 14 anos, entre 15 e 24 anos, entre 25 e 64

Organizao e tratamento de dados

227

anos e 65 ou mais anos. De acordo com o censo de 2001, temos a seguinte tabela para o nmero de residentes de cada classe etria:
Idade N de residentes Entre 0 e 14 anos 1656602 Entre 15 e 24 anos 1479587 Entre 25 e 64 anos 5526435 1693493 65 ou mais anos

Considerando como probabilidades, as frequncias relativas, podemos considerar o seguinte modelo de probabilidade, para descrever o fenmeno aleatrio que consiste em seleccionar, ao acaso, um indivduo residente e verificar a que classe etria pertence:
Idade Probabilidade Entre 0 e 14 anos 0,160 Entre 15 e 24 anos 0,143 Entre 25 e 64 anos 0,534 0,164 65 ou mais anos

Repare-se que nos dois exemplos anteriores, para uma mesma populao, considermos dois fenmenos aleatrios diferentes, tendo para cada um desses fenmenos construdo um modelo de probabilidade: num dos casos estvamos interessados em averiguar o sexo de uma pessoa escolhida ao acaso, enquanto que no outro caso o que nos interessava era saber a idade dessa pessoa. Esta situao serve para chamar a ateno para o facto de que quando estamos interessados em estudar um fenmeno aleatrio, ele tem que ser bem descrito, identificando o que se pretende efectivamente estudar. Nos exemplos considerados, no basta dizer que se seleccionou ao acaso um indivduo residente em Portugal! necessrio dizer o que se pretende observar relativamente a esse indivduo seleccionado. Tarefa Qual a cor preferida para pintar o ptio da escola? O director da escola decidiu investigar, junto dos alunos, qual a cor preferida para pintar o ptio da escola e pediu para votarem uma das seguintes cores: amarelo, verde ou azul. Como resultado da votao, 43% dos alunos escolheram amarelo, 35% azul e 12% verde. Qual a probabilidade de um aluno, escolhido ao acaso, preferir amarelo ou azul? E qual a probabilidade de no preferir o verde? A atribuio de probabilidades aos acontecimentos pode ser feita de vrias formas: ou se repete a experincia muitas vezes e se verifica a percentagem de vezes que o acontecimento se realizou, ou se deduz a partir de resultados igualmente possveis, ou se tem em conta outro tipo de informao. Neste caso temos as frequncias relativas dos acontecimentos Preferir amarelo, Preferir azul ou Preferir verde, que vamos representar simplesmente por Amarelo, Azul ou Verde. Ser que o modelo seguinte pode constituir um modelo de probabilidade para o fenmeno em estudo, que o de averiguar qual a cor preferida? Cor preferida Probabilidade Amarelo 0,43 Azul 0,35 Verde 0,12

Repare-se que a soma das probabilidades anteriores no igual a 1. Ento no temos um modelo de probabilidade. No entanto basta considerar o resultado Prefere outra cor diferente das 3 cores consideradas com uma probabilidade de 0,10, para j termos um modelo de probabilidade. Cor preferida Probabilidade Amarelo 0,43 Azul 0,35 Verde 0,12 Outra cor 0,10

Organizao e tratamento de dados

228

P(Amarelo ou azul) =P(Amarelo)+P(Azul) (porque os acontecimentos Amarelo e = 0,43+0,35 Azul so disjuntos, uma vez que um = 0,43+0,35 aluno no pode preferir duas cores) = 0,78 A probabilidade de um aluno preferir amarelo ou azul igual a 78%. O acontecimento No preferir verde o complementar de Preferir verde, pelo que P(No preferir verde) =1-P(Verde) =1-0,12 =0,88 A probabilidade de um aluno no preferir o verde 88%.

Tarefa A roleta de duas cores O professor pede a um aluno que faa rodar a roleta e observar a parte apontada pela seta. Qual a probabilidade da seta apontar uma parte preta? Qual a expectativa sobre o nmero de vezes que se espera que a seta aponte uma parte preta, se rolar a roleta 20 vezes? Se no obtiver 10 vezes a parte preta significa que a roleta est mal construda? Se rolar a roleta 100 vezes, qual a percentagem de vezes que espera que a seta aponte um nmero par? A probabilidade da seta apontar uma parte preta ou 50%, j que das 8 partes em que est dividida a roleta, que se admitem igualmente possveis de serem apontadas pela seta, 4 so pretas, donde a probabilidade pretendida 4/8 ou 50%. Se a roleta rodar 20 vezes espera-se que a seta aponte uma parte preta cerca de metade das vezes, ou seja 10 vezes, mas se no apontar 10 vezes no significa que a roleta esteja mal construda. Se rolar a roleta 100 vezes, espera-se que a seta aponte um nmero par, 25% das vezes. Tarefa O jogo com berlindes. Numa caixa esto 6 berlindes, 2 verdes e 4 vermelhos. Quando retira o berlinde anota a cor e repe outra vez na caixa.

a) Descreva um modelo de probabilidade para o fenmeno aleatrio que consiste em retirar um berlinde e registar a cor. b) Ao fim de 300 extraces, com reposio, quantos euros espera ganhar: i) Se por cada berlinde verde que sair, ganhar 1 euro? ii) Se por cada berlinde verde ganhar 2 euros e por cada berlinde vermelho perder um euro? Um modelo de probabilidade para o fenmeno aleatrio que consiste em registar a cor do berlinde pode ser o seguinte:

Organizao e tratamento de dados

229

Cor Probabilidade

Verde 1/3

Vermelha 2/3

j que dos 6 berlindes que esto na caixa, 2 so verdes e 4 so vermelhos. Como nas 300 extraces (com reposio) se espera que saia cerca de 100 vezes berlinde verde (1/3 das 300 vezes) e nas outras vezes berlinde vermelho, na primeira situao espera-se ganhar 100 euros, enquanto que na segunda situao se espera ganhar 200 euros e perder outros 200 euros, pelo que nesta segunda hiptese no de esperar ganhar nem perder. Tarefa As duas caixas de berlindes. Suponha que tem as seguintes caixas, cada uma com 5 berlindes verdes e vermelhos. Quando se retira um berlinde, se ele for verde ganham-se 2 euros, se for vermelho ganha-se 1 euro:

Do-lhe a possibilidade de escolher uma das 2 caixas para fazer 100 extraces, com reposio. Qual das caixas prefere? Em cada extraco existem 2 possibilidades em 5 de sair um berlinde verde, se se fizer a extraco da caixa 1, enquanto que se for da caixa 2, essas possibilidades diminuem para metade. Assim, se se escolher a caixa 1, a probabilidade de extrair um berlinde verde 40%, pelo que nas 100 extraces se espera que a cor verde saia cerca de 40 vezes e a cor vermelha 60 vezes, donde se espera ganhar aproximadamente 140 euros (=40x2+60x1). Com a caixa 2, em que a probabilidade de extrair um berlinde verde de 20%, espera-se extrair 20 berlindes verdes e 80 vermelhos, donde o ganho seria aproximadamente de 120 euros (=20x2+80x1). Portanto prefervel a caixa 1. Tarefa Quantos lanamentos so necessrios? Qual a probabilidade de, no lanamento de uma moeda de 1 euro, repetidamente, sair pela primeira vez a face Euro ao fim do 3 lanamento? Quando se lana uma moeda de 1 euro, a face Euro pode sair no 1 lanamento, ou pode sair pela 1 vez no 2, ou 3, ou 4, etc. Lanamentos. O que se pretende estimar a probabilidade do acontecimento A face Euro saiu pela 1 vez no 3 lanamento. Para estimar esta probabilidade realizou-se 50 vezes a experincia de lanar a moeda at sair cara pela primeira vez, cujos resultados se apresentam a seguir:
N experincia 1 2 3 4 5 6 7 1 N E E E E E N N N E 2 E 3 4 5 6 7 N lanamentos 2 1 1 1 1 1 4

Organizao e tratamento de dados

230

8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

N N N N E N N N E N E N E N N E E E E E E E E E N N N E E E N E N E N N N N N E N E N

N E N E N E E E E E N

E N N N E

3 2 6 2 1

3 2 2 1 2 1 2 1 2

7 1 1 1 1 1 1 1 1 1

N N E

N N

E E

4 4 2 1 1 1

E E N N N N E N E E E E E N N E

2 1 2 1 3 3 3 5 2 1 3 1 2

Nas 50 experincias, verificou-se a sada da face Euro pela primeira vez ao 3 lanamento, 6 vezes, pelo que uma estimativa para a probabilidade do acontecimento A primeira vez que se regista a face Euro ao fim do 3 lanamento 6/50=0,12. Vamos aproveitar as experincias anteriores para atribuir um modelo de probabilidade para o fenmeno aleatrio que consiste em averiguar quantas vezes necessrio lanar a moeda at sair a face Euro. Quais os resultados possveis? Nas experincias anteriores o valor mximo que obtivemos para o nmero de

Organizao e tratamento de dados

231

lanamentos foi 7, mas ningum nos garante que ao realizar outra experincia no sejam necessrios mais lanamentos. Assim propomos o seguinte modelo emprico, em que consideramos como probabilidades as frequncias relativas obtidas nas 50 experincias:
N de lanamentos

Probabilidade ou
N de lanamentos

1 25/50 1 0,50

2 13/50 2 0,26

3 6/50 3 0,12

4 3/50 4 0,06

5 1/50 5 0,02

6 1/50 6 0,02

7 ou mais 1/50

7 ou mais 0,02

Probabilidade

Vamos admitir que a moeda era equilibrada e considerar um modelo terico baseado nesta hiptese. Ento, vejamos como calcular as probabilidades para os vrios acontecimentos elementares: 1 lanamento, ou seja, sair a face E quando se lana a moeda: Casos igualmente possveis: E N Casos favorveis: E P(1 lanamento)= 1/2 =0,50 2 lanamentos, ou seja, no sair no 1, mas no 2: Casos igualmente possveis: EE, EN, NE, NN Casos favorveis: NE P(2 lanamentos)=1/4 =0,25 3 lanamentos, ou seja, no sair no 1 nem no 2 e sair no 3: Casos igualmente possveis: EEE, EEN, ENE, ENN, NEE, NEN,NNE, NNN Casos favorveis: NNE P(3 lanamentos)=1/8 =0,125 4 lanamentos, ou seja, no sair no 1, nem no 2, nem no 3 e sair no 4: Casos igualmente possveis: EEEE, EEEN, EENE, EENN, ENEE, ENEN, ENNE, ENNN, NEEE, NEEN, NENE, NENN; NNEE, NNEE, NNNE, NNNN Casos favorveis: NNNE P(4 lanamentos)=1/16 =0,062 Repare-se que a metodologia aqui seguida para obter os resultados possveis sempre que se faz mais um lanamento foi acrescentar E ou N a cada resultado possvel do lanamento anterior. Assim, de lanamento para lanamento, os resultados possveis duplicam, mas obtemos sempre um nico resultado favorvel. Uma vez explicado o mecanismo, temos: 5 lanamento, ou seja, no sair no 1, nem no 2, nem no 3, nem no 4 e sair no 5: Casos igualmente possveis: EEEEE, EEEEN, ..., em nmero de 32 Casos favorveis: NNNNE

Organizao e tratamento de dados

232

P(5 lanamentos)=1/32 =0,031 6 lanamentos, ou seja, , no sair no 1, nem no 2, ...,nem no 5 e sair no 6: Casos igualmente possveis: EEEEEE, EEEEEN, ..., em nmero de 64 Casos favorveis: NNNNNE P(6 lanamentos)=1/64 =0,016 7 ou mais lanamentos: P(7 ou mais)=1P(1ou2ou3ou4ou5ou6) =1-{P(1)+P(2)+P(3)+P(4)+P(5)+P(6)} pois os acontecimentos so disjuntos =1-0,984 =0,016 Comparando os dois modelos, verificamos que as probabilidades empricas e tericas esto muito prximas:

Tarefa A caixa com drageias de chocolate - Uma caixa tem 52 drageias de chocolate, das quais 15 so vermelhas, 10 azuis, 12 amarelas e as restantes verdes. Depois de abanar a caixa, para misturar as drageias, retira-se uma ao acaso, sem olhar. Qual a probabilidade de ser verde? Construir um modelo de probabilidade para o fenmeno aleatrio que consiste em tirar uma drageia e verificar a cor. Nmero de drageias verdes = 52 (15 + 10+ 12) = 52 37 = 15 Como a drageia retirada ao acaso, todas tm igual possibilidade de serem retiradas, pelo que a probabilidade pretendida P(drageia verde) = 15/52 As probabilidades de retirar uma drageia vermelha, amarela ou azul, calculam-se de forma anloga, pelo que temos o seguinte modelo de probabilidade: Cor da drageia Probabilidade Verde 15/52 Vermelha 15/52 Amarela 12/52 Azul 10/52

Organizao e tratamento de dados

233

Tarefa O jogo de andebol - O estatstico da equipa de andebol de uma certa escola, com base no historial de jogos anteriores com o mesmo adversrio, sugeriu o seguinte modelo probabilstico para o resultado final do prximo jogo: Resultado Probabilidade Vitria 0,4 Empate 0,1 Derrota 0,5

O treinador, que acha que a equipa est a atravessar um bom momento de forma, de opinio que a probabilidade de Vitria dever ser igual a 0,6 e no 0,4. Admitindo que a probabilidade de Empate no se altera, qual a probabilidade da equipa vir a ser derrotada? A soma das probabilidades tem de ser igual a 1 (100%). Assim a probabilidade de derrota passar a ser igual a 0,3. Seria possvel manter a probabilidade de derrota alterando a probabilidade de empate? No, pois 0,6+0,5=1.1 e, para a soma de todas as probabilidades ser igual a 1, a probabilidade de empate teria de ser negativa, o que no possvel num modelo probabilstico. Tarefa Escolhe ao acaso uma letra do alfabeto. O professor colocou a seguinte questo aos alunos: Suponham que escrevamos cada letra do alfabeto num papel, colocvamos numa caixa e depois de baralhar, seleccionvamos um papel ao acaso. Qual a probabilidade de ser vogal? Se seleccionar 2 letras, qual a probabilidade de uma ser vogal e a outra consoante? Como o alfabeto portugus tem 26 letras (as letras k, w e y j pertencem ao alfabeto portugus), das quais 5 so vogais, a probabilidade pretendida P(vogal) =5/26 =0,192 Para obter a probabilidade de ao retirar 2 letras, uma ser vogal e a outra consoante, vamos contar o nmero de casos possveis e de casos favorveis. Casos possveis: cada letra da 1 extraco pode combinar-se com qualquer letra na 2 extraco, excepto consigo prpria, pelo que o nmero de casos possveis 26x25; Casos favorveis: se na 1. extraco sair uma vogal, ela pode combinar-se com qualquer consoante na 2. extraco e temos 5x21 casos; se na 1. extraco sair uma consoante, ela pode combinar-se com qualquer vogal e o nmero de casos 21x5; assim o nmero de casos favorveis 5x21+21x5; P(vogal e consoante)=

5 21 21 5 26 25 =0,323

Tarefa Escolhe ao acaso uma letra da palavra palavra. Se escolheres ao acaso uma letra da palavra palavra quais os resultados que podes obter? So todos igualmente possveis? Qual a probabilidade de seleccionares cada uma das letras?

Organizao e tratamento de dados

234

Quando seleccionamos ao acaso uma letra da palavra palavra, os resultados possveis que podemos obter so p a l v r Estes resultados no so todos igualmente possveis, pois a letra a tem maior probabilidade de ser seleccionada, pois das 7 letras que compem a palavra, 3 so as. Ento temos 3 em 7 possibilidades de escolher o a e 1 em 7 possibilidades de escolher qualquer uma das outras letras. Assim, um modelo de probabilidade para a escolha de uma letra ao acaso de palavra : Letra p a l v r Probabilidade 1/7 3/7 1/7 1/7 1/7 Repare-se que a soma das probabilidades igual a 1, como seria de esperar. Pode haver da parte de alguns alunos alguma dificuldade na compreenso da atribuio de probabilidades aos acontecimentos elementares anteriores constitudos por cada uma das letras anteriores. O professor poder abordar o problema da seguinte forma: escreve cada um dos as de palavra com uma cor diferente e considera como resultados possveis as 7 letras, em que distingue os 3 as, mas em que agora os 7 resultados so igualmente possveis Letra Probabilidade p 1/7 a 1/7 l 1/7 a 1/7 v 1/7 r 1/7 a 1/7

O acontecimento que consiste em seleccionar um a composto por 3 resultados favorveis, que so os 3 as de cores diferentes, de entre 7 possveis, de onde Probabilidade de seleccionar a = = = = Probabilidade de seleccionar (a ou a ou a) Prob. de sel.a + Prob. de sel. a + Prob. de sel. a 1/7+1/7+1/7 3/7

A probabilidade de seleccionar cada uma das outras letras 1/7. Tarefa Ser que o Pedro vai comer a sua fruta preferida? O professor pediu a cada um dos alunos que trouxessem no dia seguinte uma pea de fruta, que podia ser a fruta preferida. Nesse dia, medida que cada aluno trazia a pea de fruta esta era colocada num saco, enquanto o professor apontava no quadro quais os tipos de fruta e quantas peas de cada tipo se tinham juntado no saco:

Quando chegasse a hora do lanche, cada aluno retirava do saco, ao acaso, uma pea de fruta. Qual a probabilidade de ao Andr, que era o primeiro aluno a retirar a pea de fruta, calhar a sua fruta preferida, que a banana? Quando o professor acabou de explicar como iria ser feita a seleco de cada fruta, alguns alunos no estavam de acordo! Segundo eles, a escolha da pea de fruta

Organizao e tratamento de dados

235

no poderia ser feita de forma completamente aleatria, pois se as mas se podiam confundir ligeiramente com as laranjas e eventualmente com as peras, j o mesmo no se passava com as bananas. Estas so facilmente distinguveis ao tacto, mesmo de olhos fechados. Ento decidiram utilizar a seguinte metodologia: escreviam o nome de cada pea de fruta num papel, metiam o papel no saco, e o que os alunos seleccionavam era o nome do fruto e no o fruto propriamente dito. Ao todo o saco continha 24 papis com nomes de frutos, dos quais 9 eram de bananas. Ento a probabilidade de ao Pedro calhar uma banana 9/24. Tarefa A caixa de disquetes. Uma caixa tem 5 disquetes, das quais 1 est avariada. Selecciono 2 disquetes ao acaso. Qual a probabilidade de me calhar a disquete avariada? Obtenha um modelo de probabilidade para o fenmeno aleatrio que consiste em escolher 2 disquetes e verificar quantas esto avariadas. Para facilitar, vamos representar as disquetes boas por B1, B2, B3 e B4 e a disquete avariada por A. Para obter os resultados possveis associados a esta experincia vamos considerar a seguinte tabela (estamos perante uma extraco sem reposio):
B1 B2 B1 B3 B1 B4 B1 A B1 B2 B1 B2 B3 B2 B4 B2 A B2 2 disquete B3 B4 B1 B3 B1 B4 B2 B3 B2 B4 B3 B4 B4 B3 A B3 A B4 A B1 A B2 A B3 A B4 A -

B1 B2 B3 B4 A

O espao de resultados constitudo por 20 resultados igualmente possveis, dos quais 8 fazem com que se verifique o acontecimento pretendido e que seleccionar a disquete avariada. Ento a probabilidade pretendida 8/20 ou 40%. O espao de resultados associado experincia aleatria que consiste em extrair 2 disquetes e verificar quantas esto avariadas s pode ter como resultados possveis o 0 e o 1. A probabilidade de 0 disquetes avariadas na amostra das 2 12/20, donde podemos considerar o seguinte modelo de probabilidade para o nmero de disquetes avariadas na amostra das duas disquetes: Nmero de disquetes avariadas Probabilidade 0 0,60 1 0,40

Tarefa Lanamento de um dado equilibrado. Considere-se a experincia aleatria que consiste em lanar um dado equilibrado e em verificar a face que fica voltada para cima. a) Qual o modelo de probabilidade associado ao fenmeno aleatrio em estudo? b) Qual a probabilidade de se obter uma face com 2 ou menos pintas? c) Qual a probabilidade de se obter um nmero par? Resoluo: a) Ao dizermos que o dado equilibrado estamos a colocar-nos numa situao de simetria ou equilbrio, pelo que admitimos o seguinte modelo para a probabilidade de sada de cada uma das faces do dado: Face Probabilidade 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6

Organizao e tratamento de dados

236

b) O acontecimento A, Face com um nmero de pintas menor ou igual a 2 tem 2 resultados favorveis, A = {1, 2} donde P(A) = 2/6 c) Quanto ao acontecimento B, Sada de nmero par, como temos 3 resultados favorveis, B = {2, 4, 6}, donde P(B) =3/6. Tarefa Uma escolha difcil entre 5 candidatos! O professor pretendia eleger uma comisso constituda por 2 alunos para preparar a festa de finalistas. Como esta comisso tinha algumas regalias, nomeadamente estava dispensada de algumas aulas..., quando o professor acabou de falar, houve logo 5 alunos a Rita, o Miguel, a Sara, a Sofia e o Tiago, que quase simultaneamente levantaram o brao desejosos de pertencer comisso! Questes colocadas pelo professor: Como escolher 2 alunos de entre os cinco candidatos? Qual a probabilidade de os dois rapazes fazerem parte da comisso? Qual a probabilidade de a comisso ser constituda por um aluno de cada sexo? Como o professor no pretende privilegiar nenhum dos alunos, ter de proceder a uma seleco aleatria de uma amostra de 2 alunos de entre os 5 alunos candidatos. Depois de alguma discusso, os alunos recordaram o que o professor tinha ensinado sobre a seleco aleatria de amostras. Neste caso evidente que se tem de proceder a uma seleco sem reposio, pois no se pode correr o risco de o mesmo aluno ser seleccionado duas vezes. Ento decidiu-se proceder do seguinte modo: escrevem-se os 5 nomes em pedaos de papel de igual tamanho, dobram-se, colocam-se numa caixa, baralham-se e retiram-se 2 nomes de uma vez. O professor tinha explicado que o processo anteriormente descrito de seleccionar uma amostra, d a todas as amostras a mesma probabilidade de serem seleccionadas. Para calcular as probabilidades pretendidas, necessrio comear por construir o espao de resultados. Um grupo de alunos props utilizar um diagrama em rvore e apresentou o seguinte esquema:

Contudo, ao analisarem o diagrama anterior, alguns alunos questionaram o facto de na escolha dos dois alunos no interessar a ordem pela qual os alunos so escolhidos, pois seleccionaram-se os dois alunos ao mesmo tempo, pelo que seleccionar a Rita e o Miguel idntico a seleccionar o Miguel e a Rita. Assim, os pares que interessam so os dos seguintes ramos, pois todos os outros esto repetidos:

Organizao e tratamento de dados

237

Espao de resultados: S = {Rita Miguel, Rita Sara, Rita Sofia, Rita Tiago, Miguel Sara, Miguel Sofia, Miguel Tiago, Sara Sofia, Sara Tiago, Sofia Tiago} Modelo de probabilidade:
Par Prob. Rita Miguel 1/10 Rita Sara 1/10 Rita Sofia 1/10 Rita Tiago 1/10 Miguel Sara 1/10 Miguel Sofia 1/10 Miguel Tiago 1/10 Sara Sofia 1/10 Sara Tiago 1/10 Sofia Tiago 1/10

O acontecimento Os dois rapazes fazem parte da comisso constitudo por um nico resultado, pelo que a probabilidade pretendida igual a 1/10. O acontecimento A comisso tem alunos dos dois sexos constitudo por 6 resultados, pelo que a probabilidade pretendida igual a 6/10. A tarefa no terminou aqui, pois o professor colocou a seguinte questo: o que que acontece se a seleco dos dois nomes no for feita de uma nica vez, mas sequencialmente (sem repor o primeiro elemento seleccionado), interessando a ordem pela qual os nomes so seleccionados? Esta situao poderia colocar-se se, por exemplo, o primeiro elemento a ser seleccionado fosse o representante da comisso. Qual o espao de resultados? Quais as probabilidades dos acontecimentos em jogo? Os alunos que tinham apresentado o primeiro esquema em rvore sugeriram que agora o espao de resultados seria constitudo pelos vinte resultados, visualizados no 1 esquema: S = {Rita Miguel, Rita Sara, Rita Sofia, Rita Tiago, Miguel Rita, Miguel Sara, Miguel Sofia, Miguel Tiago, Sara Rita, Sara Miguel, Sara Sofia, Sara Tiago, Sofia Rita, Sofia Miguel, Sofia Sara, Sofia Tiago, Tiago Rita, Tiago Miguel, Tiago Sara, Tiago Sofia} Como os resultados tambm so todos igualmente possveis, o modelo de probabilidade adequado o seguinte:
Par Prob. Par Prob. Rita Miguel 1/20 Sara Sofia 1/20 Rita Sara 1/20 Sara Tiago 1/20 Rita Sofia 1/20 Sofia Rita 1/20 Rita Tiago 1/20 Sofia Miguel 1/20 Miguel Rita 1/20 Sofia Sara 1/20 Miguel Sara 1/20 Sofia Tiago 1/20 Miguel Sofia 1/20 Tiago Rita 1/20 Miguel Tiago 1/20 Tiago Miguel 1/20 Sara Rita 1/20 Tiago Sara 1/20 Sara Miguel 1/20 Tiago Sofia 1/20

O acontecimento Os dois rapazes fazem parte da comisso constitudo por dois resultados, pelo que a probabilidade pretendida igual a 2/20 ou 1/10.

Organizao e tratamento de dados

238

O acontecimento A comisso tem alunos dos dois sexos constitudo por 12 resultados, pelo que a probabilidade pretendida igual a 12/20 ou 6/10. Conclumos que os acontecimentos anteriores tm probabilidades iguais. No entanto agora, com este outro espao de resultados tem sentido considerar outros acontecimentos, como por exemplo O Miguel foi seleccionado para representante de um grupo. Neste caso, de entre os 20 resultados possveis s temos 4 favorveis, pelo que a probabilidade pretendida 4/20. Repare-se que este acontecimento no o mesmo que O Miguel foi seleccionado para a comisso, cuja probabilidade 8/20. Tarefa Um jogo desequilibrado! O professor props o seguinte jogo ao Tiago e Ins: lanam um dado e se sair uma face com menos de 3 pintas, o Tiago ganha um rebuado. Se sair uma face com 3 ou mais pintas a Ins ganha um rebuado. Ao fim de alguns lanamentos do dado, quem que esperas que tenha mais rebuados? Achas que o jogo equilibrado? Ao fim de 30 lanamentos do dado, quantos rebuados esperas que tenha cada um dos jogadores? Se concluste que o jogo desequilibrado, podes ajudar o professor a mudar as regras sobre o nmero de rebuados que d ao Tiago ou Ins, em cada jogada, de modo que aps 30 jogadas tenham aproximadamente o mesmo nmero de rebuados? No jogo anterior, o Tiago tem metade da probabilidade da Ins de ganhar um rebuado, j que a Ins tem 4 possibilidades em 6 de o ganhar. Assim, ao fim de alguns lanamentos de esperar que Ins tenha mais rebuados e o jogo no equilibrado. Ao fim de 30 lanamentos, espera-se que 4/6 das vezes tenha sado uma face com 3 ou mais pintas, pelo que se espera que a Ins ganhe 20 das 30 jogadas e receba, por conseguinte, 20 rebuados, enquanto que o Tiago s receber 10. Para tornar o jogo equilibrado, basta dar 2 rebuados ao Tiago, sempre que sair uma face com 1 ou 2 pintas. Embora se espere que ele s ganhe 10 das 30 jogadas, receber 20 rebuados, j que agora cada jogada ganha d direito a 2 rebuados. Tarefa Lanamento de dois dados. Ser que o jogo justo? Na escola o professor props o seguinte jogo para ser jogado entre a Rita, o Joo e o Miguel: lanam-se 2 dados de 6 faces e verifica-se a soma das pintas dos dados, que pode ir de 2 a 12. Se a soma for 2, 3, 4 ou 5 o Joo ganha um ponto; se for 6, 7 ou 8 ganha a Rita um ponto; finalmente, se for 9, 10, 11 ou 12, ganha o Miguel. A Rita ficou muito zangada com o professor, dizendo que este a estava a desfavorecer, uma vez que aos outros colegas dava 4 possibilidades, enquanto que a ela s dava 3 e assim os colegas tinham uma maior probabilidade de ganharem. Ser que ela tinha razo? Para ser mais fcil de descrever a actividade, vamos considerar dois dados em que um preto e o outro branco. Vamos esquematizar todas as situaes possveis de se verificarem, quando se lanam os dois dados: Suponhamos que no dado preto saiu 1 pinta. Ento no dado branco pode ter sado qualquer valor de 1 a 6:

Organizao e tratamento de dados

239

Repetindo o processo, mas agora com 2, 3, ..., 6 pintas no dado preto, obtemos a figura seguinte, onde temos esquematizado todos as situaes possveis, em nmero de 36 do espao de resultados S:

Vamos considerar uma tabela com os nmeros das pintas e a soma respectiva: 6+1=7 6+2=8 6+3=9 6+4=10 6+5=11 6+6=12 5+1=6 5+2=7 5+3=8 5+4=9 5+5=10 5+6=11 4+1=5 4+2=6 4+3=7 4+4=8 4+5=9 4+6=10 3+1=4 2+1=3 1+1=2 3+2=5 2+2=4 1+2=3 3+3=6 2+3=5 1+3=4 3+4=7 2+4=6 1+4=5 3+5=8 2+5=7 1+5=6 3+6=9 2+6=8 1+6=7

Analisando com cuidado a tabela anterior, verificamos que existem algumas somas que surgem com mais frequncia do que outras. Por exemplo a soma 12 s aparece quando sair 6 pintas nos dois dados enquanto que a soma 5 aparece nas seguintes situaes

Ento conclumos que enquanto a probabilidade de o 12 sair de 1 em 36, o 5 tem uma probabilidade maior, de 5 em 36. A partir da tabela anterior podemos construir uma outra tabela, com o nmero de vezes que pode sair cada resultado para a soma das pintas, quando se lanam 2 dados:
Resultado da soma das pintas 2 3 4 5 6 7 8 9 10 11 12 Nmero de vezes que se pode verificar 1 2 3 4 5 6 5 4 3 2 1 Quem ganha Joo Joo Joo Joo Rita Rita Rita Miguel Miguel Miguel Miguel

Organizao e tratamento de dados

240

Ento quando se lanam os dois dados, de acordo com as regras estipuladas para o jogo: o Joo tem 10 (1+2+3+4) possibilidades de ganhar; a Rita tem 16 (5+6+5) possibilidades de ganhar; o Miguel tem 10 (4+3+2+1) possibilidades de ganhar.

Afinal a Rita no tinha razo, pois estava a ser privilegiada neste jogo, que no era um jogo justo. O professor ento props que redistribussem os resultados possveis pelos 3 colegas, de forma a transformarem um jogo que no era justo, num jogo justo. Depois de alguma discusso, propuseram a seguinte regra: se a soma for 2, 7 ou 8 o Joo ganha um ponto; se for 4, 5 ou 6 ganha a Rita um ponto; finalmente, se for 3, 9, 10, 11 ou 12, ganha o Miguel. Ser que chegaram a uma boa soluo? Ainda aproveitando os resultados da tabela anterior, pode-se considerar o seguinte modelo de probabilidade associado experincia que consiste em lanar dois dados e verificar a soma das pintas das faces que ficam viradas para cima:
Resultado Probabilidade 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 11 2/36 12 1/36

Tarefa Vamos lanar 2 dados (cont). Uma verso desta tarefa pode ser realizada na sala de aula da seguinte forma: o professor coloca numa taa de plstico transparente alguns smarties (em nmero superior ao nmero de alunos da turma). A professora lana 2 dados e conforme o nmero que se verificar para a soma das pintas das faces que ficam voltadas para cima, retira um smartie da taa e coloca no prato do Joo, da Rita ou do Miguel (na figura, exemplificamos uma situao em que a soma igual a 3, pelo que o smartie foi colocado no prato do Joo). Quando se esgotarem os smarties da taa, ganha aquele que tiver maior nmero de smarties no seu prato. Quem que se espera que ganhe?

No fim do jogo todos os alunos tm direito a um smartie, ficando o aluno ganhador com os que sobram.

Organizao e tratamento de dados

241

Tarefa Ainda o lanamento de dois dados. Quando formalizmos a noo de espao de resultados, vimos que associado experincia aleatria que consiste em lanar dois dados e verificar as faces que ficam voltadas para cima, existem algumas dificuldades em especificar o espao de resultados. Esta dificuldade prende-se com o facto de se poderem considerar os dois dados idnticos, como indistinguveis. Neste caso, em que se consideram os dados indistinguveis, o nmero de resultados do espao de resultados no 36, como na tarefa anterior, mas sim 21, como se apresenta a seguir, para o espao S:

Os dois espaos de resultados considerados respectivamente na tarefa anterior e nesta tarefa, so usados para modelar situaes diferentes, embora ambas associadas experincia que consiste em lanar dois dados e verificar as faces voltadas para cima. Enquanto que no primeiro caso, se utiliza o espao de resultados S com 36 resultados, para modelar o lanamento de dois dados iguais ou dois dados diferentes lanados ao mesmo tempo, ou um dado lanado duas vezes, no segundo caso considera-se que os dois dados so indistinguveis. Como atribuir probabilidades aos resultados deste espao de resultados S? Podemos, como na tarefa anterior, argumentar que os resultados so todos igualmente possveis? No! Se lanarmos os dados, h o dobro das possibilidades de se obter, por exemplo (1,2) do que (1,1)! Os resultados em que as faces so iguais tm metade da possibilidade de qualquer um dos outros resultados. Se representarmos a probabilidade de sair faces iguais por p temos para a probabilidade de sair qualquer resultado: P + 2 p + 2 p +2 p +2 p +2 p + P + 2 p +2 p +2 p +2 p + P +2 p +2 p +2 p + P +2 p +2 p + P+2 p+ P Como a soma das probabilidades dos acontecimentos elementares que constituem o espao de resultados tem de ser igual a 1, e tendo em considerao que a soma anterior igual a 36 p, vem que 36 p=1 e o modelo de probabilidade associado
Resultado Probabilidade Resultado Probabilidade (1,1) 1/36 (3,3) 1/36 (1,2) 2/36 (3,4) 2/36 (1,3) 2/36 (3,5) 2/36 (1,4) 2/36 (3,6) 2/36 (1,5) 2/36 (4,4) 1/36 (1,6) 2/36 (4,5) 2/36 (2,2) 1/36 (4,6) 2/36 (2,3) 2/36 (5,5) 1/36 (2,4) 2/36 (5,6) 2/36 (2,5) 2/36 (6,6) 1/36 (2,6) 2/36

p=1/36

Organizao e tratamento de dados

242

Para atribuir as probabilidades anteriores aos acontecimentos elementares respectivos, poderamos ter utilizado o modelo de probabilidades associado ao espao de resultados S, em que cada acontecimento elementar tem probabilidade 1/36. Bastaria considerar cada resultado do espao S, em que as faces so diferentes, como um acontecimento constitudo por dois resultados elementares do espao S. Por exemplo, o resultado (1,2) de S obtido se se verificar (1,2) ou (2,1) em S. Tarefa O lanamento de duas moedas13. O professor no incio da aula colocou a seguinte questo: tenho aqui duas moedas de 1 euro. Se as lanar, qual a probabilidade de obter uma face Euro e uma face Nacional? Os alunos dividiram-se na resposta a esta questo, que foi respondida da seguinte forma: Um pouco mais de 50% dos alunos respondeu , cerca de 25% dos alunos respondeu 1/3 e os restantes responderam . Qual o raciocnio que pode ter estado por trs destas respostas? Esses raciocnios estaro correctos ou no? A resposta dada pela maior parte dos alunos aquela que, de um modo geral, estaramos espera, j que os resultados possveis do lanamento das duas moedas so Euro Euro, Euro Nacional, Nacional Euro e Nacional Nacional havendo, por conseguinte, 2 resultados favorveis de entre 4 resultados igualmente possveis. No entanto, com este mesmo espao de resultados, alguns alunos interpretaram o acontecimento uma face Euro e uma face Nacional, como sendo uma face Euro, seguida de uma face Nacional, que embora no estivesse implcita na pergunta, poderia, efectivamente, ser interpretado dessa maneira, pelo que o raciocnio dos alunos que indicaram est correcto. Mais complicado ser interpretar o que levou alguns alunos a responderem 1/3! Eventualmente teriam pensado em 3 resultados possveis, dos quais s 1 seria favorvel... e uma possibilidade que tenham considerado como resultados possveis 2 faces Euro, 2 faces Nacional, 1 face de cada qualidade esquecendo-se que estes resultados no so igualmente possveis, pelo que no se pode aplicar a regra de Laplace. Efectivamente o resultado uma face de cada qualidade pode ser obtido de duas maneiras possveis: face Euro e face Nacional ou face Nacional e face Euro. O professor para que os alunos compreendessem melhor esta situao, mostrou, por analogia, o que se passa com o lanamento de dois dados, em que o que interessa o resultado da soma das pintas. Tambm neste caso, o espao de resultados constitudo por 11 resultados, mas no so todos igualmente possveis. Por exemplo, a probabilidade de obter 11 no igual probabilidade de obter 12, j que o 11 pode ser obtido de duas maneiras distintas, enquanto que o 12 s pode ser obtido de uma maneira.

13

Sugerida por Burrill (2006), p. 50

Organizao e tratamento de dados

243

Tarefa Quem consegue dar primeiro a volta ao quadrado? Propomos a seguir um jogo14 que consiste no seguinte. Numa cartolina, constri-se um quadrado com 12 unidades de lado e em cada lado constroem-se 10 quadradinhos com uma unidade de lado:

Este jogo jogado por dois jogadores que movem o seu Pino na direco indicada sendo o objectivo do jogo e as regras, os seguintes: Objectivo do jogo: Ser o primeiro jogador a dar uma volta completa ao quadrado, chegando ao ponto de onde partiu. Regra do jogo: Depois de se escolher qual o jogador que comea o jogo, este lana 3 moedas de um euro e movimenta o seu pino um certo nmero de quadrados, de acordo com o tipo de faces que ficam voltadas para cima 3 2 1 3 faces Euro faces Euro e 1 Nacional face Euro e 2 Nacional faces Nacional movimenta movimenta movimenta movimenta 10 quadradinhos 3 quadradinhos 1 quadradinhos 5 quadradinhos

Quando o primeiro jogador acabar de mover o seu pino, ser a vez do segundo jogador lanar as 3 moedas e movimentar o seu pino. Existe ainda uma regra especial e que a seguinte: sempre que o pino de um jogador atingir ou ultrapassar o pino do outro jogador, este jogador que foi ultrapassado volta ao ponto de onde partiu. Esta tarefa, orientada pelo professor, vai ser utilizada para comparar os resultados experimentais do lanamento das 3 moedas, com alguns resultados tericos. Para obter esses resultados experimentais, o jogo pode ser jogado por vrios pares de alunos e o professor pede aos alunos para irem registando num grfico, desenhado no quadro, os resultados dos sucessivos lanamentos das 3 moedas. Depois de alguns jogos, o grfico pode apresentar o seguinte aspecto:

14

Sugerido pelo Sticks and Stones, Illuminations, www.illuminations.nctm.org

Organizao e tratamento de dados

244

O professor pede aos alunos para compararem as alturas das barras do grfico e os alunos podem concluir que a ocorrncia de 2 faces Euro ou uma face Euro so mais provveis que a ocorrncia de 3 faces ou 0 faces Euro. A partir do grfico o professor pede ainda para os alunos estimarem a probabilidade de sarem 3 faces Euro quando se lanam as 3 moedas. No total das 31 ocorrncias, verificou-se 4 vezes a sada de 3 faces Euro, pelo que uma estimativa para a probabilidade pretendida 4/31 ou seja aproximadamente 12,9%. De modo anlogo obtm-se como estimativa para a probabilidade da ocorrncia de 2 faces Euro um valor aproximado a 38,7%. De seguida o professor prope aos alunos que considerem o modelo de probabilidade associado experincia que consiste em lanar 3 moedas de Euro e verificar as faces que ficam viradas para cima. A construo do modelo de probabilidade pressupe que se obtenham todos os resultados possveis e que depois se atribua uma probabilidade a cada um desses resultados, sem esquecer que a soma das probabilidades de todos os resultados tem que ser igual a 1. Para obter todos os resultados possveis pode-se utilizar um diagrama em rvore, como o que se apresenta a seguir:

Organizao e tratamento de dados

245

O espao de resultados S constitudo pelos seguintes resultados S = (EEE, EEN, ENE, ENN, NEE, NEN, NNE, NNN) Admitindo que a moeda equilibrada, todos os resultados anteriores tm igual possibilidade de se verificarem, pelo que a probabilidade de cada um 1/8: Resultado Probabilidade EEE 1/8 EEN 1/8 ENE 1/8 ENN 1/8 NEE 1/8 NEN 1/8 NNE 1/8 NNN 1/8

Agora os alunos podem comparar as probabilidades experimentais calculadas anteriormente, com as probabilidades tericas calculadas a partir deste modelo. Para j, concluem que a probabilidade de sair 3 faces Euro igual probabilidade de sair 0 faces Euro e igual a 1/8 ou seja aproximadamente 12,5%. Quanto ao acontecimento 2 faces Euro, este constitudo por 3 resultados, pelo que a probabilidade de se realizar 3/8 ou seja 37,5%. O acontecimento 1 face Euro tambm tem probabilidade 3/8, pois tambm constitudo por trs resultados elementares. Finalmente o professor ainda pode colocar a seguinte questo aos alunos: em mdia, quantas jogadas so necessrias para terminar um jogo? Uma estimativa deste valor pode ser obtida fazendo vrios jogos, registando os resultados e fazendo a mdia dos resultados obtidos. No entanto podemos ainda abordar esta questo atravs do seguinte raciocnio: tendo em conta o modelo de probabilidade anterior, espera-se que em 8 jogadas saia 1 vez 3 faces Euro, 3 vezes 2 faces Euro, 3 vezes 1 face Euro e finalmente 1 vez 0 faces Euro, o que faz com que em 8 jogadas (considera-se uma jogada o lanamento das 3 moedas e a movimentao do pino de acordo com o resultado do lanamento) se espera movimentar o seguinte nmero de quadradinhos: 1 10+3 3+3 1+1 5 = 27 Assim, se em 8 jogadas se espera movimentar 27 quadradinhos, em mdia por jogada espera-se movimentar 27/8=3,375 quadradinhos. Ento, para dar a volta aos 40 quadrados espera-se fazer 40/3,37512 jogadas. Como esto dois jogadores em jogo, espera-se terminar o jogo com um nmero de jogadas volta de 24. Se algum jogador tiver de voltar atrs ter de haver mais jogadas para terminar o jogo! Tarefa Quem que ganha o jogo?15 Na escola o professor props o seguinte jogo a ser jogado por dois alunos, o David e o Antnio: lanam-se duas moedas e em cada lanamento, se sarem faces diferentes, o David ganha um ponto; caso contrrio ganha o Antnio o ponto. Ganha o jogo, aquele que, ao fim de 50 jogadas tiver ganho mais pontos. Quem que ganhar o jogo? Apresentamos a seguir o resultado do lanamento de 2 moedas equilibradas:

15

Graa Martins et al (2007).

Organizao e tratamento de dados

246

Jogada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

1 moeda N E E N E N E E E E E N N E N E E E N N N N N N N E E N N E N E E N E E N E E E E N E E N N E E E E

2 moeda N E N N N N E N E E N E N N N N N E E N E E E N N E E N E N E E N E E N E E N N E E E E E N E E E N

Antnio ganha 1 1 0 1 0 1 1 0 1 1 0 0 1 0 1 0 0 1 0 1 0 0 0 1 1 1 1 1 0 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 1 1 1 1 0

David ganha 0 0 1 0 1 0 0 1 0 0 1 1 0 1 0 1 1 0 1 0 1 1 1 0 0 0 0 0 1 1 1 0 1 1 0 1 1 0 1 1 0 1 0 0 1 0 0 0 0 1

Pontos Antnio 1 2 2 3 3 4 5 5 6 7 7 7 8 8 9 9 9 10 10 11 11 11 11 12 13 14 15 16 16 16 16 17 17 17 18 18 18 19 19 19 20 20 21 22 22 23 24 25 26 26

Pontos David 0 0 1 1 2 2 2 3 3 3 4 5 5 6 6 7 8 8 9 9 10 11 12 12 12 12 12 12 13 14 15 15 16 17 17 18 19 19 20 21 21 22 22 22 23 23 23 23 23 24

Neste jogo ganhou o Antnio, pois ao fim de 50 jogadas tinha alcanado 26 pontos, enquanto que o David tinha 24 pontos. Resolveram jogar novamente o mesmo jogo, tendo obtido os resultados seguintes:

Organizao e tratamento de dados

247

Jogada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

1 moeda E E N N E N E E N N N N N E E N N E N N N N N E E N N N N E E N E N N E N E N E E E E N E E N N N E

2 moeda E E N N N E N N E E N E E E N N N N E E N N E E E N E N E E E N E N E E E E E N N N N E E N E E N E

Antnio ganha 1 1 1 1 0 0 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 1 0 1 1 1 0 1 0 1 1 1 1 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 1 1

David ganha 0 0 0 0 1 1 1 1 1 1 0 1 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 1 0 1 1 1 1 1 1 0 1 1 1 0 0

Pontos Antnio 1 2 3 4 4 4 4 4 4 4 5 5 5 6 6 7 8 8 8 8 9 10 10 11 12 13 13 14 14 15 16 17 18 19 19 20 20 21 21 21 21 21 21 21 22 22 22 22 23 24

Pontos David 0 0 0 0 1 2 3 4 5 6 6 7 8 8 9 9 9 10 11 12 12 12 13 13 13 13 14 14 15 15 15 15 15 15 16 16 17 17 18 19 20 21 22 23 23 24 25 26 26 26

Desta vez ganhou o David! Resolveram fazer ainda um 3 jogo para a desforra e obtiveram os seguintes resultados:

Organizao e tratamento de dados

248

Jogada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

1 moeda N E E E E N E E N N E N N N E E N E N N N N N N E E E N N E E E N N N N E E E E E N E N E E E N N N

2 moeda N N N N N E E E E N N N E N N N N N N N E E N N N E E E N E N E N N E E E N N E N N N N E N N E N N

Antnio ganha 1 0 0 0 0 0 1 1 0 1 0 1 0 1 0 0 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0 1 1 1 0 0 1 0 0 1 0 1 0 1 1 0 0 0 1 1

David ganha 0 1 1 1 1 1 0 0 1 0 1 0 1 0 1 1 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 1 0 1 0 1 0 0 1 1 1 0 0

Pontos Antnio 1 1 1 1 1 1 2 3 3 4 4 5 5 6 6 6 7 7 8 9 9 9 10 11 11 12 13 13 14 15 15 16 17 18 18 18 19 19 19 20 20 21 21 22 23 23 23 23 24 25

Pontos David 0 1 2 3 4 5 5 5 6 6 7 7 8 8 9 10 10 11 11 11 12 13 13 13 14 14 14 15 15 15 16 16 16 16 17 18 18 19 20 20 21 21 22 22 22 23 24 25 25 25

Agora empataram! Afinal no se pode dizer partida quem que sair o vencedor, pois qualquer um dos dois alunos tem igual chance de ganhar o jogo. Uma verso deste exemplo pode ser realizado na sala de aula, em que o professor desenha no quadro um trajecto que ser percorrido pelos alunos que esto a jogar,

Organizao e tratamento de dados

249

da seguinte maneira: sempre que um dos alunos ganha, avana uma quadrcula. Ganhar o que chegar mais rpido meta. Antnio David Tarefa Moedas no equilibradas16. Na turma onde se realizou a actividade anterior, os alunos ficaram muito entusiasmados com a experincia feita, de tal modo que o professor resolveu propor ainda uma outra actividade relacionada com moedas. Tinha consigo 6 moedas, 5 das quais no tinham passado nos testes de controlo de qualidade e tinham sido rejeitadas por alegadamente no serem dadas como equilibradas. Para cada um destas 6 moedas, a probabilidade de sair a face Nacional era: Moeda A: 1 em 4 ou 1/4 Moeda D: 3 em 4 ou 3/4 99/100 Moeda B: 1 em 3 ou 1/3 Moeda E: 4 em 5 ou 4/5 Moeda C: 1 em 2 ou 1/2 Moeda F: 99 em 100 ou

Com o objectivo de identificar qual das moedas seria a A, B, ..., F, lanou-se cada moeda 5 vezes, tendo-se obtido os seguintes resultados:
N do lanamento 1 2 3 4 5 Freq. relativa Qual a moeda? 1 moeda N N E N N 2 moeda N N N N N 3 moeda E E N E E 4 moeda N N N E N 5 moeda N N N N N 6 moeda E N E E E

a) Preencher a linha das frequncias relativas com a proporo de faces nacionais obtidas nestes 5 lanamentos, de cada uma das moedas. Preencher a seguir a ltima linha com a letra da moeda que suspeita ter sido a 1., 2.,..., ou 6.. b) Tem confiana que as suas suspeitas estejam correctas? Explique porqu. c) Suponha que se fizeram mais 5 lanamentos para cada uma das moedas, sendo agora as frequncias relativas as apresentadas na tabela seguinte. Com esta informao adicional, tente novamente associar as moedas com as probabilidades respectivas.
10 lanamentos Freq. relativa Qual a moeda? 1. moeda 0,70 2. moeda 0,90 3. moeda 0,20 4. moeda 0,80 5. moeda 1,00 6. moeda 0,20

d) Suponha agora que lana as moedas mais 15 vezes e posteriormente mais 25 vezes, obtendo as frequncias relativas apresentadas nas tabelas seguintes. Mais uma vez se pede que preencha a ltima linha das tabelas:
25 lanamentos Freq. relativa Qual a moeda? 50 lanamentos Freq. relativa Qual a moeda? 1. moeda 0,56 2. moeda 0,88 3. moeda 0,28 4. moeda 0,88 5. moeda 1,00 6. moeda 0,20

1. moeda 0,58

2. moeda 0,92

3. moeda 0,26

4. moeda 0,78

5. moeda 1,00

6. moeda 0,32

16

Adaptado de Rossman et al (2001).

Organizao e tratamento de dados

250

e) Depois dos 50 lanamentos, estar-se- razoavelmente seguro que as moedas esto correctamente identificadas? Explique porqu. f) O seguinte grfico mostra a evoluo da frequncia relativa para as 6 moedas, medida que o nmero de lanamentos aumenta:

Comente o que que este grfico revela sobre a probabilidade, como um conceito sobre o comportamento de um processo aleatrio a longo-termo e no a curto-termo.

Tarefa Vamos estimar a rea do crculo com raio 0,5 unidades. O professor apresentou aos alunos um grfico, onde estava desenhada uma circunferncia dentro de um quadrado de lado 1. Para o espao delimitado pelo quadrado um atirador muito nabo17 atirou, ao acaso, 100 setas, que ficaram marcadas, como se v na figura seguinte:

17

O atirador era to nabo e no tinha pontaria nenhuma, pelo que a seta podia acertar, ao acaso, em qualquer ponto do quadrado.

Organizao e tratamento de dados

251

Algumas das setas caram dentro da circunferncia e outras fora. O professor props aos alunos estimarem a rea do crculo com base na distribuio das marcas dentro do quadrado. Se as marcas deixadas pelas setas se distribuem aleatoriamente pela superfcie do quadrado, ento a proporo de marcas dentro do quadrado do-nos uma estimativa da rea do crculo, j que a rea do quadrado 1. Assim, contando o nmero de marcas dentro da circunferncia (neste caso mais fcil contar as 22 marcas fora da circunferncia), verificamos que essa proporo (10022)/100=0,78. Este o valor estimado para a rea do crculo. Se os alunos j souberem calcular a rea do crculo ser interessante compararem o valor estimado com o valor calculado atravs da frmula da rea. Tarefa Vamos estimar o valor de . O trabalho desenvolvido na tarefa anterior pode ser utilizado para estimar o valor de . Para isso basta admitir que se conhece que a rea de um crculo de raio R igual a R2. Ento, como vimos na tarefa anterior, uma estimativa para a rea do crculo de raio 0,5 unidades 0,78, pelo que uma estimativa para o valor de ser 0,78/0,52=3,12. Obter-se-ia uma estimativa mais precisa para o valor de se em vez de 100 pontos, aumentssemos o nmero de pontos que preenchem a rea do quadrado, pois neste caso tambm se obteria uma estimativa mais precisa para a rea do crculo. No captulo seguinte sobre simulao, ser apresentado um processo de gerar aleatoriamente os pontos que simulam as marcas das setas do atirador. Tarefa Estimar a rea de figuras. O processo utilizado para estimar a rea do crculo, pode ser utilizado para estimar a rea de uma figura para a qual no exista uma expresso simples que permita calcular a sua rea. O professor apresentou aos alunos uma fotografia, com rea igual a uma unidade, de um pedao de cu, onde esto desenhadas algumas estrelas e a lua, em quarto minguante. Nessa fotografia foram desenhados, aleatoriamente 100 pontos. A proposta do professor que os alunos estimem a rea dos corpos celestes da fotografia.

Organizao e tratamento de dados

252

Tarefa Uma chuva de meteoritos! O professor apresentou uma figura, que representa o planisfrio, onde esto registadas as marcas de 100 meteoritos que alcanaram o planeta Terra. Alguns caram no mar, outros em terra. Baseando-te nos 100 meteoritos que se registam na figura, s capaz de estimar a probabilidade de o prximo meteorito cair em terra? (A rea do rectngulo igual a 1 unidade de rea)

Dos 100 meteoritos, que se distribuem aleatoriamente sobre a superfcie terrestre, cerca de 30 (a contagem no muito fcil...) alcanaram algum continente, pelo que estimamos que com uma probabilidade de 30%, o prximo meteorito alcance algum continente.

Organizao e tratamento de dados

253

Tarefa especial Vamos construir alguns dos nossos materiais para fazer experincias. Propomos aqui uma tarefa especial, que o professor, juntamente com o professor de outra disciplina, nomeadamente de Educao Artstica ou Visual, pode levar a cabo juntamente com os alunos: construrem os seus prprios materiais. Como fomos indicando ao longo do texto, podem ser utilizados materiais como botes, tampas de refrigerantes, berlindes, etc. As moedas utilizadas nas experincias podem ser realizadas pelos alunos em cartolina dura, em que de um lado desenham um N, para indicar a face Nacional e do outro o smbolo do euro . Propomos aqui a construo de um dado de 4 faces (tetraedro) e de um dado de 6 faces. Dado de 4 faces

Dado de 6 faces

Organizao e tratamento de dados

254

7 Simulao
Neste captulo fazemos uma introduo Simulao, instrumento poderoso, que sobretudo nas trs ltimas dcadas, com o desenvolvimento e aperfeioamento dos meios computacionais, contribuiu de forma decisiva para o estudo de leis da probabilidade e clculo de probabilidades associadas a determinados acontecimentos. No captulo anterior, vimos que um processo de estimar a probabilidade de um acontecimento, seria repetir muitas vezes a experincia e contabilizar a proporo de vezes que o acontecimento se realiza nas sucessivas repeties. Veremos como, utilizando meios computacionais, quer seja a mquina de calcular, quer seja o computador, podemos imitar o comportamento da realizao do fenmeno aleatrio.

Organizao e tratamento de dados

256

Organizao e tratamento de dados

257

7.1 Introduo
Vimos no captulo anterior que a definio de um modelo de probabilidade, associado a um fenmeno aleatrio, pressupe que sejam especificados todos os resultados possveis e que a cada resultado possvel seja atribudo uma probabilidade. Muitas vezes estas probabilidades so atribudas tendo em conta a experincia que temos sobre a realizao de fenmenos do mesmo gnero. o que se passa com o modelo associado aos fenmenos aleatrios que consistem em lanar uma moeda ou um dado e verificar qual a face que fica virada para cima. Se no tivermos razes que nos levem a suspeitar que a moeda ou o dado no so equilibrados, consideramos os modelos, usuais, em que atribumos igual probabilidade a cada uma das faces, quer da moeda, quer do dado. No entanto, mesmo neste caso em que fcil definir um modelo para o fenmeno aleatrio, por vezes no fcil calcular probabilidades de acontecimentos relacionados com esse fenmeno. Por exemplo, se lanarmos 10 vezes uma moeda de um euro, equilibrada, o clculo terico da probabilidade do acontecimento obter 4 ou mais faces Euro ou Nacional seguidas no acessvel a este nvel. Ento a nica soluo seria repetir muitas vezes a experincia de lanar a moeda 10 vezes e estimar a probabilidade do acontecimento, pela proporo de vezes em que a face Euro ou a face Nacional aparece 4 ou mais vezes seguidas, em sequncias de 10 lanamentos. Como fcil de entender, estar a repetir a experincia de lanar a moeda 10 vezes, ver o que acontece, outras 10 vezes e ver o que acontece, e assim por diante..., no uma tarefa simples. Esta situao no deixa os estatsticos muito preocupados, pois o comportamento aleatrio do lanamento da moeda pode ser imitado, utilizando a tecnologia, e neste caso dizemos que estamos a simular a realizao do fenmeno. Simulao processo artificial utilizado para imitar o comportamento de um fenmeno aleatrio, utilizando, de um modo geral, nmeros aleatrios. Veremos na seco seguinte o que se entende por nmeros aleatrios e veremos ainda que, hoje em dia, o que se utiliza so os nmeros pseudo-aleatrios, gerados pela mquina de calcular ou pelo computador.

7.2 Nmeros aleatrios e nmeros pseudo-aleatrios


Considere um saco com 10 berlindes, iguais ao tacto, e numerados de 0 a 9. Depois de baralhar os berlindes dentro do saco, seleccione um ao acaso, verifique o nmero do berlinde seleccionado e reponha-o no saco. Se repetirmos o processo vrias vezes, poderemos obter uma sequncia de dgitos como a que se apresenta a seguir: 7 1 3 1 9 2 2 0 3 4 0 5 7 5 6 2 8 3 9 5 ... Em cada seleco de um berlinde do saco, temos igual probabilidade de seleccionar cada um dos 10 dgitos 0, 1,..., 9. O berlinde seleccionado em cada extraco no depende dos berlindes seleccionados nas extraces anteriores, pelo que os resultados so independentes uns dos outros. Uma tabela com dgitos obtidos por este processo diz-se que uma tabela de dgitos aleatrios.

Organizao e tratamento de dados

258

Dgitos aleatrios - Uma tabela de dgitos aleatrios uma listagem dos dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que: qualquer um dos dgitos considerados tem igual possibilidade de figurar em qualquer posio da lista; a posio em que figura cada dgito independente das posies dos outros dgitos. Apresenta-se a seguir um extracto de uma tabela de nmeros aleatrios (Moore, 1997). O facto de os dgitos se apresentarem agrupados 5 a 5 s para facilidade de leitura.

Linha 101 102 103 104 105 106 107 108 109 19223 73676 45467 52711 95592 68417 82739 60940 36009 95034 47150 71709 38889 94007 35013 57890 72024 19365 05756 99400 77558 93074 69971 15529 20807 17868 15412 28713 01927 00095 60227 91481 72765 47511 24943 39638 96409 27754 32863 40011 60779 85089 81676 61790 85453 12531 42648 29485 85848 53791 57067 55300 90656 46816 42544 82425 82226 48767 17297 50211 94383 87964 83485 82853 36290 90056 52573 59335 47487 14893 18883 41979

A partir da tabela de dgitos aleatrios podem-se obter nmeros aleatrios de 2 dgitos - qualquer par dos 100 pares possveis 00, 01, 98, 99, tem igual probabilidade de ser seleccionado, de 3 dgitos - qualquer triplo dos 1000 triplos possveis 000, 001, 998, 999, tem igual probabilidade de ser seleccionado, etc., tomando os dgitos da tabela 2 a 2, 3 a 3, etc., a partir de uma linha qualquer e percorrendo-a da esquerda para a direita. A apresentao de uma tabela como a anterior tem mais interesse histrico do que interesse real. Efectivamente, hoje em dia, existe a possibilidade de utilizar o computador ou uma simples mquina de calcular para gerar os nmeros aleatrios. No entanto, convm ter presente que os nmeros que se obtm so pseudoaleatrios, j que um mecanismo determinista que lhes d origem, embora se comportem como nmeros aleatrios (passam numa bateria de testes destinados a confirmar a sua aleatoriedade). No obstante hoje em dia ser mais comum a utilizao da tecnologia para fazer simulaes, vamos na seco seguinte exemplificar o uso de uma tabela e dgitos aleatrios num processo de simulao. A funo RAND do Excel ou da mquina de calcular Mais geralmente, quando falamos em nmeros aleatrios, sem qualquer outra referncia, no nos estamos a referir explicitamente a nmeros inteiros, mas sim a nmeros do intervalo [0, 1]. Os algoritmos de gerao de nmeros pseudoaleatrios esto concebidos de modo a que ao considerar uma qualquer sequncia de nmeros gerados se obtenha aproximadamente a mesma proporo de observaes em sub intervalos de igual amplitude do intervalo [0,1]. Assim, por exemplo, se se fizer correr o algoritmo 100 vezes, de esperar que caiam 25 dos nmeros gerados em cada quarto do intervalo [0,1]. Na tabela seguinte est listada

Organizao e tratamento de dados

259

uma sequncia de 100 nmeros pseudo-aleatrios (NPA) obtida atravs do gerador RAND do Excel 1: 1 coluna 0,842050 0,965131 0,761648 0,359825 0,054705 0,466613 0,814300 0,449515 0,901502 0,862762 0,395195 0,420519 0,124664 0,537707 0,033277 0,024371 0,558313 0,087859 0,069915 0,774156 0,789583 0,702971 0,087455 0,103532 0,996667 2 coluna 0,406320 0,676239 0,552387 0,208420 0,102768 0,493374 0,638416 0,090759 0,552418 0,507097 0,415666 0,469764 0,765629 0,451921 0,523063 0,213326 0,283191 0,429387 0,221549 0,039495 0,480287 0,109918 0,713230 0,623757 0,129629 3 coluna 0,848744 0,722927 0,079614 0,098150 0,147229 0,150888 0,086141 0,197460 0,466389 0,613583 0,210044 0,053714 0,737348 0,702749 0,908485 0,442821 0,153907 0,735276 0,358037 0,490216 0,302539 0,444822 0,806147 0,377823 0,196290 4 coluna 0,810469 0,825587 0,298300 0,818893 0,557920 0,540352 0,007840 0,209145 0,221584 0,389183 0,379011 0,478208 0,696311 0,683382 0,708764 0,983754 0,655705 0,890680 0,578713 0,755072 0,970551 0,995760 0,569285 0,161851 0,753139

Como se pode verificar por contagem, esta lista inclui 30 nmeros no intervalo [0;0,25], 24 nmeros nos intervalos ]0,25;0,5] e ]0,5;0,75] e 22 nmeros no intervalo ]0,75;1]. Embora haja mtodos estatsticos para avaliar se so ou no significativas as diferenas entre estas frequncias observadas e as frequncias esperadas (25 25 25 25), facilmente a nossa sensibilidade aceita que estes resultados no contradizem o que se esperaria de uma escolha ao acaso de 100 nmeros do intervalo [0,1]. Uma tabela idntica anterior poderia ter sido obtida a partir da funo RAND, na mquina de calcular. A funo RANDBETWEEN do Excel ou a funo randINT da mquina de calcular No caso particular de pretendermos nmeros inteiros, ento podemos utilizar a funo Randbetween(m, n) do Excel ou a funo randINT(m, n) da mquina de calcular. Estas funes que tm como argumentos dois nmeros inteiros m e n, com m<n, sempre que so utilizadas devolvem-nos um nmero inteiro entre m e n, tal que qualquer outro nmero inteiro entre esses limites tem igual probabilidade de surgir. Por exemplo, para simular o lanamento de um dado equilibrado,

Graa Martins et al (2007) e Anexo para interpretao do programa de MACS, pag 93

Organizao e tratamento de dados

260

utilizamos a funo randINT(1,6) Randbetween(1, 6) do Excel.

da

mquina

de

calcular,

ou

funo

7.3 Simular o lanamento de uma moeda


A simulao do lanamento de uma moeda, embora seja um problema simples, est na base do clculo da probabilidade, por simulao, de alguns acontecimentos, cujo clculo analtico seria complicado. Permite ainda ilustrar alguns conceitos bsicos de probabilidade que, por vezes, fogem nossa intuio. exemplo do que dissemos anteriormente a situao que diz respeito regularidade a longo termo e que j foi abordada na seco 6.2 e 6.5.2.2 e que abordaremos de novo nesta seco. O processo de simulao pressupe alguns passos que exemplificaremos de seguida: Passo 1 Definio do modelo de probabilidade para o lanamento da moeda No modelo que vamos adoptar para o lanamento da moeda vamos admitir que: Em cada lanamento existe igual probabilidade de sair a face Euro e a face Nacional (admitimos que a moeda equilibrada); Os lanamentos so independentes uns dos outros. Passo 2 Atribuio de nmeros aleatrios para representar os resultados do lanamento da moeda. Esta atribuio pode ser feita de vrias maneiras, das quais vamos exemplificar duas, tendo em conta as tabelas de dgitos aleatrios e de nmeros pseudoaleatrios consideradas anteriormente. Considerando a tabela de dgitos aleatrios, sabemos que cada um dos dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 e 9, tem probabilidade igual a 1/10 ou 0,1 de surgir e que alm disso os sucessivos dgitos da tabela so independentes. Ento uma forma possvel de atribuir dgitos ao resultado do lanamento da moeda, considerar que: Cada dgito simula o resultado do lanamento da moeda; Dgitos mpares representam a face Euro e dgitos pares a face Nacional (estamos a admitir que o zero par). Este processo de atribuir probabilidades est de acordo com o modelo proposto, j que esta atribuio d sada de face Euro uma probabilidade igual a 5/10 (5 favorveis em 10 possveis), e alm disso os dgitos sucessivos da tabela simulam lanamentos independentes. Nota: Outro processo possvel seria considerar os dgitos menores que 5 (ou seja, 0, 1, 2, 3 e 4) para representarem a face Euro e os maiores ou iguais a 5 (ou seja 5, 6, 7, 8 e 9), para representarem a face Nacional. Passo 3 Simular muitas repeties Cada dgito da tabela simula um lanamento da moeda, pelo que para simular os sucessivos lanamentos basta considerar os dgitos sucessivos da tabela. Na simulao que apresentamos, vamos considerar que se pretende estimar a probabilidade do acontecimento sair face Euro no lanamento da moeda e vamos ainda ver o que acontece diferena entre o nmero de faces Euro e faces Nacional, medida que aumentamos o nmero de lanamentos:

Organizao e tratamento de dados

261

N de lanamento i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Dgito

Face

N de faces Euro at ao lanamento i 1 2 2 2 3 4 5 5 6 6 6 7 8 9 9 9 9 10 11 12 13 13 13 13 14 15 15 16 17 18 18 18 19 19 180 180 180 181 181 181 182 182 182 183 183 184 185 186 187

Proporo de faces Euro at ao lanamento i 1 1 0,6666667 0,5 0,6 0,6666667 0,7142857 0,625 0,6666667 0,6 0,5454545 0,5833333 0,6153846 0,6428571 0,6 0,5625 0,5294118 0,5555556 0,5789474 0,6 0,6190476 0,5909091 0,5652174 0,5416667 0,56 0,5769231 0,5555556 0,5714286 0,5862069 0,6 0,5806452 0,5625 0,5757576 0,5588235 0,5202312 0,518732 0,5172414 0,5186246 0,5171429 0,5156695 0,5170455 0,5155807 0,5141243 0,515493 0,5140449 0,5154062 0,5167598 0,5181058 0,5194444

Diferena entre n faces Euro e n faces Nacional 1 2 1 0 1 2 3 2 3 2 1 2 3 4 3 2 1 2 3 4 5 4 3 2 3 4 3 4 5 6 5 4 5 4 14 13 12 13 12 11 12 11 10 11 10 11 12 13 14

1 9 2 2 3 9 5 0 3 4 0 5 7 5 6 2 8 7 1 3 9 6 4 0 9 1 2 5 3 1 4 2 5 4 4 6 8 1 6 8 3 4 8 5 4 1 9 7 9

E E N N E E E N E N N E E E N N N E E E E N N N E E N E E E N N E N N N N E N N E N N E N E E E E

...
346 347 348 349 350 351 352 353 354 355 356 357 358 359 360

Da tabela anterior e do grfico seguinte, conclumos que a proporo de faces Euro tende a estabilizar volta dos 52%, para o nmero de lanamentos realizados. Se tivssemos levado a simulao mais longe, seria de esperar que a proporo de faces Euro se aproximasse mais de 50%.

Organizao e tratamento de dados

262

No grfico seguinte apresentamos a evoluo da diferena entre o nmero de faces Euro e o nmero de faces Nacional. Ao contrrio do que se passa com a proporo de faces Euro que se aproxima de 50%, medida que o nmero de lanamentos aumenta, o nmero de faces Euro no se aproxima de metade dos lanamentos, e a diferena entre o nmero de faces Euro e faces Nacional no tende a estabilizar volta de zero.

Nota importante ter presente que os nmeros pseudo-aleatrios utilizados no processo de simulao, so gerados por um mecanismo determinstico, que imita razoavelmente bem o aleatrio. H vrios processos para gerar estes nmeros, nomeadamente a funo Rand do Excel, de que j falmos anteriormente. Todos estes processos foram estudados de forma que os conjuntos de nmeros que geram, passam num conjunto de testes estatsticos, que no rejeitam a hiptese desses conjuntos de nmeros poderem ser considerados como aleatrios.

Organizao e tratamento de dados

263

7.4 Clculo da probabilidade de acontecimentos, por simulao


Nesta seco vamos exemplificar o processo de estimar a probabilidade de alguns acontecimentos, por simulao. Tarefa Calcular a probabilidade de sair 2 faces Euro, em 2 lanamentos de uma moeda de um euro, equilibrada. Os dois primeiros passos neste processo de simulao so idnticos aos considerados no lanamento da moeda equilibrada. Dois dgitos sucessivos da tabela simulam 2 lanamentos, pelo que considerando vrios conjuntos de dois dgitos simulamos vrias repeties. Iniciando a consulta da tabela na linha 102, temos:
Repetio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Dgitos 73 67 64 71 50 99 40 00 19 27 27 75 44 26 48 82 42 53 62 90 45 46 77 17 09 Euro/Nacional Euro Euro Nacional Euro Nacional Nacional Euro Euro Euro Nacional Euro Euro Nacional Nacional Nacional Nacional Euro Euro Nacioanl Euro Nacioanl Euro Euro Euro Nacional Nacional Nacional Nacional Nacional Nacional Nacional Nacional Naciona Nacional Euro Euro Nacional Nacional Euro Nacioal Nacional Euro Nacional Nacional Euro Euro Euro Euro Nacional Euro Repetio 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Dgitos 77 55 80 00 95 32 86 32 94 85 82 22 69 00 56 52 71 13 88 89 93 07 46 02 27 Euro/Nacional Euro Euro Euro Euro Nacional Nacional Nacional Nacional Euro Euro Nacional Nacional Nacional Nacional Nacional Nacional Euro Nacional Nacional Euro Nacional Nacional Nacional Nacional Nacional Euro Nacional Nacional Euro Nacional Euro Nacional Euro Euro Euro Euro Nacional Nacional Nacional Euro Euro Euro Nacional Euro Naciona Nacional Naciona Nacional Nacional Euro

Assinalmos a preto o acontecimento de interesse, que era a sada de 2 faces Euro. Uma estimativa para a probabilidade desse acontecimento 14/50 ou seja 0,28. As 50 repeties realizadas no so suficientes para estarmos confiantes na preciso da estimativa obtida para a probabilidade do acontecimentos duas faces Euro no lanamento de uma moeda duas vezes. Um maior nmero de repeties conduzirnos-ia a uma probabilidade mais prxima de 0,25, que o resultado terico para a probabilidade desse acontecimento. A atribuio das probabilidades no passo 2 pode ser feita utilizando a tabela de nmeros pseudo-aleatrios da pgina 253. Passo 2 Considerando ento essa tabela, vamos admitir que: Cada nmero simula o resultado do lanamento da moeda; Um nmero 0,5 representa a face Euro e um nmero>0,5 representa a face Nacional. Esta atribuio de probabilidades est de acordo como modelo proposto, j que os intervalos [0, 0,5] e ]0,5, 1] tm igual amplitude, pelo que a probabilidade de obter nmeros em cada um desses intervalos 0,5.

Organizao e tratamento de dados

264

Passo 3 Para simular as vrias repeties atribumos os nmeros pseudoaleatrios aos resultados face Euro e face Nacional percorrendo as colunas 1 e 2 para as primeiras 25 repeties e de seguida as colunas 3 e 4 para as 25 repeties seguintes:
Repetio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Euro/Nacional Nacional Euro Nacional Nacional Nacional Nacional Euro Euro Euro Euro Euro Euro Nacional Nacional Euro Euro Nacional Nacional Nacional Nacional Euro Euro Euro Euro Euro Nacional Nacional Euro Euro Nacional Euro Euro Nacional Euro Euro Euro Euro Euro Nacional Euro Nacional Euro Nacional Euro Euro Nacional Euro Nacional Nacional Euro Repetio 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Euro/Nacionalo Nacional Nacional Nacional Nacional Euro Euro Euro Nacional Euro Nacional Euro Nacional Euro Euro Euro Euro Euro Euro Nacional Euro Euro Euro Euro Euro Nacional Nacional Nacional Nacional Nacional Nacional Euro Nacional Euro Nacional Nacional Nacional Euro Nacional Euro Nacional Euro Nacional Euro Nacional Nacional Nacional Euro Euro Euro Nacional

A simulao anterior conduziu-nos a uma estimativa da probabilidade de 0,32. Quaisquer outros 50 nmeros aleatrios ou pseudo-aleatrios conduzir-nos-iam a outras estimativas para a probabilidade do acontecimento de interesse. Como, de um modo geral, no sabemos qual o valor da probabilidade terica, se calcularmos vrias estimativas, no saberemos qual a mais precisa, ou seja, qual a que est mais perto da probabilidade terica, caso fosse possvel calcul-la, tendo em conta o modelo de probabilidade adoptado para o fenmeno aleatrio em estudo e com o qual basemos a nossa simulao. Se pretendermos aumentar a confiana na estimativa da probabilidade que estamos a calcular, temos uma soluo que aumentar o nmero de simulaes do fenmeno em estudo. No se fazem omeletas sem ovos... Como se l em Moore (1996, p. 429) Parece um pouco duvidoso iniciar um processo para obter probabilidades assumindo que j conhecemos algumas outras probabilidades, mas nem mesmo na matemtica temos alguma coisa sem dar nada em troca. A ideia estabelecer a estrutura bsica do fenmeno aleatrio e ento utilizar a simulao para passarmos deste modelo para obter probabilidades de acontecimentos mais complicados. O modelo baseado em informao ou experincia passada. Se ele no descrever correctamente o fenmeno aleatrio,

Organizao e tratamento de dados

265

ento as probabilidades obtidas a partir dele por simulao, tambm estaro incorrectas (traduo livre). Outra forma de exprimir a ideia do pargrafo anterior dizer que no h almoos grtis! Como se exemplifica no caso anterior, ao estimarmos a probabilidade de obter 2 faces Euro nos 2 lanamentos da moeda, estamos a partir do princpio e a assumir que a probabilidade de sair face Euro igual de sair face Nacional e igual a . Obviamente que no seria correcto utilizar o processo anterior para simular o lanamento de uma moeda enviesada, j que neste caso as duas faces no tm igual probabilidade de sarem, como foi assumido no modelo anterior. Nesta situao a nica soluo proceder ao lanamento da moeda em estudo e ir registando os resultados obtidos, at conseguirmos que a frequncia relativa, do acontecimento de que se pretende calcular a probabilidade, apresente uma certa estabilizao. Tarefa Qual a probabilidade de numa famlia de quatro filhos, todos serem rapazes? O modelo para o nascimento de rapaz ou rapariga idntico ao do lanamento de uma moeda equilibrada, se assumirmos que existe igual probabilidade de nascer rapaz e rapariga e que os nascimentos so independentes uns dos outros (na realidade, de acordo com o nosso ltimo censo, a probabilidade de nascer rapaz anda volta de 51%). Assim, simular o nascimento de 4 crianas e ver o sexo, idntico a simular o lanamento de uma moeda de um Euro 4 vezes e verificar a face que fica voltada para cima. Passo 1 Definio do modelo de probabilidade para o nascimento de rapaz O modelo que vamos adoptar para o nascimento de rapaz pressupe que: Em cada nascimento existe igual probabilidade de ser rapaz ou rapariga; Os nascimentos so independentes uns dos outros. Passo 2 Atribuio de nmeros aleatrios para representar os resultados do nascimento. Vamos utilizar a funo Rand do Excel, do seguinte modo: Cada nmero gerado simula o nascimento de uma criana; Um nmero 0,5 representa o nascimento de rapaz, e um nmero >0,5 representa o nascimento de rapariga. Como vimos no exemplo anterior, esta atribuio de probabilidades est de acordo com o modelo proposto, j que os intervalos [0, 0,5] e ]0,5, 1] tm igual amplitude, pelo que a probabilidade de obter nmeros em cada um desses intervalos 0,5. Passo 3 Simular muitas repeties Vamos gerar muitas repeties de 4 nmeros pseudo-aleatrios, para simular os 4 nascimentos:
1 filho rapaz? 1 1 1 1 1 0 2 filho rapaz? 0 0 0 0 0 1 3 filho rapaz? 0 0 0 0 1 0 4 filho rapaz? 1 1 0 1 0 1 N rapazes nos 4 filhos 2 2 1 2 2 2 4 rapazes ? 0 0 0 0 0 0

1 filho 0,042293 0,269279 0,474479 0,238322 0,327561 0,861051

2 filho 0,832859 0,881478 0,528969 0,804784 0,785789 0,018105

3 filho 0,850776 0,780493 0,848406 0,589457 0,224090 0,707192

4 filho 0,415564 0,102199 0,660313 0,413003 0,626057 0,016593

Organizao e tratamento de dados

266

0,116059 0,443542 0,479738 0,519160 0,806497 0,518291 0,948191 0,319196 0,497591 0,917203 0,697895 0,777700 0,511748 0,891218 0,880875 0,951888 0,238392 0,520766 0,836980 0,598769 0,135802 0,048072 0,590230 0,507317 0,557046 0,453047 0,781730 0,823291 0,696797 0,238624 0,371197 0,797437 0,822567 0,409935 0,031521 0,877285 0,431466 0,071561 0,512900 0,011701 0,932498 0,012260 0,771633 0,274627 0,636812 0,294693 0,556242 0,554021 0,672498 0,271859 0,364026 0,632611 0,649012 0,880217 0,729499 0,828743 0,716120 0,412185 0,981724 0,381995 0,259900 0,315719 0,649735 0,279561 0,217361 0,693183

0,553769 0,586487 0,498062 0,836728 0,986511 0,922520 0,176873 0,034793 0,035276 0,195162 0,876783 0,048426 0,767437 0,307059 0,865897 0,908047 0,082083 0,698405 0,148513 0,606425 0,722615 0,493240 0,316114 0,237199 0,632492 0,003776 0,146744 0,370645 0,234292 0,979179 0,458286 0,994756 0,405794 0,784336 0,634780 0,818784 0,779751 0,715139 0,636603 0,826350 0,230313 0,731709 0,282324 0,720612 0,257337 0,785398 0,331684 0,404411 0,442011 0,075867 0,845316 0,553600 0,029424 0,464580 0,862228 0,473059 0,509904 0,497310 0,115540 0,448187 0,155538 0,364588 0,399039 0,400026 0,710319 0,111708

0,903991 0,673580 0,293571 0,261501 0,672229 0,626536 0,137029 0,590844 0,983357 0,160754 0,934845 0,337187 0,849113 0,251028 0,152129 0,034045 0,490909 0,817629 0,960522 0,281036 0,229893 0,283100 0,979242 0,774544 0,525553 0,692767 0,702416 0,918915 0,091790 0,709441 0,483376 0,489628 0,497899 0,772683 0,628484 0,131070 0,536371 0,195817 0,919911 0,592355 0,688338 0,882629 0,400765 0,997822 0,676606 0,052230 0,444164 0,391814 0,925602 0,664250 0,627482 0,770940 0,006652 0,444413 0,434498 0,188661 0,006310 0,608060 0,050374 0,918297 0,494559 0,423351 0,469560 0,734911 0,005094 0,147777

0,378653 0,278990 0,465006 0,709615 0,206301 0,738124 0,291067 0,564857 0,613159 0,571587 0,620200 0,179181 0,344513 0,616891 0,109405 0,863988 0,833546 0,333006 0,880070 0,831568 0,230967 0,083356 0,060746 0,043540 0,493075 0,223822 0,335659 0,884146 0,292912 0,435784 0,845387 0,648340 0,794578 0,789198 0,776446 0,377268 0,544740 0,236250 0,200576 0,106301 0,940086 0,291549 0,751419 0,886745 0,341877 0,067127 0,391702 0,007171 0,873412 0,033255 0,856940 0,274467 0,975738 0,229474 0,712452 0,362972 0,038622 0,849470 0,286358 0,122803 0,196396 0,503743 0,555198 0,884434 0,087384 0,169500

1 1 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 1 1 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 0 0 1 1 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0

0 0 1 0 0 0 1 1 1 1 0 1 0 1 0 0 1 0 1 0 0 1 1 1 0 1 1 1 1 0 1 0 1 0 0 0 0 0 0 0 1 0 1 0 1 0 1 1 1 1 0 0 1 1 0 1 0 1 1 1 1 1 1 1 0 1

0 0 1 1 0 0 1 0 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 0 0 0 0 0 1 0 1 1 1 0 0 1 0 1 0 0 0 0 1 0 0 1 1 1 0 0 0 0 1 1 1 1 1 0 1 0 1 1 1 0 1 1

1 1 1 0 1 0 1 0 0 0 0 1 1 0 1 0 0 1 0 0 1 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 0 1 1 1 0 1 0 0 1 1 1 1 0 1 0 1 0 1 0 1 1 0 1 1 1 0 0 0 1 1

2 2 4 1 1 0 3 2 2 2 0 3 1 2 2 1 3 1 1 1 3 4 2 2 1 3 2 1 3 2 3 1 2 1 1 2 1 3 1 2 1 2 2 1 2 3 3 3 1 3 1 1 2 3 1 3 2 2 3 3 4 3 2 2 3 3

0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

Organizao e tratamento de dados

267

0,484144 0,667289 0,375134 0,191600 0,237928 0,479030 0,407433 0,439608 0,028231 0,622533 0,839669 0,451561 0,276442 0,415808 0,591290 0,184162 0,511650 0,961578 0,151112 0,870196 0,965750 0,407247 0,129992 0,741260 0,799936 0,314404 0,646709 0,238706

0,427837 0,471618 0,258344 0,062678 0,570485 0,416032 0,253097 0,986541 0,344357 0,397073 0,023235 0,152428 0,775556 0,177497 0,217437 0,337955 0,734839 0,127654 0,759022 0,884215 0,997447 0,134092 0,026175 0,046352 0,900769 0,518245 0,492754 0,194777

0,319137 0,979072 0,725386 0,997449 0,325694 0,736089 0,157676 0,567047 0,134230 0,574875 0,693584 0,938211 0,775507 0,462652 0,850252 0,413556 0,543550 0,619978 0,970418 0,568004 0,012327 0,921995 0,442862 0,823044 0,513758 0,279696 0,751594 0,760938

0,725863 0,318985 0,251190 0,221200 0,095081 0,454510 0,636510 0,105619 0,159250 0,553743 0,578297 0,987627 0,796108 0,300068 0,584043 0,824248 0,167983 0,597268 0,348384 0,733497 0,269384 0,633147 0,157719 0,740928 0,075029 0,640607 0,791626 0,320155

1 0 1 1 1 1 1 1 1 0 0 1 1 1 0 1 0 0 1 0 0 1 1 0 0 1 0 1

1 1 1 1 0 1 1 0 1 1 1 1 0 1 1 1 0 1 0 0 0 1 1 1 0 0 1 1

1 0 0 0 1 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 1 0 1 0 0 1 0 0

0 1 1 1 1 1 0 1 1 0 0 0 0 1 0 0 1 0 1 0 1 0 1 0 1 0 0 1

3 2 3 3 3 3 3 2 4 1 1 2 1 4 1 3 1 1 2 0 2 2 4 1 1 2 1 3

0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 6

Na tabela anterior, as 4 primeiras colunas apresentam as 100 simulaes dos nascimentos dos 4 filhos, utilizando a funo RAND(), como se mostra a seguir:

Nas colunas seguintes utilizmos a funo IF, para verificar se cada nascimento era ou no rapaz. Sempre que fosse rapaz, assinalmos esse facto com um 1. Na coluna seguinte, ou seja a coluna I, colocmos a somas das 4 colunas anteriores, o que nos permite detectar facilmente se os 4 nascimentos so rapazes. Na coluna seguinte, a coluna J, ainda utilizando a funo IF, verificmos se nos 4 nascimentos se tinha verificado os 4 rapazes. Caso afirmativo, assinalmos esse facto com um 1. Caso contrrio com um 0. Este processo permite que a soma da coluna J nos d o nmero de casos favorveis realizao do acontecimento de que estamos a calcular a probabilidade. Na simulao anterior obtivemos 6 casos favorveis, pelo que uma estimativa para a probabilidade pretendida 6/100= 0,06.

Organizao e tratamento de dados

268

Repare-se que o processo anterior tambm nos permite obter a probabilidade de outros acontecimentos, tais como nos 4 nascimentos 2 serem rapazes e os outros 2 raparigas, nos 4 nascimentos 3 serem rapazes, etc. Resoluo terica A resoluo terica do problema anterior simples, desde que usemos um modo expedito de representar todos os resultados do espao de resultados. Uma forma simples de apresentar esses resultados utilizando o diagrama em rvore. Os primeiros 2 ns da rvore representam o primeiro nascimento, que pode ser rapaz ou rapariga. Na representao que se segue s apresentamos os ramos em que o primeiro nascimento rapaz. Os outros ramos a seguir ao primeiro nascimento rapariga so iguais aos ramos a seguir ao primeiro nascimento rapaz.

Ao todo temos 16 resultados, todos igualmente possveis, j que estamos a admitir que existe igual probabilidade de nascer rapaz ou rapariga, e destes 16 resultados s 1 que favorvel realizao do acontecimento os 4 nascimentos so rapazes. Assim, a probabilidade pedida 1/16= 0,0625. O resultado da simulao apresentada anteriormente, considerado uma boa estimativa da probabilidade terica. de 0,06, pode ser

Tarefa Qual a probabilidade de numa famlia haver um casalinho, mas com trs filhos no mximo! Um casal pretende ter um casalinho de filhos, s tentando o terceiro filho no caso de os dois primeiros serem do mesmo sexo. Qual a probabilidade de ter um rapaz e uma rapariga? Como na tarefa anterior vamos admitir que existe igual probabilidade de nascer rapaz e rapariga e vamos simular o nascimento de trs filhos, s entrando em considerao com o terceiro filho no caso de os dois primeiros serem do mesmo

Organizao e tratamento de dados

269

sexo. Esta metodologia mais simples de implementar, do que estar em cada repetio a verificar se nos dois primeiros filhos j existem os dois sexos. Utilizando a folha de Excel, nas colunas B, C e D simulamos o nascimento de trs crianas e nas colunas E, F e G, testamos se so rapazes ou raparigas:

Na coluna H, testamos se os dois primeiros filhos so do mesmo sexo. Se forem de sexo diferente, consideramos um sucesso e assinalamos esse facto com um 1. Caso sejam do mesmo sexo, testa-se se o 3 filho do mesmo sexo que os anteriores: se for de sexo diferente considera-se um sucesso que assinalado, como no caso anterior, com um 1. Se forem todos do mesmo sexo esse acontecimento um insucesso e assinalado com um 0. A soma dos valores da coluna H d-nos o nmero de sucessos. Nas colunas I e J consideramos, respectivamente, a frequncia absoluta acumulada e a frequncia relativa acumulada do acontecimento Ter um casalinho:

Realizaram-se 1000 repeties de que se apresenta a seguir um pequeno extracto:

...

Organizao e tratamento de dados

270

Como se verifica da tabela anterior, a frequncia relativa estabilizou volta do valor 0,76, pelo que uma estimativa para a probabilidade de o casal ter um casalinho, num mximo de 3 filhos, 0,76. E se a probabilidade de nascer rapaz for um pouco superior de nascer rapariga, como indiciam os resultados do Censo 2001? Vamos ento repetir a simulao anterior, mas agora considerando que a probabilidade de nascer rapaz 0,51 e a de nascer rapariga 0,49. A nica alterao que temos de fazer na simulao anterior, nas colunas E, F e G, em que agora consideramos o nascimento de um rapaz sempre que o nmero pseudo-aleatrio gerado for <0,51. Neste caso o resultado da simulao deu como estimativa para a probabilidade de o casal ter um casalinho, o valor de 0,74, como se verifica no extracto da folha de Excel que se apresenta a seguir:

Tarefa Estimar as probabilidades dos resultados da soma das pintas das faces viradas para cima, quando se lanam dois dados. Vimos no captulo anterior um modelo de probabilidade para o resultado da soma das pintas das faces viradas para cima, quando se lanam dois dados. Vamos admitir que os dados so equilibrados Passo 1 Definio do modelo de probabilidade para o lanamento dos dois dados O modelo que vamos adoptar para o lanamento de cada um dos dados pressupe que: Em cada lanamento existe igual probabilidade de sair cada uma das faces; Os lanamentos so independentes uns dos outros e de dado para dado. Passo 2 Atribuio de nmeros aleatrios para representar os resultados do lanamento de dois dados. Vamos utilizar a funo Randbetween(1;6) do Excel, do seguinte modo: Cada nmero gerado simula o nmero de pintas da face que fica voltada para cima quando se procede ao lanamento de um dado;

Organizao e tratamento de dados

271

A funo anterior utilizada duas vezes para representar os dois dados. Passo 3 Simular muitas repeties Vamos gerar muitas repeties de 2 nmeros pseudo-aleatrios, para simular os 2 lanamentos:

Na figura acima est um pequeno extracto da tabela que contm as 1000 repeties realizadas e os resultados da soma do nmero de pintas. Utilizando agora a funo Countif do Excel, facilmente se obtm a frequncia relativa com que se verificou cada resultado:

Na tabela anterior, as frequncias relativas so estimativas resultados da soma das pintas das faces viradas para cima, dados. Na tabela e grficos seguintes comparamos experimentais com as probabilidades tericas obtidas a probabilidade da pgina 240:

das probabilidades dos quando se lanam dois essas probabilidades partir do modelo de

Organizao e tratamento de dados

272

Tarefa O jogo justo? O Pedro e a Rita disputam entre si o seguinte jogo: lanam dois dados e calculam a diferena entre as pintas das faces que ficam viradas para cima. O Pedro ganha um rebuado se essa diferena for 0, 1 ou 2, enquanto que a Rita ganha um rebuado se a diferena for 3, 4 ou 5. Ao fim de 20 jogadas quem que se espera que ganhe o jogo? O Pedro e a Rita estavam convencidos de que o jogo seria equilibrado, j que a cada um deles estavam atribudos 3 dos 6 resultados possveis. Comearam a desconfiar de que alguma coisa no estaria a correr bem, pois o Pedro estava a ganhar com mais frequncia que a Rita. Afinal o jogo ser justo? Se no for justo, consegues arranjar um processo de o tornar justo? O processo de simulao idntico ao da tarefa anterior, mas agora em vez de se calcular a soma das pintas, calcula-se a diferena. Utilizmos um outro processo para simular o nmero de pintas do dado, com o auxlio da funo Rand(). O processo de simulao apresenta-se a seguir:

Note-se que para obter a diferena entre as pintas dos dois dados considermos a funo ABS, que nos devolve o valor absoluto dessa diferena. Simulmos o lanamento dos dois dados 20 vezes, tendo obtido os seguintes resultados:

Organizao e tratamento de dados

273

Repetimos mais vezes a simulao das 20 jogadas, tendo obtido os resultados da tabela seguinte, onde na primeira linha aparece o nmero de rebuados ou jogadas ganhas pelo Pedro em cada 20 jogadas:

Dos 25 jogos (de 20 jogadas cada um dos jogos), o Pedro ganhou 23, a Rita 1 e empataram 1 jogo. Como se pode ver pelo resultado da simulao, o jogo est longe de ser equilibrado! Os resultados 0, 1 ou 2 saem com uma frequncia muito maior que os restantes. Para obter uma estimativa, com maior preciso, para a probabilidade do Pedro ganhar o jogo simulmos 100 jogadas e conclumos que o Pedro ganha aproximadamente 69% das jogadas (0,19+0,29+0,21=0,69) enquanto que a Rita ganha cerca de 31%:

Uma forma de equilibrar o jogo seria atribuir ao Pedro os resultados 0, 1 e 5 e Rita os resultados 2, 3 e 4. Como complemento desta tarefa, vamos comparar as probabilidades experimentais obtidas para os resultados 0, 1, 2, 3, 4 e 5, com as probabilidades tericas. Para obter estas probabilidades, basta fazer um raciocnio semelhante ao que foi feito para obter as probabilidades dos resultados da soma das pintas das faces obtidas quando se lanam dois dados. Considera-se uma tabela com os resultados dos lanamentos dos dois dados, a que chammos Dado 1 e Dado 2, e preenche-se o interior da tabela com a diferena das pintas:

Organizao e tratamento de dados

274

Dado 2 Dado 1

1 0 1 2 3 4 5

2 1 0 1 2 3 4

3 2 1 0 1 2 3

4 3 2 1 0 1 2

5 4 3 2 1 0 1

6 5 4 3 2 1 0

1 2 3 4 5 6

Dos 36 pares, igualmente possveis, que constituem o espao de resultados associado ao lanamento dos dois dados: 6 pares fazem com que o resultado da diferena seja 0 10 pares fazem com que o resultado da diferena seja 1 8 pares fazem com que o resultado da diferena seja 2 6 pares fazem com que o resultado da diferena seja 3 4 pares fazem com que o resultado da diferena seja 4 2 pares fazem com que o resultado da diferena seja 5 Assim, tem-se o seguinte modelo de probabilidade para o resultado da diferena entre o nmero de pintas: Resultado Probabilidade ou, Resultado Probabilidade 0 0,167 1 0,278 2 0,222 3 0,167 4 0,111 5 0,056 0 6/36 1 10/36 2 8/36 3 6/36 4 4/36 5 2/36

A partir do modelo anterior pode-se calcular a probabilidade (terica) do Pedro ganhar a prxima jogada, bastando para isso somar as probabilidades de obter os resultados 0, 1 ou 2, que d aproximadamente 67%. O valor da probabilidade experimental de aproximadamente 69%, obtido com as 100 jogadas, uma estimativa razoavelmente prxima da probabilidade terica. Pode-se ainda utilizar o modelo anterior para comparar as frequncias relativas obtidas na simulao das 100 jogadas, com as probabilidades tericas dos resultados que se obtm quando se faz a diferena entre os valores das pintas obtidas quando se lanam dois dados:

Organizao e tratamento de dados

275

Tarefa Vamos a uma aposta? Cinco amigas encontraram-se para comer um gelado. Falaram sobre vrios temas, at que surgiu o assunto dos signos. Nessa altura uma delas, a Maria, props a seguinte aposta s restantes: - Aposto um almoo em como duas de ns tm o mesmo signo! Algum quer aceitar esta aposta? Se fosses uma das amigas da Maria aceitavas a aposta? Vamos ajudar-te a tomar uma deciso. Vejamos como simular a situao de em cinco pessoas, duas terem o mesmo signo. Sem a ajuda da tecnologia, este processo poderia ser simulado da forma seguinte: corta-se a figura seguinte de forma a separar os signos que se metem numa caixa. Depois selecciona-se, da caixa, um dos pedaos de papel, verifica-se qual o signo e repe-se novamente na caixa o papel retirado. Repete-se este processo 5 vezes e regista-se se houve repetio de algum signo. Se nos 5 signos retirados houver repeties, regista-se esse facto como um sucesso. Repete-se algumas vezes o processo de retirar os cinco signos, e regista-se o nmero de sucessos. Este processo de simular o acontecimento de interesse, embora simples, muito demorado e pouco interessante, pelo que rapidamente chegamos concluso que prefervel utilizar a tecnologia... Para simular a sada de cada um dos 12 signos, utilizou-se a funo Randbetween(1;12) do Excel, que permite obter cada um dos valores inteiros entre 1 e 12 com igual probabilidade. No nos vamos preocupar com a correspondncia entre os signos e os nmeros, j que a nossa questo se prende com a repetio de qualquer dos signos e no com algum em particular.

Organizao e tratamento de dados

276

Apresenta-se a seguir um extracto das 500 repeties em que em cada repetio se simulou a retirada, com reposio, de 5 signos. Sempre que na simulao dos cinco nmeros ocorrerem pelo menos dois iguais, ento registamos esse facto como um sucesso. Caso contrrio temos um insucesso.

Na coluna G representou-se por 1 um sucesso e por 0 um insucesso. O nmero de sucessos nas 500 realizaes da experincia foi de 308, pelo que uma estimativa para a probabilidade de pelo menos duas das cinco amigas terem signos repetidos 0,616, ou seja superior a 60%. Com este resultado, talvez fosse de apostar no almoo! Tarefa Qual a probabilidade de no lanamento de uma moeda, se verificarem pelo menos 3 faces Euro seguidas? O professor chegou turma e escreveu no quadro vrias sequncias de E (Euro) e N (Nacional), que pretendiam representar o resultado do lanamento de uma moeda de um euro 6 vezes. Uma dessas sequncias tinha sido inventada e o professor pretendia que os alunos lhe dissessem qual era a que a que eles achavam mais provvel de ter sido inventada: EENEEN EEENEN ENENEN NEENNN NNENNN Depois de algumas consideraes sobre se a moeda seria ou no equilibrada, e de o professor responder que a moeda era equilibrada, a maior parte dos alunos exprimiu as suas concluses, no em termos da mais provvel de ter sido inventada, mas da menos provvel de ter sido inventada. O seu raciocnio baseava-se no seguinte: se a moeda equilibrada, ento existe igual possibilidade de sair face Euro ou face Nacional, pelo que nos 6 lanamentos espera-se igual nmero de faces Euro e faces Nacional! Alm disso 3 faces Euro ou

Organizao e tratamento de dados

277

3 faces Nacional seguidas pouco provvel...! Concluam portanto, que o mais razovel que a sequncia no inventada fosse E N E N E N! Acontece que o raciocnio anterior est longe de estar correcto! Numa sequncia de 6 lanamentos, no se pode esperar a regularidade que se espera numa sequncia de muitos lanamentos. O facto da moeda ser equilibrada significa que depois de muitas repeties a frequncia com que se verifica a face Nacional aproximadamente igual frequncia com que se verifica a face Euro. Chamamos a ateno para que quando nos referimos frequncia, estamos a referir-nos frequncia relativa, pois j vimos que medida que o nmero de repeties aumenta, a frequncia absoluta no obedece a nenhuma regularidade. Por outro lado, embora seja pouco intuitivo para os alunos, bem mais frequente observar uma sequncia de 6 lanamentos em que se verificam 3 faces Euro seguidas, do que uma sequncia em que haja alternncia da face Euro com a face Nacional nos 6 lanamentos. Para vermos como a nossa intuio nos engana com frequncia, vamos estimar essas probabilidades. Para isso repetiu-se 500 vezes a simulao de seis lanamentos da moeda. O processo de simulao idntico ao realizado noutras tarefas anteriores, pelo que nos abstemos de o considerar aqui e apresentamos s os resultados. Nas 500 simulaes de 6 lanamentos da moeda, observou-se 150 vezes a sequncia E E E e 13 vezes as sequncias E N E N E N ou N E N E N E, pelo que uma estimativa para a probabilidade de 3 faces Euro seguidas aproximadamente 30%, enquanto que uma estimativa para a probabilidade de obter uma sequncia de 6 faces alternadas no chega a 3%! Tarefa Quem que recebe mais comida? No jardim zoolgico existem seis lees, cada um na sua jaula. O tratador resolveu arranjar um processo de dar a comida aos lees, em que cada pedao de carne passa por cinco prateleiras at chegar a um leo. Em cada prateleira o pedao de carne pode escorregar para a prateleira da direita ou da esquerda com igual probabilidade:

O tratador estava convencido que ao fim de vrios pedaos de carne, todos os lees teriam mais ou menos a mesma quantidade de comida, j que para chegar do tratador a cada leo cada pedao de carne tem de passar pelo mesmo nmero de prateleiras. Acontece que ao fim de alguns dias uns lees estavam mais gordos do

Organizao e tratamento de dados

278

que outros e havia alguns que estavam mesmo a definhar! s capaz de mostrar ao tratador que este processo de lanar a comida aos lees capaz de no ser bom? Vamos simular o lanamento de vrios pedaos de carne e verificar se existem algumas posies onde seja mais provvel de chegar a carne do que a outras. A simulao da sada do pedao de carne de cada prateleira idntica simulao do lanamento de uma moeda equilibrada, ou do nascimento de um rapaz, como fizemos numa das tarefas anteriores. Como cada pedao de carne tem de percorrer 5 prateleiras: Se virar 5 vezes para a direita, vai parar ao Leo da jaula 1; Se virar 4 vezes para a direita e 1 vez para a esquerda em qualquer das prateleiras, vai parar ao Leo da jaula 2; Se virar 3 vezes para a direita e 2 vezes para a esquerda em quaisquer das prateleiras, vai parar ao Leo da jaula 3; Se virar 2 vezes para a direita e 3 vezes para a esquerda em quaisquer das prateleiras, vai parar ao Leo da jaula 4; Se virar 1 vez para a direita e 4 vezes para a esquerda em quaisquer das prateleiras, vai parar ao Leo da jaula 5; Se virar 0 vezes para a direita e 5 vezes para a esquerda, vai parar ao Leo da jaula 6. Sintetizando os diferentes passos da simulao, vamos admitir que: Em cada prateleira existe igual probabilidade de virar esquerda ou direita; As prateleiras so independentes umas das outras. Vamos utilizar a funo Rand do Excel, do seguinte modo: Cada nmero gerado simula a sada de um pedao de carne de uma prateleira; Um nmero 0,5 representa a sada para a direita, e um nmero>0,5 representa a sada para a esquerda. Vamos gerar muitas repeties de 5 nmeros pseudo-aleatrios, para simular a passagem de muitos pedaos de carne pelas 5 prateleiras:

Organizao e tratamento de dados

279

A contagem do nmero de vezes que em cada linha aparece o E foi feita utilizando a funo Countif, e a atribuio do nmero da jaula feita adicionando a esse resultado o 1:

Fizemos 500 repeties e obtivemos os seguintes resultados:

Organizao e tratamento de dados

280

0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 1 2 3 4 5 6 Nmero da jaula

Os resultados anteriores comprovam que os lees no estavam a ser alimentados em igual proporo. Efectivamente, os lees das jaulas 3 e 4 recebiam 60% da comida, enquanto que os das jaulas 1 e 6 s recebiam cerca de 6%. Tarefa Qual ser a probabilidade de cada amigo ficar com o seu chapude-chuva? 2 Quatro amigos, o Joo, o Gonalo, o Pedro e o Bernardo foram ao cinema e como estava a chover levaram chapu-de-chuva, que tiveram de deixar no bengaleiro, entrada da sala. Quando acabou o filme dirigiram-se ao bengaleiro e cada um colocou a sua ficha com o nmero do cabide onde estava o chapu-dechuva, em cima do balco. A senhora que estava a tomar conta do bengaleiro pegou nas 4 fichas, retirou os 4 chapus-de-chuva e entregou ao acaso um chapu a cada um dos amigos! Qual a probabilidade de cada um ter recebido o seu chapu-de-chuva? Esta probabilidade ser superior ou inferior probabilidade de nenhum ter recebido o seu chapu? Vamos comear por descrever um processo de simulao da atribuio aleatria dos chapus-de-chuva pelos 4 amigos, mas neste caso, em vez de usar a tecnologia, como nas tarefas anteriores, usamos um processo manual, com materiais simples e facilmente realizado na sala de aula: divide-se uma folha de papel A4 em 4 partes, e em cada uma das partes escrevemos um dos 4 nomes. Num pedao de cartolina cortam-se 4 rectngulos iguais, do tamanho aproximado de uma carta de jogar e em cada um escreve-se tambm o nome de um dos 4 amigos. Estes cartes vo representar os chapus-de-chuva.

Baralham-se os cartes, e com os nomes virados para baixo, distribuem-se aleatoriamente sobre a folha de papel, cada um em cada uma das partes em que a

Adaptado de Rossman et al (2001), p. 301

Freq. rel.

Organizao e tratamento de dados

281

folha foi dividida. De seguida viram-se os cartes e regista-se o nmero de chapus que calharam aos respectivos donos:

Joo

Gonalo

Joo
rdo Berna

Gonalo

Bernardo

Pedro

Bernardo
Gonalo

Pedro
Pedro
uma

Na atribuio dos chapus anteriormente considerada s houve correspondncia correcta, uma vez que s o Pedro que teve o seu chapu.

Esta experincia pode-se realizar na sala de aula por vrios grupos de alunos, registando-se numa tabela os resultados obtidos por todos os grupos, para o nmero de chapus que foram correctamente atribudos. Ao fim de 125 repeties obtiveram-se os seguintes resultados: Grupo 1 1 1 0 2 2 2 1 2 2 0 2 0 0 2 1 0 2 2 1 0 2 1 1 2 0 Grupo 2 1 4 2 1 0 0 2 1 1 1 4 4 4 1 0 0 1 2 1 2 0 0 0 0 1 Grupo 3 0 1 0 0 2 1 0 0 1 0 0 0 1 1 1 0 0 1 0 2 0 0 2 2 1 Grupo 4 1 2 0 0 2 0 2 1 1 0 0 0 1 0 2 1 0 2 1 2 4 1 1 0 1 Grupo 5 1 1 2 0 1 1 2 2 0 1 1 0 2 0 2 1 1 2 0 1 1 0 0 1 0

Os resultados anteriores podem ser resumidos na seguinte tabela de frequncias e no diagrama de barras respectivo:

Organizao e tratamento de dados

282

N chapus correctos 0 1 2 3 4 Total

Freq.abs. 45 44 31 0 5 125

Freq.rel. 0,36 0,35 0,25 0,00 0,04

Da tabela anterior verificamos que estimativas para a probabilidade de todos os amigos terem recebido o seu chapu e de nenhum ter recebido o chapu que lhe pertencia so, respectivamente, 4% e 36%. Verificamos tambm que no se verificou a possibilidade de trs dos quatro amigos terem recebido os seus chapus! J seria um resultado esperado? Podemos adiantar que a probabilidade do acontecimento Trs dos quatro amigos recebem o seu chapu igual a zero? A implementao em Excel desta simulao pode ser feita da seguinte forma: 1. Representam-se os 4 amigos Joo, Gonalo, Pedro e Bernardo por 1, 2, 3 e 4, respectivamente. 2. Gera-se um conjunto de 4 nmeros pseudo-aleatrios e considera-se a ordem de cada um dentro desse conjunto (a probabilidade de haver dois nmeros iguais igual a zero). Estes nmeros assim obtidos representam os chapus-de-chuva. Cada uma destas ordenaes considerada como uma permutao dos 4 nmeros 1, 2, 3 e 4. Sempre que houver coincidncia de posio entre os nmeros que representam os chapus e os nmeros que representam os amigos, temos um chapu correctamente atribudo: Na tabela seguinte simulamos vrias atribuies dos chapus aos 4 rapazes. Nas colunas A, B, C e D geramos os nmeros pseudo-aleatrios, enquanto que nas colunas E, F, G e H se colocam as ordens dos nmeros anteriores:

Organizao e tratamento de dados

283

Sempre que houver uma coincidncia de posio, considera-se que se atribuiu correctamente o chapu ao seu dono. Por exemplo, na segunda simulao realizada, o Gonalo e o Pedro receberam os seus chapus; na terceira simulao foi o Bernardo que recebeu o seu chapu; na quarta simulao o Joo e o Gonalo receberam os seus chapus; etc. Repare-se que na simulao correspondente linha 18, todos os chapus foram atribudos correctamente aos seus donos. A determinao das ordens foi feita utilizando uma funo do Excel, que a funo Rank, como se pode ver na figura seguinte:

A funo Rank(a,b,c) tem o seguinte significado: a o elemento de que pretendemos obter a ordem, quando inserido numa lista, que representada por b. O argumento c, quando omisso significa que a ordem que pretendemos a ordem decrescente. Qualquer valor deste argumento, significa que a ordem crescente. Utilizando a funo IF nas colunas I, J, K e L, verificou-se se havia atribuio correcta do chapu ao dono. Finalmente na coluna M, contabilizouse o nmero de atribuies correctas, em cada simulao

Organizao e tratamento de dados

284

Repetimos a simulao 500 vezes e obtivemos as seguintes estimativas (frequncias relativas) para as probabilidades do nmero de chapus correctamente atribudos:
N chapus correctos 0 1 2 3 4 Total Freq.abs. 191 162 129 0 18 500 Freq.rel. 0,382 0,324 0,258 0,000 0,036 1,000

Para esta situao relativamente simples obter o modelo de probabilidade terico, considerando todas as 24 permutaes possveis de 1234: Permutao 1234 1324 1423 2134 2314 2413 3124 3214 3412 4123 4213 4312 N chapus correctos 4 2 1 2 1 0 1 2 0 0 1 0 Permutao 1243 1342 1432 2143 2341 2431 3142 3241 3421 4132 4231 4321 N chapus correctos 2 1 2 0 0 1 0 1 0 1 2 0

Ento, considerando que todas as permutaes so igualmente possveis, a probabilidade de cada resultado do nmero de chapus correctamente atribudos obtida atravs da lei de Laplace, como sendo o nmero de casos favorveis sobre o nmero de casos possveis: N chapus correctos Probabilidade ou N chapus correctos Probabilidade 0 0,375 1 0,333 2 0,250 4 0,042 0 9/24 1 8/24 2 6/24 4 1/24

Comparando os resultados do modelo emprico anteriormente obtido, com o modelo terico, verificamos que os resultados obtidos experimentalmente por simulao, esto prximos dos resultados tericos:

Organizao e tratamento de dados

285

Tarefa Qual a probabilidade de passar no exame? O Joo pouco estudioso e como no gosta da disciplina de Estudos Gerais, apresenta-se ao exame e responde a todas as questes ao acaso. O exame constitudo por 5 questes e cada questo de resposta mltipla, tendo 6 respostas possveis, das quais s uma correcta. O Joo s passa no exame se responder bem a pelo menos 3 questes. Qual a probabilidade do Joo passar a Estudos Gerais? a) Qual a probabilidade do Joo responder certo a uma questo? b) Utilizar a tabela de dgitos aleatrios da pgina 258 para simular a realizao de um exame disciplina de Estudos Gerais. c) Simular vrias repeties do exame. d) Qual a estimativa para a probabilidade do Joo passar ao exame? Resoluo:

a) Como o Joo responde ao acaso, a probabilidade de responder bem a cada questo 1/6, j que cada questo tem 6 respostas possveis, das quais s uma a correcta. Assim, o Joo atira o dado ao ar e escolhe a resposta cujo nmero for o nmero de pintas do dado. b) Para utilizar a tabela de dgitos aleatrios da pgina 258, vamos proceder do seguinte modo: Consideram-se nmeros decimais de 3 dgitos e se um desses nmeros For menor que 0,167 admitimos que se escolhe a resposta 1; Estiver entre 0,167 e 0,333 admitimos que se escolhe a resposta 2; Estiver entre 0,333 e 0,500 admitimos que se escolhe a resposta 3; Estiver entre 0,500 e 0,667 admitimos que se escolhe a resposta 4; Estiver entre 0,667 e 0,833 admitimos que se escolhe a resposta 5; Estiver entre 0,833 e 1 admitimos que se escolhe a resposta 6. Repare-se que segundo esta metodologia, cada nmero tem igual probabilidade de sair, sendo essa probabilidade igual a 1/6, pois dividimos o intervalo (0, 1) em 6 partes iguais. Admitindo que o exame tem 5 questes e que as respostas certas so os nmeros 2, 5, 4, 3, 1, respectivamnete, vejamos o resultado da simulao de um exame:
Respostas certas Nmero aleatrio Resultado simulao Questo 1 2 0,192 2 Questo 2 5 0,239 2 Questo 3 4 0,503 4 Questo 4 3 0,405 3 Questo 5 1 0,756 5

Na simulao anterior o Joo respondeu bem a 3 questes! Ser que no vale a pena estudar? c) Apresentamos a seguir o resultado da simulao de 24 repeties do exame (tantas quantas a tabela disponibilizou):

Organizao e tratamento de dados

286

2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 0,192 0,287 0,425 0,471 0,277 0,362 0,775 0,294 0,527 0,602 0,487 0,940 0,607 0,593 0,155 0,570 0,827 0,475 0,943 0,720 0,617 0,188 0,154 0,468 0,239 0,139 0,448 0,509 0,544 0,904 0,580 0,858 0,113 0,274 0,675 0,076 0,795 0,356 0,297 0,675 0,395 0,118 0,831 0,241 0,909 0,833 0,123 0,168 0,503 0,640 0,285 0,940 0,264 0,546 0,009 0,222 0,888 0,001 0,257 0,997 0,379 0,841 0,276 0,021 0,789 0,167 0,489 0,786 0,065 0,600 0,963 0,348 0,405 0,912 0,373 0,001 0,882 0,771 0,532 0,690 0,993 0,185 0,395 0,191 0,117 0,735 0,585 0,147 0,020 0,655 0,360 0,824 0,687 0,919 0,885 0,541 0,756 0,531 0,676 0,927 0,425 0,709 0,863 0,056 0,074 0,848 0,592 0,481 0,297 0,013 0,089 0,487 0,807 0,300 0,940 0,943 0,964 0,365 0,453 0,979 2 2 3 3 2 3 5 2 4 4 3 6 4 4 1 4 5 3 6 5 4 2 1 3

5 2 1 3 4 4 6 4 6 1 2 5 1 5 3 2 5 3 1 5 2 6 6 1 2

4 4 4 2 6 2 4 1 2 6 1 2 6 3 6 2 1 5 2 3 5 1 4 6 3

3 3 6 3 1 6 5 4 5 6 2 3 2 1 5 4 1 1 4 3 5 5 6 6 4

1 5 4 5 6 3 5 6 1 1 6 4 3 2 1 1 3 5 2 6 6 6 3 3 6

N respostas certas 3 2 1 0 1 1 0 2 1 0 1 0 1 1 1 1 0 0 1 0 0 2 0 0

Freq. rel. de 3 ou mais respostas certas. 1,000 0,500 0,333 0,250 0,200 0,167 0,143 0,125 0,111 0,100 0,091 0,083 0,077 0,071 0,067 0,063 0,059 0,056 0,053 0,050 0,048 0,045 0,043 0,042

d) Das 24 simulaes do exame, o Joo s passaria em uma delas, pelo que uma estimativa para a probabilidade do Joo passar 0,042. O nmero de simulaes realizadas anteriormente no suficiente, como se comprova pelo facto da frequncia relativa do acontecimento 3 ou mais respostas certas no ter estabilizado. Uma resoluo alternativa resoluo anterior, sem utilizar a tabela de dgitos aleatrios, poder ser a seguinte: Utilizar a funo RAND() do Excel, ou da mquina de calcular, para gerar nmeros pseudo-aleatrios entre 0 e 1; Se o nmero obtido for inferior a 0,167, considerar a resposta a uma questo como certa e atribuir o valor 1. Caso contrrio atribuir o valor 0; Repetir o passo anterior 5 vezes, contabilizando o nmero de 1s (respostas certas) obtidos (as), para simular a realizao de um exame; Repetir o procedimento anterior at que a frequncia relativa do acontecimento 3 ou mais respostas certas estabilize. Tarefa proposta Pequena sondagem sobre o tipo sanguneo. De acordo com informao disponvel na pgina do Instituto Portugus do Sangue (http://www.ipsangue.org/maxcontent-documento-231.html e revista ABO n 29 de Janeiro/ Maro de 2007), 42% da populao tem grupo sanguneo de tipo O. Na turma, o professor pediu a um grupo de alunos que investigassem junto de 10 colegas, escolhidos ao acaso, qual o seu grupo sanguneo e que calculassem uma estimativa para a probabilidade de todos terem o grupo sanguneo de tipo O. Para obter a estimativa pretendida, o grupo de alunos decidiu utilizar a seguinte metodologia:

Organizao e tratamento de dados

287

1 passo Utilizando a funo RAND() do Excel, simulou a resposta de cada aluno questo O teu grupo sanguneo de tipo O?, da seguinte forma: Se o valor de RAND()<0,42, considera-se a resposta Sim e representa-se por um 1; caso contrrio representa-se por um 0. 2 passo Repetiram o processo anterior 10 vezes, em 10 colunas do Excel, para simular a pergunta a 10 colegas; 3 passo Consideraram uma coluna auxiliar onde em cada clula colocaram o produto das 10 clulas da mesma linha. Se este produto for igual a 1, significa que todos os 10 alunos tm grupo O; 4 passo Repetiram o processo anterior vrias vezes para simular as respostas de 10 colegas e calcularam a frequncia relativa do nmero de 1s da coluna auxiliar, que d uma estimativa da probabilidade pretendida.

A simulao das 10 respostas foi repetida 1000 vezes e em nenhuma das vezes se verificou 1 em todas as respostas. Assim, uma estimativa para a probabilidade pretendida 0. Nota Assumindo que a probabilidade de um indivduo, escolhido ao acaso, ter sangue de tipo O 0,42, pode-se mostrar que a probabilidade de 10 indivduos, escolhidos ao acaso, terem todos sangue de tipo O, 0,00017. Uma alternativa utilizao da folha de Excel, a utilizao da mquina de calcular. Nas tarefas do captulo seguinte consideramos 2 tarefas em que ela utilizada.

Organizao e tratamento de dados

288

Tarefas
Apresentam-se a seguir alguns exemplos de tarefas para a sala de aula.

Organizao e tratamento de dados

290

Organizao e tratamento de dados

291

Tarefa - Os animais selvagens Na folha seguinte esto alguns animais selvagens. O professor faz com que a folha percorra a turma e cada aluno regista com um trao, qual o seu animal preferido (s pode ser um), de modo a obter um esquema de contagem grfica (tally chart). Depois da folha completa, os alunos respondem a algumas questes: a) Quantos alunos estavam na turma quando se fez esta actividade? b) Qual o animal preferido pelos alunos da turma? Quantos alunos o preferem? c) Qual o animal que os alunos da turma gostam menos? Quantos alunos o preferiram? d) Numa folha de papel quadriculado, cada aluno desenha a figura seguinte, para construir um grfico com os dados obtidos no esquema de contagem grfica. O professor d indicaes no sentido de: Completarem o eixo horizontal, onde se indica o animal preferido, com os nomes dos outros animais. Se houver mais de 8 alunos a preferirem algum animal, tero tambm de acrescentar mais alguns nmeros no eixo vertical. Sobre cada nome de animal preenchem tantas quadrculas, quantos os alunos que preferiram esse animal e) O professor chama a ateno para o facto de o grfico obtido indicar com maior clareza a informao sobre os animais selvagens preferidos pelos alunos da turma. f) O professor pode pedir para os alunos fazerem outras investigaes deste gnero relativamente a outros assuntos de interesse
O animal selvagem preferido

Organizao e tratamento de dados

292

Animais selvagens
Total

Organizao e tratamento de dados

293

Tarefa O ms do nosso aniversrio O professor faz passar uma folha A4 com o esquema que se apresenta a seguir, onde pede a cada aluno que coloque um x frente do ms em que faz anos. Ms Janeiro Fevereiro Maro Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Depois de recolher a folha pede aos alunos para responderem a algumas questes: Quantos alunos colocaram um x na folha? Quantos alunos esto na sala de aula? Houve algum aluno que no colocou um x na folha? Ser que esse aluno no se lembra em que ms faz anos? Qual o ms em que mais alunos fazem anos? Qual o ms em que menos alunos fazem anos? Outra forma de recolher a informao anterior utilizando uma folha quadriculada e construir um grfico de pontos:

Organizao e tratamento de dados

294

Organizao e tratamento de dados

295

Tarefa Qual o tipo de gelado preferido? Na turma, decidiram recolher informao sobre o tipo de gelado preferido. Pretendiam ainda averiguar se o gosto das meninas seria idntico ao dos rapazes. Para responder questo anterior, o professor escreveu no quadro os quatro tipos de gelados preferidos pelos alunos e pediu a cada aluno que apontasse qual o gelado preferido: Rapazes |||||| Chocolate ||| Baunilha ||||||||||| Morango Nata |||| |||||| || Raparigas |||||||||||

No esquema anterior podem-se distinguir os gelados preferidos dos rapazes e das raparigas, j que os rapazes registaram as suas preferncias do lado esquerdo, enquanto que as raparigas o fizeram do lado direito. Algumas questes que podem ser respondidas a partir do esquema anterior: Quantos alunos estavam na turma, quando responderam a esta questo? Estavam mais rapazes, ou mais raparigas? Qual o gelado preferido das raparigas? O gelado preferido dos rapazes o mesmo que o das raparigas? Algum rapaz prefere gelado de nata?

Organizao e tratamento de dados

296

Organizao e tratamento de dados

297

Tarefa O nosso tipo de sandes favorita para o lanche O professor e os alunos decidiram fazer um pequeno trabalho de investigao sobre o tipo de sandes que os alunos da turma preferem para o lanche. Depois de alguma troca de impresses, chegaram concluso que os alunos gostavam de sandes de queijo, de fiambre, mistas e de doce. Mas qual seria a preferida? Cada aluno foi ao quadro escrever o nome da sandes preferida e o resultado foi o seguinte: queijo, queijo, doce, fiambre, mista, mista, queijo, fiambre, fiambre, fiambre, mista, mista, doce, fiambre, queijo, queijo, mista, fiambre, fiambre, queijo, doce, fiambre, mista, fiambre, fiambre, queijo Depois de todos terem escrito o nome da sandes preferida, obtiveram uma confuso de nomes, em que era muito difcil concluir alguma coisa com a informao recolhida desta forma. Seria necessrio organizar os dados para saberem qual a sandes preferida. A maneira mais simples seria construrem uma tabela (de frequncias), onde colocavam o nome de todas as sandes e frente de cada nome, o nmero de alunos que a preferiam: Tipo de sandes Queijo Fiambre Mista Doce Nmero de alunos 7 10 6 3

Depois da tabela construda foi fcil concluir que a sandes preferida era a de fiambre e que aquela que os alunos gostavam menos era a de doce. Ainda sugeriram fazer uma representao grfica muito simples, o grfico de barras, que fazia sobressair melhor que uma tabela, a informao recolhida:

Organizao e tratamento de dados

298

Organizao e tratamento de dados

299

Tarefa Qual a cor de carros preferida pelos alunos da nossa escola? Um comerciante de automveis decidiu investigar quais as cores de carros preferidas pelos futuros compradores de carros. Assim, recolheu alguma informao junto dos alunos de uma escola que apresentou no seguinte pictograma onde

representa 4 carros

Cor Preta

Rapaz

Rapariga

Encarnada

Prateada

Responde s seguintes questes: Quantos rapazes preferem a cor preta? Qual a cor preferida das raparigas? a mesma que a dos rapazes? Quantas raparigas manifestaram a sua opinio? E quantos rapazes?

Organizao e tratamento de dados

300

Organizao e tratamento de dados

301

Tarefa A temperatura que faz em algumas localidades A professora props aos alunos da turma fazerem um trabalho de investigao sobre o tempo que faz. Os alunos so divididos em grupos e cada grupo tem como objectivo estudar a temperatura numa dada regio. Podero escolher algumas cidades do Norte, Centro e Sul do pas, como por exemplo, Porto, Lisboa e Faro e ainda a cidade onde vivem ou a mais perto da regio em que vivem. Cada dia e durante 30 dias seguidos, cada grupo recolhe a informao, atravs dos meios de comunicao social, da Internet, etc., sobre a temperatura mxima e mnima que far nesse dia. A planificao da recolha de dados deve ser feita com algum cuidado, tendo em conta os objectivos pretendidos. Por exemplo, se se pretender estudar a evoluo da temperatura durante esses 30 dias, ter de se recolher a informao sobre o dia e sobre a temperatura mxima e mnima desse dia. Se se pretender unicamente calcular algumas estatsticas sobre as temperaturas, j no ser necessrio recolher informao sobre o dia em que as temperaturas foram recolhidas. A professora deve alertar para o facto de que este tipo de informao que se recolhe ao longo do tempo pode ser objecto de uma representao em grfico de linha, pelo que temos uma informao mais rica se se registar tambm o dia. Para exemplificar apresentamos o registo da temperatura na cidade de Lisboa durante 10 dias seguidos:
Dia 27-Mai 28-Mai 29-Mai 30-Mai 31-Mai 01-Jun 02-Jun 03-Jun 04-Jun 05-Jun Temp. Mxima(C) 29 31 32 29 23 22 22 22 24 25 Temp. Mnima (C) 17 17 18 16 14 14 14 14 14 15

A partir dos dados anteriores constri-se um grfico de linhas, onde registamos a evoluo das temperaturas mxima e mnima, entre as datas consideradas:

Organizao e tratamento de dados

302

A partir do grfico anterior podemos responder facilmente a algumas questes tais como: Em que dia que se verificou a temperatura mxima mais alta? Nesse dia a temperatura mnima tambm foi a mais alta? Qual o dia, ou dias, em que a temperatura mnima foi mais baixa? Houve maior variao entre as temperaturas mximas ou entre as temperaturas mnimas?

Outras questes que podem ter interesse averiguar a temperatura mdia, tanto entre as mximas como as mnimas, o dia em foi maior a diferena entre a temperatura mxima e a temperatura mnima, a que damos o nome de amplitude trmica, etc. Ser tambm interessante comparar as temperaturas de vrias cidades. Uma representao que tambm pode ser utilizada para comparar as temperaturas mximas com as mnimas ou as temperaturas entre cidades, o diagrama de extremos e quartis. Para isso necessrio calcular a mediana e os quartis. Vamos exemplificar com os dados anteriores:

Organizao e tratamento de dados

303

1 quartil Mnimo Mediana Mximo 3 quartil

Mximas 22,25 22 24,5 32 29

Mnimas 14 14 14,5 18 16,75

A partir do diagrama de extremos e quartis anteriores apercebemo-nos que os dados apresentam um enviesamento para a direita, nomeadamente os dados referentes s temperaturas mnimas, que tm a particularidade de o mnimo e o 1 quartil coincidirem. Como seria de esperar, as temperaturas mximas so sensivelmente superiores s temperaturas mnimas. Esta representao adequada para comparar vrios conjuntos de dados, pelo que seria interessante os vrios grupos juntarem os dados observados referentes s vrias cidades e compararem-nos atravs de um grfico deste tipo.

Organizao e tratamento de dados

304

Tarefa A corrida de automveis Este jogo vai ser jogado por 11 corredores, escolhidos de entre os alunos da turma, com os carros numerados de 2 a 12, que vo participar numa corrida, com a seguinte particularidade. O vencedor da corrida no depende da velocidade do carro, mas do resultado do lanamento de dois dados, de acordo com as seguintes regras: Lanam-se dois dados equilibrados e somam-se as pintas das faces que ficam viradas para cima; Faz-se andar de uma quadrcula o carro cujo nmero o resultado da soma anterior; para simular esta deslocao pode-se marcar uma cruz na quadrcula respectiva. O jogo termina assim que algum dos carros percorrer as 15 quadrculas, que esto sua frente ou seja assim que as 15 quadrculas correspondentes a algum carro estiverem preenchidas. Esse carro ser o vencedor. Algumas questes que o professor discutir com os alunos, antes de comear a corrida: Porque que os carros s esto numerados de 2 a 12? Porque que no aparece o nmero 1? Quais so as expectativas para o(s) nmero(s) do(s) carro(s) vencedor(es)? Porqu? medida que a tabela com os carros for sendo preenchida com cruzes, deve o professor juntamente com os alunos avaliar a representao que est a ser obtida e quais os carros que tm mais cruzes frente. Deve chamar a ateno para o facto de, depois de um nmero razovel de lanamento dos dados, a tabela obtida permitir estimar, experimentalmente, as probabilidades do resultado da soma das pintas dos dados ser 2, 3, , ou 12. Alm desta avaliao experimental, sobre as probabilidades do resultado da soma das pintas dos dados ser 2, 3, , ou 12, o professor orienta os alunos no sentido de obter teoricamente essas probabilidades, a partir de um modelo proposto para a experincia aleatria que consiste em lanar 2 dados e verificar a soma das pintas das faces viradas para cima. O espao de resultados associado a esta experincia aleatria constitudo pelos seguintes resultados: S = (2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) Para obter as probabilidades dos acontecimentos elementares constitudos pelos resultados anteriores, constri-se uma tabela de dupla entrada, em que na coluna do lado esquerdo se assinalam as pintas de um dos dados, por exemplo o Dado 1, e na primeira linha se assinalam as pintas do outro dado. As clulas do interior da tabela sero preenchidas com o resultado da soma dos algarismos que estiverem na mesma linha e na mesma coluna onde esto registadas o nmero de pintas:

Organizao e tratamento de dados

305

Da tabela anterior verifica-se que quando se lanam os dois dados existem 36 pares, igualmente possveis, que fazem com que a soma das pintas varie entre 2 e 12. S o par (1, 1) d o resultado 2, assim como s o par (6, 6) d o resultado 12. Para obter o resultado 3 ou 11 existem 2 possibilidades, dadas respectivamente pelos pares (1, 2), (2, 1) e (5, 6), (6, 5). Verifica-se tambm que o resultado 7 o que se obtm mais vezes, pois pode ser obtido por obtido pelos pares (1, 6), (2, 5), (3, 4), (4, 3), (5, 2) e (6,1). Tendo em considerao a regra de Laplace, vem o seguinte modelo de probabilidade para o resultado da soma das pintas das faces dos dois dados:
Resultado Probabilidade 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 1/36 9 2/36 10 3/36 11 4/36 12 5/36

Os alunos so incentivados a comparar as frequncias relativas obtidas experimentalmente, com as probabilidades tericas dadas pelo modelo anterior.

Organizao e tratamento de dados

306

Qual o carro vencedor da corrida? 2

10

11

12

Organizao e tratamento de dados

307

Tarefa A cor dos olhos 1 Com esta tarefa pretende-se desenvolver as propriedades do grfico circular 2 . Os dados resultantes da observao da varivel Cor dos olhos numa amostra de alunos, so apresentados, j organizados, na seguinte tabela de frequncias:
Cor dos olhos N de alunos Pretos 12 Castanhos 18 Azuis 7 Verdes 3

1. A quantos alunos foi observada a cor dos olhos? 2. Representa graficamente os dados no seguinte grfico circular e pinta com lpis de cor as zonas referentes a cada categoria.

3. Supe que duplicavas o nmero de alunos em cada categoria da varivel Cor de olhos. Qual o aspecto do grfico circular que representa estes novos dados? Justifica a tua resposta. 4. Supe que duplicavas o nmero de alunos que tem olhos pretos, isto , a tabela de frequncias agora a seguinte:
Cor dos olhos N de alunos Pretos 24 Castanhos 18 Azuis 7 Verdes 3

O ngulo do sector circular correspondente categoria olhos Pretos, tambm duplicava? Justifica a resposta. 5. Supe que o professor te apresentava o seguinte grfico circular, que representa a distribuio da Cor dos olhos de outros 40 alunos:

Completa a legenda anterior, sabendo que: a moda a cor Castanha; o nmero de alunos com olhos Azuis 2; o nmero de alunos com olhos Verdes o triplo do de olhos Azuis.
1 2

Activalea 13 www.alea.pt Esta actividade especialmente adequada para ser resolvida no Excel, pois permite visualizar imediatamente no grfico circular, qualquer alterao processada na tabela de frequncias.

Organizao e tratamento de dados

308

Organizao e tratamento de dados

309

Tarefa Os jogos olmpicos de Atenas, em 2004 Esta tarefa tem como objectivo desenvolver a capacidade de resumir a informao contida em dados com distribuio enviesada Nos jogos olmpicos de 2004, realizados em Atenas, foram distribudas 929 medalhas, pelos 74 pases medalhados. Nestes jogos Portugal ganhou 3 medalhas, 2 de prata e 1 de bronze. a) Sabes quem ganhou as 3 medalhas de Portugal e em que modalidades? (Se no souberes pesquisa em http://www.olympic.org/uk/games) b) Em mdia, quantas medalhas ganhou cada um dos pases medalhados? c) Nestes jogos os pases que mais se distinguiram foram os EUA com 102 medalhas, a Rssia com 92, a China com 63 e a Alemanha e Austrlia com 49 medalhas, cada um. i) Quantas medalhas ganharam ao todo estes 5 pases? Quantas medalhas ganharam os 69 pases restantes? ii) Em mdia, quantas medalhas ganhou cada um dos 69 pases referidos na alnea anterior? d) De acordo com as respostas que deste s alneas anteriores, achas que a mdia , neste caso, uma boa medida de localizao do centro da distribuio dos dados? e) A varivel Nmero de medalhas ganhas por cada pas medalhado discreta ou contnua? f) A seguir apresentamos a tabela de frequncias do conjunto de dados em estudo:
Tabela 1 N de medalhas 1 2 3 4 5 6 7 8 10 12 15 16 17 N de pases 10 7 7 5 9 5 4 4 3 2 1 1 1 N de medalhas 19 22 23 27 30 32 33 37 49 63 92 102 N de pases 2 1 1 1 2 1 1 1 2 1 1 1

g) Com os dados da Tabela 1, algum construiu a seguinte representao grfica:

Organizao e tratamento de dados

310

Achas que o grfico anterior, que pretende representar a distribuio do Nmero de medalhas ganhas por cada pas medalhado est correcta? Porqu? h) Outra representao grfica para os dados a seguinte:

Que nome se d representao anterior? A distribuio dos dados simtrica ou enviesada? i) Tendo em conta a representao anterior e sem fazeres quaisquer clculos, qual a relao de grandeza que esperas que haja entre a mdia e a mediana? Sero aproximadamente iguais ou no? Neste caso qual a medida que tu esperas que seja maior? j) Embora a representao mais comum para os dados discretos seja o diagrama de barras, existem outras representaes que podem ser utilizadas, como por exemplo o caule e folhas, o diagrama de extremos e quartis e at o histograma, apesar desta representao ser mais adequada para dados de tipo contnuo. No entanto, como temos muitos dados e o nmero de valores distintos razoavelmente grande, justificase aqui a construo de um histograma. Procede a um agrupamento dos dados de acordo com as seguintes classes e completa a tabela de frequncias:

Organizao e tratamento de dados

311

Classes [0, 10[ [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[ [100, 110[ Total

Tabela 2 Freq.absoluta Freq.relativa

Freq.rel.acumulada

k) Constri o histograma para os dados em estudo e interpreta o grfico obtido. l) A partir da Tabela 2 consegues dizer, sem fazeres quaisquer clculos, qual o intervalo onde esto a mediana e os 1 e 3 quartis? Justifica a tua resposta. m) Utilizando ainda a Tabela 2 calcula um valor aproximado para a mdia do Nmero de medalhas ganhas por cada pas medalhado. Compara o valor obtido com o que obtiveste na alnea b). O que concluis? (No te esqueas que, efectivamente, quando temos os dados originais, e precisamos de conhecer a mdia, no se deve ir calcul-la a partir dos dados agrupados, pois o erro cometido pode ser razovel, como verificaste neste exemplo). n) Constri o diagrama de extremos e quartis e interpreta a representao obtida. o) Nas alneas k) e n) construste duas representaes para os mesmos dados e obtiveste representaes que te do o mesmo tipo de informao sobre a estrutura subjacente aos dados. 1) Qual das duas representaes foi mais simples de construir? 2) Se te pedissem para organizar os dados originais em classes, escolhias necessariamente as classes que te foram apresentadas? 3) Se pedisses a duas pessoas diferentes para, a partir da Tabela 1, organizarem os dados na forma de um histograma ou de um diagrama de extremos e quartis, qual das duas representaes vinha necessariamente igual? Da alnea anterior podes concluir que a construo do histograma depende, em grande parte, da pessoa que o est a construir. Esta particularidade faz com que o histograma no seja aquilo a que se chama uma figura resistente, pois o aspecto resultante depende do nmero de classes e da amplitude de classe que se considera.

Organizao e tratamento de dados

312

Organizao e tratamento de dados

313

Tarefa Fazes a cama quando te levantas? Esta tarefa tem como objectivo desenvolver a compreenso da utilizao do diagrama de Venn e de Carroll para resumir a informao e a utilizao destas representaes para facilitar o clculo de probabilidades Num inqurito a alunos de uma escola secundria, 490 de 564 raparigas interrogadas, responderam que sim pergunta Fazes a cama quando te levantas?. Dos 476 rapazes interrogados, 425 responderam afirmativamente mesma questo. Com a informao anterior completa o seguinte diagrama de Carroll:
Faz a cama Rapariga Rapaz No faz a cama

Depois de completares a tabela anterior, junta mais uma linha e uma coluna, para colocares os totais:
Faz a cama Rapariga Rapaz Totais No faz a cama Totais

Responde s seguintes questes: a) Quantos alunos participaram no inqurito? b) Quantos alunos fazem a cama? c) Quantos alunos no fazem a cama? d) Quantos rapazes no fazem a cama? e) Quantas raparigas no fazem a cama? f) Quem que tu pensas que faz a cama com mais frequncia? Os rapazes ou as raparigas? g) Calcula a percentagem de raparigas e de rapazes que fazem a cama quando se levantam. Qual a percentagem mais elevada? A resposta que deste questo anterior, est de acordo com os valores que obtiveste nesta questo? h) Preenche o seguinte diagrama de Venn e responde s questes seguintes:
O que significam e quanto valem (em nmeros inteiros) os espaos representados pelas letras (Toma como exemplo a letra a): a - Nmero de raparigas que no faz a cama =74 b.-. _____________________________________ c.-. _____________________________________ d.-. _____________________________________

1) Quantos alunos tm o hbito de fazer a cama? 2) Se escolhesses um aluno ao acaso (de entre os inquiridos), seria mais provvel que fosse rapaz ou rapariga? 3) Se escolhesses um aluno ao acaso, seria mais provvel que fosse um dos que faz a cama ou dos que no faz a cama? 4) Se escolhesses um aluno de entre os que faz a cama, seria mais provvel que fosse rapaz ou rapariga? Justifica a tua resposta.

Organizao e tratamento de dados

314

Organizao e tratamento de dados

315

Tarefa Quanto tempo governaram os presidentes da repblica portugueses? 3 Esta tarefa tem como objectivo interpretar o diagrama de extremos e quartis forma, simetria e variabilidade Para responder questo em estudo, recolheu-se a informao necessria na pgina oficial da Presidncia da Repblica Portuguesa 4 . Parte dessa informao apresentada a seguir:
Presidentes 2006/ - Cavaco Silva 1996/2006 - Jorge Sampaio 1986/1996 - Mrio Soares 1976/1986 - Ramalho Eanes 1974/1976 - Costa Gomes 1974/1974 - Antnio de Spnola 1958/1974 - Amrico Toms 1951/1958 - Craveiro Lopes 1926/1951 - scar Carmona 1926/1926 - Gomes da Costa 1926/1926 - Mendes Cabeadas 1925/1926 - Bernardino Machado 1923/1925 -Teixeira Gomes 1919/1923 - Antnio Jos de Almeida 1918/1919 - Canto e Castro 1917/1918 - Sidnio Pais 1915/1917 - Bernardino Machado 1915/1915 - Tefilo Braga 1911/1915 - Manuel de Arriaga

1. A tabela anterior mostra os sucessivos Presidentes da Repblica de Portugal, desde a implantao da Repblica. Sabes em que data foi implantada a Repblica? At essa data, qual o regime que vigorava em Portugal? 2. Consultando a fonte de informao indicada na introduo, investiga quanto tempo, em meses, esteve na presidncia cada um dos presidentes. Por exemplo, o presidente Tefilo Braga esteve desde 29 de Maio a 5 de Outubro de 1915, o que perfaz 4 meses e 6 dias, ou seja 4,2 meses (6 dias 0,2 (=6/30) meses). A partir dos dados obtidos, responde s seguintes questes: 2.1. Qual ou quais os presidentes que estiveram mais tempo na presidncia? 2.2. Qual ou quais os presidentes que estiveram menos tempo na presidncia? 2.3. Consegues detectar algum perodo bastante conturbado da vida poltica portuguesa? Justifica a tua resposta. 2.4. Constri um diagrama de extremos e quartis para os tempos em que os presidentes estiveram na presidncia da repblica. Interpreta a representao obtida.

3 4

Activalea 21 www.alea.pt http://www.museu.presidencia.pt/presidentes.php

Organizao e tratamento de dados

316

Organizao e tratamento de dados

317

Tarefa O lanamento da roleta para ajudar a compreender a aleatoriedade e a variabilidade 5 Esta tarefa tem como objectivo compreender a variabilidade e a aleatoriedade Apresenta-se a seguir um exemplo de um teste de avaliao que o professor pode aplicar na aula aos seus alunos para averiguar a compreenso de alguns conceitos bsicos associados probabilidade e estatstica. Questo 1. a) O que entendes por variabilidade? b) Utiliza a palavra variabilidade numa frase c) D um exemplo de algo que varie Questo 2. a) O que entendes por aleatrio? b) D um exemplo de algo que acontea de forma aleatria O professor leva para a sala de aula uma roleta como a que se apresenta na figura

Questo 3. Se rodares a roleta uma vez, qual a probabilidade de a seta cair na zona sombreada? Questo 4. Se rodares a roleta 50 vezes, quantas vezes esperas que a seta caia na zona sombreada? Porqu? Questo 5. Se rodares de novo a roleta 50 vezes, esperas obter o mesmo valor que indicaste na questo anterior, para o nmero de vezes que esperas que a seta caia na zona sombreada? Questo 6. Quais os valores que te surpreenderiam, se os obtivesses como resultado de rodares a roleta 50 vezes? Questo 7. Supe que rodas a roleta 50 vezes e registas o nmero de vezes que a seta aponta a zona sombreada e que procedes da forma anterior 6 vezes. Aponta os valores que descrevam os resultados que poderias obter _____, _____, _____, _____, _____, _____ Questo 8. Supe que cada aluno da turma rodou a roleta 50 vezes e que os resultados do nmero de vezes que a seta apontou a zona sombreada se registaram no seguinte grfico:

Adaptado de Thinking and Reasoning with Data and Chance, NCTM, 2006, pag. 64

Organizao e tratamento de dados

318

a) b) c) d) e)

Quantos alunos estavam na turma? Qual foi o menor valor obtido? Qual foi o maior valor obtido? Qual a amplitude dos valores obtidos? Qual a moda dos valores obtidos?

Questo 9. Imagina que outras trs turmas apresentaram grficos semelhantes ao anterior, em que era pressuposto estarem representados os resultados da experincia de rodar vrias vezes a roleta 50 vezes. Desconfia-se que ter havido batota e algum(a) da(s) turma(s) em vez de realizarem a experincia, inventaram os resultados. Alguns dos resultados no resultaram da realizao da experincia? Porqu? x xxx xxxxx xxxxxxx xxxxxxxxxxx
0 5 10 15 20 25 30 35 40 45 50

Turma A

Turma B

x xx
0 5

x x x
10 15

x x x x x x
20 25 30

x x
35

x x x x x x x
40

x x x
45

x
50

Turma C

x x xx xx xx x xx xx xx x xxxxxxxxx x x
0 5 10 15 20 25 30 35 40 45 50

Organizao e tratamento de dados

319

Tarefa - Um jogo com dois dados 6 . Esta tarefa tem como objectivo comparar a probabilidade terica e a probabilidade experimental de um acontecimento.
Uma boa actividade introdutria ao estudo das probabilidades apresentar este jogo aos alunos e perguntar-lhes se lhes parece que algum dos jogadores est em vantagem. JOGO DOS DOIS DADOS Dois jogadores. Em cada jogada, cada jogador lana um dado e somam-se os pontos dos dois dados. O jogador A marca um ponto se a soma for 5, 6, 7 ou 8. O jogador B marca um ponto se a soma for 2, 3, 4, 9, 10, 11 ou 12. Ganha quem primeiro obtiver 20 pontos. Depois de ouvir as opinies dos alunos mas antes de as discutir, propor que eles faam alguns jogos. Para isso, devem organizar-se em grupos de dois, escolhendo entre si qual deles o jogador A e qual o B. Uma boa parte dos alunos prefere ser o jogador B porque, das onze somas possveis, h sete que fazem o jogador B ganhar e s quatro que o fazem perder. Um pouco apressadamente 7 concluem que a probabilidade de ganhar seria . 11 Depois de cada aluno receber um dado, cada grupo de alunos faz um jogo. Se o professor no dispuser de dados suficientes, pode-se usar a calculadora grfica para simular o lanamento dos dados. Na TI-83 carregamos na tecla MATH e em PRB escolhemos 5:randInt(. Depois escrevemos, separados por vrgulas, os limites entre os quais queremos que a mquina escolha nmeros inteiros ao acaso: 1 e 6. Como queremos o resultado de dois dados, acrescentamos mais uma vrgula e o nmero 2. Agora, cada vez que carregarmos em ENTER aparecem dois nmeros correspondentes aos dois dados.

Somando os dois nmeros, vemos se foi o jogador A ou o jogador B a ganhar. Neste exemplo, o jogador A marcou pontos no 2, 3 e 6 lanamentos. Terminado o jogo, cada grupo vai ao quadro registar o seu resultado numa tabela com o seguinte aspecto. Jogador A Jogador B 20 14 19 20 20 16 ... ... Total 274 223

Graa Martins et al (1999), p.44

Organizao e tratamento de dados

320

Normalmente, o jogador A ganhar a maior parte dos jogos. Isto faz-nos suspeitar que A est em vantagem. Alm disso, a soma dos pontos de todos os jogos, tambm maior para A. No exemplo que aqui apresentamos, vemos que A fez 274 pontos e B fez 223. Houve 274 + 223 = 497 jogadas. Ento, as frequncias relativas das jogadas vitoriosas para cada jogador so: 274 223 fA = 0.551 fB = 0.449 497 497 Em seguida, o professor pode propor aos alunos que procurem mostrar que realmente o jogador A est em vantagem. Se necessrio, ir indicando pistas: Ser a soma 2 to fcil de acontecer como a 7? S sai 2 se em ambos os dados sair 1, enquanto que 7 possvel de vrias maneiras: 1+6 ou 2+5 ou 3+4 ou ... Por outro lado, sair 3 num dado e 4 no outro diferente de sair 4 no primeiro e 3 no segundo... Pedir em seguida aos alunos que identifiquem os dados por exemplo, dado azul e dado vermelho e faam uma tabela de duas entradas com todos os casos possveis. Dado Vermelho 1 2 3 4 2 3 4 5 3 4 5 6 4 5 6 7 5 6 7 8 6 7 8 9 7 8 9 10

1 Dado 2 3 azul 4 5 6

5 6 7 8 9 10 11

6 7 8 9 10 11 12

V-se ento que h 36 casos elementares possveis e organiza-se um quadro com o nmero de casos favorveis para cada resultado. Resultado 2 3 4 5 6 7 8 9 10 11 12 Casos favorveis 1 2 3 4 5 6 5 4 3 2 1 Agora j podemos ver se algum jogador tem vantagem. O jogador A ganha se sair 6, 7, 8 ou 9. Os casos favorveis a A so 5+6+5+4 = 20. O jogador B ganha saindo 2, 3, 4, 5, 10, 11 ou 12. Os casos favorveis a B so 1+2+3+4+3+2+1 = 16. Conclui-se ento que o jogo favorvel ao jogador A, apesar de s lhe servirem quatro 20 resultados. A probabilidade de ele ganhar uma jogada ou 55.6%. 36 16 Para o jogador B, a probabilidade de ganhar ou 44.4%. 36 Esta actividade pode ser formalmente apresentada da seguinte forma: Considere a experincia aleatria que consiste em lanar dois dados e em verificar a soma das pintas das faces que ficam viradas para cima. Qual a probabilidade de se obter um 6, 7, 8 ou 9? Como o espao de resultados S associado a esta experincia constitudo por S = {(1,1), (1,2), , (1,6), (2,1), (2,2),, (2,6), (3,1), (3,2),, (3,6), (4,1, (4,2),, (4,6), (5,1), (5,2) , (6,6), (6,1), (6,2), (6,6)}, todos eles igualmente possveis, se os dados forem equilibrados, o acontecimento D, que faz com que a soma das pintas seja a pretendida, constitudo pelos resultados D = {(1,5), (2,4), (3,3), (4,2), (5,1), (1,6), (2,5), (3,4), (4,3), (5,2), (6,1), (2,6), (3,5), (4,4), (5,3), (6,2), 20 (3,6), (4,5), (5,4), (6,3)}, pelo que a probabilidade pretendida . 36

Organizao e tratamento de dados

321

Tarefa Qual a probabilidade de obter uma soma superior a 13, quando se lanam 3 dados? 7 Esta tarefa tem como objectivo comparar a probabilidade terica com a probabilidade experimental de um acontecimento.
Num certo jogo, lanam-se trs dados normais e ganha-se quando a soma das pintas maior que 13. Qual a probabilidade de ganhar? H vrios processos de descobrir esta probabilidade, uns experimentais, outros tericos. Quando o clculo terico muito trabalhoso, difcil ou mesmo impossvel, recorre-se aos mtodos experimentais para obter um valor aproximado. Vamos ver aqui vrios desses processos e no fim determinaremos o valor exacto 1 Processo Experimentao directa Pegam-se em trs dados, lanam-se muitas vezes e de cada vez regista-se o resultado da soma. Ao fim de muitas experincias (que podem ir sendo feitas simultaneamente por vrias pessoas diferentes), calcula-se a frequncia relativa dos resultados maiores que 13. Se o nmero de experincias for suficientemente grande, esta frequncia uma boa estimativa da probabilidade. 2 Processo Simulao com a calculadora Em vez de usar os dados, podemos fazer uma simulao com a calculadora, pedindo para ela gerar um conjunto de trs nmeros aleatrios entre 1 e 6, inclusive. Cada um destes nmeros corresponde a um dado. Cada vez que carregarmos em ENTER aparece-nos um conjunto de trs nmeros que temos de somar para ver se o resultado maior que 13.

Podemos evitar o trabalho de somar os trs nmeros. Com a instruo sum(, a mquina efectua imediatamente a soma dos trs nmeros da lista, embora assim deixemos de saber que nmeros saram efectivamente nos dados.
y LIST

Graa Martins et al (1999), p.48

Organizao e tratamento de dados

322

Cada vez que carregamos em ENTER obtemos um nmero entre 3 e 18. Para evitar enganos e maior facilidade da contagem, aconselhvel fazer aparecer cinco resultados de cada vez. Depois de registar os resultados, faz-se CLEAR, obtm-se mais cinco resultados, e assim sucessivamente. Na figura anterior temos os resultados de 10 experincias, em que s uma vez a soma foi maior que 13. Se houver um grupo de alunos a fazer isto simultaneamente, rapidamente se consegue um grande nmero de experincias. 3 Processo Programa de simulao com a calculadora possvel usar um programa muito simples que faa todo o trabalho anterior por ns. Em anexo neste livro est o programa DADOS3 que faz precisamente isto. Chamamos o programa, indicamos quantas experincias queremos fazer e passado uns momentos a mquina indica-nos o nmero de experincias e a frequncia relativa de resultados maiores que 13

Comemos com 100 experincias e a frequncia de 0,15. Mas este nmero de experincias demasiado pequeno para podermos ter confiana no resultado. Ento, carregando em ENTER, aparece um menu que permite continuar a simulao. Acrescentamos mais 900 experincias, para que o total passe a ser 1000.

Nesta simulao, a frequncia foi de 0,167. de esperar que a probabilidade de ganhar neste jogo seja um valor bastante prximo deste. de referir que este programa faz cerca de 500 experincias num minuto. Prolongmos a simulao at s 10000 experincias e a frequncia foi de 0,1651. 4 Processo Clculo terico Os processos anteriores s nos do valores aproximados da probabilidade pedida, valores esses tanto mais fiveis quanto maior tiver sido o nmero de experincias feito. No entanto, podemos obter o valor exacto da probabilidade fazendo o clculo terico. Para isso temos de calcular o nmero de casos possveis quando se lanam trs dados e o de casos favorveis, que correspondem a somas maiores que 13.

Organizao e tratamento de dados

323

Casos possveis = 6

= 216

Antes de contabilizar os casos favorveis, convm contar o nmero de maneiras diferentes com que pode aparecer um conjunto de trs nmeros: 1) Nmeros todos iguais (por exemplo 5-5-5) s h uma maneira: 5-5-5. 2) Dois iguais e um diferente (por exemplo 6-6-5) trs maneiras: 6-6-5, 6-5-6, 5-6-6. 3) Todos diferentes (por exemplo 6-5-4) seis maneiras: 6-5-4, 6-4-5, 5-6-4, 5-4-6, 4-6-5, 4-5-6. Faamos um quadro para as vrias somas maiores ou iguais a 14. Soma 18 17 16 15 14 Tipo N de casos -6-6 1 -6-5 3 -6-4 3 -5-5 3 -6-3 3 -5-4 6 1 -5-5 -6-2 3 -5-3 6 3 -4-4 3 -5-4 Total 35

6 6 6 6 6 6 5 6 6 6 5

Agora j podemos determinar a probabilidade: P(soma > 13) =


35 216

0.162

Organizao e tratamento de dados

324

Bibliografia

Organizao e tratamento de dados

326

Organizao e tratamento de dados

327

Bibliografia Na preparao desta Brochura seguiu-se essencialmente a seguinte bibliografia: Burrill G. ed. (2006) - Thinking and Reasoning with Data and Chance. NCTM, Inc. Reston Chance B. (2002) -Components of Statistical Thinking and Implications for Instruction and Assessment, Journal of Statistics Education, Volume 10, Number 3. Chatfield, C. (1991). Avoiding Statistical Pitfalls. Statistical Science, 6, 3, 240-268. De Veaux, R. e Velleman, P. (2004) Intro Stats, Pearson Education, Inc. Feller, W. (1968) An Introduction to Probability Theory and its Applications, John Wiley & Sons. Freedman, D., Pisani, R., Purves, R., Adhikari, A. (1991). - Statistics. W. W. Norton & Company. Gaise Report (2005) - Guidelines for Assessment and Instruction in Statistics Education (GAISE) Report, A Pre-k-12 curriculum framework, August 2005 American Statistical Association Gal, I. (2002). Adults Statistical Literacy: Meanings, Components, Responsabilities. International Statistical Review, 70, 1, 1-51. Graa Martins, M. E., Branco, J. (2000) Literacia Estatstica. Revista da APM Graa Martins, M. E., Monteiro, C., Viana, J. P., Turkman, M. A. A. (1999a) Probabilidades e Combinatria, Ministrio da Educao, Departamento do Ensino Secundrio. Graa Martins, M. E., Cerveira, A. (1999b) Introduo s Probabilidades e Estatstica, Universidade Aberta. Graa Martins, M. E., Monteiro, C., Viana, J. P., Turkman, M. A. A. (1997) Estatstica, Ministrio da Educao, Departamento do Ensino Secundrio. Jenni Way, (1997) - Way in Reflections, vol. 21, n 1, May 97, Research in Probability and Statistics: Reflections and Directions. In D. Grouws (Ed.), Handbook of Research on Mathematics Teaching and Learning. Mann, P. (1995) Introductory Statistics. John Wiley & Sons. Mendenhall. W., Beaver, R. (1994) Introduction to Probability and Statistics. Duxbury Press. Moore, D. (1997). New Pedagogy and New Content. The Case of Statistics. International Statistical Review, 65, 2, 123-165 Moore, D. (1997) Statistics Concepts and Controversies. Freeman. Moore, D. (1996) The Basic Practice of Statistics, Freeman. Moore, D., McCabe, G. (1996) Introduction to the Practice of Statistics, Freeman. Rasfeld, P. (2001). The Role of Statistics in School Mathematics Teaching Today.

Organizao e tratamento de dados

328

International Journal for Mathematics Teaching http://www.cimt.plymouth.ac.uk/journal/default.htm.

and

Learning,

Rossman, A. and Chance B. (2001) Workshop Statistics , Discovery with data. Key College Publishing. Emeryville, CA. Sheaffer, R. L. et al (2004) Activity-based statistics student guide. Key College Publishing, USA. Sheaffer, R. (2001) Quantitative Literacy and Statistics. Amstat News 293, Nov 2001, 3-4 Steen, L. A., ed (1997). Why Numbers Count: Quantitative Literacy for Tomorrow America. The College Board. New York. Steen, L. A., ed (2001). Mathematics and Democracy: The case for Quantitative Literacy. Prepared by the National Council on Education and the Disciplines. Princeton. Tannenbaum, P. and al. - Excursions in modern Mathematics, Prentice Hall, 1998. Vere-Jones, D. (1995). The Coming of Age of Statistical Education. International Statistical Review, 63, 1, 3-23. Vicente, P., Reis, E., Ferro, F. Sondagens, Edies Slabo, Lda, 1996 Watson J. M. (2006) - Issues for Statistical Literacy in the Middle School, ICOTS-7 Pginas na Internet ALEA - http://www.alea.pt Instituto Nacional de Estatstica - www.ine.pt (Tem informao sobre Portugal, ao nvel da freguesia) Eurostat europa.eu.int/comm/eurostat/ (Tem informao relativa aos diversos pases da Europa) World Health Organization http://www.who.int/research/en/ (Tem informao sobre temas ligados sade, para todos os pases do mundo) World in figures http://.stat.fi/tup/maanum/index_en.html (Tem informao das mais diversas reas, tais como populao e estatsticas vitais, cultura, religies, emprego, consumo, etc., relativa a todos os pases do mundo)

Potrebbero piacerti anche