Sei sulla pagina 1di 139

Formao Modular

M .O .0 4

INSTITUTO DO EMPREG O E FORM AO PRO FISSION AL

IEFP ISQ

Coleco Ttulo Suporte Didctico Coordenao Tcnico-Pedaggica

MODULFORM - Formao Modular Estatstica Aplicada Guia do Formando IEFP - Instituto do Emprego e Formao Profissional Departamento de Formao Profissional Direco de Servios de Recursos Formativos CENFIM - Centro de Formao Profissional da Indstria Metalrgica e Metalomecnica ISQ - Instituto de Soldadura e Qualidade Direco de Formao Rogrio Puga Leal Lus Barros / Snia Figueira SAF - Sistemas Avanados de Formao, SA ISQ / Cludia Monteiro OMNIBUS, LDA SAF - Sistemas Avanados de Formao Instituto do Emprego e Formao Profissional Av. Jos Malhoa, 11 1000 Lisboa Portugal, Lisboa, Janeiro de 1998 200 Exemplares 127-661-98 972-732-453-3

Apoio Tcnico-Pedaggico

Coordenao do Projecto

Autor Colaborao Capa Maquetagem e Fotocomposio Reviso Produo Propriedade

1. Edio Tiragem Depsito Legal ISBN

Copyright, 1998 Todos os direitos reservados IEFP Nenhuma parte desta publicao pode ser reproduzida ou transmitida por qualquer forma ou processo sem o consentimento prvio, por escrito, do IEFP Produo apoiada pelo Programa Operacional Formao Profissional e Emprego, co-financiado pelo Estado Portugus, e pela Unio Europeia, atravs do FSE
M.S.03

Guia do Formando

IEFP ISQ

Actividades / Avaliao

Bibliografia

Caso de estudo ou exemplo

Destaque

ndice

Objectivos

Recurso a diapositivos ou transparncias

Recurso a software

Recurso a videograma

Resumo

M.C.04

Esta tstica Aplicada Estatstica Guia do Formando

IEFP ISQ

ndice Geral

NDICE GERAL

I - INTRODUO AO CLCULO DE PROBABILIDADES

Conceitos de clculo combinatrio Conceitos bsicos do clculo de probabilidades

I.2 I.7 I.9 I.11 I.12 I.17 I.19

Probabilidade da interseco Probabilidade da reunio Probabilidade condicionada

Resumo Actividades / Avaliao

II - REPRESENTAO E TRATAMENTO DE DADOS

Frequncia relativa e absoluta Diagrama de barras Diviso de observaes em classes Construo de histogramas Resumo Actividades / Avaliao

II.2 II.5 II.7 II.11 II.12 II.13

III - VARIVEIS ALEATRIAS E DISTRIBUIES ESTATSTICAS

Variveis aleatrias discretas e contnuas

III.2 III.3 III.7 III.9 III.13 III.17 III.18 III.18 III.18 III.20 III.22 III.24

Funo de distribuio e funo densidade de distribuio Parmetros de localizao e disperso Medidas de tendncia central Medidas de disperso Coeficientes de assimetria e achatamento Distribuio uniforme Distribuio hipergeomtrica Distribuio binomial Distribuio de Poisson

Distribuies discretas

M.C.04

Distribuies contnuas

Estatstica Aplicada Guia do Formando

IG . 1

IEFP ISQ

ndice Geral

Distribuio normal Distribuio uniforme Distribuies t-Student e 2 (qui-quadrado)

III.24 III.30 III.32 III.34 III.36

Resumo Actividades / Avaliao

IV - AMOSTRAGEM

Clculo da mdia e varincia em amostras Distribuio amostral de mdias, varincias e propores

IV.3 IV.4 IV.5 IV.13 IV.14 IV.16 IV.16 IV.20 IV.22 IV.24 IV.25

Distribuio amostral de mdias Distribuio amostral de varincias Distribuio amostral de propores

Intervalos de confiana

Intervalos de confiana para a mdia Intervalos de confiana para a varincia. Intervalos de confiana para propores.

Resumo Actividades / Avaliao

V - TESTES DE HIPTESES

Erros tipo I e II Testes de hipteses para a mdia Testes de hipteses para propores Testes de hipteses para a varincia Teste qui-quadrado para ajustamento de distribuies Resumo Actividades / Avaliao

V.2 V.3 V.8 V.10 V.12 V.17 V.18

VI - CORRELAO E REGRESSO

Representao grfica de uma amostra. Anlise preliminar. Regresso linear simples

VI.2 VI.4 VI.4 VI.7 VI.12

Coeficiente de correlao Clculo da recta de regresso

M.C.04

Resumo

Estatstica Aplicada Guia do Formando

IG . 2

IEFP ISQ

ndice Geral

Actividades / Avaliao

VI.13 A.1 B.1

ANEXO I - DISTRIBUIO NORMAL PADRONIZADA BIBLIOGRAFIA

M.C.04

Estatstica Aplicada Guia do Formando

IG . 3

IEFP ISQ

Introduo ao Clculo de Probabilidades

M.C.04 Ut.01

Estatstica Aplicada Guia do Formando

IEFP ISQ

Introduo ao Clculo de Probabilidades

OBJECTIVOS
No final desta unidade temtica, o formando dever estar apto a:

Explicar o conceito de sequncia Distinguir entre arranjos com e sem repetio, sabendo efectuar os clculos correspondentes Aplicar o conceito de combinao Identificar a noo de probabilidade Aplicar as noes de acontecimento e espao de acontecimentos Calcular probabilidades de interseco e reunio Calcular probabilidades condicionadas.

TEMAS

Conceitos de clculo combinatrio Conceitos bsicos do clculo de probabilidades

Probabilidade da interseco Probabilidade da reunio Probabilidade condicionada


M.C.04 Ut.01

Resumo Actividades / Avaliao

Estatstica Aplicada Guia do Formando

I . 1

IEFP ISQ

Introduo ao Clculo de Probabilidades

CONCEITOS DE CLCULO COMBINATRIO


O que pretendemos, essencialmente, estudar e quantificar diversas formas de constituio de conjuntos a partir de outros conjuntos dados. Pensemos, por exemplo, no conjunto constitudo pelos algarismos 7, 8 e 9. Se pretendermos determinar quantos nmeros de 2 algarismos diferentes podem ser escritos com os elementos do conjunto anterior, teremos:

Clculo combinatrio

Existe, portanto, um total de 6 nmeros que podem ser escritos. Como se compreende, se formos alargando o nmero de algarismos vai aumentando o nmero de formas possveis de os combinar. Seria ento muito til se pudssemos, de forma expedita, determinar a resposta para exemplos como o anterior sem necessidade de escrever todas as sequncias possveis. Acabmos de falar em sequncias; vejamos um pouco melhor o seu significado. No exemplo que abordmos existiam, como se viu, 6 nmeros distintos que podiam ser escritos cumprindo as condies exigidas. Repare que os nmeros 89 e 98, embora utilizando os mesmos algarismos, so diferentes entre si, o que significa que a ordem pela qual aparecem os elementos no indiferente. Cada um dos 6 nmeros referidos constitui uma sequncia de dois elementos. Generalizando um pouco, podemos ento dizer que sequncias de p elementos so grupos com p elementos obedecendo a determinada ordem. Obteremos uma sequncia diferente quando se altera a ordem. No nosso exemplo, o que pretendamos era, ento, determinar o nmero de sequncias distintas que podiam ser formadas com o conjunto dado. Reparemos, tambm, que era imposta a condio de serem utilizados algarismos diferentes, ou seja, no haver repetio de algarismos. Assim, o que fizemos foi determinar os arranjos, sem repetio, de 3 elementos dois a dois. Generalizando, podemos dizer que arranjos, sem repetio, de n elementos p a p ( n p ) so todas as sequncias que possvel constituir utilizando p elementos diferentes de entre os n elementos de um determinado conjunto. O nmero de arranjos, sem repetio, de n elementos p a p , habitualmente, representado por n Sequncias

Arranjos sem repetio

M.C.04

Ut.01

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 2

IEFP ISQ

Introduo ao Clculo de Probabilidades

Este nmero pode ser calculado a partir da seguinte frmula :

n p

= n . ( n 1) . ( n 2 ) ... ( n p + 1)

(I.1)

Veremos, mais tarde, uma outra forma de escrever a equao anterior tornando mais fcil o clculo com recurso a mquina calculadora. Voltando ao exemplo inicialmente proposto, teremos :

n=3 p=2

(nmeros de elementos do conjunto) (pretendemos formar sequncias de 2 elementos)

A
Exemplo I.1

3 2

=3x2=6

Uma gelataria tem 6 diferentes sabores de gelado. Quantos cones, com 3 sabores diferentes, pode a gelataria obter ?

n=6

p=3
6 3

= 6 x 5 x 4 = 30 x 4 = 120

Podem, portanto, obter-se 120 gelados diferentes. Consideremos agora a seguinte situao: um grupo de apuramento para o Campeonato da Europa de Futebol constitudo por 6 equipas; de quantas formas distintas se podem classificar as equipas? Reparemos que se est perante uma situao semelhante s anteriores. A particularidade que pretendemos saber quantas sequncias de 6 elementos distintos se podem formar a partir de um conjunto de 6 elementos. Aqui, de facto, s se altera a ordem, os elementos sero sempre os mesmos. Se utilizarmos a frmula dos arranjos, anteriormente abordada, teremos

Permutaes

A
Ut.01

6 6

= 6 x 5 x 4 x 3 x 2 x 1 = 720

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 3

IEFP ISQ

Introduo ao Clculo de Probabilidades

Aos arranjos, sem repetio, de n elementos n a n costumamos chamar, simplesmente, permutao de n elementos:

A
e poderemos escrever

n n

= Pn

(I.2)

Pn = n . ( n 1) . ( n 2 ) ... 2 . 1
ou, de uma forma mais simples,

Pn = n !
O smbolo n! l-se, simplesmente, como n - factorial. Teremos 1 1! = 1 2! = 2 3! = 6 4! = 24, etc.

Com toda a facilidade se demonstra que a frmula de escrita como

n p pode tambm ser


(I.3)

n p

n! (n p)!

Uma vez que todas as calculadoras cientficas nos permitem a obteno, directa, do valor de n!, torna-se mais cmoda a utilizao desta frmula do que a da anteriormente apresentada. Na altura em que abordmos a questo das permutaes, fomos colocados perante uma situao em que todos os elementos eram diferentes ou, o que o mesmo, em que no existiam repeties. Admitamos agora, por exemplo, que pretendamos estudar de quantas formas se podiam permutar as letras da palavra BANANA. Neste caso, vamos servir-nos do facto de o nmero de permutaes de um conjunto de n elementos em que n1 elementos so iguais entre si e distintos de todos os outros, n2 elementos so iguais entre si e distintos de todos os outros, etc., ser dado por

Permutaes com repetio

P=

n! n1! n2 !..... nk !

com n1 + n2 + ..........+ nk = n.
1 Por definio considera-se
Ut.01

0! = 1

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 4

IEFP ISQ

Introduo ao Clculo de Probabilidades

Teremos, portanto: existe um B, n1 = 1 existem trs A, n2 = 3 existem dois N, n3 = 2 n1 + n2 + n3 = 6

P=

6! = 60 2! 3! 1 !

Falmos, anteriormente, dos arranjos, sem repetio, de n elementos p a p,e estudmos vrios exemplos. E se quisermos calcular qual o nmero total de sequncias de p elementos que se podem constituir a partir dos n elementosde um conjunto, sem qualquer restrio no que diz respeito a repeties? Chamaremos ao nmero total destas possibilidades os arranjos, com repetio, de n elementos p a p.
' : Sero representados por n Ap

Arranjos com repetio

'

= np

(I.4)

Repare que, neste tipo de situao, poderemos ter n < p, ao invs do que acontecia nos arranjos sem repetio.

Exemplo I.2

1X2 Pensemos numa situao que todos conhecemos, o boletim do Totobola.


Quantas chaves diferentes ser possvel escrever ? O que pretendemos determinar quantas sequncias distintas de 13 elementos (p) elementos se podem constituir com os 3 smbolos (n). O que resultar:
n

'

'

13

= 313 = 3 x 3 x ... x 3 = 1 594 323

Num boletim de Totobola possvel escrever 1 594 323 chaves diferentes. Finalmente, para encerrarmos esta nossa rpida viagem pelo clculo combinatrio, vamos debruar-nos sobre a constituio de conjuntos nos quais a ordem dos elementos irrelevante.
Ut.01 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 5

IEFP ISQ

Introduo ao Clculo de Probabilidades

Pensemos noutra situao bem conhecida de todos ns, o Totoloto. Quantas chaves de Totoloto se podem obter (sem contar com o nmero suplementar) ?

1 8 15 22 29 36 43

2 9 16 23 30 37 44

3 10 17 24 31 38 45

4 11 18 25 32 39 46

5 12 19 26 33 40 47

6 13 20 27 34 41 48

7 14 21 28 35 42 49

oooooo?
Queremos, apenas, determinar quantos diferentes subconjuntos de 6 nmeros podem ser considerados a partir de um conjunto de 49. Este nmero corresponde quilo a que chamamos combinao de 49 elementos 6 a 6. Mais genericamente, combinao de n elementos p a p so todos os subconjuntos de p elementos que se podem considerar num conjunto com n n elementos. habitual usar a representao . p

Combinaes

Pode provar-se que

n p

n! p! (n p) !

(I.5)

Ento, voltando ao caso do Totoloto, teremos

49 6

49! 6! 43!

O clculo desta expresso pode ser feito, facilmente, com o recurso a calculadoras, ou utilizando simplificaes como as que apresentamos em seguida. Repare-se que
49 ! = 49 x 48 x 47 x 46 x 45 x 44 x 43 !

Ento,

C
resultando

49 6

49 x 48 x 47 x 46 x 45 x 44 x 43! 6! 43!

C
Ut.01

49 6

49 x 48 x 47 x 46 x 45 x 44 = 13 983 816 6!

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 6

IEFP ISQ

Introduo ao Clculo de Probabilidades

Exemplo I.3

Vamos agora calcular o impacto que teve, no nmero de combinaes possveis, o aumento de 47 para 49 nmeros do Totoloto. Conforme j vimos, com 49 algarismos o nmero de combinaes possveis de 6 algarismos de 13 983 916. Se tivssemos 47 algarismos as combinaes possveis seriam:

47 6

47! = 10 737 573 6! 41 !

Note-se que o simples aumento de 2 algarismos no Totoloto (de 47 para 49) provocou um aumento de 3 246 343 combinaes possveis (13 983 916 - 10 737 573 = 3 246 343).

CONCEITOS BSICOS DO CLCULO DE PROBABILIDADES

A noo de probabilidade enquadra-se, certamente, no conjunto daquelas que todos possumos, ainda que de forma intuitiva, mas que temos dificuldade em definir ou quantificar. A definio clssica de probabilidade de um acontecimento (A) a de que se A pode ocorrer de x maneiras distintas, de entre n maneiras possveis e equiprovveis, ento a sua probabilidade ser 2

Probabilidades

P(A) = x / n
Por vezes, por simplificao, habitual escrever, simplesmente,

(I.6)

probabilidade =

n. de casos favorveis n. de casos possveis

Vejamos alguns exemplos que tornam mais fcil a compreenso deste conceito.

2 Resulta da expresso seguinte que, necessariamente, para qualquer acontecimento A,


Ut.01

0 P( A) 1

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 7

IEFP ISQ

Introduo ao Clculo de Probabilidades

Exemplo I.4

Qual a probabilidade de sair coroa num lanamento de moeda ao ar?

Acontecimentos possveis, {cara, coroa} Acontecimento favorvel, {coroa}

P (coroa) = 1 / 2 = 0,5
como seria de esperar.

Exemplo I.5

Qual a probabilidade de que saia uma face par quando se lana um dado sobre uma mesa?
Acontecimentos possveis Acontecimentos favorveis

{1,2,3,4,5,6}

{2,4,6}

P (face par) = 3 / 6 = 0,5 = 50% Apresentemos agora dois conceitos importantes. Chamaremos acontecimento elementar a cada um dos resultados possveis de determinada experincia - num lanamento de dados os acontecimentos elementares so: sada do 1 , sada do 5 e sada do 6 , sada do 2 . Espao de acontecimentos , sada do 3 , sada do 4 Acontecimento elementar

Chamaremos espao de acontecimentos (S) ao conjunto de todos os acontecimentos elementares. No caso do lanamento do dado, S = {1,2,3,4,5,6} Podemos ento dizer que acontecimento qualquer subconjunto do espao de acontecimentos.

Acontecimento

M.C.04

Ut.01

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 8

IEFP ISQ

Introduo ao Clculo de Probabilidades

Vimos anteriormente que a probabilidade de ocorrncia de um determinado acontecimento A representado por P(A). Uma vez associados os conceitos de acontecimento e de conjunto, torna-se bvio que a probabilidade de no ocorrer A, P ( A ) , semelhante probabilidade de ocorrer o seu complementar. Isto ,

P ( A ) = 1 P ( A)

(I.7)

Vamos calcular a probabilidade de, na extraco do Totoloto, sair o nmero 24. Dado que existem 49 bolas numeradas, a probabilidade de sair qualquer uma delas (e portanto tambm a n 24) de: P = 1 / 49 = 0,0204 = 2,04% A probabilidade de no sair a bola 24 ser o complementar do valor anterior, ou seja, 1 - 0,0204 = 0,9796 (aproximadamente 98%). Significa isto que, em cada extraco, se pretender adivinhar qual o nmero que vai sair, tem apenas cerca de 4,17% de hipteses de acertar. O passo seguinte do nosso trabalho ser o de combinarmos acontecimentos de diversas formas, abordando o clculo de probabilidades relativo a essas vrias combinaes.

Probabilidade da interseco
Uma das questes que frequentemente se colocam a da determinao da probabilidade de ocorrerem conjuntamente dois acontecimentos, A e B. Sendo A e B conjuntos, podemos utilizar diagramas de Venn para representar pictoricamente as relaes que existem entre eles. Vejamos a figura seguinte: Probabilidade da interseco

Figura I.1 - Interseco de dois conjuntos

A zona a sombreado corresponde interseco dos dois conjuntos. Por outras palavras, corresponde ocorrncia conjunta dos acontecimentos A e B. Vamos representar a probabilidade de ocorrncia conjunta de dois acontecimentos por

P ( A B ) ou, mais simplesmente, P(AB), que habitualmente lido como probabilidade de A e B.

M.C.04

Ut.01

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 9

IEFP ISQ

Introduo ao Clculo de Probabilidades

Analisemos uma situao como a que se representa na figura seguinte:

Figura I.2 - Acontecimentos mutuamente exclusivos

Esta situao ocorre quando os dois acontecimentos A e B nunca podem ocorrer conjuntamente. Admitamos, por exemplo, que A corresponde ao acontecimento ter olhos azuis e B corresponde ao acontecimento ter olhos castanhos. No existe, como bvio, nenhum indivduo que possa ter, simultanea-mente, olhos azuis e castanhos. Dizemos ento que os acontecimentos A e B so mutuamente exclusivos. Como se compreende, se A e B forem mutuamente exclusivos, P(AB) = 0. No clculo de P(AB) haver que distinguir se os acontecimentos so ou no independentes entre si. Pensemos, por exemplo, em 3 lanamentos consecutivos de moeda ao ar. Como se compreende, o facto de num determinado lanamento sair cara ou coroa nada tem a ver com o que ocorreu nos lanamentos anteriores. Ento, os lanamentos so independentes entre si. Imaginemos, por outro lado, que temos, dentro de uma caixa, duas bolas azuis e uma vermelha. Se retirarmos, de seguida, 2 bolas da caixa, a probabilidade de que a segunda seja de determinada cor depender, naturalmente, da cor da primeira bola retirada. Dizemos ento que os acontecimentos correspondentes sada de cada uma das bolas no so independentes entre si. Quando os acontecimentos so independentes3 , a probabilidade de ocorrncia conjunta no mais do que o produto das probabilidades individuais. Isto ,

Mtua excluso

Independncia

P(AB) = P(A). P(B)


Generalizando, se tivermos n acontecimentos independentes, A1, A2, ..., An, a probabilidade de que eles ocorram conjuntamente ser P (A1A2...An) = P(A1)..........P(An) (I.8)

M.C.04

Ut.01

3 Faremos mais tarde a quantificao da probabilidade relativa ocorrncia conjunta de acontecimentos dependentes.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 10

IEFP ISQ

Introduo ao Clculo de Probabilidades

Exemplo I.6

A probabilidade de que um mssil acerte no alvo de 0,85. Qual a probabilidade de que dois msseis lanados consecutivamente acertem no alvo? (Assuma que os lanamentos so independentes entre si.) Se designarmos por P(A), probabilidade do primeiro mssil acertar P(B), probabilidade do segundo mssil acertar teremos, atendendo independncia dos lanamentos, P(AB) = P(A).P(B) = 0,85 x 0,85 = 0,7225 Se quisermos converter em percentagem o resultado anterior, teremos de o multiplicar por 100: 0,7225 x 100 = 72,25%

Probabilidade da reunio
Consideremos quaisquer dois acontecimentos, A e B, que se relacionam da forma que podemos ver representada no diagrama de Venn.

Figura I.3 - Reunio de conjuntos

Admitamos que pretendemos determinar a probabilidade de que ocorram A ou B, ou ambos. Esta probabilidade representa-se por P( A B ) . No fundo, estamos interessados em calcular a probabilidade de ocorrncia de toda a rea da figura anterior. Para o clculo desta probabilidade haver ento que, antes de mais, somar P(A) e P(B). Repare-se porm que, ao faz-lo, a rea a sombreado mais escuro considerada duas vezes, pois diz respeito a elementos que pertencem aos dois conjuntos. Assim sendo, para obtermos a probabilidade pretendida, mais no temos do que retirar soma anterior o excesso proveniente da duplicao. Ento, a probabilidade de que ocorram A, ou B, ou ambos, pode ser calculada a partir de

Probabilidade da reunio

P ( A B ) = P ( A) + P (B ) P ( AB )
M.C.04 Ut.01

(I.9)

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 11

IEFP ISQ

Introduo ao Clculo de Probabilidades

P(AB) , como vimos, a probabilidade de ocorrncia conjunta de A e B. Sobre o clculo desta probabilidade j nos debrumos na seco anterior, sendo, naturalmente, vlidas todas as consideraes ento efectuadas.

Exemplo I.7

Voltemos ao exemplo dos msseis apresentado no final da seco anterior. Recorde-se que era de 0,85 a probabilidade de acerto de cada um dos msseis. Determine a probabilidade de, disparando uma salva de dois msseis, pelo menos um acertar (consideremos como independentes os lanamentos dos dois msseis). Coloca-se, ento, a questo de determinar qual a probabilidade de se acertar o 1. mssil, ou o segundo, ou ambos. Isto , h que determinar P ( A B ) . Como vimos,

P ( A B ) = P ( A) + P (B ) P ( AB ) , resultando P ( A B ) = 0,85 + 0,85 + 0,85 x 0,85 = 0,9775


ou seja, 99,75%.

Probabilidade condicionada
Referimos, anteriormente, haverem circunstncias nas quais existe a necessidade de relacionarmos acontecimentos que no so independentes entre si. Far, assim, sentido falarmos na probabilidade de ocorrncia de determinados acontecimentos condicionados pela ocorrncia, ou no, de outros. Designaremos por P(A\B) a probabilidade de ocorrncia de A, dada a ocorrncia de B, e por P ( A \ B ) a probabilidade de ocorrncia de A, dada a no-ocorrncia de B. Se os acontecimentos forem independentes, teremos Probabilidade condicionada

P(A \ B) = P (A \ B ) = P(A)

(I.10)

Prometemos h pouco que voltaramos a abordar a questo da probabilidade de ocorrncia conjunta de acontecimentos quando estes no so independentes. Chegou a altura de o fazermos. Se A e B forem acontecimentos no-independentes, teremos, relativamente probabilidade de interseco,

P ( AB ) = P ( A) . P (B \ A ) = P (B ) . P ( A \ B )

(I.11)

Exemplo I.8

M.C.04

Ut.01

Admitamos agora, ainda no caso dos msseis, que, se o primeiro mssil acertar, a probabilidade de que o segundo tambm acerte permanece inalterada e igual a 0,85. No entanto, se o primeiro mssil falhar, a tenso nervosa da resultante provoca que a probabilidade de o segundo mssil acertar baixe para 0,80. Qual a probabilidade de que pelo menos um mssil acerte?

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 12

IEFP ISQ

Introduo ao Clculo de Probabilidades

Repare que, relativamente ao primeiro mssil, continuamos a ter P(A) = 0,85. Em relao ao segundo mssil, a situao diferente. A sua probabilidade de acerto depender do acerto, ou no, do mssil anterior. Teremos, assim,

P (B \ A) = 0,85
O que pretendemos

P (B \ A ) = 0,80

P ( A B ) = P ( A) + P (B ) P ( AB ) P ( A) = 0,85 P ( AB ) = P ( A) . P (B ) P (B \ A ) = 0,85 x 0,85 = 0,7225

Resta-nos o clculo do valor de P(B). Observemos a figura, para que se torne mais evidente.

A B

P (B ) = P ( AB) + P ( A B ) = P ( A) . P (B \ A) + P ( A ) P (B \ A ) =
= 0,85 x 0,85 + 0,15 x 0,80 = 0,8425 Ento,

P ( A B ) = 0,85 + 0,8425 - 0,7225 = 0,97

M.C.04

Ut.01

Componente Prtica Guia do Formando

Estatstica Aplicada

I . 13

IEFP ISQ

Introduo ao Clculo de Probabilidades

Caso de Estudo I.1

O exemplo que se segue extremamente importante. No apenas porque engloba a quase totalidade dos conceitos de clculo de probabilidade que temos vindo a abordar, mas ainda porque o seu resultado deve ser analisado com muito cuidado por todos aqueles que trabalhem, ou esperem vir a trabalhar, com equipamentos de medida. Um determinado ensaio tem 98% de probabilidade de classificar como defeituoso um item que , de facto, defeituoso, e 4% de classificar um item como defeituoso sendo ele bom. Se, num determinado lote, 3% dos artigos forem de facto defeituosos, qual a probabilidade de que, quando um item deste lote classificado como defeituoso, ele o seja de facto? Vamos usar a seguinte simbologia: A - item classificado como defeituoso B - item classificado como no-defeituoso C - item no-defeituoso, de facto D - item defeituoso, de facto Pretendemos saber a probabilidade de, sabendo que um item foi classificado como defeituoso, ele o ser realmente. Ou seja, pretendemos calcular P(D\A).

P (D \ A) =

P (DA) P (D ) . P ( A \ D ) = P ( A) P ( A)

Sabemos, a partir dos dados do problema, que

P(D) = 0,03

P(A\D) = 0,98

Resta-nos, ento, determinar o valor de P(A). Este poder ser obtido a partir de P(A) = P(AC) + P(AD) = P(C).P(A\C) + P(D).P(A\D) = = 0,97 x 0,04 + 0,03 x 0,98 = 0,0682 resultando P(D\A) = 0,431, ou seja 43,1%. Podemos concluir deste resultado que no basta um equipamento de medida capaz de detectar, com rigor, os itens defeituosos; fundamental, tambm, que o equipamento classifique de forma correcta os bons itens.

M.C.04

Ut.01

Componente Prtica Guia do Formando

Estatstica Aplicada

I . 14

IEFP ISQ

Introduo ao Clculo de Probabilidades

RESUMO

A presente unidade temtica foi, como vimos, dividida em duas grandes reas: clculo combinatrio e clculo de probabilidades. Na primeira destas reas, o que fizemos foi estudar e quantificar diversas formas de constituio de conjuntos a partir de outros conjuntos dados. Para isso, estudmos os conceitos de arranjos, com e sem repetio, permutaes e combinaes. Definindo sequncias de p elementos como sendo grupos com p elementos obedecendo a determinada ordem, pudemos partir para a definio de arranjos. Podemos dizer que arranjos, sem repetio, de n elementos p a p ( n p ) so todas as sequncias que possvel constituir utilizando p elementos diferentes de entre os n elementos de um determinado conjunto. Conclumos, tambm, que permutaes de n elementos no so mais do que arranjos, sem repetio, de n elementos n a n. Abordmos, em seguida, as situaes em que se pretendia o clculo do nmero total de sequncias de p elementos que se podem constituir, a partir dos n elementos de um conjunto, sem qualquer restrio no que diz respeito a repeties. Ou seja, abordmos as questes relativas aos arranjos e permutaes, com repetio. A rea de clculo combinatrio foi finalizada com uma abordagem s situaes relativas constituio de conjuntos nos quais a ordem dos elementos irrelevante. Falmos, portanto, de combinaes de n elementos p a p. A segunda rea estudada foi a relativa ao clculo de probabilidades. Apresentmos o conceito clssico de probabilidade como sendo, em relao a um determinado acontecimento, o quociente entre o nmero de casos favorveis e o nmero de casos possveis. Definimos como acontecimento elementar cada um dos resultados possveis de determinada experincia e como espao de acontecimento o conjunto de todos os acontecimentos elementares. Neste contexto, foi, tambm, apresentado o conceito de acontecimento como sendo qualquer subconjunto do espao de acontecimentos. Procedemos, posteriormente, determinao de probabilidades relativas a combinaes de acontecimentos. Entendendo-se como probabilidade da interseco a probabilidade de ocorrncia conjunta de dois acontecimentos, conclumos que o seu clculo depende da independncia, ou no, dos acontecimentos. Vimos tambm que, no caso de estarmos perante acontecimentos que se excluem mutuamente, nula a probabilidade da
Ut.01 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

I . 15

IEFP ISQ

Introduo ao Clculo de Probabilidades

interseco. probabilidade de ocorrncia de qualquer um dos acontecimentos, ou de ambos, chammos probabilidade da reunio. Terminmos a unidade temtica com uma abordagem s situaes nas quais existe a necessidade de relacionarmos acontecimentos que no so independentes entre si. Ou seja, falou-se na probabilidade de ocorrncia de determinados acontecimentos condicionados pela ocorrncia, ou no, de outros. Entrmos, portanto, no domnio da probabilidade condicionada.

M.C.04

Ut.01

Componente Prtica Guia do Formando

Estatstica Aplicada

I . 16

IEFP ISQ

Introduo ao Clculo de Probabilidades

ACTIVIDADES / AVALIAO
I. Quantos nmeros diferentes, de trs algarismos, podem ser formados com os nmeros 1, 2, 3, 4 e 5, a) se forem permitidas repeties? b) se no forem permitidas repeties? Em ambos os casos, quantos dos nmeros anteriores sero pares? II. De um plantel de 30 jogadores, pretende-se formar uma comisso negociadora de trs jogadores com tarefas diferenciadas. a) Quantas comisses diferentes se podem formar? b) Havendo dois jogadores que recusassem estar juntos na comisso, quantas se poderiam formar? III. Pretende-se constituir uma amostra de cinco peas, duas das quais roscadas, escolhidas entre quatro peas roscadas e nove que o no so. Quantas amostras diferentes se podem constituir? IV. Uma fbrica produz dois tipos diferentes de produtos, A e B, na proporo de 1:3. Sabendo que 10% da produo se destina a exportao, e que destes produtos 60% so de tipo B, determinar : a) A probabilidade de um produto, escolhido ao acaso, ser destinado a exportao, sabendo-se que de tipo B. b) A probabilidade de um produto, escolhido ao acaso, ser destinado ao mercado interno, sabendo-se que de tipo A. V. Numa determinada empresa existem empregados com seguro de vida e outros que o no tm. De um levantamento das idades dos funcionrios, extraram-se os seguintes resultados:
Menos de 45 anos Com seguro Sem seguro Totais 10,52% 28,6% 38,8% Mais de 45 anos 57% 4.2% 61,2% Totais 67,2% 32,8% 100%

M.C.04

Ut.01

Componente Prtica Guia do Formando

Estatstica Aplicada

I . 17

IEFP ISQ

Introduo ao Clculo de Probabilidades

Tomando um empregado ao acaso, determine as probabilidades de: a) Sabendo que tem seguro, ter menos de 45 anos. b) Sabendo que no tem seguro, ter menos de 45 anos. c) Sabendo que tem menos de 45 anos, ter seguro. VI. Determine a probabilidade de se obter 6 ou 7 no lanamento de dois dados.

M.C.04

Ut.01

Componente Prtica Guia do Formando

Estatstica Aplicada

I . 18

IEFP ISQ

Representao e Tratamento de Dados

M.C.04 Ut.01

Estatstica Aplicada Guia do Formando

IEFP ISQ

Representao e Tratamento de Dados

OBJECTIVOS
No final desta unidade temtica, o formando dever estar apto a:

Distinguir e calcular frequncias relativas e absolutas Calcular frequncias acumuladas Construir diagramas de barras Dividir um conjunto de observaes em classes e determinar as correspondentes frequncias Construir histogramas

TEMAS


Ut.02

Frequncia relativa e absoluta Diagrama de barras Diviso de observaes em classes Construo de histogramas Resumo Actividades / Avaliao

M.C.04

Estatstica Aplicada Guia do Formando

II . 1

IEFP ISQ

Representao e Tratamento de Dados

Quando nos servimos da estatstica, temos como principal objectivo conhecer a populao com que estamos a trabalhar, seja qual for a natureza dos elementos que a constituem. Isto , quando falamos em populao, isso no significa, necessariamente, que nos estejamos a referir a um conjunto de seres humanos. Vejamos:

Os pesos de sacos de acar que saem de uma linha de produo constituem uma populao; O conjunto de durezas superficiais medidas em peas de ao sujeitas a tratamento trmico constitui uma populao.

Inmeros outros exemplos se poderiam, naturalmente, apresentar. Voltemos ao exemplo dos sacos de acar. Em que consistir conhecer a populao dos pesos dos sacos de acar? A resposta ser simples e intuitiva:

Consiste, apenas, na possibilidade de conhecermos qual o nmero de sacos de acar que apresentam cada um dos pesos possveis.

Para que isto seja vivel, torna-se necessrio que saibamos partir de um conjunto de dados em bruto, trat-los e represent-los de forma adequada, conferindo-lhes o significado que no tm enquanto aglomerado de nmeros. precisamente sobre formas de tratar e representar dados que vai incidir o nosso trabalho.

FREQUNCIA RELATIVA E ABSOLUTA


Existe, certamente, conscincia que uma determinada varivel que utilizamos para caracterizar determinada caracterstica de uma populao pode ser de natureza contnua ou discreta. Entendemos por variveis discretas aquelas que no podem tomar qualquer valor dentro de um intervalo. So contadas em nmeros inteiros: o nmero de rs num charco ou o nmero

Variveis contnuas e discretas

M.C.04

Ut.02

de pacotes de comida para gatos vendido em cada semana, por exemplo. Pensemos, por exemplo, no lanamento de um dado. A varivel que corresponde face sada uma varivel discreta.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 2

IEFP ISQ

Representao e Tratamento de Dados

De facto, apenas pode tomar os valores 1, 2, 3, 4, 5 ou 6, no fazendo sentido referir, por exemplo, a face 2,28. As variveis contnuas, ao contrrio das anteriores, so aquelas que podem tomar qualquer valor dentro de um intervalo. Medidas como alturas e pesos so contnuas. Apenas podem ser estimadas: a temperatura de 25 C; este sapo pesa 500 g. A presiso de tais estimativas depende da preciso do instrumento de medio. Uma balana mais apurada poderia mostrar que o peso do sapo de 501 g ou 500,5 g ou 500,0005 g, etc. Voltaremos mais tarde, com maior rigor, a esta questo das variveis contnuas e discretas. Tornava-se, no entanto, importante que se ficasse desde j com algumas idias a este respeito. Voltemos varivel discreta correspondente ao nmero de pintas na face de um dado. Vamos imaginar que havamos lanado um dado 50 vezes sobre uma superfcie plana e registado a face sada em cada um dos lanamentos. Vejamos o registo correspondente: 6,4,6,5,5,3,6,1,1,5,2,3,2,4,5,6,4,4,3,4,5,1,2,1,3, 2,5,6,4,3,3,5,2,1,2,3,6,2,1,4,1,3,2,4,2,5,2,1,3,5.

Todos concordaremos em que esta apresentao de dados torna pouco cmoda a sua anlise. De facto, o que temos um aglomerado de nmeros sem qualquer ordenao lgica. Vamos mudar um pouco a situao. Construamos uma simples tabela, com os vrios acontecimentos possveis (sada do 1, 2, 3, 4, 5 ou 6), e representemos nessa tabela cada sada com um trao. Repare-se que quando uma face atinge a 5. sada (ou outro mltiplo de cinco) o registo desta feito atravs de um trao sobre os quatro ltimos. Torna-se, desta forma, muito mais fcil proceder contagem (quadro II.1).

M.C.04

Ut.02

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 3

IEFP ISQ

Representao e Tratamento de Dados

Quadro II.1 - Mtodo de contagem

Verificamos, portanto, que a face 1 saiu 8 vezes1 , a face 5 saiu 9 vezes, etc. Ao nmero de vezes que cada face saiu chamamos a sua frequncia absoluta ou ocorrncia. Vamos representar a frequncia da face 1 por n1, a da face 2 por n2 , etc. Se somarmos todas as frequncias obtemos o nmero de vezes que o dado foi lanado. Vejamos: n1 = 8 n2 = 10 n3 = 9 n4 = 8 n5 = 9 n6 = 6

Frequncia absoluta

n1 n2 n3 n4 n5 n6 8 + 10 + 9 + 8 + 9 + 6 = 50 Podemos utilizar o conceito de somatrio para escrever esta concluso de uma forma mais simples. Teremos ento:

n
i =1

= 50

M.C.04

Ut.02

Definimos frequncia de um acontecimento como sendo o nmero de vezes que ele ocorre. Este conceito, embora muito importante, tem algumas limitaes. Vamos ver porqu. Admitamos que nos dito o seguinte: no lanamento de uma moeda ao ar saram 20 coroas. Isto , a frequncia do acontecimento foi de 20. Ser esta informao suficiente para retirarmos alguma concluso relativamente ao equilbrio da moeda? Obviamente que no. Se as vinte coroas tiverem sado em quarenta lanamentos de moeda ao ar, provvel que a moeda esteja equilibrada. Se, por outro lado, as coroas resultarem de 100 lanamentos de moeda ao ar, bem provvel que no o esteja. Como possvel termos alguma ideia a este respeito? A resposta simples: utilizando frequncias relativas. Frequncia relativa de um acontecimento no mais do que a frequncia absoluta a dividir pelo nmero total de ocorrncias (se multiplicarmos o resultado desta diviso por cem, obtemos a percentagem de vezes que o acontecimento ocorre). Voltando ao caso da moeda, admitamos que ela lanada 50 vezes com os seguintes resultados:

Frequncia relativa

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 4

IEFP ISQ

Representao e Tratamento de Dados

Caras

Coroas

Nmero de caras = 23 Teremos assim que:

Nmero de coroas = 27

Frequncia absoluta = 23 Frequncia relativa = 23/50 = 0,46 Frequncia relativa x 100 = 46%

Frequncia absoluta Frequncia relativa = 27/50 = 0,54 Frequncia relativa x 100 = 54%

Reparemos que, ao dizer-se que no lanamento da moeda em causa saram 46% de caras e 54% de coroas, ficamos imediatamente em condies de averiguar do equilbrio da moeda. Podemos, assim, comparar a tendncia de sair cara ou coroa com qualquer outra moeda de que conheamos as percentagens anteriores. Isto torna-se vlido independentemente do nmero de vezes que qualquer uma delas tenha sido lanada. Assim, a grande vantagem da frequncia relativa em relao frequncia absoluta o facto de podermos comparar acontecimentos mesmo quando o nmero total de observaes diferente. Podemos agora, voltando a pegar no caso do dado, construir uma tabela mais completa (quadro II.2). Vejamos:
F ac e 1 2 3 4 5 6

ni
8 10 9 8 9 6

fr fri
8/50 = 0,16 10/50 = 0,20 9/50 = 0,18 8/50 = 0,16 9/50 = 0,18 6/50 = 0,12

Quadro II.2 - Frequncias absolutas e relativas

A soma de todas as frequncias relativas sempre 100% (ou 1, se no multiplicarmos por 100), independentemente do nmero de observaes.

DIAGRAMA DE BARRAS
Concordaremos, certamente, em que a tabela de frequncias acabada de construir constitui uma forma muito mais eficaz de apresentao dos dados do

M.C.04

Ut.02

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 5

IEFP ISQ

Representao e Tratamento de Dados

que o aglomerado de nmeros com que inicimos a seco anterior. No entanto, existem formas de apresentar os dados visualmente mais elucidativas do que a anterior. Construamos um sistema de eixos cartesianos em cujas abcissas marcamos os valores da caracterstica em causa e em cujas ordenadas so assinaladas as frequncias relativas. Para cada valor da caracterstica, representamos um segmento de recta cujo comprimento corresponde respectiva frequncia relativa. Voltando ao caso dos dados teremos, ento, F 0,20 0,18 0,16 0,12

Figura II.1 - Diagramas de barras de frequncia relativa

A uma figura como a anterior chamamos diagrama de barras (fig. II.1). Antes de avanarmos, vejamos um outro conceito importante, o conceito de frequncia relativa acumulada. Para cada valor da caracterstica (Xi), a frequncia acumulada que lhe corresponde a soma das frequncias relativas dos valores da caracterstica inferiores ou iguais a Xi. Torna-se mais fcil compreender o conceito continuando a analisar o lanamento do dado.
Face ( Xi ) 1 2 3 4 5 6

Frequncia relativa acumulada

fri
0,16 0,20 0,18 0,16 0,18 0,12

Frequncia acumulada ( Fa i ) 0,16 0,36 0,54 0,70 0,88 1

Quadro II.3 - Frequncia relativa e acumulada


Ut.02 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 6

IEFP ISQ

Representao e Tratamento de Dados

Podemos, ento, construir um diagrama em que, no eixo das ordenadas, em vez de serem representadas as frequncias relativas, so representadas as frequncias acumuladas. Obteremos ento uma figura como a que se segue (fig II.2).
F 1 0, 8 0, 6 0, 4 0, 2

Figura II.2 - Diagrama de barras de frequncia acumulada

DIVISO DE OBSERVAES EM CLASSES

Torna-se, por vezes, til e/ou necessrio dividir em classes os valores da caracterstica em estudo. Consideremos que uma determinada classe K tem um ponto mdio a que chamaremos xmk.
Classe K

h x mk
amplitude da classe (a diferena entre o maior e o menor valor do intervalo) chamaremos h.
Classe K

h x mk - h/2
Ut.02

x mk

x mk + h/2

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 7

IEFP ISQ

Representao e Tratamento de Dados

Facilmente verificamos que o extremo inferior do intervalo dado por xmk - h/2. Pelo mesmo raciocnio o extremo superior dado por xmk + h/2. Baralhando um pouco mais os nmeros, sem grande dificuldade se conclui que: (xmk + h/2) - (xmk - h/2) = h

O nmero de classes a constituir a partir dos dados disponveis no obedece a regras rgidas. Existem, no entanto, algumas regras empricas que nos do indicaes muito teis a este respeito. Aquela que , provavelmente, a regra emprica mais simples diz-nos que o nmero de classes a utilizar no deve andar longe da raiz quadrada do nmero de observaes. Isto , se dispusermos de 100 observaes, devemos considerar um nmero de classes prximo de 10. Outra regra muito utilizada a chamada regra de Sturges. Segundo esta, o nmero de classes a considerar, N, dever estar prximo do valor de

N = 1+3,3logn
em que n o nmero de observaes de que dispomos.

(II.1)

M.C.04

Ut.02

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 8

IEFP ISQ

Representao e Tratamento de Dados

Caso de Estudo II.1

Todos estes conceitos se tornam mais claros com a utilizao prtica. Vejamos. Foram efectuadas 100 medies de dimetros de determinadas peas, tendo sido obtidos os resultados que seguidamente se apresentam. Utilize a regra de Sturges como base para a constituio de classes e determine a frequncia de cada classe constituda. 22, 25, 15, 13, 27, 30, 18, 10, 16, 12, 19, 27, 24, 22, 27, 27, 30, 18, 19, 23, 15, 20, 20, 27, 25, 29, 17, 15, 26, 24, 22, 14, 20, 20, 27, 21, 15, 22, 16, 19, 25, 27, 18, 13, 23, 25, 25, 27, 24, 32, 27, 30, 22, 24, 16, 19, 23, 25, 30, 30, 27, 22, 21, 22, 24, 29, 17, 19, 22, 26, 23, 21, 24, 26, 30, 32, 15, 19, 20, 20, 17, 22, 20, 27, 29, 19, 26, 30, 16, 20, 17, 23, 16, 22, 24, 23, 24, 23, 22, 22. Dispondo de um conjunto de n = 100 observaes, a regra de Sturges d-nos como valor indicativo do nmero de classes a constituir N = 1+3,3log100 = 1+3,3x2 = 7,6 ou seja, a utilizao de 8 classes. A questo que agora se coloca a determinao da amplitude das classes. Uma forma lgica de abordarmos este problema consiste na determinao da amplitude total envolvida e posterior diviso pelo nmero de classes consideradas. Vejamos: o valor mais elevado do nosso conjunto de observaes total dos valores das nossas observaes

xmx =32. Por outro lado, o valor mais baixo x = 10. Ento, a amplitude min
x
mx

-x
mn

= 32-10 = 22

Ao dividir esta amplitude total pelo nmero de classes, obtemos uma indicao da amplitude que deve ser considerada para cada classe. Ento,
32 10 = 2,75 8

Havendo, como se compreende, toda a vantagem em trabalhar com nmeros inteiros podemos apontar para a utilizao de classes com amplitude igual a 3. O ponto mdio de cada classe no mais do que a soma dos seus extremos dividida por dois. Exemplifiquemos : classe [10 ; 13] - ponto mdio =11,5 classe [9,5 ; 12,5] - ponto mdio =11

M.C.04

Ut.02

Componente Prtica Guia do Formando

Estatstica Aplicada

II . 9

IEFP ISQ

Representao e Tratamento de Dados

Se tornarmos a privilegiar a utilizao de valores inteiros, podemos ento considerar a seguinte utilizao de 8 classes de amplitude 3. [9,5 ; 12,5] [21,5 ; 24,5] [12,5 ; 15,5] [24,5 ; 27,5] [15,5 ; 18,5] [27,5 ; 30,5] [18,5 ; 21,5] [30,5 ; 33,5]

Se, a exemplo do que anteriormente fizemos, registarmos a ocorrncia de cada valor com um trao na classe correspondente, teremos globalmente

M.C.04

Ut.02

Componente Prtica Guia do Formando

Estatstica Aplicada

II . 10

IEFP ISQ

Representao e Tratamento de Dados

CONSTRUO DE HISTOGRAMAS
Uma vez divididas as observaes em classes e determinada a frequncia de cada classe, torna-se simples construir uma figura, muito importante, a que chamaremos histograma. Para o fazer, consideremos, a exemplo do que acontecia nos diagramas de barras, um sistema de eixos cartesianos cujas ordenadas correspondero aos valores da frequncia, relativa ou absoluta, e as abcissas correspondero a valores da caracterstica em estudo. O passo seguinte corresponde a assinalar, no eixo das abcissas, os valores correspondentes aos pontos mdios das classes, construindo para cada um deles um rectngulo cuja altura igual frequncia, relativa ou absoluta, e cuja base igual amplitude da classe. Tudo isto se compreender muito mais facilmente se continuarmos com o exemplo que temos vindo a abordar, relativo ao dimetro das peas. Recorde-se que j fizemos a diviso das observaes em classes e que j determinmos o ponto mdio e a frequncia de cada classe. Assim, se quisermos construir um histograma de frequncias absolutas (tambm o poderamos fazer relativamente s frequncias relativas), teremos de representar, por exemplo para a terceira classe, um rectngulo centrado em 17, com uma altura correspondente frequncia de 12 e uma largura de 3. Se o fizermos em relao a todas as classes obteremos o histograma correspondente ao conjunto de observaes. Podemos observ-lo na figura seguinte (fig. II.3).
30 26 25 21 20 15 10 5 0 11 14 17 20 23 26 29 32 8 2 3 18 12 10

Figura II.3 - Histograma

Por vezes, como acontece na figura anterior, escreve-se no topo de cada rectngulo a frequncia correspondente. O estudo de um histograma permite-nos, por vezes, retirar importantes concluses relativamente populao a que corresponde. Haver, no apenas neste mdulo, a oportunidade de aprofundar este tipo de anlise.

M.C.04

Ut.02

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 11

IEFP ISQ

Representao e Tratamento de Dados

RESUMO

Foi feita a distino entre frequncias absolutas e relativas. Vimos que a frequncia absoluta de um acontecimento (ex.: sada de uma face do dado) no mais do que o nmero de vezes que esse acontecimento ocorre num determinado conjunto de tentativas (lanamentos do dado). Vimos, tambm, que a frequncia relativa se obtm da absoluta fazendo a diviso desta pelo nmero de tentativas efectuadas. Construmos um sistema de eixos cartesianos em cujas abcissas marcmos os valores da caracterstica em causa e em cujas ordenadas assinalmos as frequncias relativas (ou frequncias relativas acumuladas). Para cada valor da caracterstica, foi representado um segmento de recta cujo comprimento correspondia respectiva frequncia relativa (ou frequncia relativa acumulada). Designmos este tipo de representao grfica por diagrama de barras. Analisou-se a forma atravs da qual deve ser feita a diviso em classes de um conjunto de observaes, com particular destaque para a regra de Sturges, e, com a utilizao de um exemplo prtico, construiu-se um histograma. Recordemos que, para construir um histograma, h que assinalar, no eixo das abcissas, os valores correspondentes aos pontos mdios das classes, construindo para cada um deles um rectngulo cuja altura igual frequncia, relativa ou absoluta, e cuja base igual amplitude da classe.

M.C.04

Ut.02

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

II . 12

IEFP ISQ

Representao e Tratamento de Dados

ACTIVIDADES / AVALIAO

I. Numa determinada estrada rural, registaram-se as velocidades dos 55 automveis que nela passaram em determinado dia. Apresentam-se seguidamente os valores obtidos (em Km/h): 73,5 61,9 53,6 77,8 76,4 67,2 55,5 65,7 48,8 60,4 88,5 68,3 78,4 67,1 57,9 56,8 75,3 70,5 81,2 88,9 70,7 60 73,4 63,3 61,1 61,7 78,6 68,2 64,1 64 74,9 70,5 62,4 57,6 78,6 56,7 65,7 54,3 65,8 55,7 62,9 85,4 86,4 75,6 66,6 73,1 69,8 50,9 61,5 81,8 65,4 66,4 63,4 56,8 72,2

Divida em classes estas observaes, determinando as respectivas frequncias. Com base nos resultados anteriores, construa o histograma correspondente. II. Um dimetro foi medido 30 vezes, tendo sido obtidos os seguintes resultados (em milmetros): 100 103 98 99 101 101 99 101 100 99 100 102 103 98 100 103 98 100 102 102 100 101 97 102 97 99 100 98 101 99

Construa a tabela de frequncias e o diagrama de barras correspondentes a estes dados.

M.C.04

Ut.02

Componente Prtica Guia do Formando

Estatstica Aplicada

II . 13

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

M.C.04 Ut.01

Estatstica Aplicada Guia do Formando

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

OBJECTIVOS
No final desta unidade temtica, o formando dever estar apto a:

Caracterizar o conceito de varivel aleatria, distinguindo entre discretas e contnuas Explicar os conceitos de funo de distribuio e funo densidade de distribuio Identificar e calcular parmetros de tendncia central e de disperso Identificar e utilizar as seguintes distribuies discretas: uniforme, hipergeomtrica, binomial e Poisson Identificar e utilizar as seguintes distribuies contnuas: uniforme e normal

TEMAS

Variveis aleatrias discretas e contnuas

Funo de distribuio e funo densidade de distribuio Parmetros de localizao e disperso


Medidas de tendncia central Medidas de disperso

Coeficientes de assimetria e achatamento

Distribuies discretas

Distribuio uniforme Distribuio hipergeomtrica Distribuio binomial Distribuio de Poisson

Distribuies contnuas

Distribuio normal Distribuio uniforme Distribuies t-Student e 2 (qui-quadrado)


Ut.03

Resumo Actividades / Avaliao

M.C.04

Estatstica Aplicada Guia do Formando

III . 1

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Na unidade temtica anterior, de forma muito passageira, abordmos a diferena entre variveis contnuas e variveis discretas. Vamos, na presente unidade temtica, dar um pouco mais de consistncia e rigor a estes conceitos atravs do significado de varivel aleatria. Haver, tambm, a possibilidade de se estudar, em termos gerais, o que se entende por funes densidade e de distribuio, estabelecendo a necessria diferena entre as situaes contnuas e discretas. Ser realada a necessidade de se utilizarem, na caracterizao de uma populao, parmetros de tendncia central e de disperso, sendo, naturalmente, apresentados os mais utilizados de cada tipo. Teremos oportunidade de desenvolver os processos de clculo dos coeficientes de assimetria e de achatamento. Uma vez entendida a noo de funo densidade de distribuio, torna-se possvel uma abordagem quantificada s distribuies, contnuas ou discretas, mais vulgarmente utilizadas. No domnio das distribuies discretas, a nossa ateno incidir nas distribuies uniforme, hipergeomtrica, binomial e de Poisson. Relativamente s distribuies contnuas, ser dado um natural nfase distribuio normal, embora sejam, tambm, referidas as distribuies uniforme t-Student e qui-quadrado. Em relao a estas duas ltimas, a concretizao da sua utilizao ser feita nas unidades temticas em que se abordaro os intervalos de confiana e testes de hipteses. No entanto, por imperativos de ordenao lgica, no seria possvel ultrapassar esta unidade temtica sem que lhes fosse feita referncia.

VARIVEIS ALEATRIAS DISCRETAS E CONTNUAS


Voltemos um pouco atrs, a um conceito apresentado na unidade temtica I - o de espao de acontecimentos. Chammos espao de acontecimento(s) ao conjunto de todos os acontecimentos elementares, entendendo-se estes como sendo cada um dos resultados possveis de determinada experincia. Nessas circunstncias, ao falarmos de resultado no estamos, necessariamente, a falar de um nmero. De facto, os resultados possveis de um lanamento de moeda ao ar so cara ou coroa, assim como, para determinada pea, podemos utilizar a classificao defeituosa ou no-defeituosa. No entanto, como se compreende, existe habitualmente vantagem em atribuir um nmero a cada elemento do espao de acontecimentos (podemos, por exemplo, atribuir 0 coroa e 1 cara).

=1
M.C.04 Ut.03

=0
Estatstica Aplicada III . 2

Componente Cientfico-Tecnolgica Guia do Formando

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Com rigor, podemos dizer que funo que estabelece um valor numrico para cada elemento do espao de acontecimento que chamamos varivel aleatria. Na maior parte dos casos, o elemento do espao de acontecimentos j constitui ele prprio um valor numrico (exemplo: altura de indivduos, nmeros de pontos na face de um dado, densidade, etc.), ou seja, a caracterstica que estamos a estudar numa populao pode ser de natureza qualitativa (pea defeituosa, face da moeda) ou de natureza quantitativa (durao de lmpadas, espessuras, etc.). s caractersticas qualitativas temos de lhes atribuir nmeros se as pretendermos estudar estatisticamente. Uma caracterstica quantitativa, tomando vrios valores, pode ser considerada como uma varivel aleatria, tornando-se assim frequente encontrar expresses como considere que o peso dos portugueses constitui uma varivel aleatria.... Esta associao do conceito de varivel aleatria ao de caracterstica quantitativa torna imediata a razo de ser da distino entre variveis aleatrias contnuas e discretas. Uma varivel aleatria que tome um conjunto finito, ou um nmero infinito enumervel de valores dita como varivel discreta. Como exemplo de variveis discretas podemos ter o nmero de cabelos das pessoas, o nmero de pintas na face de um dado, etc.. Se, por outro lado, os valores que a varivel toma correspondem a um intervalo de nmeros reais (podendo tomar qualquer valor dentro desse intervalo), dizemos que estamos perante uma varivel aleatria contnua. Sero, como vimos, exemplos de variveis contnuas, as alturas, pesos, salrios, espessuras de chapas, etc. Devemos, finalmente, referir que habitual representar uma varivel aleatria por uma letra maiscula (ex.: X), representando-se por letras minsculas (x) os vrios valores por ela tomados. Variveis contnuas Varivel aleatria

Variveis discretas

Funo de distribuio e funo densidade de distribuio


Situa-se fora do mbito deste mdulo uma anlise profunda das questes relativas s funes de densidade e distribuio. , no entanto, importante uma viso global do seu significado no sentido de conferir maior consistncia ao estudo de assuntos que se seguiro. H que distinguir, antes de mais, se estamos perante uma varivel discreta ou contnua. De facto, existem algumas diferenas no significado das funes de densidade e distribuio relativas queles dois tipos de variveis. Admitamos que se est a trabalhar com uma varivel aleatria, X, discreta. Significa, ento,

Funo densidade

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 3

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

que a varivel X pode tomar um conjunto de valores, x1,..., xk. Torna-se fcil nestas circunstncias, a noo de funo densidade, f(x). Esta corresponde, apenas, probabilidade de a varivel aleatria tomar cada valor xi. Ou seja, teremos apenas

f(x) = P(X=x)

(III.1)

Exemplo III.1

Admitamos que estamos perante um dado equilibrado. Se assim for, de 1/6 a probabilidade de ocorrncia de cada uma das faces. A funo densidade de probabilidade correspondente ser

Como facilmente se compreende, a funo densidade de probabilidade tem as seguintes propriedades: 1. f(x) 0 2. f(x) = 1 em que o somatrio se estende a todos os valores possveis da varivel aleatria. funo distribuio Continuando a falar de variveis discretas, um outro tipo de funo extremamente importante a chamada funo de distribuio acumulada ou, mais simplesmente, funo de distribuio, F(x). Esta definida como

F (x) = P (Xx) com - < x <+

(III.2)

Reparemos que se torna fcil obter a funo de distribuio a partir da funo densidade. De facto, o valor da funo de distribuio num determinado ponto, x, no mais do que a soma dos valores da funo densidade para todos os xi x . Assim,
Ut.03 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 4

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

0 f ( x ) F (x) = f ( x 1 ) + ..... + f ( x n )

< x < x1

x1 < x < x 2

xn x

Exemplo III.2

Representemos a funo de distribuio correspondente situao apresentada no exemplo anterior: F(x) 1 5/6 4/6 3/6 2/6 1/6 1 2 3 4 5 6 x

O grfico anterior corresponde representao


0 1 / 6 2 / 6 F ( x ) = 3 / 6 4 / 6 5 / 6 1

x <1 1 x < 2 2x<3 3x<4 4x<5 5x<6 x6

Quando estamos perante uma varivel contnua, torna-se um pouco mais complexo o significado das funes de densidade e distribuio. Na verdade, por estranho que possa parecer, a probabilidade de, numa distribuio contnua, a varivel aleatria tomar um valor determinado nula. Isto , no podemos falar da probabilidade de um indivduo escolhido ao acaso ter uma altura de 1,715 m. possvel, no entanto, falarmos, por exemplo, na probabilidade
Ut.03

Distribuies contnuas

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 5

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

de um indivduo ter uma altura entre 1,70m e 1,72m. Ou seja, em distribuies contnuas s faz sentido referir a probabilidade a intervalos. No podemos, desta forma, definir a funo densidade de probabilidade da mesma forma que o fizemos para os casos discretos. A funo distribuio, contudo, continua a ser definida de forma semelhante. Teremos, portanto,

F (x) = P (X x)
A probabilidade de que a varivel aleatria tome um valor num determinado intervalo de a a b

P [ a < x b ] = F(b) - F(a)

(III.3)

Para se ficar com uma ideia do significado da funo densidade em distribuies contnuas, pensemos da seguinte forma: imaginemos uma curva (veja-se a figura) cuja rea que se estende abaixo dela, desde - a +, igual a 1.

f (x)

rea = 1

x
Figura III.1 - Funo densidade de uma distribuio contnua

Para alm disso, a rea abaixo da curva entre dois pontos de abcissa, a e b, igual probabilidade de a varivel aleatria tomar valores entre a e b. Observemos a figura seguinte.

f (x)
P(a < x b)

a
Ut.03

Figura III.2 - Probabilidade entre os pontos a e b

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 6

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Nestas condies, a equao desta curva, f(x), a funo densidade de probabilidade da varivel em causa 1 . Todos estes conceitos, que parecem ser agora ridos e complexos, se tornaro facilmente compreensveis com a utilizao prtica que deles faremos ainda nesta unidade temtica.

Parmetros de localizao e disperso


Pensemos na afirmao: a altura mdia dos portugueses de 1,68 metros. Ser que este valor por si s nos permite ter uma idia de como se distribui a altura dos portugueses? Naturalmente que no. Pode acontecer que todos os portugueses tenham alturas muito prximas de 1,68 metros, tal como pode acontecer que existam portugueses muito altos cuja altura compensa a existncia de portugueses muito baixos.

Se afirmao anterior, acrescentarmos que o portugus mais alto mede 2,08 metros e que o mais baixo mede 1,23 metros ficamos, sem dvida, com uma idia mais clara de como se distribuem as alturas.

Exemplo III.3 Consideremos os salrios listados no quadro abaixo: O salrio mdio , aproximadamente, de 330 844$00 (2 977 600$00 9).

1 Subalterno 2 Escriturrio 3 Secretria 4 Operrio 5 Operrio 6 Operrio 7 Inspector de Produo 8 Chefe de Servios 9 Director Administrativo TOTAL :

85 122 132 150 150 150 183 204 1 800

000$00 400$00 600$00 000$00 000$00 000$00 600$00 000$00 000$00

2 997 600$00

1 Se quisermos ser mais precisos,


Ut.03

F( x ) =

f ( x ) dx

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 7

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

O salrio mdio , aproximadamente, de 330 844$00 (2 977 600$00 9). Tal como acontece no exemplo acima, ser que este valor nos permite ter uma idia da ordem de grandeza dos salrios da empresa referida?

Aceitaria uma proposta de emprego nesta Empresa (considerando apenas o aspecto financeiro) se lhe dissessem que o salrio mdio era de 330 844$00? Note-se que o vencimento mais baixo de 85 000$00 e o mais alto de 1 800 000$00. A concluso a retirar do que ficou expresso que para analisarmos uma dada caracterstica, no basta sabermos o seu valor mdio: precisamos de algo mais. Imagine que os salrios pagos a cada pessoa numa empresa (26 empregados) esto escritos em tijolos; um tijolo por empregado (quadro III.1).

220

120

60

80

100

160

140

200

180

N d e em p r eg ad o s 1 2 3 4 6 4 3 2 1

Qu an t ias 60 80 100 120 140 160 180 200 220 000$00 000$00 000$00 000$00 000$00 000$00 000$00 000$00 000$00

Quadro III.1 - Salrios por nmero de empregados

Se os tijolos forem amontoados ao acaso, a informao neles contida uma confuso sem sentido. Provavelmente encontraremos de vez em quando informao sob essa forma. Suponhamos agora que os tijolos so alinhados por ordem dos valores neles inscritos, com os valores mais baixos esquerda.

60

80

100

120

140

160

180

200

220

Os tijolos que apresentassem os mesmos valores seriam colocados uns em cima dos outros. Juntos, os tijolos constituiriam um muro com uma forma afunilada nos extremos.
Ut.03 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 8

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

60

80

100

120

140

160

180

200

220

Figura III.3 - Representao da distribuio dos salrios

O muro representa a distribuio dos salrios pagos pela empresa em questo. A forma deste muro pode ser descrita com apenas trs medidas: Uma Medida de Tendncia Central Pode ser imaginada como o valor escrito nos tijolos da pilha mais alta (no exemplo acima 140 000$00). Se derrubarmos todo o muro e escolhermos um tijolo ao acaso, existe uma maior probabilidade de o valor desse tijolo estar muito prximo desse valor. Uma Medida de Disperso Indica a extenso do muro. Quanto maior fr a diferena entre o maior e o menor salrio, mais extenso ser o muro. Se derrubarmos o muro e retirarmos um tijolo do monte, o valor nele escrito no pode deixar de estar dentro da extenso de salrios representada pelo muro. Uma Medida de Configurao Esta medida indica se os tijolos esto colocados simetricamente em torno de um valor ou se esto desviados para um lado, ou seja se a mdia est no meio (como no exemplo acima) ou se est descentrada e neste caso qual a dimenso da assimetria.

Medidas de tendncia central

As medidas de tendncia central mais utilizadas so as seguintes: - Mdia - Moda - Mediana

Consideremos o seguinte conjunto de valores: 3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7. Na nossa linguagem do dia-a-dia, quando um determinado acontecimento ocorre com frequncia, habitual ouvirmos dizer que est na moda. O conceito de moda em termos estatsticos est muito relacionado com esta ideia que todos temos. De facto, quando dispomos de um conjunto de valores, a sua moda o
M.C.04 Ut.03

Moda

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 9

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

valor mais frequente. Se observarmos a tabela de frequncias correspondente aos valores inicialmente apresentados, logo se conclui que a moda desse conjunto de valores 5.

x 3 4 5 6 7

ni 2 3 6 4 2

Colocando um conjunto de valores por ordem crescente, contando com o nmero de repeties, a mediana o valor que divide este conjunto ao meio, isto , que tem tantos valores sua esquerda como sua direita. Voltando ao nosso exemplo,

3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7
8 valores esquerda 8 valores direita

Conclumos ento com facilidade que a mediana 5. Quando dispomos de um diagrama de frequncias acumuladas, torna-se particularmente fcil determinar a mediana. Esta corresponde, como bvio, ao valor da abcissa cuja frequncia acumulada 0,5. Relativamente mdia, o seu clculo ligeiramente mais complexo. Comecemos por uma situao muito simples. Se soubermos que o vencimento de determinado indivduo foi de 70 000$ em Janeiro e de 90 000$ em Fevereiro, no teremos qualquer dificuldade em afirmar que o seu vencimento mdio nesses meses foi de 80 000$. O raciocnio que fizemos, ainda que inconscientemente, foi o de somar os vencimentos que conhecamos e dividir pelo nmero de meses a que esses vencimentos correspondiam. Seno vejamos. Janeiro 70 000$00 Fevereiro 90 000$00 ______________________ Total 160 000$00

nmero de meses = 2

Vencimento mdio = 160 000$00/2 = 80 000$00


Ut.03 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 10

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Imaginemos outro tipo de situao. Determinado indivduo bebeu na 2.-feira, 2 litros e meio de gua; na 3.-feira, 1 litro e meio de gua e, finalmente, na 4. feira, 2 litros de gua. Quanto que este indivduo bebeu nestes trs dias? Vejamos:

2,5 l

1,5 l

2l

Qual ser a forma expedita de calcularmos a mdia? simples. Se dispusermos de um recipiente suficientemente grande, o que podemos fazer, antes de mais, despejar nesse recipiente o equivalente s vrias quantidades bebidas. Teremos assim: 2,5 l +1,5 l + 2 l = 6 l

6l Como o que pretendemos o que o indivduo bebeu em mdia em cada um dos trs dias, no temos mais do que pegar no recipiente grande contendo os seis litros e dividir esta quantidade de forma igual pelos trs recipientes pequenos. Resultar, ento,

6l

2l

2l

2l

Podemos dizer, portanto, que a mdia do consumo de gua do referido indivduo nos trs dias em questo foi de dois litros. Reparemos que o procedimento que utilizmos para calcular a mdia foi exactamente o mesmo nos dois exemplos que estudmos. No primeiro, sommos o vencimento dos vrios meses e dividimos pelo nmero total de meses considerados. No segundo, sommos o consumo de gua em cada dia e dividimos depois pelo nmero de dias. Vamos estudar o assunto, mas podemos ficar desde j com a ideia de que, para
M.C.04 Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 11

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

calcular a mdia de um determinado conjunto de valores, o que temos a fazer somar a totalidade dos valores, dividindo a seguir pelo nmero de valores somados. Voltemos ao nosso conjunto inicial de valores: 3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7. Para calcular a sua mdia temos, ento, de somar a totalidade dos valores, 3+3+4+4+4+5+5+5+5+5+5+6+6+6+6+7+7 = 86 e dividir pelo nmero de valores somados. Assim,

x = mdia = 86/17 = 5,06


Ser, no entanto, esta a forma mais simples de calcular a mdia? De facto, no . Vejamos uma forma mais simples de efectuar a soma anterior: 3+3+4+4+4+5+5+5+5+5+5+6+6+6+6+7+7 = 86
23 3 4 65 46 27

Ou seja, podemos escrever a soma anterior como 2X3+3X4+6X5+4X6+2X7 6 12 30 24 14

Se voltarmos a olhar para a tabela de frequncias, constatamos logo que as vrias multiplicaes que fizemos correspondem multiplicao de cada valor pela correspondente frequncia. Assim, podemos acrescentar tabela uma coluna que tenha para cada valor a sua multiplicao pela respectiva frequncia. Teremos ento:

xi 3 4 5 6 7

ni 2 3 6 4 2

xi . ni 6 12 30 24 14

Como vimos, para calcular a mdia haveria agora que dividir 86 pelo nmero de valores somados, ou seja, n = 17.
Ut.03 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 12

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Com a utilizao de somatrio, torna-se mais fcil indicar, de uma forma resumida, como se calcula a mdia. Vejamos: O primeiro passo para o clculo da mdia consiste na multiplicao de cada valor pela respectiva frequncia, isto ,

ni x xi
O segundo passo consiste em adicionar todos os produtos anteriores. Utilizando o conceito de somatrio torna-se mais fcil indicar este passo. Teremos:

n
i =1

x x i (k - nmero de diferentes valores de x)

Finalmente, para calcular a mdia, teramos de dividir o somatrio anterior pelo nmero total de valores, n. Resultaria, ento,

mdia =

x=

n
i =1

x xi

(III.4)

Voltando ao nosso exemplo,

k = 5 (3,4,5,6,7) n .x = 6 n .x = 12 n .x = 30
1 1 2 2 3 3

n .x = 24
4 4

n .x = 14
5 5

n=

n
i =1

x xi = 6 + 12 + 30 + 24 + 14 = 86

n=
e, finalmente,

n
i =1

= 2 + 3 + 6 + 4 + 2 = 17

x=

n
i =1

x xi =

1 86 x 86 = = 5,06 17 17

Medidas de disperso
Os parmetros de disperso permitem-nos medir at que ponto os elementos de uma populao so diferentes entre si. O mais simples de todos os parmetros de disperso a amplitude. Relativamente a um determinado conjunto de valores, a amplitude , simplesmente, a diferena entre o valor mais alto e o valor mais baixo. Consideremos o seguinte conjunto de valores:
Ut.03

Amplitude

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 13

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

2, 2, 3, 3, 3, 4. Valor mais alto = 4 Valor mais baixo = 2

Varincia

Amplitude = R = 4-2 = 2 Dissemos anteriormente que, para se conhecer uma populao, temos de obter informao sobre a sua tendncia central e sobre a sua disperso. Utilizando a mdia como medida de tendncia central e a amplitude como medida de disperso, teramos, aparentemente, o problema resolvido. Infelizmente, nem sempre assim acontece. De facto, existem situaes em que a amplitude uma medida muito inadequada de disperso. Vamos analisar um exemplo muito simples que ilustra isso mesmo. Consideremos as duas situaes distintas que seguidamente se apresentam (fig. III.4 (a) e (b)). ni 3 2 1 ni 3 2 1

1 2 3 4 5 6 7 8 (a)

1 2 3 4 5 6 7 8 (b)

Figura III.4 - Diagrama de barras

Conforme podemos observar, temos dois conjuntos de valores distintos entre si, possuindo, no entanto, a mesma mdia e a mesma amplitude (sugerimos a realizao destes clculos). Significa isto que, em determinadas circunstncias, estes dois parmetros so insuficientes para caracterizar diferentes situaes. Pensemos no caso da amplitude. Repare-se que o clculo da amplitude no depende do nmero total de valores em causa. De facto, apenas utilizamos dois valores, os extremos. , assim, de alguma forma intuitiva a necessidade de se arranjar alguma medida de disperso que tenha em conta a totalidade dos valores e no apenas os extremos. Vamos abordar uma forma de o fazer. Afirmmos anteriormente que a melhor medida da tendncia central de um conjunto de valores era a mdia. Ento, uma forma de medirmos a disperso ser a de encontrarmos um meio de avaliar quanto que os vrios valores se afastam da mdia. Para o fazermos, no temos mais do que pegar em cada valor e calcular a sua diferena em relao mdia. Assim, para cada x , devemos calcular ( xi x ) .
Ut.03
i

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 14

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Consideremos a nossa situao A.

xi
1 2 3 4 5 6 7 8

ni
2 2 2 3 3 1 1 1

(x (x i - x )
-3 -2 -1 0 1 2 3 4

Se observarmos a tabela anterior, logo verificamos que os valores 3 e 5 esto igualmente afastados da mdia; e, no entanto, os resultados obtidos para
( xi x ) so diferentes entre si (simtricos). A melhor forma de ultrapassarmos

este problema considerarmos o quadrado de ( xi x ) . Assim, o passo seguinte consiste em determinarmos a soma dos desvios ( x i x )2 para a totalidade dos valores. Naturalmente que cada valor de ( x i x )2 deve ser multiplicado pela correspondente frequncia antes de ser somado ao seguinte. Resultar:

x
1 2 3 4 5 6 7 8

ni
2 2 2 3 3 1 1 1

(x (x i - x )
-3 -2 -1 0 1 2 3 4

(x (x i - x ) 2
9 4 1 0 1 4 9 16

n i . (x i - x ) 2
18 8 2 0 3 4 9 16

Utilizando outra vez o conceito de somatrio podemos escrever

( x i x )2 = 60

M.C.04

Ut.03

O valor do somatrio anterior depende, naturalmente, do nmero total de valores de que dispomos. H que tentar encontrar uma forma de ele poder representar a disperso mesmo quando dispomos de um nmero diferente de observaes.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 15

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

A forma de o fazermos dividindo-o pelo nmero total de valores, n. Ao valor resultante chamamos varincia e representamo-lo por .
2 =

n (x
i

x )2

(III.5)

raiz quadrada deste valor chamamos desvio-padro, o qual representamos por

s =

s2 =

( xi - nx 2

Voltando ao caso que estvamos a abordar,

( x x )2 = 60

n = 2+2+2+3+3+1+1+1 = 15
varincia = 60/15 = 4 desvio-padro = 2 Se calcularmos o desvio-padro da situao B, podemos concluir que
= 1,9

Conclumos, assim, que foi possvel, atravs do desvio-padro, distinguir as duas situaes. Os valores da mdia e do desvio-padro so muito importantes e deles nos vamos servir com bastante frequncia. Outra forma possvel de calcular o desvio-padro a seguinte:

n .x
i

2 i

nx 2

(III.6)

Antes de terminar este ponto, convm fazer uma advertncia importante. Se pudermos dispor de uma calculadora com modo estatstico, no devemos hesitar na sua utilizao. De facto, com um treino mnimo, tornam-se muito fceis de utilizar, proporcionando uma economia considervel de tempo. Com uma nica introduo de valores 2 , podemos ficar a saber a mdia, o desvio-padro e a varincia.
2 Os valores de x, e correspondentes frequncias

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 16

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Coeficientes de assimetria e achatamento


J vimos que, utilizando a mdia e o desvio-padro, se torna possvel obter informaes relativamente disperso e tendncia central de um determinado conjunto de dados. Existem, no entanto, outros parmetros que nos do informaes importantes relativamente forma como um determinado conjunto de dados se distribui. Muito utilizados so os chamados coeficientes de assimetria e de achatamento. O coeficiente de assimetria 1 mede no apenas a assimetria da distribuio mas tambm o sentido em que ela se verifica. Vejamos as figuras seguintes (fig. III.5 (a), (b) e (c)), para que se compreenda melhor.

Curva assimtrica direita (1>0) (a)

Curva assimtrica esquerda (1<0) (b)

Curva simtrica (1=0) (c)


Figura III.5 - Coeficientes de assimetria e respectivas curvas

M.C.04

Ut.03

O coeficiente de achatamento tem a ver com a forma da curva, mais ou menos achatada. A distribuio normal, que adiante abordaremos, tem um coeficiente de achatamento 2 = 3 e serve-nos habitualmente como referncia.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 17

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

DISTRIBUIES DISCRETAS

Como se compreende, so distribuies discretas aquelas correspondentes a uma varivel aleatria discreta. As distribuies, discretas ou contnuas, so apresentadas pela sua funo de distribuio ou pela sua funo densidade.

Distribuio uniforme
, talvez, a mais simples de todas as distribuies. Estamos perante uma distribuio uniforme quando uma varivel aleatria X pode somar os valores x1..xn., sendo cada um deles igualmente provvel. A funo densidade de probabilidade ser ento

f ( x ) = P [X = x i ]

1 n

para x1,..., xn

(III.7)

J vimos anteriormente um exemplo de distribuio uniforme. De facto, o lanamento de um dado sobre uma mesa corresponde a uma distribuio uniforme com n = 6 (convir rever as funes densidade e distribuio que ento representmos). Como se pode ver, a distribuio uniforme discreta depende de um nico parmetro: n, nmero de acontecimentos equiprovveis. A mdia 4 e a varincia nas distribuies uniformes so dadas por

m=

n +1 2

s2 =

n2 1 12

(III.8 e III.9)

Exemplo III.4

No caso do dado, resultaria para a mdia e varincia


m = 6 +1 = 3,5 2

s2 =

36 1 = 2,92 12

Uma outra situao que se aproximar da distribuio uniforme ser o Totoloto. Este corresponder a uma situao em que n = 49.

Distribuio hipergeomtrica
Vamos fazer uso dos conceitos abordados em clculo combinatrio para, com a utilizao de um exemplo, abordarmos a distribuio hipergeomtrica.
4 Quando nos estamos a referir a distribuies tericas ou a populaes, a mdia , habitualmente, representada por .

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 18

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Admitamos que um lote tem um determinado nmero de peas, N. De entre estas N peas, existem D que so defeituosas e, consequentemente, N-D que so peas boas. Admitamos que se retiram, sem reposio, n peas do lote 5. O que queremos determinar a probabilidade de que d destas n peas sejam defeituosas. Vejamos: Lote Amostra

N-D

n-d

Vimos que o conceito clssico de probabilidade nos diz que esta corresponde ao quociente entre o nmero de casos favorveis e o nmero de casos possveis. Teremos, ento, de determinar quantas amostras diferentes se podem retirar, com d peas defeituosas e n-d que o no so, e dividir este resultado pelo nmero total de amostras de n elementos que possvel retirar de um lote de N peas. Em relao ao nmero total de amostras no restam, certamente, dvidas que
N Cn

Se pensarmos que as peas defeituosas na amostra d resultam das defeituosas que estejam no lote D, e que idntica situao se verifica para as no-defeituosas, fcil se torna concluir que o nmero total de amostras que possvel extrair com n elementos, sendo d elementos defeituosos, de um lote com N peas
N D D Cd x Cn d

Resultando, finalmente,

P( X = d ) =

N D D Cd x Cn d N Cn

(III.10)

M.C.04

Ut.03

5 Vamos chamar a estas n peas uma amostra do lote. Mais tarde, voltaremos, com maior detalhe, a este conceito de amostra.

Componente Prtica Guia do Formando

Estatstica Aplicada

III . 19

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Exemplo III.5

Um lote de 100 circuitos integrados contm 5 que no cumprem os requisitos exigidos. Tendo sido estabelecida uma regra de aceitao segundo a qual, em amostras de 10 circuitos, no poder haver mais do que 1 no-cumpridor, qual a probabilidade de o lote ser aceite? O lote ser aceite se na amostra ocorrerem 0 ou 1 circuitos defeituosos.

P ( X 1) = P ( X = 0 ) + P ( X = 1) =
=
5 95 C0 x C10 100 C10

5 95 C1 x C9 100 C10

= 0,923

Concluindo-se, portanto, que de 92,3 % a probabilidade de o lote ser aceite.

Distribuio binomial
A distribuio binomial utiliza-se quando o espao de acontecimentos constitudo por dois acontecimentos elementares 6 com probabilidades de ocorrncia constantes em cada experincia. o caso, por exemplo, de um lanamento de moeda ao ar. Em cada lanamento apenas existem 2 possibilidades, cara ou coroa, sendo constante (0,5), em cada tentativa, a probabilidade de que saia cara ou coroa. Outra situao, frequente, de classificao binria a identificao de uma pea como defeituosa/ /no-defeituosa. Reparemos que, neste caso, para que possamos afirmar que se mantm constante a probabilidade de ocorrncia de cada um dos acontecimentos (defeituoso/no-defeituoso), necessrio que se verifique, pelo menos, uma das seguintes condies: o lote do qual se extraem as peas muito grande, podendo, como tal, afirmar-se que a proporo de defeituosos nele existente no afectada, significativamente, pelo nmero de peas retiradas. Para que assim seja, o lote deve ter, pelo menos, 10 vezes mais peas do que aquelas que so retiradas. as peas retiradas so classificadas e repostas no lote. Desta forma, mantm-se sempre constante a proporo de peas defeituosas.

M.C.04

Ut.03

6 vulgar dizer-se, portanto, que existe uma classificao binria.

Componente Prtica Guia do Formando

Estatstica Aplicada

III . 20

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Com a distribuio binomial, pretendemos determinar qual a probabilidade de que um dado acontecimento ocorra r vezes em n tentativas sendo, em cada tentativa, constante a sua probabilidade de ocorrncia, p. Imaginemos que uma moeda tem marcada numa das faces uma cruz e na outra um crculo. Admitamos que pretendemos estudar a probabilidade de que em 5 lanamentos consecutivos de moeda ao ar se observem 3 cruzes, sendo p a probabilidade de sair cruz em qualquer dos lanamentos. Assinalando com X a sada de uma cruz e com O a sada de um crculo, o valor X = 3 resulta, por exemplo, de qualquer uma das seguintes sequncias:
XXXOO OXXXO OXXOX

Sendo os resultados dos diversos lanamentos independentes entre si, a probabilidade de qualquer das sequncias consideradas o produto de 3 factores iguais a p por 5-3 = 2 factores iguais a q = 1-p, isto , p3q2 (recordemos que a probabilidade de ocorrncia conjunta de acontecimentos independentes se obtm pelo produto das probabilidades de ocorrncia de cada um deles). Sabendo a probabilidade de ocorrncia de cada sequncia em particular, resta-nos avaliar quantas sequncias distintas nos podem aparecer. Ou seja, temos de avaliar de quantas maneiras distintas podemos distribuir 3 cruzes por 5 posies. Resultar, ento,
5 P( X = 3 ) = C 3 p3 q 2

Generalizando, a probabilidade de que um dado acontecimento ocorra r vezes em n tentativas sendo, em cada tentativa, constante a sua probabilidade de ocorrncia, p,

P( X = r ) = C rn p r q n r
Esta distribuio tem mdia () = np 2 varincia (s ) = npq

(III.11)

(III.12) (III.13)

Exemplo III.6

M.C.04

Ut.03

Admitindo que 40% dos alunos que entram para a Universidade no chegam a terminar o curso, determine qual a probabilidade de, em 6 alunos escolhidos ao acaso, mais de metade chegarem ao fim da licenciatura.

Componente Prtica Guia do Formando

Estatstica Aplicada

III . 21

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Repare-se que dizermos que 40% dos alunos no chegam ao fim do curso o mesmo que dizermos ser de 0,4 a probabilidade de um aluno no concluir o curso e, naturalmente, de 0,6 a de o concluir7. O que queremos

P (X = 4) + P (X = 5) + P (X = 6) n=6 p = 0,6 q = 1- p = 0,4

6 P( X = 4 ) = C 4 0,6 4 0,4 2 = 0,311040 6 P( X = 5 ) = C 5 0,6 5 0,41 = 0,186624 6 P( X = 6 ) = C 6 0,6 6 0,4 0 = 0,046656

P (X = 4) + P (X = 5) + P (X = 6) = 0,54432
Assim, a probabilidade de que entre 6 alunos escolhidos ao acaso mais de metade tenham concludo o curso de, aproximadamente, 54%.

Distribuio de Poisson
Como vimos, a distribuio binomial aparece-nos sempre que, ao repetirmos uma experincia, observamos o nmero de ocorrncias de um certo acontecimento ligado a essa experincia. Se o nmero n de repeties aumentar indefinidamente, ao mesmo tempo que a probabilidade de ocorrncia do acontecimento numa experincia tende para 0, ficamos nas condies da distribuio de Poisson. Pensemos em alguns exemplos em que se utiliza a distribuio de Poisson: chegada de chamadas telefnicas a uma central. Reparemos que qualquer intervalo de tempo pode ser considerado uma repetio de muitos pequenos intervalos de tempo nos quais se aproxima de 0 a probabilidade de chegada de uma chamada. defeitos superficiais em azulejos. Qualquer azulejo pode ser considerado como um conjunto de muitas pequenas reas nas quais se aproxima de 0 a probabilidade de nelas encontrarmos um defeito.

M.C.04

Ut.03

7 muito importante esta relao entre frequncia relativa e probabilidade.

Componente Prtica Guia do Formando

Estatstica Aplicada

III . 22

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Quando um acontecimento ocorre a um ritmo de l num determinado intervalo de tempo (determinada rea, etc.), a probabilidade de que esse acontecimento se repita r vezes nesse intervalo de tempo

P (X = r) =

l r l e r!

(III.14)

No fundo, a distribuio de Poisson uma aproximao da distribuio binomial que pode ser utilizada quando n muito grande e p muito pequeno, fazendo l=np. Resulta daqui que a distribuio de Poisson tem um nico parmetro, l, sendo, como tal, muito mais fcil de tabelar. Na distribuio de Poisson, mdia = varincia = (III.15)

Exemplo III.7 Se a probabilidade de uma pea ser defeituosa for p = 0,05, podemos dizer que em n = 200 peas teremos l = 0,0,5 x 200 = 10 peas defeituosas.

Exemplo III.8

Admitamos que o nmero mdio de chamadas que so recebidas numa central telefnica, durante 6 horas de trabalho, de 120. Qual ser o ritmo de chegada de chamadas por cada 20 minutos? Por minuto chegaro, em mdia,
120 = 0,333 chamadas 60 x 6

ou seja, em cada 20 minutos chegaro


0,333 x 20 = 6,667 chamadas

Determinemos, por exemplo, a probabilidade de que cheguem 5 chamadas durante este perodo de 20 minutos.

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 23

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Queremos ento determinar

P ( X = 5 ) com l = 6,667 , resultando

P ( X = 5) =

6,667 5 6,667 e = 0,1396 5!

Assim, a probabilidade de que cheguem 5 chamadas durante um intervalo de tempo em que ocorrem, em mdia, 6,667 chamadas de, aproximadamente, 14%. (Reparemos que os 20 minutos podem ser decompostos, por exemplo, em 240 perodos de 5 segundos, n = 240, nos quais pequena a probabilidade p de ocorrncia de uma chamada.

p = 120/4320 = 0,0278. Resulta assim l = np = 240 x 0,027 = 6,67

DISTRIBUIES CONTNUAS
So distribuies contnuas as correspondentes a variveis aleatrias contnuas. De entre estas, merece inquestionvel destaque a distribuio normal. Assim, incidir sobre esta grande parte da nossa ateno nesta seco.

Distribuio normal
Consideremos o histograma apresentado na figura seguinte (fig. III.6):

Fig. III.6 - Histograma

M.C.04

Ut.03

No difcil imaginar o que acontecer a este histograma se formos considerando pontos mdios de classe cada vez mais prximos entre si. Os rectngulos vo-se estreitando cada vez mais. A linha a tracejado anterior vai-se aproximando da forma a seguir representada (fig. III.8).

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 24

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Figura III.7 - Curva normal

A este tipo de curva em forma de sino chamamos curva normal. Quando, ao traarmos um histograma, ele se aproxima da forma anterior, dizemos que a populao que lhe deu origem segue uma distribuio normal ou, simplesmente, que uma populao normal. A distribuio normal de longe a que maior aplicao tem aos problemas do dia-a-dia. A razo para isto o facto de que, quando uma determinada caracterstica est sujeita a vrias fontes de variao, a sua distribuio resultante aproxima-se de uma normal. Na distribuio normal, a mdia, a moda e a mediana tm o mesmo valor. A mdia da populao representa-se por . Chammos anteriormente a ateno para o facto de ser necessrio dispor de parmetros relativos localizao e disperso. A localizao ser, obviamente, medida pela mdia. Relativamente disperso, vimos anteriormente que a melhor forma de a medir atravs do desvio-padro. Se pensarmos na curva da distribuio normal, ela ser tanto mais larga quanto maior for o desvio-padro. Um conceito de grande importncia, que haver ocasio de aprofundar, o de que a quase totalidade de uma populao normal se situa entre 3 desvios-padro acima e abaixo da mdia. Ao pretendermos saber a percentagem da populao que se situa entre dois determinados valores de uma distribuio normal, teremos de saber a percentagem da rea total da curva que se situa entre os referidos valores. Veremos, mais adiante, como possvel calcular esta rea de uma forma simples. Para j, observemos um exemplo ilustrativo das duas afirmaes anteriores. Admitamos que a tenso mdia de ruptura de um determinado cabo de ao de 4 000 kg/cm2, com um desvio-padro de 50 kg/cm2. Atendendo aos dois conceitos anteriores, saberemos que a quase totalidade da populao (100 % da rea) estar entre + 3 e 3 , ou seja:

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 25

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

4 000 + 3 x 50 = 4 150 kg/cm 2 4 000 + 3 x 50 = 3 850 kg/cm

Em termos de curva de distribuio resultar (fig. III.8):

3 850

4 000

4 150

Figura III.8 - Curva de distribuio

Admitamos, por exemplo, que queramos calcular a probabilidade de um cabo de ao romper com uma tenso inferior a 4 100 kg/cm2. O que pretendemos calcular a rea indicada a tracejado na figura seguinte (fig. III.9):

4 000

4 100

Figura III.9 - Probabilidades de um cabo de ao romper com tenso inferior a 4 100 kg/cm2

M.C.04

Ut.03

Para podermos calcular a rea referida, vamos servir-nos de uma transformao muito interessante e de uma extraordinria utilidade.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 26

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Imaginando uma populao X, com um determinado desvio-padro, s, e uma mdia , se pegarmos em cada elemento x, dessa populao, lhe subtrairmos a mdia m e dividirmos pelo desvio-padro, i.e., se fizermos 8

z=

xm s

(III.16)

obtemos uma distribuio Z, que tem sempre desvio-padro igual a 1 e uma mdia igual a 0, independentemente dos valores originais de s e m. A grande vantagem desta transformao a de nos permitir transformar qualquer distribuio normal nesta ltima, a que chamamos normal-padro. Existem tabelas que nos do a rea esquerda de vrios valores de z. Os problemas que se seguem recorrem utilizao destas tabelas. Voltemos ao problema proposto da determinao da percentagem de cabos que rompero com uma carga inferior a 4 100 kg.

4 000

4 100

O que temos de fazer transformar a nossa distribuio X - tenso de ruptura na distribuio Z.

Figura III.10 - Probabilidade de valores de Z inferiores a 2


Ut.03 M.C.04

8 varivel z chama-se, habitualmente, varivel reduzida.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 27

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Como vimos, o valor x = 4 100 transforma-se no valor z = 2. O que pretendemos , ento, determinar a rea esquerda de z = 2. A rea esquerda de um determinado valor de z costuma representar-se por f( z) e pode ler-se directamente na tabela normal. Teremos ento:
f (2) = 0,9772

ou seja, 97,72% dos cabos rompero com cargas inferiores a 4 100 kg/cm2. Admitamos agora que queramos determinar a percentagem de tubos a romper acima de 4 100 kg/cm2. Sabendo que a rea total abaixo da curva representa 100% e que a rea esquerda de 4 100 kg/cm2 de 97,72%, imediatamente se conclui que a rea direita, i. e., a percentagem que rompe acima de 4 100 kg/cm2 ser 100% - 97,72% = 2,28% Escrevendo de outra forma,

P [x > 4 100 ] = P [Z > 2] = 1 f ( 2 ) = 1 0,9772 = 0 ,0228


Admitamos agora que queramos saber a percentagem de cabos que rompem com uma carga inferior a 3 980 kg/cm2 (fig. III.11).

3 980
Figura III.11 - Percentagem de cabos que rompem com uma carga inferior a 3 980 kg/cm2

A rea esquerda de Z = - 0,4 ser simplesmente (-4). No entanto, a tabela apresentada no contempla valores negativos. Esta situao, contudo, ultrapassa-se com toda a facilidade. Pensemos um pouco, observando a figura seguinte (fig. III.12):

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 28

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

- 0,4

0,4

Figura III.12 - Valores de Z simtricos

Sendo a curva simtrica, a rea esquerda de -0,4 , obviamente, igual rea direita de 0,4. Por outro lado, como vimos, a rea direita de 0,4 de 1 (ou 100%) menos a rea sua esquerda. Assim,
f ( 0,4) = 1 f (0,4) = 1 0,6554 = 0,3446

Ou seja, 34,46% dos cabos falharo com uma carga inferior a 3 980 kg/cm2. Para terminar estas breves referncias sobre a utilizao da distribuio normal, analisemos outro tipo de situao. Qual a percentagem de cabos que rompero entre 3 978 kg/cm2 e 4 030 kg/cm2 ? O que pretendemos determinar a rea a tracejado da figura seguinte (fig. III.13).

3 978

4 030

Figura III.13 - rea correspondente percentagem de cabos que rompero com tenses entre 3 978 e 4 030 kg/cm2

Pensando em termos da normal-padro,

z1 =
M.C.04 Ut.03

3 978 4 000 = 0,44 50

z2 =

4 030 4 000 = 0,6 50

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 29

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

-0,44

0,6

Figura III.14 - rea entre valores de z

Para determinamos a rea a tracejado, no temos mais de que calcular a rea esquerda de 0,6 e subtrair-lhe a rea esquerda de -0,44. Assim: rea esquerda de 0,6 = f(0,6) = 0,7257 rea esquerda de -0,44 = 1 - rea esquerda de 0,44 = 1 - f(0,44) = = 1 - 0,6700 = 0,3300 A percentagem de cabos a romperem entre os 3 978 kg/cm2 e 4 030 kg/cm2 ser, ento, 72,57%-33,00% = 39,57%

Distribuio uniforme
Uma varivel tem distribuio uniforme no intervalo a x b se a sua funo densidade for
1 b a f (x) = 0

caso contrrio

(III.17)

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 30

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Graficamente;

Figura III.15 - Funo densidade de distribuio uniforme

anterior funo densidade corresponde a funo de distribuio

0 ( x a ) F (x) = P ( X < x) = ( b a ) 1

x a x

<

a x b

(III.18)

A mdia e a varincia so, respectivamente,


m = 1 (a + b) 2

e s2 =

1 ( b a )2 12

(III.19) e (III.20)

Exemplo III.9

O comprimento de cabelo dos funcionrios de determinada empresa uniformemente distribudo entre a = 4 cm e b = 24 cm. Determine a probabilidade de um empregado escolhido ao acaso ter um comprimento de cabelo entre 8 e 12 cm. Como vimos, a probabilidade de uma varivel aleatria tomar um valor entre a e b dada por P (a x ) = F () - F (a) em que F(a) e F() so valores de funo de distribuio para a e .
Ut.03 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 31

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Teremos, assim,

P (8 x 12) = F (12) - F (8)


Recordando a funo distribuio para uma funo uniforme,
0 ( x a ) F (x) = P ( X < x) = ( b a ) 1

Normal-padro

x a x

<

a x b

no nosso caso, a = 4 e b = 24

F ( 12 ) =

12 4 8 = = 0,4 24 4 20

Ento, P (8 x 12) = F (12) - F (8) = 0,4 - 0,2 = 0,2 . Significa isto que a probabilidade de um empregado escolhido ao acaso ter um comprimento de cabelo entre 8 e 12 cm de 0,2 ou, o que o mesmo, 20% dos empregados tm um comprimento de cabelo entre 8 e 12 cm.

Distribuies t-Student e 2 (qui-quadrado)


As distribuies t-Student e qui-quadrado apresentam funo de densidade e de distribuio bastante complexas, pelo que a sua apresentao est fora do mbito deste mdulo. No entanto, isso no nos impedir de as utilizar, mais tarde, de uma forma prtica. Para j, bastar termos uma ideia global destas distribuies. Uma distribuio qui-quadrado , no fundo, uma adio de distribuies normal-padro ao quadrado. Isto , se tivermos X1,......,Xn variveis aleatrias 2 2 2 uma com uma distribuio normal-padro, ento = x 2 = X1 + .... + Xn distribuio qui-quadrado com n graus de liberdade. O conceito de grau de liberdade tem alguma importncia, mas no dos mais simples de apreender. Tentemos, atravs de um exemplo, dar uma ideia do seu significado. Admitamos que a mdia de um conjunto de n = 4 valores deve ser x i = 20 . Vejamos igual a 5. Para que isto acontea, teremos que ter algumas formas de o conseguir:

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 32

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Vemos ento que podemos dar a x1, x2 e x3 os valores que entendermos, mas, uma vez atribudos estes valores, resta apenas um valor para x4 que respeita x i = 20 . Significa isto que temos n-1 = 4-1 = 3 graus de liberdade.

Em relao distribuio do t-Student refira-se, a ttulo meramente informativo, que, se Z for uma varivel normal-padro e Y uma distribuio qui-quadrado com n graus de liberdade, ento a varivel aleatria

T =

Z Y n
(III.19)

tem distribuio t-Student com n graus de liberdade. Quer a distribuio qui-quadrado, quer a distribuio t-Student se aproximam da normal quando aumenta o nmero de graus de liberdade. Como j referimos, a utilizao das distribuies qui-quadrado e t-Student ser feita mais tarde, quando abordarmos as questes relativas s distribuies amostrais.

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 33

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

RESUMO

A primeira, das importantes noes introduzidas nesta unidade temtica, foi a de varivel aleatria. Afirmmos que se entendia como tal a funo que estabelece um valor numrico para cada elemento do espao de acontecimentos. Distinguimos caractersticas qualitativas e quantitativas, associando a estas o conceito de varivel aleatria. Pudemos, assim, distinguir variveis aleatrias discretas e contnuas. Uma varivel aleatria que tome um conjunto finito ou um nmero infinito enumervel de valores dita como varivel discreta. Se, por outro lado, os valores que a varivel toma correspondem a um intervalo de nmeros reais, dizemos que estamos perante uma varivel aleatria contnua. Foram apresentados os conceitos de funo densidade e de distribuio, tendo sido identificadas as diferenas nas correspondentes interpretaes, conforme se tratem de distribuies contnuas ou discretas. Vimos que, para analisar a distribuio de qualquer caracterstica, temos de dispor de dois tipos de informao: Qual a zona em que se situam a maior parte dos indivduos; Como se dispersam os valores analisados.

Isto , precisamos de dispor, respectivamente, de medidas de tendncia central e de medidas de disperso. De entre as medidas de tendncia central destacmos a mdia, a moda e a mediana, enquanto que, como medidas de disperso, se focaram a amplitude, a varincia e o desvio-padro. Apresentaram-se ainda os coeficientes da assimetria e achatamento, relacionando-os com diferentes tipos de curvas. De entre as distribuies discretas foram abordadas as distribuies uniforme, hipergeomtrica, binomial e de Poisson. Chammos a ateno para o facto de a distribuio binomial poder ser utilizada quando o espao de acontecimentos constitudo por dois acontecimentos elementares, com probabilidades de ocorrncia constantes em cada experincia. Realmos, tambm, o facto de a distribuio de Poisson ser uma aproximao da distribuio binomial que pode ser utilizada quando n muito grande e p muito pequeno, fazendo l=np.
Ut.03 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 34

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

Nas distribuies contnuas o destaque foi, naturalmente, para a distribuio normal, uma vez que esta, de longe, a que maior aplicao tem aos problemas do dia-a-dia. A razo para isto o facto de que, quando uma determinada caracterstica est sujeita a vrias fontes de variao, a sua distribuio resultante aproxima-se de uma normal. Vimos como pode ser obtida a varivel reduzida e a facilidade que constitui a sua tabelao. Ainda dentro das distribuies contnuas, foram referidas as distribuies uniforme, qui-quadrado e t-Student. Se em relao primeira concretizmos a sua aplicao, em relao s duas ltimas foi realada a utilizao que delas faremos posteriormente.

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 35

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

ACTIVIDADES / AVALIAO

I. Uma varivel aleatria discreta tem a seguinte funo densidade:


x f( x ) = P( X = x ) = 6 0

x = 1,2,3 caso contrrio

Represente, analtica e graficamente, a sua funo de distribuio. II. Um dimetro foi medido 30 vezes, tendo-se obtido os seguintes resultados (em milmetros): 100 97 100 100 99 101 98 101 100 101 100 103 99 102 102 103 101 101 98 100 99 98 98 99 99

97 100

103 102 102

(recorde que estes dados j foram trabalhados num exerccio anterior). Determine: a) a mdia e a mediana. b) a amplitude total, a varincia e o desvio-padro.

III. Uma varivel aleatria discreta tem uma distribuio uniforme dada por
1 f(x) = P(X = x) = 3 0

x = 1,2,3 caso contrrio

a) Determine a mdia e a varincia desta distribuio. b) Represente, analtica e graficamente, a funo de distribuio.

IV. Uma caixa contm 16 peas boas e 8 peas defeituosas. Pretendemos determinar qual a probabilidade de em 6 peas retiradas sarem 4 boas. a) Considere as extraces com reposio, isto , cada pea reposta na caixa antes de ser retirada a seguinte. b) Extraco sem reposio. Um fabricante automvel constatou, ao longo de vrios anos, que cerca de

V.
Ut.03 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 36

IEFP ISQ

Variveis Aleatrias e Distribuies Estatsticas

18% dos carros tm de substituir a bateria ainda durante o perodo da garantia. Qual a probabilidade de que, entre 20 veculos escolhidos ao acaso, nenhum apresente problemas de bateria?

VI. Sabe-se que 20% dos mdicos em determinado Hospital so cirurgies. Determine a probabilidade de que, entre 30 mdicos do Hospital escolhidos ao acaso, existam entre 3 e 5 cirurgies. a) utilizando a distribuio binomial. b) utilizando a distribuio de Poisson.

VII. Defeitos em peas de tecido encontram-se, aleatoriamente, com uma mdia de 1 defeito por 50 dm2. Utilizando a distribuio de Poisson, determine a probabilidade de que numa rea de 4 x 8 dm, a) no exista nenhum defeito. b) exista, no mximo, 1 defeito.

VIII. O nmero de pedidos de assistncia que chegam, por minuto, a uma central de atendimento , em mdia, de 2. Calcule a probabilidade de, num perodo de 5 minutos, a) chegarem, exactamente, 8 pedidos. b) chegarem, no mnimo, 3 pedidos.

IX. A tenso sada de uma fonte de alimentao normalmente distribuda com uma mdia de 12 V e desvio-padro 0,1 V. Se os limites superior e inferior da especificao forem 11,85 e 12,85 V respectivamente, qual a probabilidade de que uma fonte, escolhida ao acaso, cumpra os requisitos?

X.

Suponha-se que a durao de vida de um componente distribuda normalmente, com desvio-padro igual a 10 horas. Sabendo que a probabilidade de que o componente no falhe nas primeiras 100 horas de 0,99, qual ser a sua durao de vida esperada?

M.C.04

Ut.03

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

III . 37

IEFP ISQ

Amostragem

M.C.04 Ut.01

Estatstica Aplicada Guia do Formando

IEFP ISQ

Amostragem

OBJECTIVOS

No final desta unidade temtica, o formando dever estar apto a:

Explicar o conceito de distribuio de uma estatstica amostral Utilizar as distribuies amostrais de mdias, varincias e propores Distinguir entre estimao pontual e intervalar Explicar a noo de nvel de confiana Calcular intervalos de confiana para mdias, varincias e propores

TEMAS

Clculo da mdia e varincia em amostras Distribuio amostral de mdias, varincias e propores

Distribuio amostral de mdias Distribuio amostral de varincias Distribuio amostral de propores

Intervalos de confiana

Intervalos de confiana para a mdia Intervalos de confiana para a varincia Intervalos de confiana para propores

Resumo Actividades / Avaliao

M.C.04

Ut.04

Estatstica Aplicada Guia do Formando

IV . 1

IEFP ISQ

Amostragem

Referimos anteriormente que o principal objectivo da estatstica o conhecimento de determinada populao com que estejamos a trabalhar. Referimos, tambm, que falar em populao no significava, necessariamente, que nos estivssemos a referir a um conjunto de seres humanos, e apresentmos exemplos: Os pesos de sacos de acar que saem de uma linha de produo constituem uma populao; O conjunto de durezas superficiais medidas em peas de ao sujeitas a tratamento trmico constitui uma populao.

Dissemos que, por exemplo, conhecer a populao de pesos de sacos de acar significaria conhecer a frequncia com que ocorre cada um dos pesos possveis. Deste conceito de conhecimento de uma populao resulta uma concluso primeira vista um pouco estranha. Muito raramente ns podemos conhecer uma populao. Vejamos porqu, voltando ao exemplo das durezas superficiais. Relativamente a uma determinada pea, conhecer a populao das suas durezas superficiais seria conhecer a dureza em cada um dos pontos da sua superfcie. Este nmero de pontos , como se compreende, infinito. Pensemos noutra situao. Ser que, para conhecermos a distribuio das alturas dos portugueses, teremos de medir cada um dos seus 10 000 000 de habitantes? O que podemos fazer? A resposta simples: da populao que pretendemos conhecer extramos uma amostra representativa e fazemos incidir sobre ela o nosso estudo.

M.C.04

Ut.04

Por amostra representativa entende-se um conjunto de elementos retirados de uma populao e que a representam de uma forma justa. Vamos aprofundar melhor o que isto significa. Imaginemos que, para conhecer a distribuio das alturas dos portugueses, a pessoa com a responsabilidade do estudo se dirige a um pavilho de basquetebol e decide constituir uma amostra com os atletas que nesse momento se treinam. Ser essa amostra representativa da verdadeira distribuio das alturas dos portugueses? Obviamente que no. A amostra escolhida tendenciosa e conduzir a concluses erradas, uma vez que nem todos os portugueses tm igual probabilidade de nela figurarem. Ento, podemos dizer que amostra representativa aquela na qual todos os elementos da populao tm igual probabilidade de figurar. Por outro lado, chamaremos dimenso de uma amostra ao nmero de elementos que a constituem.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 2

IEFP ISQ

Amostragem

Nesta unidade temtica vamos, precisamente, estudar formas atravs das quais nos ser possvel extrapolarmos concluses, relativamente a uma dada populao, a partir de amostras dela retiradas, ou seja, vamos entrar no campo da inferncia estatstica. Mais particularmente, vamos tentar, partindo de dados amostrais, estimar os valores de mdia e/ou do desvio-padro de uma populao ou, ainda, de uma determinada proporo relativamente ocorrncia de um dado acontecimento. Como se compreende, ao inferirmos valores para a populao partindo de resultados obtidos em amostras, corremos sempre algum risco de no estarmos certos. Surge, assim, o conceito de intervalo de confiana, que teremos oportunidade de aprofundar nesta unidade temtica.

CLCULO DA MDIA E VARINCIA EM AMOSTRAS


Chamamos estatstica amostral a qualquer valor que se calcule em amostras, tendo como objectivo a estimao de parmetros da populao. Habitualmente, quando pretendemos estimar determinado parmetro da populao, a melhor forma de o fazermos calcul-lo na amostra. Isto , quando pretendemos, por exemplo, estimar1 a mdia de determinada populao, a melhor forma de o fazermos ser calcular a mdia numa amostra representativa desta populao. Como vimos, a mdia de uma populao corresponde soma dos valores de todos os elementos da populao e posterior diviso pelo nmero de valores somados. Veremos que a melhor forma de estimar este valor ser adoptar o mesmo procedimento relativamente a uma amostra extrada da populao. Formalizando a simbologia que temos vindo, implicitamente, a utilizar, diremos que, para estimar o valor de (mdia da populao), faremos uso de x (mdia da amostra). Retirando da populao uma amostra de dimenso n, teremos, como conhecido, Mdia amostral

x =

1 n

x
i =1

(IV.1)

O raciocnio anterior, vlido em relao mdia, no o relativamente varincia. Ou seja, o clculo da varincia numa amostra utilizando a frmula que vlida para o clculo numa populao no conduz melhor estimativa para a varincia desta. Teremos ocasio de aprofundar esta questo; convir, todavia, ficar desde j com uma razo intuitiva para este facto. Como vimos, a varincia avalia a disperso de uma populao medindo o afastamento dos vrios elementos que a constituem relativamente mdia. Compreende-se que, ao retirarmos uma amostra da populao, difcil se torna que a variedade de valores existentes na populao seja reflectida na amostra. Ou seja, a varincia medida numa amostra
1 Voltaremos, com maior detalhe, a este assunto.
Ut.04

Varincia amostral

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 3

IEFP ISQ

Amostragem

resulta, habitualmente, num valor inferior verdadeira disperso da populao. Temos, ento, necessidade de compensar este efeito. Admitamos que a populao constituda por N elementos. A sua varincia ser 2
s2 = 1 N

( x
i =1

m )2

(IV.2)

Retirando da populao uma amostra representativa com n elementos, uma boa estimativa da varincia de uma populao, calculada a partir desta amostra, ser

s2 =

1 ( x i x )2 n 1 i =1

(IV.3)

Reparemos que, ao fazermos a diviso por (n-1), diminui-se o valor do denominador, aumentando desta forma o valor total. Faz-se, assim, como que uma compensao relativamente subestimao que resultaria do clculo amostral. Voltaremos a todos estes assuntos com maior rigor. Era, no entanto, importante que se ficasse desde j com algumas ideias a este respeito.

DISTRIBUIO AMOSTRAL DE MDIAS, VARINCIAS E PROPORES

J vimos que se chama estatstica amostral aos valores que se calculam nas amostras, tendo como objectivo a estimao de parmetros da populao. Admitamos que, de uma dada populao, se extraem todas as amostras possveis de tamanho n, calculando-se em cada uma delas a mesma estatstica (mdia, varincia, etc.). Vamos obter, portanto, um valor por cada amostra extrada. O conjunto de todos estes valores definem eles prprios uma distribuio, a distribuio amostral da estatstica. Precisemos um pouco, para que se torne mais claro. Admitamos que, de uma determinada populao, extramos todas as amostras possveis de tamanho n, calculando a mdia em cada uma delas. O conjunto das vrias mdias das amostras forma uma distribuio a que chamaremos distribuio amostral de mdias. Como em relao a qualquer distribuio, faz sentido falarmos, por exemplo, na mdia e no desvio-padro da distribuio amostral da estatstica. Falaremos, por exemplo, do desvio-padro da distribuio Distribuio amostral

2 A apresentao que foi feita da frmula da varincia diz respeito a um conjunto de valores

M.C.04

Ut.04

x era a mdia desse conjunto de valores. O conceito de varincia da populao deve, naturalmente, considerar em vez de x .
em que

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 4

IEFP ISQ

Amostragem

de mdias amostrais ou da mdia da distribuio de varincias amostrais3 . Quer os conceitos quer a terminologia utilizada parecero, por agora, um pouco confusos. O aprofundamento das noes apresentadas e sua utilizao prtica ajudaro, certamente, a ultrapassar esta fase menos convidativa.

Distribuio amostral de mdias


Comecemos por apresentar um exemplo, muito simples, para que mais facilmente se compreenda o que se seguir.

M.C.04

Ut.04

3 A que tambm poderemos chamar distribuio amostral de varincias.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 5

IEFP ISQ

Amostragem

Caso de Estudo IV.1

Uma populao consiste nos nmeros 1, 5, 6 e 8. Calculemos a sua mdia e varincia.

m =

1 + 5 + 6 + 8 20 = =5 4 4 (1 5) 2 + (5 5) 2 + (6 5) 2 + (8 5) 2 = 6,5 4

s2 =

Imaginemos agora que eram retiradas desta populao todas as amostras possveis de dois elementos, com reposio. Ou seja, cada amostra constituda por dois nmeros que podem ser iguais, uma vez que o primeiro nmero depois de observado reposto. O nmero total de amostras diferentes que possvel extrair nestas condies 42 = 16. Sero as seguintes: (1,1) (1,5) (1,6) (1,8) (5,1) (5,5) (5,6) (5,8) (6,1) (6,5) (6,6) (6,8) (8,1) (8,5) (8,6) (8,8) Calculemos agora a mdia de cada uma destas amostras. Teremos, com a mesma ordenao, 1 3 3,5 4,5 3 3,5 4,5 5 5,5 6,5 5,5 6 7 6,5 7 8

Dispomos agora de um conjunto de mdias amostrais. Calculemos a sua mdia e varincia. A mdia de distribuio amostral de mdias,
mx =

, ser x

1 + 3 + 3,5 + ... + 7 + 8 =5 16

e a varincia da distribuio amostral de mdias


2 sx =

(1 5) 2 + (3 5) 2 + ... + (8 5) 2 = 3,25 16

M.C.04

Ut.04

Componente Prtica Guia do Formando

Estatstica Aplicada

IV . 6

IEFP ISQ

Amostragem

Recordemos os resultados do Caso de Estudo IV.1:

mx = m = 5

s 2 = 6,5

2 sx = 3,25

2 sx =

s2 2

Ou seja, no exemplo apresentado a mdia da distribuio de mdias amostrais igual mdia da populao e a varincia da distribuio amostral de mdias igual varincia da populao dividida pelo tamanho da amostra. Podemos generalizar este resultado. De facto, se retirarmos de uma populao, com ou sem reposio, todas as amostras possveis de tamanho n, calculando a mdia em cada uma delas, a distribuio amostral de mdias resultante tem uma mdia que igual da populao. Ou seja,
mx = m

(IV.4)

Se a populao puder ser considerada infinita em relao ao tamanho das amostras extradas ou, ainda, se a amostragem for feita com reposio, verifica-se a seguinte relao entre a varincia da populao e a varincia da distribuio amostral de mdias:
2 sx =

s2 2

(IV.5)

ou, se pensarmos em termos de desvio-padro,


sx = s

(IV.6)

Se a amostragem for feita, sem reposio, a partir de uma populao finita com N elementos, resultar
2 = sx

s2 2

N n N 1

(IV.7)

Repare que esta expresso se aproxima da anteriormente apresentada quando N n (experimente-se resolver o exemplo anterior considerando que no existe reposio, isto , nunca podemos extrair duas vezes o mesmo nmero desaparecendo as amostras (2,2), etc.). Vejamos agora dois conceitos extremamente importantes 4 .

M.C.04

Ut.04

4 Os conceitos seguidamente apresentados assentam no pressuposto de populao infinita ou amostragem com reposio. Se isto no se verificar, devem ser consideradas as alteraes 2 em x anteriormente apresentadas.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 7

IEFP ISQ

Amostragem

i) Se, de uma populao normal, com mdia e varincia 2, extrairmos amostras de dimenso n, a distribuio das mdias amostrais resultante ser tambm normal, com mdia e varincia 2/n. ii) Se, de uma populao no-normal, com mdia e varincia 2, forem extradas amostras de dimenso n, a distribuio das mdias amostrais resultante ter mdia e varincia 2/n. Esta distribuio aproxima-se da normal com o aumento de n. Na prtica, podemos dizer que para n 30 a distribuio de mdias amostrais pode sempre considerar-se normal. Isto o mesmo que dizer-se que a varivel

Z=

x m s n

(IV.8)

se aproxima assimptoticamente de uma normal-padro.

M.C.04

Ut.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 8

IEFP ISQ

Amostragem

Caso de Estudo IV.2

Os tubos de vidro provenientes de determinado processo tm um comprimento mdio de 20,01 mm com um desvio-padro de 0,04 mm. a) Qual a percentagem de tubos com um comprimento acima de 20,06 mm? b) Extraindo-se amostras de 4 elementos, qual a percentagem de amostras cuja mdia est acima de 20,06 mm? Como podemos observar, a primeira alnea diz respeito populao dos tubos individualmente considerados, que tem, como dito, = 20,01 mm e = 0,04. A segunda alnea diz respeito distribuio de mdias de amostras de quatro elementos. Para esta distribuio,
m x = m = 20,01 sx = s = 0,0,4 = 0,02 2

A percentagem de tubos referida na alnea a) ser dada pela rea indicada a tracejado na figura.

20,01

20,06

20,06 20,01 P ( X > 20,06 ) = P Z > = P ( Z > 1,25 ) 0,04

P ( Z > 1,25 ) = f ( 1,25 ) = 1 0,8944 = 0,1056


Ou seja, 10,56 % dos tubos apresentaro um comprimento acima de 20,06 mm.
Ut.04 M.C.04

Componente Prtica Guia do Formando

Estatstica Aplicada

IV . 9

IEFP ISQ

Amostragem

Relativamente alnea b) teremos 5

20,01

20,06

20 ,06 20 ,01 = P ( Z > 2,5 ) P ( X > 20,06 ) = P Z > 0,04 4

P ( Z > 2,5 ) = f ( 2,5 ) = 1 0,9938 = 0,0062


Ou seja, apesar de 10,56 % dos tubos terem um comprimento acima de 20,06 mm, apenas 0,62 % das amostras de 4 elementos tero um comprimento mdio que excede 20,06 mm.

5 Repare-se que a curva correspondente distribuio amostral de mdias sempre mais estreita que a dos valores individuais uma vez que
Ut.04

x=

M.C.04

Componente Prtica Guia do Formando

Estatstica Aplicada

IV . 10

IEFP ISQ

Amostragem

Reparemos que, em todas as situaes abordadas, assentmos no pressuposto de se conhecer a varincia da populao em causa. Nessas condies, vimos que a varivel

Z=

xm s n

normal-padro se a populao for normal, ou, pelo menos, tende assimptoticamente para a normal-padro. Se, por outro lado, no for conhecida a varincia da populao, h que utilizar a varivel

t=

xm s n

(IV.9)

Esta varivel tem uma distribuio t-Student com (n-1) graus de liberdade. Concretizaremos, mais adiante, a sua utilizao.

Distribuio amostral de varincias


Admitamos, como temos vindo a fazer, que se extraem de uma populao infinita 6 , ou fazendo reposio, todas as amostras possveis de tamanho n. Em cada uma destas amostras calculamos

s2 =

1 ( x i x )2 n 1 i =1

Verifica-se que a mdia de distribuio de varincias igual varincia da populao. Ou seja,


m s2 = s 2

(IV.10)

Se se tratar de uma amostragem sem reposio, a partir de uma populao finita de tamanho N, a mdia de distribuio amostral de varincias ser
N 2 ms2 = N 1 s

(IV.11)

Vimos que, para o caso das mdias amostrais, a distribuio de aproximava de uma normal.

x se

M.C.04

Ut.04

6 A partir de agora, se nada for dito em contrrio, considera-se que a amostragem feita com reposio ou a partir de uma populao infinita.

Componente Prtica Guia do Formando

Estatstica Aplicada

IV . 11

IEFP ISQ

Amostragem

No caso das varincias amostrais, a distribuio de s no corresponde a 2 nenhuma que conheamos. Assim, em vez de utilizar a distribuio de s , vamos utilizar uma varivel aleatria cuja distribuio j foi, passageiramente, referida. Utilizaremos ento a varivel

( n 1) s 2
s2

Podemos dizer que, se extrairmos todas as amostras possveis de dimenso n de uma populao normal com varincia 2, a varivel que acabmos de apresentar tem uma distribuio qui-quadrado com (n-1) graus de liberdade. Devemos referir tambm que, se as amostras extradas nas condies anteriores forem de grande dimenso, n 100, a distribuio das varincias amostrais s aproxima-se de uma distribuio normal com um desvio-padro s s = e 2n mdia m s = s .

Exemplo IV.1

Tornemos a considerar a populao constituda pelos nmeros 1, 5, 6 e 8, e todas as amostras de 2 elementos que dela podemos retirar, com reposio. Relativamente populao, j havamos concludo que m = 5 s 2 = 6,5 . 2 Calculemos agora a varincia, s , de cada amostra:

(1,1) (1,6) (5,1) (5,6) (6,1) (6,6) (8,1) (8,6)

x=1 x = 3,5 x=3


x = 5,5 x = 3,5 x=6 x = 4,5 x=7

s =0 s = 12,5 s =8 s = 0,5 s = 12,5 s =0 s = 24,5 s =2


2 2 2 2 2 2 2

(1,5) (1,8) (5,5) (5,8) (6,5) (6,8) (8,5) (8,8)

x=3 x = 4,5 x=5 x = 6,5 x = 5,5

s =8 s = 24,5 s =0 s = 4,5 s = 0,5 s =2 s = 4,5 s =0


2 2 2 2 2 2 2

x=7 x = 6,5 x=8

Calculemos agora a mdia de distribuio amostral de varincia:


ms2 =
M.C.04 Ut.04

Soma de todas as varincias 104 = = 6 ,5 16 16

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 12

IEFP ISQ

Amostragem

confirmando-se o que havamos visto: m s 2 = s 2 . Deixaremos para mais tarde, quando falarmos de intervalos de confiana, a utilizao da distribuio qui-quadrado.

Distribuio amostral de propores


Vamos considerar uma determinada populao binomialmente distribuda. Isto , cada elemento da populao tem uma probabilidade p de apresentar determinada propriedade, e uma probabilidade q = 1-p de a no apresentar. A populao pode ser constituda, por exemplo, pelas peas sadas de determinada produo, que tero uma probabilidade p de serem defeituosas e q = 1-p de o no serem. Admitamos que se retiram desta populao todas as amostras possveis de tamanho n, calculando-se em cada uma delas a proporo de elementos, P, que apresenta a propriedade em causa. Obteremos, ento, uma distribuio amostral de propores cuja mdia e desvio-padro sero dados por
mp = p sp =

pq n

(IV.12)

Para valores suficientemente grandes de n, n 30, a distribuio de propores pode ser considerada prxima de uma normal com a mdia e o desvio-padro anteriormente apresentados. Vejamos, atravs de um exemplo, como trabalhar com estas situaes.

Exemplo IV.27

Sabe-se que 2% de determinada produo de parafusos apresenta o defeito de no possuir ranhura na cabea. Qual a probabilidade de, num lote de 400 parafusos, 3% ou mais serem defeituosos? E qual a probabilidade de serem defeituosos menos de 2%? Como vimos,
m p = p = 0,02 sp =

pq = n

0,0,2 x 0,98 = 0,007 400

M.C.04

Ut.04

7 Com todo o rigor, deveriam ser utilizados factores de correco em virtude de estarmos a aproximar uma distribuio discreta por uma contnua. No o faremos, tentando, na medida do possvel, preservar a simplicidade do texto sem prejuzo da compreenso global dos assuntos envolvidos.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 13

IEFP ISQ

Amostragem

Ento,
0,03 0,02 P ( p 3%) = 1 f = 1 f ( 1,43 ) 0,007

P ( p 3%) = 1 0,9236 = 0,0764


ou seja, de 7,64% a probabilidade de o lote de 400 parafusos conter mais de 3% de defeituosos. Por outro lado,
0,02 0,02 P ( p 2%) = f = f ( 0 ) = 0,5 0,007

concluindo-se ser de 50% a probabilidade de um lote ter uma percentagem de parafusos defeituosos inferior a 2%.

INTERVALOS DE CONFIANA

J referimos, anteriormente, a quase impossibilidade de se conhecerem, exactamente, os parmetros de uma populao. Torna-se ento necessrio que estimemos esses parmetros a partir de dados obtidos em amostras. A estimao pode ser de dois tipos: pontual ou intervalar. Falamos da estimao pontual quando se pretende obter um valor numrico para determinado parmetro. Dizemos que determinada estatstica amostral proporciona uma estimativa no-tendenciosa do valor de determinado parmetro se a mdia da sua distribuio coincidir com o valor do parmetro populacional. Recordemos ento que x , s2 e P proporcionavam estimativas no-tendenciosas da mdia, varincia, e proporo de determinado acontecimento numa populao, uma vez que
mx = m

Estimao pontual e intervalar

m s2 = s 2

mp = p

(IV.13)

Falamos de estimao intervalar quando o objectivo construir um intervalo que tenha determinada probabilidade de conter o verdadeiro valor do parmetro. Pretender-se-, por exemplo, determinar um intervalo [I,S] que tenha uma
Ut.04 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 14

IEFP ISQ

Amostragem

probabilidade (1-) de conter o verdadeiro valor da mdia da populao. Isto , queremos determinar I e S tais que

P (l m S) = 1 a

Ao valor de (1-) chamamos nvel de confiana, sendo conhecido como nvel de significncia. O valor mais vulgarmente utilizado para o nvel de significncia = 0,05, o que corresponde, naturalmente, a um nvel de confiana de 95%. Como intuitivo, e teremos a oportunidade de confirmar, quando queremos nveis de confiana mais elevados resultam intervalos mais largos. tambm evidente que, para o mesmo nvel de confiana, se conseguem intervalos de menor amplitude quando se aumentam os tamanhos da amostra. De facto, amostras maiores possibilitam um melhor conhecimento da populao, tornando mais precisa a estimao do intervalo.

Nvel de confiana

Intervalos de confiana para a mdia


Z= x m s n

Vimos, anteriormente, que a varivel

normal, ou pelo menos, assimptoticamente normal, podendo considerar-se como tal para n 30. O que pretendemos, como se disse, determinar, com base em dados de uma amostra, um intervalo no qual exista determinada probabilidade de a mdia da populao, , se encontrar. Se pretendermos, por exemplo, construir um intervalo de confiana a 95%, teremos, antes de mais, de determinar quais os valores de Z tais que entre eles se encontrem 95% da populao. Haver necessidade, portanto, de determinar qual o valor de Z que tem 97,5% da rea sua esquerda e o outro, necessariamente simtrico deste, que tem 2,5% da rea sua esquerda. Vejamos a figura correspondente (Fig. IV.1):

95%

Z0,025 = Z0,975
Ut.04

Z 0,975

Figura IV.1 - Valores de z entre os quais se encontra 95% da populao

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 15

IEFP ISQ

Amostragem

Consultando a tabela da normal, facilmente se conclui que Z 0,975 = 1,96 . Haver agora que determinar os valores de S e I que, atribudos a , conduziro aos valores 1,96 e -1,96, respectivamente. imediato que

S = x + Z 0 ,975

n
s

= x + 1,96

n
s = x 1,96 s

I = x + Z 0 ,025
ou seja,

= x Z 0 ,975

s s = 95% P m x + 1,96 x 1,96 n n

Mais genericamente, um intervalo de confiana 8 a 100 (1-) % ser


P x Z(1 a / 2 ) s m x + Z(1 a / 2 ) s = 1 a n

Como j anteriormente referimos, frequente no ser conhecido o desvio-padro da populao. Se assim for, mas dispusermos de uma amostra com n 30, permanece vlida toda a formulao e raciocnio anteriores, havendo, no entanto, que utilizar o desvio-padro amostral s, em vez do desconhecido s. Se, de uma populao normal cujo desvio-padro desconhecemos, dispusermos de uma amostra com n < 30 elementos, sabemos que a varivel

t=

xm s n

segue uma distribuio t-Student com (n-1) graus de liberdade. Atendendo a que a distribuio t-Student, tal como a normal, simtrica, podemos, raciocinando de forma anloga, escrever (admitindo um nvel de confiana de 95% e uma amostra de n = 10 elementos)

S = x + t 0,975 ; 9

s n s n

= x + 2,262

s n s n
= x 2,262

I = x + t 0,025 ; 9

= x t 0 ,975 ; 9

s n

8 A multiplicao 100(1-) destina-se, simplesmente, a obter um valor em percentagem.


Ut.04 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 16

IEFP ISQ

Amostragem

ou seja

P ( x 2,262

s n

m x + 2,262

s n

Como se percebe, t 0 ,975; 9 pretende simbolizar o valor de t, com 9 graus de liberdade, que tem 97,5% de rea sua esquerda. Para as condies anteriormente definidas, podemos escrever, mais genericamente,
s s = 1 a (IV.14) P m x + t ( 1 a / 2 ); ( n 1) x x t ( 1 a / 2 ) ; ( n 1) x n n

Vejamos alguns exemplos para melhor sedimentar estes conceitos.

Exemplo IV.3

Determinada empresa possui uma linha de produo de lmpadas incandescentes. Sabe-se que o desvio-padro de durao das lmpadas s = 140. Ensaiando-se uma amostra de 100 lmpadas, obteve-se, nesta amostra, uma durao mdia de 1 280 horas. Determine um intervalo de confiana a 95% para a durao mdia das lmpadas provenientes deste processo. Estamos perante uma situao em que, para alm de se conhecer o desvio-padro da populao, se dispe de uma grande amostra. Utilizaremos, naturalmente, a distribuio normal.

x = 1 280 h
Ento,

= 140 h

z0,975 = 1,96

S = 1 280 + 1,96 x

140 = 1 307,44 h 100 140 = 1 252,56 h 100

I = 1 280 - 1,96 x

ou seja, podemos afirmar, com 95% de confiana, que a durao mdia das lmpadas em causa se situa entre 1252,56 h e 1307,44 h.
Ut.04 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 17

IEFP ISQ

Amostragem

Exemplo IV.4

O peso de sacos de determinado produto qumico segue uma distribuio normal da qual se desconhece o desvio-padro. Ensaiando-se uma amostra de 10 sacos obteve-se x = 4,38 Kg e s = 0,06 kg. Determine um intervalo de confiana a 99% para o peso mdio dos sacos. Sabendo que se trata de uma populao normal mas desconhecendo o seu desvio-padro, somos levados a utilizar a distribuio t-Student. Pretendendo construir um intervalo de confiana a 99% temos de, atravs das tabelas, obter o valor de

t 0 ,995 ; 9 = 3,250
sabendo que t 0,995 ; 9 simtrico deste. Assim, com

S = 4,38 + 3,250 x
teremos

0,06 10

= 4,44 Kg

I = 4,38 + 3,250 x

0,06 10

= 4,32 Kg

Podemos ento, com 99% de confiana, afirmar que o peso mdio dos sacos se situa entre 4,44 Kg e 4,32 Kg.

Intervalos de confiana para a varincia


J referimos anteriormente que a varivel

( n 1) s 2
s2

tem uma distribuio qui-quadrado com (n-1) graus de liberdade. Ao contrrio das distribuies normal e t-Student, a distribuio qui-quadrado no simtrica. Como tal, se pretendermos, por exemplo, determinar um intervalo de confiana para 2 a 95%, a partir de uma amostra de 10 elementos, teremos de procurar nas tabelas, separadamente,
2 c0 ,025 ; 9 = 19 ,023

2 c0 ,975 ; 9 = 2,700

M.C.04

Ut.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 18

IEFP ISQ

Amostragem

2 c0 ,975

2 c0 ,025

Figura IV.2 - Valores de qui-quadrado entre os quais se encontra 95% da populao

Teremos ento, para uma amostra com n = 10 elementos e um nvel de confiana de 95%,

I=
ou seja,

s2 x 9 2 c0 ,025 ; 9

S=

s2 x 9 2 c0 ,975 ; 9

s2 x 9 s2 x 9 P 2 s2 S= 2 c c 0,975 ; 9 0 ,025 ; 9

= 95%

e, generalizando,

s2 x 9 s 2 x (n 1) s2 S= 2 P 2 c (1 a ); (n 1) c (a ); (n 1) 2 2

= 1 a

(IV.16)

Exemplo IV.5

Mediram-se os dimetros de 8 peas, tendo-se obtido os seguintes resultados: 7,9 7,8 8 8,1 8,2 7,9 7,7 8,3 (mm)

Determine o intervalo de confiana a 95% para a varincia da populao da qual estas peas foram extradas.
Ut.04 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 19

IEFP ISQ

Amostragem

Utilizando uma calculadora com modo estatstico, de imediato se obtm

x=

1 n

x i = 7,99

s2 =

i =1

1 ( x i x )2 = 0,041 n 1 n =1

Consultando as tabelas da distribuio qui-quadrado, retiramos


2 c0 ,957 ; 7 = 1,690 2 c0 ,025 ; 7 = 16,013

Ento,

S=

7 x 0,041 = 0,170 1,69

I=

7 x 0,041 = 0,018 16,013

Podemos, portanto, afirmar com 95% de confiana que

0,018 s 2 0,170

Intervalos de confiana para propores

Vimos que, para valores suficientemente grandes de n, n 30, a distribuio de propores pode ser aproximada por uma normal. Isto , a varivel

Z=

Pp pq n

seguir uma normal-padro. Assim, se pretendemos determinar um intervalo de confiana a 95% para determinada proporo numa populao, p, a partir de uma proporo amostral,

P, teremos
S = P + Z 0 ,975 p ( 1 p) = P + 1,96 n p ( 1 p) = P + Z 0 ,975 n p (1 p ) n p (1 p ) = P 1,96 n p (1 p ) n

I = P + Z 0 ,025
Ut.04 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 20

IEFP ISQ

Amostragem

Generalizando, obteremos o seguinte intervalo a 100(1-)% para a proporo, p, de um dado acontecimento numa populao:

p (1 p ) p P + Z( 1 a ) P P Z( 1 a 2 2 n

p (1 p ) =1a n
(IV.17)

Exemplo IV.6

Numa amostra aleatria de 300 atletas, 60 afirmaram que se dopavam. Determine um intervalo de confiana a 95% para a proporo de atletas que recorrem ao doping. A proporo amostral ser

P =

60 = 0,2 300

Z 0,975 = 1,96, logo


0,2 x 0,8 = 0,245 300 0,2 x 0,8 = 0,155 300

S = 0,2 + 1,96

I = 0,2 1,96

Podemos, como tal, afirmar com 95% de confiana que se doparo entre 15,5% e 24,5% dos atletas.

M.C.04

Ut.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 21

IEFP ISQ

Amostragem

RESUMO

O primeiro conceito de grande importncia introduzido nesta unidade temtica foi o de que o conhecimento de uma populao faz-se, habitualmente, a partir de amostras representativas dela retiradas, tendo definido amostras representativas como aquelas nas quais todos os elementos da populao tm igual probabilidade de figurar. Apresentmos o conceito de estatstica amostral como sendo qualquer valor que se calcule nas amostras, tendo como objectivo a estimao de parmetros da populao. Assim, se de uma dada populao se extrarem todas as amostras possveis de tamanho n, calculando-se em cada uma delas a mesma estatstica (mdia, varincia, etc.), obtm-se um conjunto de valores que definem eles prprios uma distribuio, a distribuio amostral da estatstica. Tendo j clara a noo de distribuio amostral, pudemos abordar as questes relativas estimao de parmetros da populao. Referimos que a estimao pode ser de dois tipos: pontual ou intervalar. Falamos da estimao pontual quando se pretende obter uma valor numrico para determinado parmetro. Dizemos que determinada estatstica amostral proporciona uma estimativa no-tendenciosa do valor de determinado parmetro se a mdia da sua distribuio coincidir com o valor do parmetro populacional. Recordemos, ento, que x , s 2 e P proporcionavam estimativas no-tendenciosas da mdia, varincia, e proporo de determinado acontecimento numa populao, uma vez que

mx = m

m s2 = s 2

mP = p

Falamos de estimao intervalar quando o objectivo construir um intervalo que tenha determinada probabilidade de conter o verdadeiro valor do parmetro. Neste sentido, foi abordada a questo da estimao intervalar para mdias, varincias e propores. Referimos que, ao lidar com grandes amostras ou em situaes de desvio-padro conhecido, legtimo utilizar a distribuio normal na estimao de intervalos de confiana para a mdia. Foi, tambm, utilizada a distribuio t-Student nas situaes correspondentes utilizao de pequenas amostras provenientes de populaes normais com desvio-padro conhecido. Terminmos a unidade temtica abordando o estabelecimento de intervalos de confiana para varincias e propores mediante, respectivamente, as distribuies qui-quadrado e normal.
Ut.04 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 22

IEFP ISQ

Amostragem

ACTIVIDADES / AVALIAO

I. O peso de determinadas embalagens segue uma distribuio normal de mdia = 99 g e desvio-padro = 2 g. a) Seleccionando uma amostra aleatria de 16 embalagens, qual a probabilidade de o peso mdio nesta amostra ser superior a 100 g? b) Qual a probabilidade de uma embalagem seleccionada ao acaso pesar menos de 98,5 g? c) Determine valores a e b tais que a probabilidade de a mdia de uma amostra de 100 embalagens se encontrar entre eles seja de 95%.

II. Determinada caracterstica apresenta-se numa populao com mdia de 68 e desvio-padro 3. Extraindo-se da populao 80 amostras com 25 elementos cada, em quantas podemos esperar que a mdia seja inferior a 66,4?

III. Uma populao constituda por 500 sacos apresenta um peso mdio de 5,02 Kg com = 0,30 Kg. Extraindo uma amostra de 100 sacos desta populao, qual a probabilidade de que o seu peso mdio esteja entre 4,96 e 5,0 Kg ?

IV. De uma mquina automtica de caf extraiu-se uma amostra constituda pelo enchimento de 50 chvenas. O contedo mdio observado nestas 50 chvenas foi de 5 cl com um desvio-padro de 0,5 cl. Construa um intervalo de confiana a 95% para o contedo mdio das chvenas provenientes da referida mquina.

V. Pretende-se estudar a idade mdia de cada equipa olmpica. Extraindo-se uma amostra de 25 atletas, obtiveram-se os seguintes resultados:

x = 16 anos

s = 1,8 anos

Construa um intervalo de confiana a 95% para a idade mdia.


Ut.04 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

IV . 23

IEFP ISQ

Amostragem

VI. Mediu-se o dimetro de 5 peas sadas de determinada mquina, tendo-se obtido os seguintes resultados (em mm). 21 19 23 19 23

Estabelea um intervalo de confiana a 99% para o dimetro mdio das peas.

VII. Uma grande empresa tem cerca de 7 000 funcionrios. Extraindo-se uma amostra aleatria de 400 funcionrios, encontram-se 80 com um vencimento superior a 200 contos por ms. Estabelea um intervalo de confiana a 95% para o nmero de trabalhadores da empresa com um vencimento superior a 200 contos/ms.

VIII.Ensaiando-se 10 elementos, obteve-se, relativamente a determinada caracterstica, um desvio-padro amostral s = 0,576. Determine um intervalo de confiana a 95% para a varincia da populao.

IX. Sabe-se que a populao constituda pelos pesos de sacos de adubo provenientes de determinada linha de ensacamento normalmente distribuda. Extraindo-se, aleatoriamente, 16 sacos, obtiveram-se os seguintes pesos: 48,89 48,00 51,76 52,07 49,96 50,75 49,29 49,20 49,86 51,66 48,10 51,57 52,16 47,90 49,72 46,94

Estabelea intervalos de confiana a 95% para a mdia e varincia da populao em causa.

X.

Numa amostra constituda por 80 peas encontraram-se 15 defeituosas. Estabelea um intervalo de confiana a 95% para a proporo das peas defeituosas produzidas.

XI. De uma populao extraiu-se uma amostra de dimenso elevada (n 30). Na referida amostra, encontrou-se uma mdia de 160 e um desvio-padro de 10. Determine a dimenso da amostra extrada, sabendo que a amplitude do intervalo de confiana a 90% para a mdia menor ou igual a 5.
Ut.04 M.C.04

Componente Prtica Guia do Formando

Estatstica Aplicada

IV . 24

IEFP ISQ

Testes de Hipteses

M.C.04 Ut.01

Estatstica Aplicada Guia do Formando

IEFP ISQ

Testes de Hipteses

OBJECTIVOS

No final desta unidade temtica, o formando dever estar apto a:

Caracterizar o processo de formulao de hipteses estatsticas Identificar os erros tipo I e II Distinguir entre testes unilaterais e bilaterais Testar hipteses relativamente a mdias, varincias e propores Utilizar o teste qui-quadrado para ajustamento de distribuies

TEMAS


Ut.05

Erros tipo I e II Testes de hipteses para a mdia Testes de hipteses para propores Testes de hipteses para a varincia Teste qui-quadrado para ajustamento de distribuies Resumo Actividades / Avaliao

M.C.04

Estatstica Aplicada Guia do Formando

V . 1

IEFP ISQ

Testes de Hipteses

Pudemos observar, na unidade temtica anterior, vrias formas de, a partir de dados amostrais, se inferirem determinadas concluses relativamente populao de origem. Frequentemente, torna-se necessrio tomar decises relativamente a uma populao com base em resultados obtidos em amostras dela retiradas. O processo atravs do qual essas decises so tomadas consiste, habitualmente, na formulao de hipteses relativamente a caractersticas da populao que sero ou no rejeitadas pela evidncia amostral. A presente unidade temtica vai incidir precisamente sobre a metodologia dos ensaios de hipteses. Mais concretamente, a nossa ateno incidir sobre ensaios de hipteses dirigidos a parmetros da populao e, ainda, a ensaios que nos permitam estudar quo bem um determinado conjunto de dados experimentais se ajusta a uma distribuio terica. Como se compreende, a tomada de deciso com base em dados estatsticos envolve sempre alguma possibilidade de erro. Teremos, portanto, oportunidade de reflectir um pouco sobre os tipos de erro associados aos ensaios de hipteses.

ERROS TIPO I E II

Admitamos que se pretende estudar se a mdia de determinada populao permanece igual a um certo valor, a, ou se ter ocorrido alterao. Teremos, ento, de formular o que designamos por hiptese nula, H0, admitindo que no ocorreu alterao, e confront-la com uma hiptese alternativa, H1, que dela difira. A deciso de aceitar ou rejeitar a hiptese nula tomada com base em resultados obtidos a partir de amostras extradas da populao em causa. Torna-se evidente que existe, sempre, alguma possibilidade de erro na deciso. Designamos por erro tipo I o que corresponde rejeio de uma hiptese que deveria ter sido aceite e por erro tipo II o que corresponde aceitao de uma hiptese que deveria ser rejeitada. A probabilidade mxima de se cometer um erro tipo I , habitualmente, fixada antes do teste e designa-se por nvel de significncia (). Os valores mais frequentemente utilizados para o nvel de significncia so 1%, 5% e 10%. Significa isto que a probabilidade de se rejeitar erradamente a hiptese nula relativamente baixa. Ou, por outras palavras, quando rejeitamos a hiptese nula estamos quase certos de que ela , efectivamente, falsa. Ao invs, quando aceitamos H0, a concluso a retirar no deve ser a de que H0 verdadeira mas antes a de que nada nos indica que seja falsa. Por este motivo, frequente colocar-se em hiptese alternativa o que se pretende efectivamente provar.

Hiptese nula e alternativa

Erros tipo I e II

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 2

IEFP ISQ

Testes de Hipteses

Veremos, mais adiante, como calcular a probabilidade de se cometer um erro tipo II.

TESTES DE HIPTESES PARA A MDIA


Como vimos, a varivel

Z=

x n

(V.1)

segue uma normal-padro, ou dela se aproxima assimptoticamente (se necessrio, para n 30, usa-se s como estimativa de ). Admitamos que se pretendia, para a = 5%, decidir em relao s seguintes hipteses: H0:=b H1:b ou seja, pretendemos testar se existe evidncia para se rejeitar que a mdia da populao igual a um dado valor, b. Como vimos,

95%

-1,96

1,96

Figura V.1 - Valores de z entre os quais se encontra 95% da populao

A hiptese H0 no seria, ento, rejeitada se, para uma amostra aleatria de n elementos,
- 1,96 x-b s n 1,96

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 3

IEFP ISQ

Testes de Hipteses

Nesta situao, em que se testa a hiptese nula, de igualdade a um dado valor, contra uma hiptese alternativa, de diferena em relao a esse valor, estamos interessados em ambos os lados da distribuio. Ou seja, a validade da hiptese alternativa verifica-se quer para valores de m superiores a b, quer para valores de m inferiores a b. Dizemos, ento, que estamos perante um teste bilateral. Admitamos, por outro lado, que se pretendia estudar se a mdia teria um valor significativamente superior a b. Teramos ento H0:=b H1:>b

95%

1,645
Figura V.2 - Valor de z esquerda do qual se encontra 95% da populao

A hiptese nula seria rejeitada, concluindo-se pela validade da alternativa se


x -b s n

> 1,96

Neste teste, ao contrrio do anterior, a nossa ateno incidiu, apenas, sobre um dos lados da distribuio. Quando isto acontece dizemos que se trata de um teste unilateral. J referimos anteriormente dois tipos de erros que podem ser cometidos num ensaio de hipteses: o erro tipo I, que consiste em rejeitar a hiptese nula quando ela verdadeira, e o erro tipo II, que diz respeito aceitao da hiptese nula quando esta falsa. Como referimos, a probabilidade mxima de se cometer um erro tipo I dada pelo nvel de significncia, a. Vamos, atravs de um exemplo, analisar como pode ser calculada a probabilidade de se cometer um erro tipo II.
M.C.04 Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 4

IEFP ISQ

Testes de Hipteses

Caso de Estudo V.1

Pretende-se testar se a mdia de determinada populao normal significativamente superior a 1 250. O desvio-padro da populao conhecido e igual a 150. Para um nvel de significncia de 5% e extraindo-se uma amostra de 25 elementos, qual a probabilidade de se cometer um erro tipo II se a verdadeira mdia de populao for 1= 1 320? Haver ento que testar H 0 : = 1 250 H 1 : > 1 250 sendo a varivel a utilizar

Z=
Para = 5% teremos

x-m s n

1,645 Aceitar H0 Assim, aceitamos H0 se


x 1250 , 1645 150 25

Rejeitar H0

ou seja, H0 ser rejeitado se, na amostra de 25 elementos, se obtiver uma mdia

x > 1 299,3
Ut.05 M.C.04

Componente Prtica Guia do Formando

Estatstica Aplicada

V . 5

IEFP ISQ

Testes de Hipteses

Ocorrer um erro tipo II se, apesar da verdadeira mdia da populao ser 1 320, a amostra de 25 elementos apresentar uma mdia x 1 299 ,3 .

Queremos, ento, determinar a seguinte probabilidade condicional:

P ( x 1 299,3 / m = 1 320
A figura seguinte ilustra tudo o que foi dito.

P(erro tipo I) =

1250

1299

1299 P(erro tipo II) =

1320

Ento,

1299,3 1320 = P( x 1299,3 / = 1320) = P z 150 25 = ( 0,69) = 0,24

M.C.04

Ut.05

Componente Prtica Guia do Formando

Estatstica Aplicada

V . 6

IEFP ISQ

Testes de Hipteses

Como j referimos, frequente no ser conhecido o desvio-padro da populao. Vimos que, se assim for mas dispusermos de uma amostra com n > 30, permanece vlida toda a abordagem anterior, havendo, no entanto, que utilizar o desvio-padro amostral s em vez do desconhecido .

Varincia desconhecida

t=

x s n

(V.2)

Se, por outro lado, de uma populao normal com um desvio-padro desconhecido, dispusermos de uma amostra com n 30, o teste de hipteses dever fazer-se utilizando a varivel que j vimos ter uma distribuio t-Student com (n-1) graus de liberdade. Assim, se pretendermos estudar as hipteses H0:=a H1:a para um nvel de significncia de 10%, a partir de uma amostra de 10 elementos, teremos (a partir da tabela t-Student)

t 0 ,95 ; 9 = 1,833

t 0 ,05 ; 9 = 1,833

Ento, a hiptese nula no dever ser rejeitada se, calculando de 10 elementos, se obtiver

x e s na amostra

1,833

x a 1,833 s 10

Exemplo V.1

As consideraes que anteriormente fizemos relativamente realizao de uma teste unilateral ou bilateral tm aqui, naturalmente, idntica interpretao. O dimetro de determinada pea deve ser de 35 mm. Medindo-se 8 peas, obtiveram-se os seguintes resultados: 31 29 26 33 40 28 30 35

Para um nvel de significncia a 1%, ser de aceitar que a especificao est a ser cumprida? Como se compreende, ao falarmos do dimetro de determinada pea, estamos a referir-nos a uma caracterstica que deve ter um valor exacto, no ultrapassando
Ut.05 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 7

IEFP ISQ

Testes de Hipteses

nem ficando aqum do valor especificado. Devemos, portanto, utilizar um teste bilateral. Teremos, assim, H 0 : = 35 H 1 : 35 O clculo da mdia e do desvio-padro na amostra de 8 elementos conduz-nos aos resultados

x = 31,5
Obtm-se, ento,

s = 4,44

t=

x m s n

31,5 35 = 2,23 4,44 8

A consulta da tabela t-Student permite-nos retirar

t 0,995 ; 7 = 3,499
Ento, atendendo a que
2,23

t 0 ,005 ; 7 = 3,499

[3,499; 3,499 ]

podemos afirmar que no existe evidncia para ser rejeitada a hiptese nula.

TESTES DE HIPTESES PARA PROPORES

Dissemos anteriormente que, para valores suficientemente grandes de n (n 30), a distribuio de propores poderia ser aproximada por uma normal. Ou seja, que a varivel

Z=

Pp pq n
(V.3)

seguiria uma normal-padro. , ento, desta varivel que nos vamos servir para testar hipteses relativamente ao valor da proporo de um dado acontecimento na populao. Admitamos que se pretendiam estudar as hipteses H 0 : p = p0 H 1 : p p0 com um nvel de significncia de 95%.

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 8

IEFP ISQ

Testes de Hipteses

-1,96

1,96

Figura V.3 - Valores de z entre os quais se encontra 95% da populao

Concluiramos, ento, no haver evidncia para rejeitar a hiptese nula se


196 , P p0 n 196 ,

p 0 (1 p 0 )

sendo P, como vimos, a proporo em que o acontecimento ocorre numa amostra de n elementos (n 30) extrados da populao em estudo.

Exemplo V.2

convico dos responsveis de uma estao televisiva que igual a proporo de homens e mulheres que assistem a determinado programa. De 400 pessoas que assistem ao programa, constatou-se que 220 eram homens. Usando um nvel de significncia de 10%, podemos concluir que errada a convico dos responsveis? Haver, ento, que testar as hipteses H0 : p = 0,50 H1 : p 0,50 considerando o nvel de significncia de 10%.

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 9

IEFP ISQ

Testes de Hipteses

90%

-1,645 A proporo amostral


P= 220 = 0,55 400

1,645

Teremos, ento,

Z=

0,55 0,50 0,5 0,5 400

=2

Como 2 [ 1645 , ; 1645 , ], podemos concluir que existe evidncia para se rejeitar a hiptese nula, no sendo iguais as propores de homens e mulheres que assistem ao programa.

TESTES DE HIPTESES PARA A VARINCIA

Como j tivemos oportunidade de abordar, a varivel

( n 1) s 2
s2

(V.4)

segue uma distribuio qui-quadrado com (n-1) graus de liberdade. Ao pretendermos testar hipteses relativamente varincia de uma populao, vamos, ento, servir-nos da varivel anterior. Dispondo, por exemplo, das seguintes hipteses: H0 : 2 = a H1 : 2 a teremos, para um nvel de significncia de 5% e uma amostra de 10 elementos (no esquecer a assimetria da distribuio qui-quadrado),

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 10

IEFP ISQ

Testes de Hipteses

2 0,975;9 = 2,700

2 0,025;9 = 19,023

95%

2 0,975

2 0,025

Ento, calculando na amostra a varincia s2, diremos que a hiptese nula no deve ser rejeitada se 9 s2 2,700 19,023 a

Exemplo V.3

Um fabricante de baterias pensa que o desvio-padro de vida do seu produto um ano. Os dados relativos a 5 baterias indicam 1,9 2,4 3,0 3,5 4,2

Teste a validade da suposio do fabricante (a = 5%). Haver, ento, que estudar as hipteses H0 : 2 = 1 H1 : 2 1 O clculo da varincia amostral conduz-nos a

s 2 = 0,815
O nmero de graus de liberdade envolvidos n-1 = 4. Resultando

2 0,975;4 = 0,484
teremos, para a varivel calculada,
Ut.05

2 , 0,025;4 = 11143

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 11

IEFP ISQ

Testes de Hipteses

( n 1) s 2
s
2

4 x 0,815 = 3,26 1

Uma vez que 3,26 [0,484; 11,143 ] , devemos concluir que no existe evidncia de que a hiptese nula deve ser rejeitada.

TESTE QUI-QUADRADO PARA AJUSTAMENTO DE DISTRIBUIES

Como se compreende, somos muitas vezes colocados perante situaes em que, embora suspeitemos de que a populao em estudo tem uma determinada distribuio, no a conhecemos de facto. Existem formas de, partindo de valores amostrais, estudar quo bem a distribuio terica se ajusta a estes valores. Vamos, nesta seco, abordar uma forma de o fazermos, conhecida como teste do qui-quadrado. A ideia global consiste na comparao da frequncia absoluta, relativa aos dados amostrais, que se observa numa determinada classe, com a frequncia absoluta que ocorreria nessa classe, para o mesmo nmero de observaes, se a populao tivesse a distribuio terica que supomos. A varivel a utilizar ser
2 cc =

( Oi E i ) 2 Ei i =1
K

(V.5)

em que Oi - ocorrncia observada na classe i Ei - ocorrncia esperada na classe i k - nmero de classes A varivel anterior aproxima-se de uma distribuio qui-quadrado com um nmero de graus de liberdade graus de liberdade = k-1-r em que r o nmero de parmetros cuja estimao necessria. As ocorrncias esperadas so calculadas com base na distribuio em estudo como hiptese nula. Reparemos que, se houver uma total coincidncia entre os dados amostrais e as ocorrncias esperadas, o valor do somatrio ser igual a zero. Por outro lado, quanto mais os valores amostrais estiverem afastados dos valores esperados, maior ser o valor do somatrio. Daqui resulta que o teste qui-quadrado um teste unilateral direita. Ou seja, se o valor da varivel
Ut.05 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 12

IEFP ISQ

Testes de Hipteses

k ( Oi Ei ) 2 = Ei i=1
2 c

for to elevado que cai na zona de rejeio, seremos levados a concluir que, para o nvel de significncia em causa, a suposio expressa na hiptese nula no admissvel.

Para que o teste qui-quadrado seja vlido, no deveremos ter em nenhuma classe uma ocorrncia esperada inferior a 5. Por outro lado, no foroso que todas as classes utilizadas tenham a mesma amplitude. Assim, uma classe com ocorrncia esperada inferior a 5 pode ser associada com uma classe contgua, somando-se as ocorrncias esperadas com esperadas e observadas com observadas e obtendo-se uma nica classe de maior amplitude. Apresentados os conceitos gerais, abordaremos um conjunto de exemplos que tornam clara a utilizao do teste qui-quadrado.

Exemplo V.4

Admitamos que se pretendia estudar se haveria suficiente evidncia para se rejeitar que determinada moeda estava equilibrada. Lanando-se 100 vezes a moeda, obtiveram-se 41 caras e 59 coroas. Teramos H0 : P (cara) = P (coroa) = 0,5 H1 : P (cara) P (coroa) Sendo vlida a hiptese nula, teramos uma ocorrncia esperada, de caras e coroas, igual a 50. Ento,

Oi Cara Coroa 41 59

Ei 50 50

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 13

IEFP ISQ

Testes de Hipteses

2 cc =

( 41 50 ) 2 ( 59 50 ) 2 + = 3,24 50 50

O nmero de graus de liberdade envolvidos g.l.= k-1-r = 2-1-0 = 1 Para um nvel de significncia de 10%,
2 c0 ,10 ;1 = 2,706

Como 3,24 > 2,706, rejeitamos a hiptese de equilbrio da moeda. Note-se, no entanto, que, se o nvel de significncia baixasse para 5%, H0 j no seria rejeitada. Como vimos, o nvel de significncia representa a probabilidade mxima de se rejeitar a hiptese nula quando ela verdadeira. Logo, baixando o nvel de significncia, seremos mais permissivos na aceitao

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 14

IEFP ISQ

Testes de Hipteses

da hiptese nula. Caso de Estudo V.2

Registou-se o nmero de azulejos que apresentavam 0 defeitos, 1 defeito, etc. Veja-se o quadro seguinte:

Defeitos

n de azulejos

109

65

22

Verifique se o nmero de defeitos por azulejo pode ser aproximado por uma distribuio de Poisson. Teremos, ento, as hipteses

H0 : x segue distribuio de Poisson H1 : x no segue distribuio de Poisson Haver que estimar o parmetro , nmero mdio de defeitos por azulejo:
l= 0 x 109 + 1 65 + ... + 4 x 1 122 = = 0,61 ( 109 + 65 + ... + 1) 200

Recordando que, na distribuio de Poisson,

P (X = r) =

lr e l r!

poderamos facilmente calcular as ocorrncias esperadas. x=0 Ocorrncia esperada = 200 x x =1 Ocorrncia esperada = 200 x x=2 Ocorrncia esperada = 200 x x=3 Ocorrncia esperada = 200 x
Ut.05

0,610 e 0,61 = 108,7 0! 0,611 e 0,61 = 66,3 1! 0,612 e 0,61 = 20,2 ,2 2! 0,613 e 0,61 = 4,1 3!

M.C.04

Componente Prtica Guia do Formando

Estatstica Aplicada

V . 15

IEFP ISQ

Testes de Hipteses

x=4
4 0 ,61 Ocorrncia esperada = 200 x 0,61 e = 0,7 4!

Arredondando estes valores, teramos

Ocorrncia esperada Ocorrncia verificada X

109 109 0

66 65 1

20 22 2

4 3 3

1 1 4

Para assegurar a condio Ei 5, as duas ltimas classes teriam de ser agrupadas, resultando

Ei Oi

109 109

66 65

20 22

5 4

Ento,
2 cc =

(Oi E i ) 2 = 0,415 Ei i =1
k

O nmero de graus de liberdade ser g.l.= k-1-r = 4-1-1 = 2 (recorde que estimmos um parmetro)

Para um nvel de significncia de 5%,


2 c0 ,05; 2 = 5,991

No existe, portanto, qualquer evidncia para se rejeitar a hiptese nula. Pelo contrrio, os dados amostrais parecem ajustar-se muito bem a uma distribuio de Poisson com = 0,61.

M.C.04

Ut.05

Componente Prtica Guia do Formando

Estatstica Aplicada

V . 16

IEFP ISQ

Testes de Hipteses

RESUMO

Vimos, na presente unidade temtica, os processos atravs dos quais se formulam hipteses relativamente a caractersticas de uma dada populao e os processos de aceitao/rejeio das hipteses formuladas. Tendo conscincia de que a tomada de deciso com base em dados estatsticos envolve sempre alguma possibilidade de erro, designmos por erro tipo I o que corresponde rejeio de uma hiptese que deveria ter sido aceite e por erro tipo II o que corresponde aceitao de uma hiptese que deveria ser rejeitada. Foi feita a distino entre teste bilateral, no qual estamos interessados em ambos os lados de uma distribuio, e teste unilateral, quando a nossa ateno incide, apenas, num dos lados da distribuio. Abordmos testes dirigidos a parmetros da populao, mais concretamente mdia, varincia e proporo, e, ainda, o teste qui-quadrado para verificar o ajustamento de uma dada distribuio terica a um conjunto de dados amostrais.

M.C.04

Ut.05

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

V . 17

IEFP ISQ

Testes de Hipteses

ACTIVIDADES / AVALIAO

I. Um fabricante de lmpadas alega que o seu produto, aps um alterao no processo, tem agora uma durao mdia superior anterior, que era de 800 horas. Ensaiando-se 36 lmpadas obtiveram-se

x = 816

s = 70

Ser de aceitar a alegao do fabricante para um nvel de significncia de 5%?

II. Pretende-se estudar a resistncia de determinados componentes para automveis. Ensaiando-se uma amostra de 49 elementos, obteve-se uma resistncia mdia de 87,3 Kg com uma varincia s2 = 162. Para um nvel de significncia de 1%, teste a hiptese nula, a de que a mdia da populao de 95 Kg, contra a hiptese alternativa, a de que menor.

III. Pensa-se que a proporo de peas defeituosas provenientes de determinado processo de 10%. Numa amostra aleatria de 200 peas encontraram-se 15 defeituosas. Para um nvel de significncia de 1%, ser de aceitar que a proporo de peas defeituosas se encontra ao nvel referido?

IV. Numa grande priso, os responsveis acreditam que no mais do que 40% dos reclusos padecem de determinada doena. Uma amostra de 64 detidos revelou 40 como afectados. Estaro estes dados em contradio com a convico dos responsveis (nvel de significncia de 5%)?

V. Num determinado processo, a varincia mxima admissvel de 0,0150. Uma amostra de 25 elementos apresenta uma varincia de 0,0384. Haver suficiente evidncia, tendo em vista um nvel de significncia de 1%, para se concluir que a varincia mxima admissvel est a ser excedida?

VI. Uma empresa administrativa pretende estudar a perfeio do trabalho de 4 dactilgrafas. Entregando o mesmo documento a cada uma delas, obtiveram-se os seguintes resultados: Dactilgrafa Erros cometidos
Ut.05

1 10

2 25

3 0

4 5

M.C.04

Componente Prtica Guia do Formando

Estatstica Aplicada

V . 18

IEFP ISQ

Testes de Hipteses

Verifique se, para um nvel de significncia de 5%, haver razes para se concluir que as dactilgrafas no trabalham todas da mesma maneira.

VII. Num determinado troo de estrada, com velocidade controlada, pretende-se estudar a distribuio das velocidades dos automveis. O registo da passagem de 680 viaturas forneceu os seguintes resultados:

velocidade (km/h) n de carros

[63-65[ 15

[65-67[ 26

[67-69[ 151

[69-71[ 293

[71-73[ 167

[73-75[ 17

[75-77[ 11

Teste a hiptese de normalidade relativamente distribuio de velocidades, para um nvel de significncia de 5%.

M.C.04

Ut.05

Componente Prtica Guia do Formando

Estatstica Aplicada

V . 19

IEFP ISQ

Correlao e Regresso

M.C.04 Ut.01

Estatstica Aplicada Guia do Formando

IEFP ISQ

Cor r elao e R e g r esso Re

OBJECTIVOS

No final desta unidade temtica, o formando dever estar apto a:

Construir um diagrama de disperso fazendo a sua interpretao Calcular o coeficiente de correlao linear Determinar a equao de regresso Utilizar os princpios de regresso linear nas funes potncia e exponencial

TEMAS

Representao grfica de uma amostra. Anlise preliminar. Regresso linear simples

Coeficiente de correlao Clculo da recta de regresso

Resumo Actividades / Avaliao

M.C.04

Ut.06

Estatstica Aplicada Guia do Formando

VI . 1

IEFP ISQ

Cor r elao e R e g r esso Re

frequente, quando lidamos com variveis aleatrias, pretendermos estudar se existe alguma relao entre elas. Pensemos, por exemplo, nas relaes que existiro entre o comprimento de uma vareta metlica e a temperatura a que est submetida, entre alturas de pais e filhos, etc. Havendo relao entre variveis, ela poder ser mais ou menos intensa. Veremos, na presente unidade temtica, como poder ser medido este grau de relao. Vamos, tambm, estudar alguns casos em que se torna possvel, com alguma simplicidade, construir equaes que nos permitiro estimar uma das variveis em funo da outra.

REPRESENTAO GRFICA DE UMA AMOSTRA. ANLISE PRELIMINAR.

Pretendendo fazer um estudo de correlao, o nosso primeiro passo consistir na representao grfica dos dados disponveis. Vamos, utilizando um exemplo, analisar o procedimento a seguir. Admitamos que se recolheram dados relativos a 10 indivduos, com o objectivo de ser estudada a eventual relao entre o rendimento destes e o valor do carro que possuem. Vejamos a tabela seguinte: O primeiro passo consistir na representao, num sistema de eixos cartesianos, dos vrios pares ordenados: (x1, y1), (x2, y2), etc.
Indivduo Rendimento ( x) Valor do Automvel ( y)

$
1 2 3 4 5 6 7 8 9 10
Ut.06

10 15 12 70 80 100 20 30 10 60

6 9 7 22 22 32 10 10 5 17

M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 2

IEFP ISQ

Cor r elao e R e g r esso Re

Obteremos ento,
Y 25
20

15

10

0 0 10 20 30 40 50 60 70 80 90 100

X
Figura VI.1 - Diagrama de disperso

A um diagrama como este que acabmos de construir chamaremos diagrama de disperso. Atravs da anlise de um diagrama de disperso podem retirar-se informaes preciosas. Devemos, antes de mais, analisar se existem, ou no, indicaes de relao entre as variveis. Vejamos o diagrama de disperso seguidamente apresentado (Fig. VI.2). Diagrama de disperso

Y 10
9 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 40

Figura VI.2 - Diagrama de disperso

M.C.04

Ut.06

Um diagrama deste tipo, em que se obtm uma nuvem de pontos, leva-nos a concluir que o sentido de variao de cada uma das variveis nada a tem a ver com o da outra. Ou seja, permite-nos dizer que no existe, provavelmente, qualquer relao entre elas. Vejamos agora outras trs figuras representando hipotticos diagramas de disperso.

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 3

IEFP ISQ

Cor r elao e R e g r esso Re

(a) y y

(b) y

(c)

x
Figura VI.3 - Diagramas de disperso

Qualquer uma das figuras parece indicar a existncia de relao entre as variveis. Nos diagramas (a) e (c), vemos que x e y manifestam tendncia para variar no mesmo sentido, isto , o aumento na varivel x acompanhado de aumento na varivel y. No diagrama (b), por outro lado, aparente uma relao inversa, ou seja, o aumento da varivel x acompanhado de decrscimo na varivel y. Reparemos ainda que, nos primeiros dois diagramas, a relao, directa ou inversa, parece ser linear, isto , ser possvel utilizar a equao de uma linha recta para descrever a relao entre as variveis. Teremos, mais adiante, ocasio de abordar a forma atravs da qual se pode chegar equao desta recta. J no diagrama (c), estamos claramente perante uma relao no-linear. Torna-se, por vezes, possvel tratar os dados por forma a serem trabalhadas como lineares relaes que o no so. Abordaremos, mais tarde, alguns destes casos. Convm, no entanto, ficarmos desde j com a noo de que uma anlise cuidadosa do diagrama de disperso fornece indicaes preciosas no que diz respeito ao tipo de relao existente entre as variveis.

REGRESSO LINEAR SIMPLES


Perante um diagrama de disperso que sugira uma relao linear entre as variveis, haver que avaliar, em primeiro lugar, quo forte essa relao e, seguidamente, determinar a equao da curva que melhor se ajusta aos pontos representados. Estamos a dizer, por outras palavras, que se torna necessrio calcular o coeficiente de correlao e determinar a equao da recta de regresso.

Coeficiente de correlao
Voltemos aos dados apresentados no incio desta unidade temtica, relacionando o rendimento de indivduos com o valor do carro que possuem.

M.C.04

Ut.06

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 4

IEFP ISQ

Cor r elao e R e g r esso Re

In d iv d u o

Ren d im en t o ( x)

Valo r d o Au t o m v el ( y)

$
1 2 3 4 5 6 7 8 9 10 10 15 12 70 80 100 20 30 10 60 6 9 7 22 22 32 10 10 5 17

O coeficiente de correlao linear entre as variveis x e y pode ser calculado por

r xy =

( x) . ( y ) x y n ( x ) ( y ) x y n n
2 2 2

(VI.1)

Alternativamente, podemos tambm proceder ao clculo atravs de

r xy =

( x x ) ( y y ) ( x x ) ( y y )
2

(VI.2)

Os resultados obtidos so, naturalmente, idnticos, independentemente da frmula utilizada. Calculemos, ento, o coeficiente de correlao dos dados apresentados.

M.C.04

Ut.06

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 5

IEFP ISQ

Cor r elao e R e g r esso Re

Rendimento ( x)

Valor do Automvel ( y)

x2

y2

xy

$
10 15 12 70 80 100 20 30 10 60

6 9 7 22 22 32 10 10 5 17 TOTAIS

100 225 144 4 900 6 400 10 000 400 900 100 3 600

36 81 49 484 484 1 024 100 100 25 289

60 135 84 1 540 1 760 3 200 200 300 50 1 020

407

140

26 769

2 672

8 349

Resultando
8 349 407 x 140 10

r xy =

2 2 26 769 407 2 672 140 10 10

2 651 10 204,1 x 712

= 0,9835

O coeficiente de correlao varia entre -1 e 1, ou seja,

1 r xy 1
Valores do coeficiente de correlao prximos de -1 ou 1 significam a existncia de uma forte relao linear entre as variveis em causa. O primeiro caso revela uma forte relao inversa enquanto que o segundo revela que a relao directa. No limite, se r = -1 ou r = 1, a relao linear perfeita e os pontos no diagrama de disperso correspondente estaro dispostos sobre uma linha recta. Vejamos:

M.C.04

Ut.06

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 6

IEFP ISQ

Cor r elao e R e g r esso Re

Figura VI.4 - Diagramas de disperso para r = 1 e r = -1

Por outro lado, o coeficiente de correlao prximo de 0 revelador da inexistncia de uma relao linear entre as variveis em causa. Deve referir-se que, ao contrrio do que por vezes se pensa, a obteno de um coeficiente de correlao linear prximo de 0 no significa, necessariamente, que no exista relao entre as variveis mas, to s, que, a existir relao, ela no de natureza linear.

Clculo da recta de regresso


Admitamos que o coeficiente de correlao e o diagrama de disperso de um conjunto de valores de 2 variveis sugerem a existncia de uma relao linear entre elas. Um dos nossos objectivos ser, naturalmente, o de podermos estimar uma das variveis em funo da outra. A varivel que pretendemos estimar chamada varivel dependente, sendo a outra, como se deduz, conhecida como varivel independente. Pensemos, por exemplo, na variao do comprimento de uma vareta metlica com a temperatura a que est submetida: teramos, como bvio, o comprimento como varivel dependente (y), sendo a temperatura a varivel independente (x). Se pretendermos estimar y em funo de x por meio de uma equao 1 , diremos que esta a equao de regresso de y sobre x. Tratando-se de uma relao linear, diremos que a recta correspondente equao anteriormente definida a recta de regresso de y sobre x. Consideremos o diagrama de disperso seguidamente apresentado. Equao de regresso

1 A determinao desta equao conhecida como ajustamento.


Ut.06 M.C.04

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 7

IEFP ISQ

Cor r elao e R e g r esso Re

x
Figura VI.5 - Diagrama de disperso

O diagrama sugere, claramente, a existncia de uma relao linear entre x e y. Coloca-se, agora, a questo de escolher, entre as vrias rectas que se podem ajustar aos dados, aquela que representa, de facto, o melhor ajustamento. Para qualquer recta que seja traada haver um conjunto de pontos que dela esto afastados. Consideremos a soma dos quadrados das distncias, em relao recta, de todos estes pontos. A recta que melhor se ajusta a um determinado conjunto de pontos aquela para a qual mnima a soma dos quadrados das distncias dos pontos a ela prpria. por este motivo que tal recta se designa, frequentemente, como recta de mnimos quadrados. Veremos, em seguida, como podemos determinar a equao desta recta. Se entre y (varivel dependente) e x (varivel independente) existir uma relao linear, haver, ento, que determinar a equao que define esta relao. Recordando a equao de uma recta, y = a + bx vemos que a questo que se coloca a da determinao de:

a - ordenada na origem (ponto onde a recta corta o eixo y) b - declive da recta.


A forma mais prtica de determinar os valores de a e b da recta de mnimos quadrados a seguinte:

xy n b= ( x) x
x.
2 2

y
(VI.3)

Em relao a a, sabe-se que

y = a + bx
tornando-se fcil a sua determinao aps a de b. Teremos, simplesmente,

a = y bx
Ut.06 M.C.04

Note-se que a recta de mnimos quadrados passa sempre pelo ponto ( x , y ) .

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 8

IEFP ISQ

Cor r elao e R e g r esso Re

Caso de Estudo VI.1

Num determinado plano diettico, pretende-se estudar a relao entre o peso perdido desde o incio do tratamento e o nmero de semanas decorridas desde o referido incio. Em relao a cinco indivduos, obtiveram-se os seguintes resultados:
Sem an as d e d iet a (x ) 3 2 1 4 5 Qu ilo s p er d id o s (y ) 6 5 4 9 11

Determine o coeficiente de correlao e a recta de mnimos quadrados que relaciona estas variveis.

x
3 2 1 4 5

y 6 5 4 9 11

x2 9 4 1 16 25 TOTAIS

y2 36 25 16 81 121

xy xy 18 10 4 36 55

15
Resultando

35

55

279

123

r xy =

123

15 x 35 5

2 2 55 15 279 35 5 5

= 0,976

o que indica forte relao linear entre as variveis. Relativamente ao declive da recta de regresso, teremos
123 15 x 35 5 = 1,8 15 2 55 5

b=
Ut.06 M.C.04

Componente Prtica Guia do Formando

Estatstica Aplicada

VI . 9

IEFP ISQ

Cor r elao e R e g r esso Re

Atendendo a que x =

x = 15 = 3
n
5

y =

y = 35 = 7 , resultar
n
5

a = y bx = 7 1,8 x 3 = 1,6
Podemos ver, na figura seguinte, o diagrama de disperso e a recta de regresso determinados.

M.C.04

Ut.06

Componente Prtica Guia do Formando

Estatstica Aplicada

VI . 10

IEFP ISQ

Cor r elao e R e g r esso Re

Ao quadrado do coeficiente de correlao, r 2, chama-se, habitualmente coeficiente de determinao. O coeficiente de determinao uma medida da qualidade do ajustamento da recta de regresso. Na realidade, r 2 d-nos a percentagem da variao total que explicada pela recta de regresso. Assim, se pensarmos no ltimo exemplo apresentado, em que r = 0,976, isto significa que 95,2% (r 2 = 0,952) da variao na perda de peso explicada pelo nmero de semanas de dieta.

M.C.04

Ut.06

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 11

IEFP ISQ

Cor r elao e R e g r esso Re

RESUMO

A presente unidade temtica foi dedicada ao estudo das relaes entre variveis aleatrias, tendo sido nosso objectivo encontrar formas de quantificar as eventuais relaes existentes. Vimos que a representao dos vrios pares ordenados (x,y) num referencial cartesiano dava origem ao que chammos diagrama de disperso, de cuja anlise se podem retirar importantes informaes relativas existncia e tipo de relao entre as variveis envolvidas. Foi referido que, perante um diagrama de disperso que sugira uma relao linear entre as variveis, haver que avaliar, em primeiro lugar, quo forte essa relao e, seguidamente, determinar a equao da curva que melhor se ajusta aos pontos representados. No sentido de se responder primeira parte desta questo, apresentou-se o conceito de coeficiente de correlao linear. Concluindo-se pela existncia de uma relao linear, vimos de que forma podem ser estimados os parmetros (ordenada na origem e declive) da recta que a descreve.

M.C.04

Ut.06

Componente Cientfico-Tecnolgica Guia do Formando

Estatstica Aplicada

VI . 12

IEFP ISQ

Cor r elao e R e g r esso Re

ACTIVIDADES / AVALIAO

I. Em relao a um determinado medicamento, pretende-se estudar a relao entre a quantidade ingerida e o nmero de horas que o medicamento leva a ser eliminado do organismo. Obtiveram-se os seguintes resultados:

Qu an t id ad e in g er id a (x ) 30 20 10 30 30

N m er o d e h o r as (y ) 0,9 0,8 0,5 1,0 0,8

Determine o coeficiente de correlao entre as duas variveis. II. Pretende-se estudar a relao entre o tempo de permanncia num supermercado e o gasto efectuado. A partir das seguintes observaes, determine:

x y

Tempo Gasto

0,3 10

0,6 15

0,9 30

1,2 35

1,5 25

1,8 30

2,1 50

2,4 45

a) o coeficiente de correlao b) a recta de regresso de y sobre x

M.C.04

Ut.06

Componente Prtica Guia do Formando

Estatstica Aplicada

VI . 13

IEFP ISQ

Anexo I

M.C.04 An.01

Estatstica Aplicada Guia do Formando

IEFP ISQ

Anexo I

TABELA DE DISTRIBUIO NORMAL PADRONIZADA


Os valores na tabela representam a proporo da rea sob a curva normal at um valor positivo Z

PROBABILIDADE DE UM VALOR INFERIOR A Z


Z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
An.01

0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981

0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982

0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982

0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983

0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984

0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984

0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985

0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985

0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986

0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986

M.C.04

Esta tstica Aplicada Estatstica Guia do Formando

A . 1

IEFP ISQ

Bibliografia

BIBLIOGRAFIA
LIPSCHUTZ, Seymour, Probabilidade Resumo da Teoria e Exerccios Resolvidos, Coleco Schaum, McGraw-Hill do Brasil, 1972 MEYER, Paul L., Probabilidade Aplicaes Estatstica, Livros Tcnicos e Cientficos Editora SA, 1980 MONTGOMERY, Douglas C., Introduction to Statistical Quality Control, John Wiley & Sons, 1991 NEVES, Maria Augusta, Maria Teresa Vieira, Alfredo Alves, 11. Ano Matemtica, Porto Editora, 1993 PEREIRA, Zulema L., Texto de Apoio Disciplina de Planeamento e Controlo da Qualidade, FCT/UNL, 1993 RAMALHETE, Paulo e Santos, Carlos G., Estatstica Aplicada, Associao Portuguesa de Bancos-ISGB, 1991

Research and Education Association: The Statistics Problem Solver, Research and Education Association, 1978
ROBALO, Antnio, Estatstica 2. Volume de Exerccios, Edies Slabo, 1987 SANTOS, Fernando Borja, Clculo das Probabilidades, Pltano Editora, 1981 SPIEGEL, Murray, Probabilidade e Estatstica, Coleco Schaum, Mc Graw-Hill do Brasil, 1978

M.C.04

An.02

Estatstica Aplicada Guia do Formando

B . 1

Potrebbero piacerti anche