Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Agosto/2011
n 27
Responsveis
Jadson Luan dos S. Marcelino
Prof Dr Vera Lucia D. Tomazella
So Carlos 2011
Apresentao
A proposta deste texto apresentar um software estatstico de fcil manuseio e de grande
funcionalidade. Com ele o aluno de incio de curso poder facilmente fazer suas atividades acadmicas
e, tambm, profissionais. Poder ainda ser de uso de qualquer um dos professores de disciplinas que
envolvam os contedos abordados nele. Sendo que os assuntos, tratados neste texto so, principalmente
de disciplinas iniciais do curso de bacharelado em estatstica.
O texto mantido sucinto para que o tempo utilizado neste contato inicial seja o menor possvel.
Como decorrncia, a informao passada somente o essencial para que o leitor tenha uma introduo
ao Sisvar. Nenhum dos tpicos abordado com profundidade ou de forma completa. O aprofundamento
de um tema ser decorrncia de uma necessidade especfica de cada leitor e dever ser feita atravs do
Manual do Software. O manual do Sisvar apresenta um programa, que foi desenvolvido principalmente
para delineamento de experimentos, mas tambm apresenta uma grande ferramenta para outras reas da
estatstica.
O objetivo principal deste texto ter em mos um material que pode servir de apoio a todos
alunos e professores que precisam utilizar anlise descritiva de dados, bem como calculo simples de
probabilidades e tcnicas de Anlise de Regresso e Anlise de Varincia.
Recomendamos que a leitura seja linear, sem saltar tpicos, especialmente para os iniciantes.
Desta forma buscamos estabelecer um vocabulrio inicial que possibilitar, ao final da leitura, o
entendimento da utilizao do Software. A leitura deve ser feita em frente do computador. Os comando
devem ser executados e os resultados obtidos interpretados.
Um incentivo ao uso do programa que o mesmo gratuito, de fcil acesso e possui uma
linguagem simples.
Sumrio
1.
2.
3.
4.
Introduo ............................................................................................................................................ 4
Ambiente SISVAR .............................................................................................................................. 5
Entrando com os Dados ....................................................................................................................... 6
Estatsticas Descritivas ........................................................................................................................ 9
4.1 Tabelas de distribuies de freqncias .......................................................................................... 10
4.2 Medidas de Posies ....................................................................................................................... 10
4.2.1 Mdia .................................................................................................................................................... 10
4.2.2 Mediana ................................................................................................................................................ 10
4.2.3 Moda ..................................................................................................................................................... 11
4.2.4 Separatrizes ......................................................................................................................................... 12
5.
1. Introduo
Nas ltimas dcadas, os clculos estatsticos foram muito facilitados pelo uso de aplicativos
computacionais. Isso permitiu que mtodos complexos e demorados fossem rotineiramente aplicados.
Diversos pacotes estatsticos para anlise de experimentos esto disponveis, podendo-se citar programas
como o SAS-Statistical Analysis System (Sas Institute Inc., 2000), que , em geral, um dos programas
mais utilizados em todo o mundo para anlise de dados da rea agronmica, biolgica e social, o
STATGRAPHICS-Statistical Graphics System (Statgraphics, 1999), o STATISTICA for Windows
(Statistica, 2002), dentre outros. Este texto tem por objetivo apresentar o sistema computacional
SISVAR com aplicaes diversas na anlise estatstica de experimentos.
Este trabalho tem por objetivo apresentar o programa SISVAR, que um sistema para anlises
estatsticas, podendo tambm ser utilizado no ensino. O SISVAR um dos programas brasileiros de
anlise estatstica mais utilizados no pas, seja diretamente nas anlises estatsticas de trabalhos
cientficos das mais diferentes reas do conhecimento cientfico ou seja no ensino de estatstica bsica e
experimental. Nesse contexto, as principais rotinas de anlises estatsticas bsicas direcionadas a alunos
das disciplinas bsicas do bacharelado em estatstica (Estatstica 1 e Estatstica 2) existentes no
programa so apresentados.
O SISVAR uma poderosa ferramente da informtica que permite realizar clculos estatsticos
complexos, focados em palnejamento de experimentos, e visualizar os seus resultados, em poucos
segundos. Um aspecto desafiador do uso do SISVAR se refere a saber que teste estatstico usar para
responder s suas questes de delineamnetos de experimentos e interpretar corretamente os resultados
do clculo estatstico efetuado.
O texto dividido em trs partes. A primeira parte, Estatstica Descritiva e Clculos de
Probabilidades, apresenta e define as principais tcnicas exploratrias de dados e clculo de
probabilidades no SISVAR, orienta quanto a definio de variveis, o que fazer depois da definio das
variveis da base de dados, isto , como realizar a insero de dados. A segunda parte, Inferncia
Estatstica no SISVAR, define as principais seqncias para a construo de intervalos de confiana e
realizao de testes de hipteses paramtricos no SISVAR e expoe as seqncias de passos para realizlos numa base de dados criada. A terceira e ltima parte, Anlise de Variancia e Regresso no
SISVAR, o sistema de Anlise da Varincia uma aplicao que proporciona um moderno e eficiente
tratamento estatstico de dados, combinando potencialidades grficas com uma gesto de informaes.
2. Ambiente SISVAR
Construdo em linguagem pascal o Sisvar um software Estatstico com grande funcionalidade.
Sendo um programa de Livre acesso e Criado pelo Prof Dr. Daniel Furtado Ferreira do Departamento
de Cincias Exatas da Universidade Federal de Lavras UFLA. O Criador do Sisvar est inteiramente
aberto para crticas ou sugestes de melhoria do Software, e qualquer pessoa pode contat-lo via e-mail:
danielff@ufla.br.
Com o site abaixo voc pode baixar os seguintes produtos:
O software SISVAR;
O manual do SISVAR;
Seqncia de como gerar dbse no Excel
WWW.DEX.UFLA.BR/~DANIELFF/SOFTWARES.H:
Seqncia:
1.
2.
3.
4.
5.
6.
7.
Arquivo
Manipular
Arquivo
Criar
Salvar como: escolha um nome para o arquivo de dados e aonde ser salvo
Nmero de campos: indique o nmero de variveis da base de dados ou arquivo
Campo1: escolha um nome para a primeira varivel da base ou primeiro campo do arquivo de
dados
8. Confirmar o tipo de campo 1: clique em (Yes) se o campo for numrico e clique em (No) se o
campo for alfanumrico
9. Repita os passos 6 e 7 at que o nmero de campos do arquivo termine
10. Entre com os dados do arquivo, manipulando-o com setas para cima () e para baixo ().
11. Sair
Arquivo
Manipular
Arquivo
Criar
Neste momento ser aberta uma janela para escolher onde sero salvas as anlises dos dados.
Nome do Arquivo
Tipo da varivel
Salvar
Nome da 1a Varivel
Nmero colunas
OK
Se for colocado que tem mais de uma coluna para disponibilizar os dados, estes passos devero
ser seguidos at responder a todas as colunas.
Colocar os dados na
tabela
Sair
Exemplo 1: quatro grupos, I II III IV, foram submetidos a um exerccio (ex1), e pretende-se
montar uma base de dados com os grupos e seus respectivos valores. A seguir esto apresentados os
dados no SISVAR. Aps serem seguidos os passos acima, uma tabela, ser construda.
Tendo conseguido fazer a tabela acima, basta dar continuidade nos passos que foram
anteriormente mostrados para poder, com essa tabela, trabalhar.
Nas sees seguintes descreveremos de forma simplificada algumas metodologia estatstica
trazida no relatrio do SISVAR para anlise dos dados.
4. Estatsticas Descritivas
A estatstica descritiva utilizada na etapa inicial da anlise, quando tomamos contato com os
dados pela primeira vez. um conjunto de tcnicas destinadas a descrever e resumir os dados de forma
a tornar as informaes mais facilmente inteligveis.
Elementos bsicos:
Tabelas
Medidas de sntese
Grficos
No SIVAR, depois de entrarmos com os dados, uma de suas simples tarefas analisar
estatisticamente os dados. Com apenas uma seqncia de passos que ser mostrada a seguir.
Seqncia de passos para Anlises Estatsticas Descritivas
1.
2.
3.
4.
5.
6.
7.
8.
Anlise
Estatstica Descritiva
Opo: Arquivo pronto
Ok
Nvel de significncia (Alpha):
Abrir arquivo: selecionar o arquivo de anlise
Clicar na varivel de anlise
Clicar em Anlise
Anlise
Estatstica descritiva
Nvel de significncia
OK
Clicar em Anlise
max
V
k
, onde
min
V
V
max
min
4.2.1. Mdia
A mdia uma medida de posio no to representativa da amostra, ou populao. Isso
porque esta mesma medida influenciada pelos valores extremos.
Sejam (X 1 , X 2 , L , X n ) uma amostra de tamanho n para calcular a mdia aritmtica simples
basta fazer o somatrio dos elementos da amostra e dividir pelo tamanho da mesma, isto ,
n
x
X
i=1
4.2.2 Mediana.
Mediana de uma amostra a medida que divide ao meio o nmero de observaes, ou seja,
50% das observaes ficam abaixo da mediana e os outros 50% acima. Esta medida calculada da
seguinte forma:
10
Se n par a mediana (Md) a mdia aritmtica dos dois valores centrais do conjunto de dados
e se n impar o valor da posio da mediana.
Para os dados distribudos em tabela de freqncia a mediana deve ser calculada da seguinte
forma:
Md = li +
h( PM d Fai 1 )
fi
onde
li = limite inferior da classe da mediana
Fai1 = Freqncia acumulada da classe anterior classe da mediana
PM d =indica a posio da mediana
f i = freqncia absoluta da classe mediana
h ( f i f i 1 )
( f i f i 1 ) + f i f i + 1 )
onde ,
= Indica a posio da classe modal
li = Limite inferior da classe modal
h = Amplitude da classe modal
f i = Freqncia Absoluta da classe modal
f i 1 =Freqncia absoluta da classe anterior a modal
f i +1 = Freqncia absoluta da classe posterior a modal
i
11
4.2.4. Separatrizes
So medidas que divide o conjunto de dados em partes iguais.
So Separatrizes: Quartis, Decis e Percentis
Quartis: Os quartis dividem um conjunto de dados em quatro partes iguais
Formula Geral
Si = li +
h( PS i Fai 1 )
fi
, onde
12
onde,
Vmax =
4.3.2 Varincia
Medida de variabilidade dos dados em torno da mdia
Sejam (X 1 , X 2 , L , X n ) uma amostra de tamanho n para calcular a mdia aritmtica simples
basta fazer o somatrio dos elementos da amostra e dividir pelo tamanho da mesma, isto ,
Calcula a Diferena (desvio) de cada observao em relao mdia ( X )
Observao:
(x
Deve-se elevar os desvios ao quadrado, para que se somem apenas valores positivos. Assim
temos que a varincia da amostra dada por:
n
s2 =
( xi x ) 2
i =1
n 1
( xi x ) 2
i =1
n 1
4.4 Grficos
So formas de representao de dados que nos permite visualizar facilmente a natureza da
distribuio
Tipo de grficos mais usados:
13
- Grfico de barras
- Histograma
- Grfico de setores
- Grfico de linhas
4.4.2 Histograma
Representao grfica para variveis quantitativas contnuas
um grfico de barras justapostas em que no eixo horizontal est a varivel de interesse,
dividida em classes
No eixo vertical constri-se uma barra para cada classe com altura igual freqncia
correspondente
14
15
Exemplo: A tabela abaixo disponibiliza as idades dos alunos de acordo com os mesmo. E a seguir as
anlises Estatsticas Descritivas deste conjunto de dados.
Aluno: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Idade : 18 19 22 18 17 18 17 21 23 20 18 18 18 17 19 18 21 20 22 15 18 18 17 17 91 21 17 24 23 18 19
Aluno: 32 33 34 35 36 37 38 39 40 41 42 43 44
Idade : 18 17 18 21 20 23 22 20 20 21 18 18 20
Acima est apresentado o Histograma das idades dos alunos. Neste grfico fica clara a presena
da Curva de normalidade, o Polgono de freqncia e a freqncia relativa. Porm uma anlise mais
detalhada dos dados obtida atravs do Sisvar quando imprimimos o Relatrio que est apresentado a
seguir.
50.0000
19.000000000000
55.0000
20.000000000000
60.0000
20.000000000000
65.0000
20.000000000000
70.0000
21.000000000000
75.0000
21.000000000000
80.0000
21.000000000000
85.0000
22.000000000000
90.0000
23.000000000000
95.0000
23.000000000000
100.0000
25.000000000000
-------------------------------------------------------------------------------Distribuio de freqncias
Nmero de classes:
7
Mtodo emprico
Moda =
18.301587301587
Obs. Em distribuies multimodais apenas uma moda calculada!
amplitude de classe (c) =
1.333333333333
---------------------------------------------------------------------------------------Classes (i)
Ponto mdio X(i)
FO(i)
Fr(i)
[ 16.333333333333; 17.666666666667) 17.000000000000
7 0.159090909091
[ 17.666666666667; 19.000000000000) 18.333333333333
17 0.386363636364
[ 19.000000000000; 20.333333333333) 19.666666666667
6 0.136363636364
[ 20.333333333333; 21.666666666667) 21.000000000000
6 0.136363636364
[ 21.666666666667; 23.000000000000) 22.333333333333
6 0.136363636364
[ 23.000000000000; 24.333333333333) 23.666666666667
1 0.022727272727
[ 24.333333333333; 25.666666666667) 25.000000000000
1 0.022727272727
5.1
Distribuio Binomial
Uma Varivel Aleatria possui distribuio binomial quando se pode obter no evento Sucesso
ou fracasso. Para ser mais especifico, este Varivel uma soma de Bernoulli, onde se obtm apenas um
nico sucesso e/ou fracasso. Adotando como p a probabilidade de sucesso e q como a probabilidade
de fracasso, sendo q igual a 1-p.
Se fosse ser calculado mo, dever-se-ia saber fazer o seguinte calculo:
n
P[ X = x] = p x (1 p)n x
x
Onde,
18
n o tamanho da Amostra
p a Probabilidade de Sucesso
x o evento de interesse
1.
2.
3.
4.
5.
6.
7.
8.
Anlise
Clculo das Probabilidades
Escolha o modelo de Probabilidade binomial
Preencher o formulrio abaixo:
Selecione o evento: ( )P(Y=y); ( )P(Y>y); ( )P(Yy).
Probabilidade de sucesso(P):
Tamanho da amostra(n):
Nmero de sucessos(Y):
Clculo de
Probabilidade
Anlise
Lado Esquerdo
Superior
Escolher
o Evento
Lado Esquerdo
Inferior
Distribuio
de
Probabilidade
Calcular
Distribuio
de interesse
Distribuio
Binomial
OK
Probabilidades Pontuais
Relatrio
Probabilidade
Probabilidades
Pontuais
Exemplo: No Programa Universidade Aberta, a Federal de So Carlos abre as portas para o pblico em
geral, porm seus alvos so os alunos de cursinho e de ensino mdio com nfase para aqueles que esto
no terceiro colegial. Dizemos que X a quantidade de pessoas abordadas. Supe-se ser fracasso a
probabilidade de que uma pessoa seja abordada e no faa parte de nenhuma das categorias acima e sua
probabilidade de 20%. Numa amostra de 25, qual a probabilidade de que menos que 5 das pessoas
faam parte do publico alvo?
R: n = 25
p = 0.8
(1-p)=q=0.2
x<= 5
O relatrio que o Sisvar nos fornece est a mostra abaixo.
19
P(Y = y)
P(Y <= y)
0 0,000000000000000003
0,000000000000000003
1 0,000000000000000335
0,000000000000000338
2 0,000000000000016106
0,000000000000016445
3 0,000000000000493921
0,000000000000510366
4 0,000000000010866267
0,000000000011376633
5 0,000000000182553290
0,000000000193929923
6 0,000000002434043866
0,000000002627973789
7 0,000000026426761973
0,000000029054735763
8 0,000000237840857762
0,000000266895593525
9 0,000001797019814204
0,000002063915407729
10 0,000011500926810909 0,000013564842218638
11 0,000062732328059503 0,000076297170278142
12 0,000292750864277682 0,000369048034555824
13 0,001171003457110730 0,001540051491666555
14 0,004014868995808218 0,005554920487474773
15 0,011776949054370777 0,017331869541845551
16 0,029442372635926956 0,046774242177772508
17 0,062348553817257118 0,109122795995029627
18 0,110841873452901619 0,219964669447931246
19 0,163345918772697270 0,383310588220628516
20 0,196015102527236968 0,579325690747865484
21 0,186681050025944594 0,766006740773810078
22 0,135768036382501632 0,901774777156311710
23 0,070835497243044412 0,972610274399356122
24 0,023611832414348166 0,996222106813704288
25 0,003777893186295711 1,000000000000000000
Obs Se alguns valores de Y forem omitidos porque P(Y=y)<=1e-19 ou P(Y<=y)>=1-1e-19
20
Anlise
P(X=x) ou
P(X>x) ou
P(X<=x)
Colo
Colocar a taxa
de ocorrncia
Distribuio
de Interesse
Distribuio
de
Probabilidade
Distribuio
de Poisson
OK
Probabilidades
Pontuais
Probabilidade
ser calculada
Calcular
Relatrio
O relatrio mostra todas as probabilidades de ocorrncia do evento pontuais. E como bom estatstico, os
nmeros mostrados nos relatrios devero ser analisados e a partir da anlise montar a concluso que se
tem deste evento.
Para calcular probabilidade de V.A. com esta distribuio usada a seguinte frmula:
x
P (X=x) = e
x!
Resolvendo esta equao acima obtemos o resultado calculado pelo Sisvar.
21
Exemplo: Observando ainda a Universidade aberta, foi notado que 15 pessoas a cada 30 minutos
visitam o stand da Estatstica. Sendo assim, qual a probabilidade de nos prximos 30 minutos no
mximo 10 pessoas visitarem este stand?
Clculo de probabilidade para a Poisson
-------------------------------------------------------------------------------Nmero de sucessos:
10
Parmetro da Poisson (K):
15.00000000
P ( Y <= 10) =
1.18464411529015340E-0001
--------------------------------------------------------------------------------------------------------------------------------------------------------------Mdia (k) da Poisson:
15.000000000000000000
--------------------------------------------------------------------------------------------------------------------------------------------------------------y
P(Y = y)
P(Y <= y)
-------------------------------------------------------------------------------------------------------
0 0.000000305902320500
1 0.000004588534807530
2 0.000034414011056460
3 0.000172070055282280
4 0.000645262707308540
5 0.001935788121925620
6 0.004839470304814050
7 0.010370293510315820
8 0.019444300331842170
9 0.032407167219736950
10 0.048610750829605420
11 0.066287387494916490
12 0.082859234368645620
13 0.095606808886898810
14 0.102435866664534490
15 0.102435866664531870
16 0.096033624998000930
17 0.084735551468824380
18 0.070612959557353680
19 0.055747073334752950
20 0.041810305001064660
21 0.029864503572189140
22 0.020362161526492620
23 0.013279670560756070
24 0.008299794100472540
49
50
51
52
53
54
55
56
57
58
59
60
0.000000000002137710
0.000000000000641310
0.000000000000188620
0.000000000000054410
0.000000000000015400
0.000000000000004280
0.000000000000001170
0.000000000000000310
0.000000000000000080
0.000000000000000020
0.000000000000000010
0.000000000000000000
0.0000003059023205000
0.0000048944371280300
0.0000393084481844800
0.0002113785034667600
0.0008566412107753000
0.0027924293327009200
0.0076318996375149700
0.0180021931478308000
0.0374464934796729700
0.0698536606994099200
0.1184644115290153400
0.1847517990239318300
0.2676110333925774500
0.3632178422794762600
0.4656537089440107500
0.5680895756085426200
0.6641232006065435500
0.7488587520753679300
0.8194717116327216100
0.8752187849674745600
0.9170290899685392300
0.9468935935407283600
0.9672557550672209800
0.9805354256279770500
0.9888352197284495900
.
0.9999999999990943900
0.9999999999997357000
0.9999999999999243200
0.9999999999999787300
0.9999999999999941300
0.9999999999999984100
0.9999999999999995800
0.9999999999999998900
0.9999999999999999700
0.9999999999999999900
1.0000000000000000000
1.0000000000000000000
Mdia:
Varincia:
Valor de p tal que P(X>Xc)=p:
Anlise
Selecione:
Clculo de
Probabilidade
Clculo de
Probabilidade
Colocar a
Mdia
Distribuio
de Interesse
Colocar a
Varincia
Distribuio
Normal
Calcular
OK
Sair
relatrio
Agora se precisa calcular a probabilidade deste mesmo aluno ter terminado a prova em no
mnimo 90 min?
90 115
Para tanto faremos a mudana de varivel Z =
= -1.66, fazemos esta mudana de
15
varivel para no precisar mudar os parmetros de entrada do sisvar, que so da normal padro. Porem
poderamos simplesmente colocar estes parmetros da maneira que esto.
Aqui precisa agora colocar em pratica a seqncia de passos ensinada anteriormente e calcular
esta probabilidade, sendo x o tempo demandado para realizao da prova.
6. Intervalo de confiana
Nesta seo temos por objetivo inserir o interessado na teoria de Intervalos de confiana. Sabe-se
que pode ser calculado este I.C. (intervalo de confiana) para diferentes parmetros, como a media,
proporo e varincia. Aqui ser mostrado o procedimento para o clculo do intervalo de confiana para
um destes parmetros: A mdia. Para os demais a seqncia de passos semelhante, bastando apenas
modificar o parmetro de interesse.
O Intervalo de Confiana consiste em estimar um Intervalo onde o Verdadeiro parmetro
populacional esteja inserido com determinada confiana. Com isso, baseado numa amostra podemos
obter uma estimativa do parmetro populacional sem precisar analisar toda a populao. Eis a uma das
vantagens do I.C. e uma de suas utilidades.
Sendo assim passo agora a seqncia de passos para construo de um intervalo de confiana
para a mdia no Sisvar:
24
Anlise
Estimao
Teclado
Escolhe o
parmetro
Preencher as
lacunas que
vo aparecer
Calcular
Relatrio
Exemplo: Os estudos a partir de uma amostra com 40 indivduos verificaram uma mdia de 23
horas de estudos semanais, com um desvio padro de 2 horas. Sendo assim, Determine o intervalo com
95% de confiana para a verdadeira mdia.
Resultado: seguindo os passos acima se obteve os seguintes resultado:
N=40,
Mdia = 23 horas,
desvio = 2 horas,
Significncia = 95%
Com isso o intervalo de confiana para a verdadeira mdia dado como no relatrio do sisvar
por:
Estimao de mdias
-------------------------------------------------------------------------------Mdia amostral:
23.000000
Tamanho da amostra:
40
Coeficiente de Confiana (%):
95.00
Intervalo de confiana: [LI; LS]
[22.360369;
23.639631]
--------------------------------------------------------------------------------
Ou seja, com 95% de confiana pode-se dizer que a verdadeira mdia populacional est contida neste
intervalo
7. Teste de Hiptese
Um dos problemas a serem resolvidos pela inferncia estatstica o de testar uma hiptese, isto
, feita determinada afirmao sobre uma populao, usualmente sobre um parmetro desta, desejamos
saber se os resultados de uma amostra contrariam, ou no, tal afirmao. Assim, estabelecemos uma
regio de deciso para aceitar os rejeitar uma afirmao (hiptese) sobre um parmetro populacional
desconhecido, com base em elementos amostrais.
A construo de um teste de hiptese, para um parmetro populacional, pode ser colocada do
seguinte modo. Existe uma varivel X em uma dada populao. Tem-se uma hiptese sobre determinado
parmetro dessa populao. Por exemplo, afirmamos que este valor um nmero 0 . Colhe-se uma
amostra aleatria de elementos dessa populao, e atravs dela deseja-se aceitar ou rejeitar tal hiptese.
Iniciamos explicitando claramente qual a hiptese que estamos colocando prova, e a chamamos
de hiptese nula. No nosso caso:
H 0 : = 0
Em seguida, convm explicar tambm, a hiptese alternativa que ser colocada como aceitvel
caso H 0 seja rejeitada. A essa hiptese chamamos de hiptese alternativa, e a sua caracterizao
estatstica ir depender do grau de conhecimento que se tem do problema estudado. A alternativa mais
geral seria:
25
H 0 : 0 .
Poderamos ainda ter alternativas da forma:
H 1 : < 0 ou H 1 : > 0 ,
Dependendo das informaes que o problema traz.
Qualquer que seja a deciso tomada j foi visto que estamos sujeitos a cometer erros. Para
facilitar a linguagem, necessitamos das definies:
Erro Tipo I: Rejeitar a hiptese nula quando ela verdadeira. Chamamos de a probabilidade de
cometer esse erro, isto ,
Valor a testar
a Hiptese
Calcular
Teste de
Hiptese
Varincia da
Amostra
Escolher o
parmetro
Nvel de
Significncia
Entrar o parmetro
obtido pela amostra
Tamanho
da Amostra
Relatrio
Exemplo: Jairo Simon (modificado). Os registros dos ltimos anos de um colgio, atestam para os
calouros admitidos a nota mdia 115 (teste vocacional). Para testar a hiptese de que a mdia de uma
26
nova turma a mesma, tirou-se, ao acaso, uma amostra de 40 notas, obtendo-se mdia 118 e desvio
padro 20. Admitir que = 0.05, para efetuar o teste.
Resoluo
Mdia = 115,
desvio = 20,
= 0.05,
n = 40
8. Anlise de Varincia
Uma das preocupaes da estatstica ao analisar dados, a de criar modelos que possam explicar
estruturas do fenmeno em observao, as quais freqentemente esto misturadas com variaes
acidentais ou aleatrias. A identificao dessas estruturas permite conhecer melhor o fenmeno, bem
como fazer afirmao sobre possveis comportamentos do mesmo. Assim sendo, os modelos de anlise
de varincia so ferramentas estatsticas usadas para se estudar efeitos de determinadas variveis (ou
fatores) sobre uma varivel resposta.
Quando queremos comparar mais de uma mdia ao mesmo tempo, estamos num caso de anlise
de Varincia onde ser dito ser relevante ou no a escolha de algo que seja comparado ou se os dois
so iguais. No passa de um teste de hiptese porm neste caso temos como hiptese nula a igualdade de
todas as medias e como hiptese alternativa que existe pelo menos uma media diferente. Quando
fazendo este teste, se dissermos que aceitamos a hiptese nula estamos dizemos que o que esta sendo
analisado indiferente, ou seja, pode-se escolher um ou outro de maneira igual, porm ao aceitar a
hiptese alternativa est dizendo que um daqueles que esto sendo analisados tem vantagem ou
desvantagem na escolha. E por isso fazemos uma analise de varincia para este teste.
Na prtica anlise de varincia usada para se determinar se as mdias de duas ou mais
populaes so iguais.
O MODELO DE ANLISE DE VARINCIA COM UM FATOR:
SQDen =
ni
(y
i =1 j =1
onde:
ij
yi )2
- ni = n de observaes do tratamento i.
- k = n de tratamentos.
- Quadrado Mdio dentro dos tratamentos i.
QMDen =
SQDen
= s R2
nk
ij
ni (yi y)2
/N
SQEnt
k 1
Se no existir diferena significativa entre as mdias dos tratamentos, o QMEnt ser um segundo
estimador de 2. Ento, se as duas estimativas so aproximadamente iguais, isto tende a indicar que as
mdias entre os tratamentos so iguais.
28
(yij y)2 ,
As informaes obtidas anteriormente podem, ento, ser agrupadas numa tabela, descrita abaixo,
chamada de tabela de Anlise de Varincia ou simplesmente, tabela ANOVA.
ANOVA para um fator com k nveis
GRAUS DE SOMA DE QUADRADO
FONTES
F
Valor P
DE
VARIA LIBERDADE QUADRA
MDIO
O
DO
k1
SQEnt
QMEnt
QMent/S2
P
ENTRE
2
Nk
SQDen
QMDen = S
DENTRE
N1
SQTot
TOTAL
onde F = QMEnt 2 , e p = probabilidade de significncia do teste F.
sR
A estatstica F definida acima usada para testar a hiptese H0 de que as mdias dos
tratamentos (grupos etrios) so iguais entre si, contra a alternativa Ha de que pelo menos uma delas
diferente. Ela deve ser comparada com o percentil 100 (1 - )% de uma distribuio F de Snedecor com
(k 1) e (N k) graus de liberdade.
Se o valor F observado maior do que F(k-1);(n-k);(1-), ou ainda, se o valor p for menor do que ,
ento rejeitamos a hiptese H0 de que as mdias dos tratamentos so iguais.
Para determinar a ANOVA atravs do sisvar devem-se seguir os seguintes passos:
Anlise
OK
Clica na varivel
de anlise do
experimento
Abrir
arquivo
Anava
Clica no item
nenhum teste
Finalizar
Clica no arquivo
adequado para
anlise
D clique
duplo na fonte
de variao
Clique em
nenhuma
transformao
Clica na varivel
que indica os
tratamentos
Clica
em Fim
Clica em
adicionar
Finalizar
29
Motor 2
2195
2031
1876
1750
1060
8912
Motor 3
1770
1800
1852
1769
7191
Resoluo:
Arquivo analisado:
C:\Documents and Settings\COMPUTER1\Desktop\Anava.DB
-------------------------------------------------------------------------------Varivel analisada: Consumo
Opo de transformao: Varivel sem transformao ( Y )
-------------------------------------------------------------------------------TABELA DE ANLISE DE VARINCIA
-------------------------------------------------------------------------------FV
GL
SQ
QM
Fc Pr>Fc
-------------------------------------------------------------------------------Motores
2
305003.764286
152501.882143
2.042 0.1761
erro
11
821455.950000
74677.813636
-------------------------------------------------------------------------------Total corrigido
13
1126459.714286
-------------------------------------------------------------------------------CV (%) =
14.39
Mdia geral:
1899.1428571
Nmero de observaes:
14
--------------------------------------------------------------------------------
Yi = + X i + ei
Em que: Yi - Varivel explicada (dependente); o valor que se quer atingir;
- uma constante, que representa a interceptao da reta com o eixo vertical;
- outra constante, que representa o declive da reta;
Xi - Varivel explicativa (independente), representa o fator explicativo na equao;
30
ei - Varivel que inclui todos os factores residuais mais os possveis erros de medio. O seu
comportamento aleatrio, devido natureza dos factores que encerra. Para que essa frmula possa ser
aplicada, os erros devem satisfazer determinadas hipteses, que so: serem variveis normais, com a
mesma varincia (desconhecida), independentes e independentes da varivel explicativa X.
Os parametros e sao obtidos da seguinte maneira:
__
___
= Y X onde igual a
=
XY X Y
n X ( X )
2
Anlise
Regresso
Linear
Canto superior
Esquerdo
Clica na Varivel
explicativa
Canto inferior
Esquerdo
Clica na varivel
dependente
Arquivo
Abrir
Seleciona
o Arquivo
Enter
Ajustar
31
Exemplo: Queria-se observar se h relao entre o numero de candidato por vaga em cada curso do
vestibular e respectiva nota mnima para adentrar a faculdade tambm neste curso. O estatstico
observou, ento, que poderia fazer uma analise de regresso linear e observar o comportamento das duas
variveis. Vendo assim se tem relao. Abaixo segue a tabela com a concorrncia candidato vaga e a
pontuao de cada curso:
C/V
15.08
29.60
37.83
9.45
16.94
12.43
6.92
6.22
6.64
8.60
13.26
7.66
20.43
5.93
17.70
Pontuao
63,09
77,68
77,46
62,03
75,92
75,01
67,44
48,66
42,81
52,32
60,32
44,61
68,39
56
79,53
16.73
13.19
26.08
20.02
15.44
13.80
17.10
10.62
7.20
4.31
4.40
4.40
3.39
3.07
6.07
11.83
75,62
81,2
77,56
84,36
88,07
72,71
85,37
86,62
77,18
40,83
46,8
49,42
70,88
40,84
51,05
66,61
7.56
2.89
84.34
2.30
4.00
9.00
2.30
30.54
5.27
10.10
5.36
8.03
1.64
6.38
3.46
55,07
39,22
100,62
44
30,28
21,29
38,95
76,43
39,37
38,89
74,35
68,19
38,22
43,41
32,77
32
Soluo do Problema:
Primeiro os dados foram dispostos numa tabela dentro do sisvar. Como mostra a imagem a seguir:
Aps a disposio dos dados como na tabela acima, poderemos comear a anlise de regresso.
Seguindo a seqncia de passos mostrada na pagina anterior, e com isso atingiremos os seguintes
resultados:
-----------------------------------------------------------------------Varivel
analisada: C/V
----------------------------------------------------------------------Variveis do modelo e codificao usada
-----------------------------------------------------------------------b( 1):
Pontuao
-----------------------------------------------------------------------Anlise de
varincia
----------------------------------------------------------------------FV
GL
SQ
QM
Fc Pr>Fc
-----------------------------------------------------------------------Modelo
1
3223.981834409
3223.98183441
28.2622 0.0000
Erro
44
5019.258811243
114.07406389
----------------------------------------------------------------------Total corrigido
45
8243.240645652
Total no corrigido 15443.4963
-----------------------------------------------------------------------Mdia
12.51108696
Raiz do QME
10.68054605
R^2
0.39110612
R^2 ajustado
0.37726762
C.V.(%)
85.36865011
----------------------------------------------------------------------Anlise de varincia seqencial (Tipo I)
----------------------------------------------------------------------FV
GL
SQ
QM
Fc Pr>Fc
-----------------------------------------------------------------------b
( 1)
1
3223.981834409
3223.98183441
28.2622 0.0000
----------------------------------------------------------------------Anlise de varincia parcial (Tipo II)
-----------------------------------------------------------------------FV
GL
SQ
QM
Fc Pr>Fc
----------------------------------------------------------------------b
( 1)
1
3223.981834409
3223.98183441
28.2622 0.0000
--------------------------------------------------------------------------------------------------------------------------------------------Estimativas dos parmetros
----------------------------------------------------------------------Estimativa dos
t para H0:
Varivel
GL
parmetros
EP
parmetro = 0
Pr>|t|
-------------------------------------------------------------------------------b
( 0) 1
-14.78922034082
5.371316502
-2.753369744 .0085
b
( 1) 1
0.45052436301
0.084745266
5.316218669 0.0000
----------------------------------------------------------------------R^2 paciais e semi parciais tipo I e tipo II
----------------------------------------------------------------------R^2 Parcial
R^2 semi Parcial
R^2 Parcial
R^2 Semi Parcial
Varivel
tipo I
tipo I
tipo II
tipo II
-----------------------------------------------------------------------b
( 1)
0.39110611627
0.39110611627
0.39110611627
0.39110611627
----------------------------------------------------------------------Matriz X'X
----------------------------------------------------------------------b
( 0) b
( 1)
b 0
46.00000
2787.45000
b 1
2787.45000
184794.23950
----------------------------------------------------------------------inversa
----------------------------------------------------------------------( 0) b
( 1)
b 0
0.25291
-0.00381
b 1
-0.00381
Matriz X'X
b
0.00006
34
20
15.44000
24.88846
2.81079
-9.44846
21
13.80000
17.96841
1.87980
-4.16841
22
17.10000
23.67204
2.62439
-6.57204
23
10.62000
24.23520
2.70988
-13.61520
24
7.20000
19.98225
2.11066
-12.78225
25
4.31000
3.60569
2.29912
0.70431
26
4.40000
6.29532
1.96136
-1.89532
27
4.40000
7.47569
1.83767
-3.07569
28
3.39000
17.14395
1.79981
-13.75395
29
3.07000
3.61019
2.29850
-0.54019
30
6.07000
8.21005
1.77043
-2.14005
31
11.83000
15.22021
1.65516
-3.39021
32
7.56000
10.02116
1.64294
-2.46116
33
2.89000
2.88035
2.40035
0.00965
34
84.34000
30.54254
3.73953
53.79746
35
2.30000
5.03385
2.11142
-2.73385
36
4.00000
-1.14734
3.01341
5.14734
37
9.00000
-5.19756
3.68454
14.19756
38
2.30000
2.75870
2.41767
-0.45870
39
30.54000
19.64436
2.06888
10.89564
40
5.27000
2.94792
2.39077
2.32208
41
10.10000
2.73167
2.42153
7.36833
42
5.36000
18.70727
1.95916
-13.34727
43
8.03000
15.93204
1.70116
-7.90204
44
1.64000
2.42982
2.46494
-0.78982
45
6.38000
4.76804
2.14505
1.61196
46
3.46000
-0.02554
2.83565
3.48554
----------------------------------------------------------------------Estimativas dos parmetros padronizados
----------------------------------------------------------------------Estimativa dos coeficientes
Varivel
GL
de regresso padronizados
----------------------------------------------------------------------b
( 1) 1
0.62538477458
----------------------------------------------------------------------Usa-se com estimativa de regresso a seguinte equao:
Y = -14.78922034082 + 0.45052436301X
,ou seja,
Y = b0 + b1 X
35
PUBLICAES ANTERIORES
. PAULA, V.A.; MASCARENHAS, M.R.; BARRETO, M.C.M. "Introduo ao Epi-Info".
Maro/97, No 01.
. CARVALHO, E. P.; DINIZ, C. A. R. "Introduo a Experimentos com Misturas". Abril/97, N o
02.
. MASCARENHAS, M.R; BARRETO, M.C.M.; ARAGO, F.J.O.S.; PAULA, V.A. "Estatstica
Usando Excel". Agosto/97, No 03.
. FERREIRA FILHO, P.; BERETA, E.M.P.; RIBEIRO, F.B.; Tabela de Burt. Maio/1998, No 04.
. DINIZ, C.A.R.; OISHI, J. EVOP - Operao Evolutiva, Junho/1998, N0 05.
. OLIVEIRA, L. A. Introduo Biometria - Epidemiologia, Agosto/1998, No 06.
. BARRETO, M.C.M.; GOMES, A.Z.; VALRIO, E.M.; SILVA, F.C.; BATISTELA, J.A.;
DRIUSSO, P.; CEMBRANELI, R.C. "Introduo ao Epi-Info 6". Abril/99, No 07.
. OLIVEIRA, L.A. Probabilidade e Estatstica para Engenherios: Idias Iniciais de
Planejamento de Experimento. Novembro/99, N 08.
. LEITE, J.G. "Introduo Inferncia Bayesiana". Maro/2000, N 09.
. MILAN, L.A. "Introduo Linguagem S-plus". Maio/2000, N 10.
. OLIVEIRA, L.A. "Probabilidade e Estatstica para Engenheiros: idias iniciais de
amostragem". Agosto/2000, N 11.
. LOUZADA-NETO, F.; DINIZ, C.A.R. "Uma Introduo ao Data Mining". Setembro/2000, N
12.
. OLIVEIRA, L.A. Introduo Demografia. Agosto/2001, N 13.
. OLIVEIRA, L.A. Introduo Anlise Estatstica de Dados. Agosto/2001, N 14.
. MARTINEZA, E.Z.; LOUZADA-NETO, F.; PEREIRA, B.B. Anlise de Testes Diagnsticos Via
Curva ROC. Maro/2002, N 15.
. TORRES, C.A.D; CANDOLO, C. Construo de Grficos no SAS. Agosto/2003, N 16.
. OLIVEIRA, L.A. Introduo Demografia: Anlise por Perodo. Outubro/2003. N 17.
. BARRETO, M.C.M. Amostragem no Meio Ambiente: Amostragem por Transectos.
Maro/2004. N 18.
. OLIVEIRA, L.A.; DESIDER, L.C. O Uso de Transformaes na Anlise Estatsttica de
Dados Uma Introduo. Dezembro/2004. N 19.
. OLIVEIRA, L.A. Introduo Demografia: Anlise de Mortalidade. Janeiro/2005. N 20.
. OLIVEIRA, L.A. Alisamento de Seqncias ou Sries por Filtros Resistentes. Junho/2005.
N 21.
. TORRES, C.A.D; CANDOLO, C.
Uso do Enterprise Miner Software do SAS.
Outrubro/2005, N 22.
. VITTE, D.C.C.; CANDOLO, C. Acess para Estatstica. Novembro/2005, N 23.
. FRANCO, M. A. P.; MANTOVANI, A.; Estudo por Simulao da Distribuio de Estimadores
por Mxima Verossimilhana na Presena de Censura. Janeiro/2006, N.24.
. LOUZADA - NETO, F.; Modelagem Temporal em Credit Scoring: Uma Nova Alternativa
Modelagem Tradicional via Anlise de Sobrevivncia. Fevereiro/2006, N 25
. LOUZADA-NETO; F.; DINIZ; C. A. R.; Aumentando a Capacidade Preditiva da Modelagem
de Credit Scoring via combinao de Preditores Uma Introduo. Outubro/2007, N 26