Apostila SAS

MINISTRIO DE EDUCAO E DESPORTOS UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CINCIAS NATURAIS E EXATAS DEPARTAMENTO DE ESTATSTICA LABORATRIO - S.A.S.
TREINAMENTO SISTEMA - S.A.S.

Prof. Dr. Luis Felipe Lopes
SANTA MARIA RS 2006
SUMRIO 1 INTRODUO 2 LIMITAES 3 O QUE O SISTEMA SAS? 3.1 O SAS/BASE 3.2 Tpicos gerais 4 ARQUIVOS SAS 5 COMANDOS DE PROGRAMAO 5.1 Comandos de controle de arquivos 5.2 Comandos que lem e gravam arquivos de dados 5.3 Comandos que lem e gravam arquivos SAS 5.4 Comandos que atuam sobre valores de dados 5.5 Comandos de informao 5.6 Comandos que controlam o fluxo lgico de programao 6 PRINCIPAIS PROCEDURES PROCs 6.1 PROC SORT 6.2 PROC PRINT 6.3 PROC FORMAT 6.4 PROC FREQ 6.5 PROC MEANS 7 ESTATSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE 7.1 Introduo 7.2 Testes de Normalidade (PROC UNIVARIATE) 8 ANLISE DE CORRELAO E REGRESSO 8.1 Introduo 8.2 Correlao de Pearson (PROC CORR) 8.3 Regresso (PROC REG) 8.4 Inferncia na regresso 8.5 Resduos 9 INFERNCIA ESTATSTICA 9.1 Testes para igualdade de duas medias (PROC TTEST) 9.2 Teste para dados pareados 10 MTODOS NO PARAMTRICOS 10.1 Testes para igualdade de duas medias (PROC NPAR1WAY) 1 1 1 2 3 3 3 4 6 10 13 15 17 20 20 21 22 23 24 27 27 27 32 32 33 39 41 41 55 54 59 64 64
Treinamento Sistema SAS
Prof. Luis Felipe Lopes
11 ANLISE DE VARINCIA 11.1 Dados balanceados (PROC ANOVA) 11.1.1 Experimento Completamente Casualizado 11.1.2 Experimento com Blocos Aleatorizados 11.1.3 Experimento com Quadrado Latino 12 EXERCCIOS RESOLVIDOS E COMENTADOS 13 EXEMPLO PRTICO 13.1 Banco de dados 13.2 Anlise dos dados
68 68 73 75 77 79 127 127 128
REFERNCIAS BIBLIOGRFICAS ANEXOS ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE ASSIMENTRIA E CURTOSE - Skewness and Kurtosis
139 140
141
ii
TREINAMENTO SISTEMA - S.A.S. Statistical Analisys System
1 INTRODUO
O Objetivo deste Curso ajudar o usurio a conhecer os comandos bsicos do Sistema SAS de modo que possa obter as respostas a problemas prticos de uma maneira rpida e objetiva.
2 LIMITAES
Este curso apenas uma introduo ao SAS, contendo uma pequena frao de informao que voc encontrar no SAS USERS GUIDE: BASIC e SAS USERS GUIDE STATISTICS.
3 O QUE O SISTEMA SAS ?
um sistema de aplicao integrada, que consiste em vrios produtos que tem por funo: acesso, gerenciamento, anlise estatstica e apresentao de dados, somada a uma linguagem poderosa de programao e gerao de relatrios.
Acesso
Gerenciamento
DADOS Apresentao Anlise
Acesso aos dados - o sistema SAS possui ferramentas para acessar os bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS. Gerenciamento de dados - com o SAS possvel editar, selecionar, ordenar, concatenar e margear os arquivos.
Anlise de dados - o SAS possui rotinas estatsticas para anlises de regresso, anlise de varincia, de componentes principais, discriminante, modelos lineares, anlise fatorial, previses, controle de qualidade, clculos matriciais, etc. . Apresentao de informaes - a gerao de relatrios fcil e flexvel. Eles podem ser listados, tabulados e grficos. O SAS por ser um sistema integrado, ele composto por mdulos para comercializao. Principais mdulos: SAS/BASE contm uma linguagem de Quarta gerao, com procedimentos para estatstica bsica e grficos de baixa resoluo. SAS/STAT este mdulo composto de procedimentos para estatstica avanada, como anlise de varincia, anlise de regresso, multivariada, fatorial, discriminante, outras. SAS/GRAPH gera grficos de alta resoluo: barras verticais ou horizontais, setoriais, cartesianos, mapas e superfcies tridimensionais. SAS/ETS ferramenta de previso e anlise de sries temporais. SAS/OR Procedimentos para Pesquisa Operacional, programao linear, gerenciamento de projetos e apoio tomada de decises. SAS/IML linguagem para operao com matrizes. SAS/QC ferramenta para controle estatstico de qualidade e delineamentos experimentais. Existem outros mdulos, mas que no so de interesse para a estatstica.
3.1 O SAS/BASE o instrumento principal do Sistema SAS. Ele permite ao usurios: - Criar, montar e acessar qualquer tipo de dado; - Produzir relatrios e grficos simples; - Atualizar estatisticamente os dados; - Utilizar a linguagem de programao SAS.
3.2 Tpicos gerais - Todo os comandos do SAS terminam em (;). - Os comandos iniciam e terminam em qualquer posio. - Vrios comandos poder estar numa mesma linha. - Um comando poder ser escrito em vrias linhas. - Palavras sero separadas por um mais espaos. - O comando INPUT obrigatrio no interessando onde os dados esto armazenados. - Arquivos SAS so armazenados em tabelas retangulares. - Referenciam-se arquivos e variveis pelos nomes. - Nomes de arquivos ou variveis poder ter no mximo 8 caracteres, iniciando obrigatoriamente por letras (A-Z), podendo ter associado nmero e/ou caracteres especiais com ( - quebra). 4 ARQUIVO SAS Um arquivo SAS uma coleo de valores de dados arrumados em uma tabela retangular. Ex.: Variveis OBSERVAES . . CULTURA arroz feijo soja ALTURA1 0.35 0.25 0.15 ALTURA2 0.39 0.30 0.17
As colunas da tabela so chamadas de VARIVEIS - Variveis corresponde a campos de dados. - Cada varivel tem um nome. - H trs tipos de variveis: caracter, numrica e data. As linhas so chamadas de OBSERVAES - No h limite para o nmero de observaes. 5 COMANDOS DE PROGRAMAO Os seguintes comandos so bsicos para a programao em SAS: - Comandos de controle de arquivos. - DATA - CARDS Treinamento Sistema SAS - INFILE - FILE 3 Prof. Luis Felipe Lopes
- Comandos que lem e gravam arquivos de dados. - INPUT - PUT - LIST - Comandos que lem e gravam arquivos SAS. - SET - MERGE - UPDATE - OUTPUT - Comandos que atuam sobre valores de dados. - FUNES e EXPRESSES - Comandos de informao. - DROP - RENAME - LABEL - FORMAT - TITLE - Comandos que controlam o fluxo lgico de programao. - IF (THEN / ELSE) - DELETE
5.1 Comando de controle de arquivos
- DATA O primeiro comando em um programa SAS, geralmente um DATA. O comando DATA diz ao SAS que se quer criar um arquivo SAS. Voc poder escolher qualquer nome para esse arquivo, desde que tenha at 8 caracteres ou menos e comece por uma letra (A-Z).
Ex.:
DATA TESTE; INPUT . . . . .
A palavra TESTE o nome do arquivo SAS. Se o nome for omitido pelo usurio, o SAS se encarrega de nome-lo. Dando o nome de DATAn (n nmero de DATAS criados). O comando DATA pode aparecer em outros lugares dentro do arquivo SAS quando se quer fazer referncias a outros arquivos. - CARDS um comando dado logo aps o comando DATA. O comando CARDS indica ao SAS que os registros de dados seguem imediatamente abaixo no texto at o ponto e virgula ; do ltimo dado.
Ex.:
DATA A1; INPUT IDADE 12 ALTURA 5-8 1 PESO 1014 1; CARDS; 21 180 75.2 18 170 65.3 25 175 80.3 : : : : : : ;
- INFILE Tambm vem a ser um comando logo aps o comando DATA, s que os valores de dados esto em disco (na forma de arquivo), logo deve-se incluir o comando INFILE. Ele deve conter um nome com no mximo 8 caracteres e dever ser lido com o cdigo ASCII. Caractersticas do INFILE: Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados esto armazenados. Os dados esto armazenados em disco no arquivo chamado ARQUIVO.
Ex.:
DATA A1; INFILE ARQUIVO DADOS; INPUT NOME $10. @30 NOTA1 30 32 1 NOTA2 33 35 1 MEDIA 37 39 1; PROC PRINT;
Obs.: Este dois comandos CARDS e INFILE especificam de onde sero lidos os dados. O INFILE indica que sero lidos de um arquivo externo (banco de dados ASCII) e o CARDS indica que os dados esto no programa logo abaixo deste comando.
5.2 Comandos que lem e gravam arquivos de dados
- INPUT A funo do comando INPUT descrever para o sistema SAS como so, quais os nomes, e em que posio se encontra as VARIVEIS no arquivo de dados. O comando INPUT geralmente segue o comando DATA.
Ex.:
DATA TESTE; INPUT A 1-3
5-6;
Obs.: Lembre-se das regras para nomes (no mximo 8 caracteres). a) Tipos de INPUT a.1) INPUT COLUNADO Especifica onde encontrar os valores pela posio da coluna.
Ex.:
INPUT NOME $ 18 SEXO $ 10 IDADE 12-13 ALTURA 1519 PESO 2126; As posies dos campos so fixas. O $ usado para indicar varivel alfanumrica.
Restries:
Caractersticas do INPUT COLUNADO: Os campos (variveis) podem ser lidos em qualquer ordem.
Ex.:
INPUT SEXO $ 10 IDADE 1213 NOME $ 18 PESO 2126 ALTURA 1519;
Campos em brancos so considerados no informados. (posies 9, 11, 14, 20). Caracteres em branco s sero permitidos em variveis alfanumricas. Ex.: JOSE CARLOS Campos ou partes de campos podem ser relidos como uma nova varivel; Ex.: INPUT NOME $ 1-8 ININOME $ 1;
Valores numricos podem aparecer em qualquer posio do campo, podendo ser especificado sinais decimais ou ponto decimais. Ex.: INPUT PESO $ 16; C A M P O S 3 4 2 5 2 5 5
1 1 2 3 4 5
5 2 . . .
6 5
Obs.: 1 - No se usa , (virgula) para separar a parte decimal e sim . (ponto). Ex.: linhas 2 e 4 2 - Um campo em branco dever ser representado por um . ponto (missing). Ex.: linha 5 a.2) INPUT LISTADO O SAS procura pelos campos brancos at encontrar um caracter, ento l o campo at o prximo branco. Forma geral INPUT lista de variveis; Ex.: INPUT SEXO $ IDADE NOME $ PESO ALTURA; Todo o campo (var.) deve ser especificado em ordem. Campos devem ser separados por brancos. No permitido campos em branco e sim . .
Restries:
Ex.:
DATA CLASSE; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS;

05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22
01
02
03
04
C J A P
A O N A
R L O S M 2 0 1 8 0 . 5 7 8 . 5 S E M 1 8 1 7 5 7 0 . 8 A F 1 7 1 6 5 . 6 6 2 . 5 U L A F 2 1 1 6 8 5 5 a.3) INPUT FORMATADO Especifica a posio e o tamanho do campo. Formato de Entrada: W W.d Largura do campo numrico Numrica com decimal
Controle de posio: @n +n
01 02 03 04 05 06 07 08
Vai para a coluna n. Move a posio n posies.

09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
J J A A
O O N N
S E S E L U I S A A P A U L A
M M F F
2 1 1 2
0 8 7 1
1 1 1 1
8 7 6 6
0 . 5 5 . 8
5 6
7 7 6 5
8 . 0 . 2 . 5
5 8 5
Ex.:
INFILE BANCO DADOS; INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1 ALTURA 5. +1 PESO 4.;
Caractersticas do INPUT FORMATADO: Variveis e formatos de entrada podem ser agrupados separadamente com parnteses.
Ex.:
INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.); ou INPUT (JAN FEV MAR ABR MAI) (3.);
Variveis numeradas podem ser usadas para abreviar diversas variveis relacionadas. Treinamento Sistema SAS 8 Prof. Luis Felipe Lopes
Ex.:
INPUT (MES1 MES2 MES3 MES4 MES5) (3.); ou INPUT (MES1-MES5) (3.);
a.4) MISTURANDO TIPOS DE INPUT Os trs tipos de INPUT vistos podem ser combinados (LISTADO, COLUNADO e FORMATADO) em um nico comando INPUT.
Ex.:
DATA CLASSE; INPUT NOME $ @11 SEXO $ 1. IDADE 13-14 ALTURA 1619 @21 PESO 5.;
a.5) OUTROS CONTROLADORES DE POSIO /e#

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
1 2 3 4
J 1 J 1 A 1 A 1
O 8 O 7 N 6 N 6
S 0 S 5 A 5 A 8
E . E
M 5 L 7 U 7 6 U 5 8 I 0 2 L 5 . S . . A 5 M 8 F
2 1 1 2
0 8 7 1
6 P
5 F
Ex.:
DATA CLASSE; INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2. / ALTURA 5. PESO 7-10; ou DATA CLASSE; INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2. #2 ALTURA 1-5. PESO 7-10;
Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicao # sempre preceder o nome da varivel, logo dispensa-se informar a prxima linha, ou seja, a partir da varivel altura as demais variveis o SAS entende que pertencem ao segundo carto do registro. 2 - Quando estivermos nos referindo a uma data devemos aps a varivel colocar sua formatao (DT_NASC DDMMYY8. ).
5.3 Comandos que lem e gravam arquivos SAS
- SET O comando SET usado para transferir dados de um arquivo SAS existente para um novo arquivo SAS. Todas as variveis do arquivo SAS so passadas automaticamente para o novo arquivo SAS (a no ser que sejam direcionadas de outra maneira com comandos de programao). Novas variveis que se queira criar devem ser adicionadas com comandos de atribuio.
Ex.:
DATA NOVACLAS; SET CLASSES; ANO_NASC=91-IDADE; PROC PRINT DATA=NOVACLAS;
Obs.: No arquivo criado pelo comando SET possui uma varivel nova ANO_NASC. Como criamos uma varivel nova ao gerar o arquivo NOVACLAS, podemos tambm excluir variveis, com o comando DROP associado ao comando SET;
Ex.:
DATA NOVACLAS; SET CLASSES; DROP NOME SEXO; PROC PRINT DATA=NOVACLAS;
O campo (varivel) NOME atravs dessa varivel referenciada com o BY que far a juno dos dois arquivos num s. Obviamente que os dois arquivos devero estar em ordem por NOME.
Ex.:
DATA AMBOS; SET HOMENS MULHERES; BY NOME; PROC PRINT; TITLE RESULTADO DA CONCATENACAO;
10
HOMENS
OBS 1 2 3 4 DEPT 213 917 916 914 NOME Alvaro Otto Ricardo Vitor SEXO m m m m OBS 1 2 3
MULHERES
DEPT 914 918 917 NOME Eliane Lorena Sonia SEXO f f f
Resultado da Concatenao (SET) HOMENS+MULHERES

OBS 1 2 3 4 5 6 7 DEPT 213 914 918 917 916 917 914 NOME Alvaro Eliane Lorena Otto Ricardo Sonia Vitor SEXO m f f m m f m
Outra observao que se faz necessria para usar este comando com a finalidade de juntar (concatenando) dois ou mais arquivos, que a estrutura dos arquivos sejam idnticas, ou seja, com mesmas variveis. Podemos tambm selecionar observaes na criao de um novo arquivo com o comando IF - MERGE O comando MERGE usado para juntar observaes de dois ou mais arquivos, colocando os mesmos um ao lado do outro. Algumas consideraes: - At 50 arquivos pode ser mergeados em um procedimento. - Os arquivos de entrada devem estar ordenados pela varivel(eis) chaves se um comando BY utilizado. O arquivo resultante (sada) conter todas as variveis presentes nos arquivos de entrada a menos que o comando DROP ou qualquer outro de seleo tenha sido utilizado.
11
Ex.:
DATA JUNTA; MERGE GERAL SALARIO; PROC PRINT; TITLE ARQUIVO MERGEADO;
GERAL
OBS 1 2 3 4 5 DEPT 917 918 917 914 916 NOME Sonia Alvaro Otto Eliane Lorena SEXO f m m f f OBS 1 2 3 4 5 NOME Sonia Alvaro Otto Eliane Lorena
SALRIO
SAL_LIQ 169.10 223.00 329.05 650.70 380.95 SAL_BRU 279.10 310.05 410.75 715.12 470.30
MERGEADO
OBS 1 2 3 4 5 DEPT 917 918 917 914 916 NOME Sonia Alvaro Otto Eliane Lorena SEXO f m m f f SAL_LIQ 169.10 223.00 329.05 650.70 380.95 SAL_BRU 279.10 310.05 410.75 715.12 470.30
Obs.: O comando BY no foi necessrio ao mergear os arquivos porque a chave principal NOME nos dois arquivos esto na mesma ordem. Se no estivessem o comando BY seria necessrio, assim como teramos que classificar os arquivos atravs do comando SORT. - OUTPUT O comando OUTPUT pode ser usado para: Criar duas ou mais observaes para cada linha de entrada. Combinar diversas observaes a partir de uma nica observao. Criar um arquivo SAS sem nenhum dado de entrada.
12
Ex.: Criando quatro observaes SAS de cada linha de entrada
DATA RECEITA; INPUT ANO TRIM1 TRIM2 TRIMESTRE=1; VENDAS=TRIM1; TRIMESTRE=2; VENDAS=TRIM2; TRIMESTRE=3; VENDAS=TRIM3; TRIMESTRE=4; VENDAS=TRIM4; CARDS; 1996 1.2 0.9 1.1 1.5 1997 1.7 1.9 2.4 2.5; PROC PRINT; TITLE RESULTADO DA EXECUCAO RUN;
TRIM3 TRIM4; OUTPUT; OUTPUT; OUTPUT; OUTPUT;
DO ARQUIVO RECEITA;
SADA
ANO 1996 1996 1996 1996 1997 1997 1997 1997 TRIM1 1.2 1.2 1.2 1.2 1.7 1.7 1.7 1.7 TRIM2 0.9 0.9 0.9 0.9 1.9 1.9 1.9 1.9 TRIM3 1.1 1.1 1.1 1.1 2.4 2.4 2.4 2.4 TRIM4 1.5 1.5 1.5 1.5 2.5 2.5 2.5 2.5 TRIMESTRE 1 2 3 4 1 2 3 4 VENDAS 1.2 0.9 1.1 1.5 1.7 1.9 2.4 2.5
5.4 Comandos que atuam sobre valores de dados
- Criando variveis Quando se cria nova varivel, se est adicionando um novo grupo de valores de dados ao arquivo. Por exemplo, supondo que temos um arquivo com as seguintes variveis: ALUNO NOTA1 NOTA2 NOTA3 se quisermos criar uma nova varivel chamada MEDIA devemos: MEDIA = (NOTA1 + NOTA2 + NOTA3)/3; Este comando informa para o SAS: O sinal = significa atribua ao valor da esquerda o que se refere esquerda. Para cada observao (linha) do arquivo, some as trs notas (variveis) e divida por 3; 13 Treinamento Sistema SAS Prof. Luis Felipe Lopes
De o nome ao resultado obtido de MEDIA (nova varivel). Obs.: As demais variveis continuam disponveis para posteriores clculos. - Funes e expresses Operaes aritmticas mais conhecidas: SMBOLO ]] ] / + OPERAO exponenciao multiplicao diviso adio subtrao EXEMPLO Y = X2 A=BxC A=H/I R=S+T X=Z-W NO SAS Y = X ** 2 A=B*C A=H/I R=S+T X=Z-W
Outras funes numricas: FUNO ABS SQRT COS SIN ARCOS LOG LOG10 SUM MEAN VAR MIN MAX STD ROUD O que faz Valor absoluto Raiz quadrada Cosseno Seno Arcosseno Logaritmo neperiano (base e) Logaritmo base 10 Soma Mdia aritmtica Varincia Valor mnimo Valor mximo Desvio padro Valor arredondado
Ex.:
X = 326.25; Y = ROUND (X); RESULTADO Y = 327 (no est nas normas brasileiras) Z = MIN (Y); Z = MIN (of L Y); W = SQRT (A + B/C); K = MEAN (IDADE); K = MEAN (of V1 V7); SOMA= SUM (of V1 V10);
5.5 Comandos de Informao Treinamento Sistema SAS 14 Prof. Luis Felipe Lopes
- DROP O comando DROP exclui a varivel ou variveis indicadas, da anlise em questo; O comando DROP vlido no DATA e nas PROCs. No um comando executvel, fornece a informao ao SAS quando o comando compilado. O comando DROP poder ser escrito em qualquer posio. Ex.: DROP IDADE SEXO; O comando DROP retira a varivel, portanto, todos os valores de IDADE e SEXO so desconsiderados (coluna). - TITLE O comando TITLE define cabealhos a serem impressos no topo das pginas de sada. At dez ttulos podero ser especificados. Forma Geral TITLEn t i t u n = nmero da linhas do ttulo. Ex.: TITLE1 Levantamento Scio-econmico; TITLE2 da; TITLE3 Populacao Periferica de Santa Maria; - FOOTNOTE Define o texto a ser impresso no rodap das pginas de sada. A sintaxe a mesma do comando TITLE. Ex.: FOOTNOTE Departamento de Estatstica - UFSM; - LABEL O comando LABEL usado para atribuir rtulos (nomes) descritivos de at 40 caracteres. Rtulos podem ser atribudos temporariamente para a durao de apenas um processamento, ou permanente definido no primeiro DATA. l o;
15
Ex1.:
DATA CLASSES; INPUT NOME $ 8. SEXO $ 11 IDADE 13-14 ALT 13-19 PESO 21-25; CARDS; Linha de Dados; PROC MEANS; VAR ALT PESO; LABEL ALT=ALTURA EM POLEGADAS PESO=PESO EM LIBRAS; TITLE ESTATISTICAS DAS ALTURAS E DOS PESOS; RUN;
Ex2.:
DATA CLASSES; INPUT V1 V3; LABEL V1=NMERO DE ALUNOS V2=CURSO V3=SEXO; CARDS;
- COMMENT O comando COMMENT serve para documentar. Pode ser usado em qualquer parte do programa. Incio (/*) Fim (*/)
Ex.: DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; /* CALCULO DO INSS */ INPS = SAL * .12; IF DEPTO=201 THEN DO; DEPTO=VENDA; COM=VENDA*.10; /* CALCULO DO SALARIO BRUTO*/ SAL_BRUTO=COM+SAL; /* CALCULO DO DESCONTO */ DESC=INPS + SEG; /* CALCULO DO SALARIO LIQUIDO */ SAL_LIQ=SAL_BRUTO - DESC; END; CARDS; Obs.: Este comando tambm poder cancelar uma determinada operao temporariamente; Treinamento Sistema SAS 16 Prof. Luis Felipe Lopes
- FORMAT O comando FORMAT usado para especificar os formatos para valores dos dados. Os formatos podem ser definidos apenas para a apurao de uma procedure PROC.
Ex.: DATA CLASSE; INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO; CARDS; ... ... ; PROC FORMAT; VALUE SEX 1 = MASCULINO; 2 = FEMININO; PROC PRINT; FORMAT SEXO SEX.; TITLE USANDO O COMANDO FORMAT; RUN;
5.6 Comandos que controlam o fluxo lgico de programao
- IF (THEN / ELSE) Algumas vezes necessita-se trabalhar com parte dos dados, no todos. Por exemplo suponhamos que se queira analisar somente o sexo masculino. O comando IF pode ser usado para esta seleo.
Ex.: DATA A1; INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO; IF SEXO=M; CARDS; Linha de Dados;
O SAS l cada observao e verifica se o SEXO M (masculino), caso contrrio nova observao ser lida. A condio IF poder ser Verdadeira (THEN) ou Falsa (ELSE). A condio IF tambm pode ser uma simples comparao de uma varivel ou valor. Treinamento Sistema SAS 17 Prof. Luis Felipe Lopes
Ex.: IF ALTURA < 172 THEN DELETE; IF PRETEST < TESTE ELSE RESULT=NO; THEN RESULT=SIM;
Principais operadores de comparao: Smbolo < > = Abreviatura LT LE GT GE EQ NE Comparao Menor que Menor que ou igual a Maior que Maior que ou igual a Igual Diferente
Principais operadores lgicos: Smbolo OR AND NOT Comparao Um ou outro E, ambos No, negao
A condio IF pode envolver comparaes de ANDs e de ORs.
Ex.: IF ESTADO=RS AND CIDADE=SANTA_MARIA THEN REGIAO=SUL; IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50 THEN LIST; IF RESULT=68 THEN RESP=CERTO; ELSE RESP=ERRADO; Usando o comando IF com melhor aproveitamento: IF CODIGO=1 THEN RESPOSTA=BOM; ELSE IF CODIGO=2 THEN RESPOSTA=REGULAR; ELSE IF CODIGO=3 THEN RESPOSTA=RUIM; Uso do comando DO e END associado ao comando IF: Treinamento Sistema SAS 18 Prof. Luis Felipe Lopes
O comando DO especifica que todos os comandos entre ele e o comando END devem ser executados;
Ex.:
DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; INPS = SAL * .12; IF DEPTO=201 THEN DO; DEPTO=VENDA; COM=VENDA*.10; SAL_BRUTO=COM+SAL; SEG=SAL_BRUTO*.001; DESC=INPS + SEG; SAL_LIQ=SAL_BRUTO - DESC; END; ELSE DO; DPTO=ADMIN; SAL_LIQ=SAL - INPS; CARDS; Linha de Dados;
- DELETE Quando se quer descartar uma observao., por ela conter um valor no vlido para a anlise que se esta tratando usa-se o comando DELETE; Quando este comando carregado o SAS para de trabalhar na observao corrente, no adicionando ao arquivo SAS que esta sendo criado, e comea imediatamente na observao seguinte. O comando DELETE normalmente aparece com parte de um comando IF. Ex.: IF SEXO=F THEN DELETE; IF SEXO=F THEN IDADE LE 14 THEN DELETE;
O comando DELETE retira toda a observao do arquivo, logo aconselha-se coloc-lo dentro de uma rotina DATA SET; Ex.: DATA A1; SET A;
19
6 PRINCIPAIS PROCEDURES - PROCs
6.1 PROC SORT
Funo: Quando se precisa ordenar os dados. A ordem das observaes no importa muito para o processamento estatstico, por exemplo para calcular a mdia da ALTURA dos alunos por SEXO, a ordem como esto as observaes no importa. Porm necessita-se LISTAR as observaes por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por SET, as observaes tero que estar ordenadas (SORT). Por exemplo se quisermos combinar as informaes do estudo de ALTURA e PESO deste ano com as dos anos anteriores ambos os arquivos devero ser ordenados. A ordenao a arrumao das observaes de um arquivo em ordem determinada pelos valores de uma ou mais variveis indicados no comando BY (POR). Para ordenar-se um arquivo usa-se a procedure PROC SORT seguida do comando BY que indicar a varivel pela qual o arquivo ser ordenado.
Ex.:
PROC SORT DATA=TESTE; BY NOME;
Suponha que temos um arquivo chamado PESQUISA e que queremos orden-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente por NOME de cada cidade.
Ex.:
PROC SORT; BY PESQUISA; BY ESTADO CIDADE NOME;
Obs.: A ordenao vista at aqui foi feita em cima do prprio arquivo (PESQUISA). Se no desejar que isso acontea use o comando OUT.
Ex.:
PROC SORT; BY PESQUISA; OUT = NOVO; BY ESTADO CIDADE NOME;
20
Os registros aps a ordenao estaro gravados no arquivo chamado NOVO e no arquivo PESQUISA continuam desordenados. Obs.: Existem outros tipos de rotinas de programao usando o PROC SORT, onde poderemos incluir outras PROCs dentro dela.
Ex.:
PROC SORT; BY SEXO; PROC FREQ; TABLES V1 V2 V3 /LIST; PROC UNIVARIATE; VAR V1 V2 V3; PROC COR; VAR V1; WITH V2 V3;
6.2 PROC PRINT
Este procedure serve para imprimir (listar) seus dados no relatrio. Ex.: Listar ALTURA e PESO dos homens separado das mulheres INPUT SEXO $ ALTURA PESO; CARDS; Linha de Dados; PROC PRINT; BY SEXO;
Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar o DATA, a impresso ser do ltimo DATA referenciado. 2 - O PROC PRINT imprime todos os dados, se for seguido do comando VAR imprimir somente as variveis selecionadas no comando VAR. Ex.: PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA;
3 O comando PROC PRINT poder listar em funo de um valor de uma determinada varivel Ex.: PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA; WHERE SEXO=M;
21
6.3 PROC FORMAT
O procedimento FORMAT usado para criar formatos definidos pelos usurios. Comando usado no PROC FORMAT VALUE VALUE NOME VALOR = DESCRIO; O NOME obedece as mesmas regras usadas para variveis (8 caracteres), pois no deixa de ser uma nova varivel selecionada. A DESCRIO ter tamanho mximo de 40 caracteres e dever ser includa entre aspas ( ).
Ex.: PROC FORMAT; VALUE FAIXAS
LOW-12 = CRIANCA 13-19 = JOVEM 20-HIGH = ADULTO; F = FEMININO M = MASCULINO;
VALUE $SEX
Obs.:
LOW = Lowest (do menor valor) HIGH = Highest (ao maior valor)
Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; ... ... PROC FORMAT; VALUE FAIXAS LOW-12 = CRIANCA 13-19 = JOVEM 20-HIGH = ADULTO; VALUE $SEX F = FEMININO M = MASCULINO; PROC PRINT; FORMAT IDADE FAIXAS. SEXO $SEX.; RUN;
22
6.4 PROC FREQ
O procedimento FREQ ser til para variveis discretas e qualitativas. Para as variveis contnuas aconselha-se usar o PROC UNIVARIATE ou PROC MEANS, pois este tipo de varivel possui muitos valores diferentes. Outro benefcio que a tabela de freqncia ou tabulao cruzada oferece poder sumarizar variveis caracteres, porque somente variveis numricas podem ser sumarizadas por estatsticas como mdia e desvio padro. - Tabelas de Freqncia Simples Este tipo de tabela poder ajudar a sumarizao dos dados. Mostrar as distribuio dos valores das variveis, podendo-se verificar quantas observaes tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19 anos e assim por diante. Para obter as Tabelas de Freqncias Simples das variveis que interessam usa-se o comando TABLES com a relao das mesmas.
Ex.: PROC ou
FREQ; TABLES IDADE PESO ALTURA; IDADE PESO ALTURA /LIST;
PROC FREQ; TABLES
Podemos utilizar o comando FORMAT:
Ex.: PROC
FREQ; TABLES FORMAT TABLES FORMAT
IDADE /LIST; IDADE FAIXAS.; SEXO /LIST; SEXO SEXOV.;
Com o uso do comando FORMAT na tabela de freqncia para as variveis IDADE e SEXO teremos no relatrio a DESCRIO para cada valor. - Tabelas de Freqncia Cruzada A tabela de freqncia cruzada mostra a unio da distribuio de valores de duas ou mais variveis. Por exemplo, queremos saber quantas mulheres com 19 anos temos no arquivo estudado.
23
Para obter-mos a resposta devemos cruzar as duas variveis: IDADE e SEXO.
Ex.: PROC ou PROC
FREQ; TABLES
IDADE*SEXO /LIST; IDADE*SEXO /LIST; IDADE FAIXAS. SEXO
FREQ; TABLES FORMAT
SEXOV.;
Aconselha-se usar o comando /LIST para facilitar a visualizao da tabela cruzada. Este comando tambm ser aconselhado quando quisermos cruzar mais de duas variveis.
Ex.: PROC
FREQ; TABLES SEXO*IDADE*PESO /LIST;
Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; ... PROC FREQ; TABLES SEXO*(IDADE--PESO) /LIST /*(I at P)*/ TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/ RUN;
6.5 PROC MEANS
Suponhamos que no arquivo que se est estudando possua valores para a varivel PESO. Pode-se obter um quadro completo desses pesos pela simples listagem dos mesmos (PROC FREQ). Mas isso significa que teramos que olhar e analisar todos os valores. O PROC MEANS sumariza todos os valores para computar a mdia. Ento teremos como resultado um nico valor representativo para todo o grupo. O PROC MEANS fornece outras estatsticas como: - Nmero de Observaes - Mdia - Desvio Padro - Valor Mnimo e Mximo - Erro padro - Varincia - Coeficiente de variao
24
Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC MEANS; VAR IDADE ALTURA PESO; RUN;
Usando o comando BY Podemos obter estatsticas sumarizadas por grupos de dados associados ao comando BY. Por exemplo queremos calcular as estatsticas para as mesmas variveis do exemplo acima s que por SEXO. Obs.: Antes de usar o comando BY para qualquer procedure SAS, o arquivo dever ser ordenado pelas variveis a serem usadas pelo comando BY.
Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC SORT; BY SEXO; PROC MEANS; BY SEXO; VAR IDADE ALTURA PESO; RUN;
Obs.: Valores no informados (representados por um ponto . ) no sero includos no clculo da PROC MEANS.
25
SAS/STAT
Pr requisito: Ter conhecimento de Estatstica Bsica. Ter conhecimento do SAS/BASIC; Objetivo: Este curso tem por objetivo expor alguns conceitos estatsticos e interpret-los atravs da utilizao de procedimentos do Sistema SAS. Os exemplos apresentados ilustram caractersticas da release 6.08 do SAS/STAT e orientam o usurio na sua programao quando seu interesse for: Obter estatsticas descritivas elementares; Desempenhar testes estatsticos de significncia para verificar a normalidade da distribuio de seus dados; Testar a igualdade de mdias entre grupos de observaes; Encontrar um modelo que explique o comportamento de seus dados e, atravs deste modelo, fazer previses e calcular intervalos de confiana para parmetros da populao em estudo. Analisar a variabilidade de uma srie de dados atravs do Mtodo de Anlise de Varincia (ANOVA), critrio de tomada de decises estatisticamente formulado para detectar qualquer diferena no desempenho mdio de um ensaio experimental. Os conceitos bsicos sero abordados a medida que os procedimentos forem sendo utilizados, assim como a interpretao das principais sadas.
26
7 ESTATSTICA DESCRITIVA E TESTE DE NORMALIDADE 7.1 Introduo Depois que o usurio cria seu arquivo de dados ele pode desejar sumarizar estes dados atravs de medidas que descrevam seu comportamento. Estas medidas incluem parmetros de posio como mdias, modas, medianas, quartis e percentis, parmetros de disperso, como varincias, desvios padres, amplitude (range), e parmetros que auxiliam na descrio da forma dos dados, como assimetria e curtose (ver anexo 2). Nos problemas que envolvem a Estatstica Indutiva, os conjuntos de dados analisados so representados por amostras retiradas das populaes de interesse. Sendo as amostras aleatrias, todos os seus elementos fornecero valores aleatrios da varivel em anlise. Para caracterizar a distribuio dos diversos valores assumidos por uma varivel aleatria, o conceito de distribuio de probabilidades deve ser utilizado e estendido s populaes, ou seja, cada valor da amostra deve ser considerado como valor de uma varivel aleatria cuja distribuio de probabilidade a mesma da populao no instante da retirada desse elemento da amostra. Os valores calculados em funo dos elementos da amostra, denominam-se estatsticas. Se estas estatsticas forem utilizadas para inferir informaes a respeito de uma populao, elas so consideradas como variveis aleatrias, e tero, portanto uma distribuio de probabilidades, com uma mdia, uma varincia, etc. Muitos mtodos da anlise estatstica assumem que os dados da amostra provm de uma populao com distribuio normal. A distribuio normal tem uma definio matemtica precisa, com as seguintes caractersticas: - ser completamente definida por sua mdia e seu desvio padro. - ser uma distribuio simtrica, ou seja, sua mdia coincide com sua moda, que por sua vez coincide com sua mediana. - ser uma distribuio regular. Do seu ponto central mais alto at suas extremidades no existe padres irregulares. - ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuio). 7.2 Teste de normalidade Nos testes de normalidade estabelecida a idia de que uma amostra provm de uma distribuio normal. Atravs da amostra uma estatstica calculada e testada para checar essa idia. Uma comparao feita entre a forma da distribuio da amostra, com a forma de uma distribuio normal. Se no for encontrada nenhuma evidncia para rejeitar a hiptese de normalidade, prossegue-se as anlises baseando-se na suposio de que os dados da amostra so normalmente distribudos (anlise paramtrica). Quando os dados no so gerados por uma distribuio normal, a anlise deve ser baseada em mtodos Treinamento Sistema SAS 27 Prof. Luis Felipe Lopes
no paramtricos. A distribuio normal simtrica, com os valores distribudos em forma de sino. Ao desempenhar um teste de hiptese tem-se sempre uma hiptese nula que descreve uma idia sobre a populao, e uma hiptese alternativa, que descreve uma idia alternativa sobre a populao. Nos testes para a normalidade, a hiptese nula que os dados da amostra so gerados por uma distribuio normal. A hiptese alternativa que eles so gerados por uma distribuio no normal. O mtodo utilizado para testar hipteses consiste num contedo de deciso onde a probabilidade de rejeitar a hiptese nula, sendo ela verdadeira (erro do tipo I), no excede um valor prfixado chamado de nvel de significncia do teste. Ao menor nvel de significncia para o qual a hiptese nula rejeitada denominamos probabilidade de significncia (p-valor). Se p-valor > h evidncias de que a hiptese nula verdadeira. A PROC UNIVARIATE utilizada para a obteno de estatsticas descritivas. Ela difere de outros procedimentos SAS por fornecer maiores detalhes das variveis, tais como plots das distribuies, tabelas de freqncia e testes estatsticos para a normalidade. FORMA GERAL: PROC UNIVARIATE DATA = arquivo de dados opes; VAR variveis; BY variveis; FREQ varivel; ID variveis; OUTPUT OUT = arquivo de dados palavra-chave = nomes; OPES DISPONVEIS: FREQ gera uma tabela de freqncia com valores de freqncia, percentagens e percentagens acumuladas. suprime toda a informao do OUTPUT. Esta opo utilizada geralmente na criao de um arquivo de dados de sada. desempenha um teste para a hiptese nula de que os dados provm de uma distribuio normal. Dependendo do tamanho da amostra, o teste utilizado ser baseado na estatstica de Shapiro-Wilk (N<2000) ou na estatstica de Kolmogorovs D. (N>2000).
NOPRINT
NORMAL
28
PLOT
produz plotes de probabilidade da distribuio normal e plotes em box que auxiliam na determinao da forma da distribuio dos dados investigados.
COMANDOS SELECIONADOS: VAR BY lista as variveis a serem sumarizadas no arquivo de dados. especifica subgrupos onde as estatsticas devem ser obtidas. Para usar este comando o arquivo j dever estar ordenado pela varivel de subgrupo . especifica variveis de freqncia. especifica as variveis que iro identificar os valores extremos. cria arquivo de sada que ir gravar as estatsticas geradas.
FREQ ID
OUTPUT OUT
Estatsticas reservadas utilizadas na criao de um arquivo de sada: N MEAN STDMEAN SUM STD NMISS VAR CV RANGE SKEWNESS Prob T KURTOSIS MEDIAN
Ex1.: Resultados obtidos de uma distribuio aproximadamente Normal. Para ilustrar, suponha que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa est sendo representada pela varivel IDADE, e sua identificao pela varivel IDENT.
OPTIONS FORMDLIM='*' LS=80; DATA NORM A; /* EXEMPL01 SAS */ INPUT IDENT IDADE @@; CARDS; 1 72 2 69 3 75 4 71 5 71 6 73 7 70 8 67 9 71 10 72 11 73 12 68 13 69 14 70 15 70 16 71 17 74 18 72 ; PROC UNIVARIATE NORMAL PLOT FREQ; VAR IDADE; ID IDENT; RUN;
29
ANLISE DOS RESULTADOS:

Univariate Procedure Variable=IDADE Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 18 71 2.057983 0 90810 2.898568 146.3702 18 9 85.5 0.98356 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 18 1278 4.235294 -0.13576 72 0.485071 0.0001 18 0.0001 0.0001 0.9666
A tabela acima fornece estatsticas descritivas da varivel IDADE, alm do teste para normalidade. O valor zero de assimetria traduz a forma simtrica da distribuio. A estatstica de curtose de -0.13576 significa que a distribuio de valores relativamente achatada. O alto p-valor associado ao teste de normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se obtenha este mesmo resultado se os dados fossem oriundos de uma populao Normal. Por esta razo so poucas as chances de rejeitar a hiptese nula. Em geral, rejeita-se a hiptese nula de normalidade dos dados somente quando o pvalor for menor que 0.05 . Os quartis, percentis, a moda da distribuio, e os valores extremos esto relacionados a seguir:
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 75 72 71 70 67 8 2 71 Extremes Lowest 67( 68( 69( 69( 70( ID 8) 12) 13) 2) 15) Highest 72( 73( 73( 74( 75( ID 18) 6) 11) 17) 3) 99% 95% 90% 10% 5% 1% 75 75 74 68 67 67
Range Q3-Q1 Mode
O plote stem leaf (tronco e folhas) mostra a distribuio dos valores observados. Entre estes plotes e o boxplot, h uma coluna que fornece a freqncia de observaes em cada barra. O box plote indica o 25o e 75o percentil. A linha Treinamento Sistema SAS 30 Prof. Luis Felipe Lopes
central indica a mediana (50o percentil). O sinal de (+) indica a mdia da distribuio, que est coincidindo com a mediana.
Stem 75 74 73 72 71 70 69 68 67 Leaf 0 0 00 000 0000 000 00 0 0 ----+----+----+----+ # 1 1 2 3 4 3 2 1 1 Boxplot | | | +-----+ *--+--* +-----+ | | |
O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+) formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra gerada por uma distribuio normal, os asteriscos devem formar uma linha reta e cobrir a maioria dos sinais positivos. A distribuio amostral aproxima-se da normalidade.
Univariate Procedure Variable=IDADE Normal Probability Plot 75.5+ * +++++ | * +++++ | * +*+++ | **+*++ 71.5+ **+**++ | * **+++ | * +*+++ | +*+++ 67.5+ +*+++ +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
f(+) = 71 + 2.05 IDADE A opo FREQ da PROC UNIVARIATE permite a obteno de uma tabela de distribuio de freqncia onde o nmero de ocorrncias de cada valor da varivel IDADE contabilizado juntamente com os percentuais e percentuais acumulados de ocorrncia em cada categoria.
Frequency Table Value Count 67 1 68 1 69 2 70 3 71 4 Percents Cell Cum 5.6 5.6 5.6 11.1 11.1 22.2 16.7 38.9 22.2 61.1 Value Count 72 3 73 2 74 1 75 1 Percents Cell Cum 16.7 77.8 11.1 88.9 5.6 94.4 5.6 100.0
31
8 - ANLISE DE CORRELAO E REGRESSO
8.1 Introduo
Existem numerosos procedimentos estatsticos para investigar relacionamentos bivariados (entre somente duas variveis). Estes procedimentos podem fornecer um teste estatstico de significncia, uma medida de associao, ou ambos. O teste estatstico objetiva testar hipteses sobre o grau de relacionamento entre variveis na populao. Por exemplo, o coeficiente de correlao de Pearson. Num estudo para se testar a hiptese nula de que a correlao entre duas variveis zero na populao, uma amostra de 200 observaes determinou um coeficiente de correlao entre duas variveis de 0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade de significncia de 0.001. Este p-valor sugere que existe menos que uma chance em 1000 de se obter um valor igual ou superior 0.35, para correlao amostral, se a hiptese nula fosse verdadeira. Rejeita-se portanto a hiptese nula, concluindo-se que a correlao significativamente diferente de zero na populao. A escolha apropriada da estatstica a ser usada no estudo do relacionamento entre duas varivel ir depender da natureza delas. Ateno particular deve ser dada aos nveis de medidas usados para avaliar as duas variveis. Uma breve discusso este respeito feita a seguir. Uma varivel medida numa escala nominal representa classes que indicam o grupo ao qual pertence uma determinada observao. Por exemplo, SEXO uma varivel que est numa escala nominal. Uma observao pode ser classificada como sendo da classe "masculino" ou da classe "feminino". Uma varivel medida numa escala ordinal representa valores num rank ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este rank de valores so ditos ordinais. Escalas ordinais de valores porm possuem uma limitao: iguais diferenas na escala de valores no tem necessariamente o mesmo significado quantitativo. Isto quer dizer que a diferena de habilidade verbal entre um aluno com grau 1 e um aluno com grau 2 no necessariamente a mesma diferena existente entre as habilidades de um aluno com grau 2 e um com grau 3. Uma varivel medida numa escala de intervalo significa que iguais diferenas entre valores da escala tem igual significado quantitativo. Um exemplo a escala Fahrenheit de medio de temperatura. A diferena entre 70 e 75 graus igual a diferena entre 75 e 80 graus. As unidades de medidas so iguais atravs de todo o range da escala. A limitao existente nesta escala que no existe um ponto zero real, ou seja, o zero da distribuio de temperaturas no indica que no haja nenhum calor presente no ambiente. Treinamento Sistema SAS 32 Prof. Luis Felipe Lopes
Uma varivel medida numa escala de razo aquela que iguais diferenas entre valores da escala tem igual significado quantitativo. Neste caso, alm deste fato, possvel interpretar a razo entre os valores da escala. Um valor para peso igual zero indica nenhum peso corporal. Com isto, possvel estabelecer que o peso de uma criana com 20 Kg o dobro de peso de uma criana com 10 kg . A tabela a seguir identifica as estatsticas apropriadas para avaliar o relacionamento de pares de variveis nos seus respectivos nveis de medida. TABELA COM ESTATSTICAS APROPRIADAS
R E S P O S T A
Razo Intervalo Ordinal Nominal
PREDITORA (INDEPENDENTE) Xi Nominal Ordinal Intervalo ANOVA Spearman Pearson ou Spearman ANOVA Spearman Pearson ou Spearman Kruskal Spearman --------Wallis Chi-quadrado -----------------
Razo Pearson ou Spearman ----------------------
8.2 Correlao de Pearson (PROC CORR) O estudo de medidas de associao reflete o grau da intensidade da relao entre variveis. Se X e Y representam duas variveis, ambas acessadas na escala de intervalo ou de razo, o diagrama de disperso ir mostrar a localizao dos pontos (x , y) em um sistema de coordenadas retangulares. Se os pontos desse diagrama se distriburem nas proximidades de uma reta, como nas figuras (A) e (B) a seguir, a correlao denominada linear. Se todos os pontos se distriburem prximos de alguma curva, a correlao denominada no linear, como pode ser visto na figura (C). Quando os pontos no apresentam nenhuma forma definida, figura (D), diz-se que as variveis x e y so no correlacionadas. Quando o coeficiente de Pearson utilizado para medir o grau de relacionamento entre duas variveis com relacionamento no linear, ele normalmente subestima o verdadeiro valor. Por esta razo sempre prudente avaliar primeiro o diagrama de disperso para as variveis, usando para isso a PROC PLOT, que tem a seguinte forma geral: PROC PLOT DATA= ARQSAS; PLOT Y*X; RUN;
33
Para o tratamento quantitativo do problema da disperso dos dados amostrais necessrio estabelecer medidas de correlao. O coeficiente de correlao de Pearson, simbolizado por r, ser utilizado para medir o relacionamento entre duas variveis que estejam na escala de intervalo ou de razo. Outra considerao a ser feita ao usar esta medida de associao, que ambas as amostras tenham sido retiradas de uma populao Normal. Caso contrrio, uma medida de associao no paramtrica dever ser usada, tal como o coeficiente de correlao de Spearman. O range de r varia de -1 a 1. Se r for um valor prximo de 1 significa que as duas variveis so correlacionadas positivamente, se for prximo de -1, significa que as variveis so correlacionadas negativamente. Valores de r prximos de zero correspondem a uma disperso de pontos que no mostra nem uma tendncia crescente, nem decrescente, indicando uma baixa correlao entre as variveis. PROC CORR A procedure CORR utilizada para gerar coeficientes de correlao. Quando utilizada sozinha, ela obtm coeficientes de Pearson para todas as variveis numricas do arquivo, alm de estatsticas bsicas como mdias e desvios padres da distribuio de dados.
34
Outros coeficientes de correlaco podem ser obtidos como opo da PROC CORR. So eles: Kendall, Hoeffding e Spearman, que so medidas no paramtricas de associao . FORMA GERAL: PROC CORR opes; VAR variveis; WITH variveis; FREQ variveis; BY variveis; RUN; OPES DISPONVEIS: DATA= arquivo.sas OUTP= arquivo.sas OUTS= arquivo.sas OUTK= arquivo.sas OUTH = arquivo.sas NOSIMPLE arquivo com os dados a serem analisados. arquivo de sada - Pearson arquivo de sada - Sperman arquivo de sada - Kendall arquivo de sada - Hoeffding suprime a impresso das estatsticas descritivas bsicas.
COMANDOS DISPONVEIS: VAR variveis WITH variveis especifica as variveis a serem correlacionadas especifica as variveis que devem aparecer na lateral da matriz de correlao. especifica variveis de freqncia especifica subgrupos onde a correlao deve ser obtida. Para usar o comando BY, o arquivo j deve estar ordenado pela varivel de subgrupo.
FREQ varivel BY variveis
Ex2.: O tempo necessrio para um trem parar depois que percebe um perigo composto de tempo de reao e tempo de freagem. A varivel DIST representa a distncia de parada de um trem que est a uma velocidade VELOC no instante que o perigo avistado. Analise o diagrama de disperso e determine o coeficiente de correlao entre as duas variveis.
35
OPTIONS FORMDLIM='*' LS=80; DATA PERIGO A; /* EXEMPL02 SAS */ INPUT VELOC DIST @@; CARDS; 20 54 30 90 40 138 50 206 60 292 70 396 ; PROC PLOT; PLOT DIST*VELOC; PROC CORR; VAR VELOC DIST; TITLE 'CORRELAAO ENTRE VELOCIDADE E DISTANCIA DE PARADA'; RUN;

Plot of DIST*VELOC. Legend: A = 1 obs, B = 2 obs, etc.
DIST | | 400 + A | | | A | | 200 + A | | A | A | A | 0 + --+-------------+-------------+-------------+-------------+-------20 30 40 50 60 70 VELOC
O diagrama de disperso ostra claramente uma tendncia crescente da distribuio dos dados, ou seja, aumentando-se a velocidade do trem, aumentase a distncia de parada.
CORRELACAO ENTRE VELOCIDADE E DISTANCIA DE PARADA Correlation Analysis 2 'VAR' Variables: VELOC DIST
Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum
VELOC 6 45.00000 18.70829 270.00000 20.00000 70.00000 DIST 6 196.00000 129.67652 1176 54.00000 396.00000 Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6 VELOC DIST
36
VELOC DIST
1.00000 0.0 0.98268 0.0004
0.98268 0.0004 1.00000 0.0
O valor de 0.98268 mede o coeficiente de correlao entre as variveis VELOC e DIST. Um p-valor de 0.0004 indica uma forte evidncia que a correlao no nula. O p-valor a probabilidade de significncia para se testar a hiptese de que a verdadeira correlao da populao em questo zero. Ex3.: Determinar o coeficiente de correlao entre as alturas e os pesos de 300 homens nos EUA, constantes da seguinte tabela de freqncias: Altura (metros)
P E S O (kg) 45 a 54.5 55 a 64.5 65 a 74.5 75 a 84.5 85 a 94.5 95 a 104.5 105 a 114.5 1.5 a 1.58 2 7 5 2 0 0 0 1.6 a 1.68 1 8 15 12 7 2 0 1.7 a 1.78 0 4 22 63 28 10 1 1.8 a 1.88 0 2 7 19 32 20 4 1.9 a 1.98 0 0 1 5 12 7 2
OPTIONS FORMDLIM='*' LS=80; DATA AGRUPA A; /* EXEMPL03 SAS */ DO MEDPES = 49.75 T0 109.75 BY 10; DO MEDALT = 1.54 TO 1.94 BY 0.10; INPUT N_OBS @@; OUTPUT; END; END; CARDS; 2 1 0 0 0 7 8 4 2 0 5 15 22 7 1 2 12 63 19 5 0 7 28 32 12 0 2 10 20 7 0 0 1 4 2; ; PROC PRINT; PROC CORR; VAR MEDPES MEDALT; FREQ N_OBS; TITLE 'CORRELACAO PARA DADOS AGRUPADOS'; RUN;
37

OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 MEDPES 49.75 49.75 49.75 49.75 49.75 59.75 59.75 59.75 59.75 59.75 69.75 69.75 69.75 69.75 69.75 79.75 79.75 79.75 79.75 79.75 89.75 89.75 89.75 89.75 89.75 99.75 99.75 99.75 99.75 99.75 109.75 109.75 109.75 109.75 109.75 MEDALT 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 N_OBS 2 1 0 0 0 7 8 4 2 0 5 15 22 7 1 2 12 63 19 5 0 7 28 32 12 0 2 10 20 7 0 0 1 4 2
CORRELACAO PARA DADOS AGRUPADOS Correlation Analysis 2 'VAR' Variables: MEDPES MEDALT
Simple Statistics Variable MEDPES MEDALT N 300 300 Mean 82.31667 1.76033 Std Dev 12.12031 0.09824 Sum 24695 528.10000 Minimum 49.75000 1.54000 Maximum 109.75000 1.94000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 300 / FREQ Var = N_OBS MEDPES MEDPES MEDALT 1.00000 0.0 0.54023 0.0001 MEDALT 0.54023 0.0001 1.00000 0.0
38
O coeficiente de correlao de 0.54023. Um p-valor de 0.0001 reflete uma forte evidncia de que a correlao entre altura e o peso difere de zero.
8.3 Regresso (PROC REG)
Os coeficientes de correlao indicam somente a existncia ou no de algum tipo de relacionamento entre variveis. Para investigar a forma desse relacionamento, o mtodo mais apropriado a anlise de regresso, onde a relao pode ser expressa sob forma matemtica, por meio de uma equao que interligue as variveis. Atravs do diagrama de disperso possvel visualizar uma curva que se aproxime dos dados. Essa curva denominada curva de ajustamento. Para fins de referncia, a seguir encontram-se relacionados vrios tipos comuns de curvas de ajustamento e suas equaes. As variveis independentes esto representadas pela letra X e as variveis dependentes pela letra Y. As demais letras representam constantes. Funo Linear Funo Quadrtica Funo Cbica Funo Exponencial Y = a0 + a1 X Y = a0 + a1 X + a2 X2 Y = a0 +a1 x + a2 x2 + a3 x3 Y = a bx log y = Ioga + (log b) x = a0 +a1 x
Para evitar o critrio individual na construo de funes que se adaptem ao conjunto de dados, necessrio instituir uma definio da "melhor funo de ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados (aderncia) proporcionada a partir da distncia dos pontos observados at a equao de regresso. De todas as equaes que podem ser traadas atravs do grupo de pontos no diagrama de disperso, a funo que melhor se ajusta aquela com a menor soma dos quadrados das distncias (Mtodo dos Mnimos Quadrados). Estas distncias so designadas como desvios, erros ou resduos, e podem ser positivas, negativas ou nulas, como apresentado na figura a seguir:
39
O modelo linear: Yj = 0 + 1 Xj + j Suas suposies: - Xj so fixos; - 0 e 1 so parmetros fixos desconhecidos; - j ~ N id (0 , 2) . Considere a regresso como um particionamento da Soma Total dos Quadrados:
( Yj Y )
$ = Yj Y
$ ) + (Y Y )
2 j j
SST = SSM + SSE onde: SST - a soma total dos quadrados. SSM - a soma dos quadrados devido ao modelo (soma dos quadrados devido regresso ). SSE - a soma dos quadrados devido ao erro , ou resduo. Num modelo de regresso preciso: Estimar: - 2, ou seja, o erro mdio quadrtico; - 0 e 1.
40
Testaras Hipteses : H0: 1 = 0 0 = 0 Obter valores preditos e limites de predio. Estimar a mdia da varivel resposta Y, dado um valor fixo X, determinando tanto as estimativas por ponto como por intervalo.
8.4 Inferncia na regresso
Estatsticas usadas na Anlise de Regresso: - valor estimado de 2 =MSE, Mdia quadrtica para o erro = SSE/ df(erro) = Soma dos Quadrados devido ao erro / df(erro) - estimativas de mnimos quadrados de 0 e 1, que minimize SSE.
min
(Y j Y )
- teste de 0 = 0 e 1 = 0 com a estatstica t de Student ou teste de 0 no modelo / 1 = 0 com a estatstica F. 8.5 Resduos
Os resduos representam o comportamento de Y (varivel resposta), do qual as variveis independentes no fazem a estimativa. Se for suposto que o modelo correto, que no se tenha omitido nenhuma varivel independente, e tambm que os resduos so normais e independentemente distribudos, com mdia zero e varincia constante, pode-se provar hipteses, assinalar limites de confiana, predizer valores da varivel dependente a partir das variveis independentes e computar probabilidades de significncia . Um plote dos resduos sobres as variveis independentes ou sobre os valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo necessitar de algum outro termo, o plote dos resduos sugere que tipo de termo pode ser adicionado ao modelo. Alguns modelos so mostrados a seguir:
41
PROC REG A procedure REG o procedimento SAS mais comum para anlise da regresso. um procedimento interativo, ou seja, o usurio pode dispor de seus comandos bsicos para ajustar uma funo, verificar a sada das estatsticas, e posteriormente adicionar mais comandos dando continuidade suas anlises sem necessidade de reinicializar o comando da PROC. Quando usado interativamente, o comando RUN no finaliza o procedimento. Para finaliz-lo o usurio deve estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que nunca deve ser acessado quando o procedimento estiver em curso. FORMA GERAL: PROC REG DATA = arquivo SAS opes; MODEL dependente = independente / opes; VAR varivel; ID varivel; OUTPUT OUT = novo arquivo P = nova varivel R = nova varivel U95 = nova varivel L95 = nova varivel U95M = nova varivel L95M = nova varivel; PLOT varivel Y * varivel X = 'smbolo'; PRINT opes; RUN; OPES DISPONVEIS NA PROC REG: Treinamento Sistema SAS 42 Prof. Luis Felipe Lopes
SIMPLE OUTEST
Lista estatsticas descritiva para cada varivel. Cria um data set contendo as estimativas dos parmetros do modelo de regresso.
OPES DISPONVEIS NO COMANDO CLI Fornece limites de confiana superior e inferior a 95% para um valor particular predito da varivel dependente. Fornece limites de confiana superior e inferior a 95% para a mdia da varivel dependente nos nveis da(s) varivel(is) independentes para cada observao. Fornece valores preditos a partir do modelo estimado para cada observao do arquivo a de entrada. Fornece valores residuais (REAL-PREDITO) observao e uma anlise dos resduos. para cada
CLM
SELECTION = mtodo Especifica o mtodo usado para seleo do modelo (Backward, Stepwise, MAXR, ADJRSQ, por exemplo). O default NONE (usa o modelo completo).
ADJRSQ
Fornece o R-Square ajustado para o grau de liberdade, para cada modelo selecionado. Fornece o Critrio de Informao de Akaike's. Fornece o Critrio de Informao Bayesiano de Sawa . Fornece o erro mdio quadrtico para cada modelo.
AIC BIC MSE
COMANDOS DISPONVEIS: MODEL VAR especifica as variveis dependentes e independentes. lista a varivel (ou variveis) que possam vir a ser adicionadas no modelo durante o processo de anlise. Este comando deve aparecer antes do primeiro comando RUN. especifica a varivel que identifica as observaes na sada do relatrio, quando so solicitadas estimativas de valores individuais de uma varivel independente ( valores preditos ), valores residuais, etc. 43 Prof. Luis Felipe Lopes
ID
OUTPUT
especifica o arquivo de sada e os nomes das variveis que iro conter os valores previstos, residuais , etc. gera plotes de disperso com a varivel y representando o eixo vertical e a varivel x o eixo horizontal. Para plotar estatsticas utiliza-se as palavras chave (nomes reservados) disponveis no comando OUTPUT. (Ex: plot y.*p;) Lista as opes disponveis.
PLOT
PRINT
Os seguintes nomes reservados so utilizados para especificar as estatsticas desejadas. Eles devem ser seguidos por um nome de varivel: P (ou PREDICTED) R (ou RESIDUAL) U95, L95 representa os valores preditos. representa os valores residuais para cada observao. representam, respectivamente, os limites superior e inferior de predio para os valores observados. representam, respectivamente os limites superior e inferior de confiana para a mdia da populao.
U95M, L95M
Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de uma mquina industrial. O experimento utilizou uma mistura de leo diesel e gs, derivados de materiais destilados orgnicos. O valor da capacidade da mquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotaes por minuto (rpm X 100). Analisar o diagrama de disperso e encontrar um modelo de regresso que se ajuste aos dados.
OPTIONS FORMDLIM='*' LS=80; DATA MAQUINA1 A; /* EXEMPL04 INPUT VELOC CAPAC @@; CARDS; 22.0 64.03 20.0 62.47 18.0 12.0 37.48 15.0 46.85 17.0 22.0 64.03 20.0 62.63 18.0 12.0 36.63 10.5 32.05 13.0 19.0 56.65 21.0 62.61 23.0 ; PROC PLOT; PLOT CAPAC * VELOC = '0'; TITLE 'DIAGRAMA DE DISPERSAO'; RUN; SAS */ 54.94 51.17 52.90 39.68 65.31 16.0 19.0 16.0 15.0 24.0 48.84 58.00 48.84 45.79 63.89 14.0 21.0 14.0 17.0 43.73 63.21 42.74 51.17
44
PROC
REG; MODEL CAPAC = VELOC; OUTPUT OUT= RESIDl P=PREVISTO R=RESIDUAL; TITLE 'AJUSTE DA FUNCAO LINEAR'; RUN; PROC GPLOT; PLOT RESIDUAL* VELOC /VREF = 0; TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR'; RUN; PROC UNIVARIATE DATA= RESIDl NORMAL PLOT; VAR RESIDUAL; TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS'; RUN;

DIAGRAMA DE DISPERSAO Plot of CAPAC*VELOC. Symbol used is '0'.
CAPAC | | 65 + 0 | 0 0 | 0 | 0 0 60 + | | 0 | 0 55 + 0 | | 0 | 0 50 + | 0 | 0 | 0 45 + | 0 | 0 | 40 + 0 | | 0 | 0 35 + | | | 0 30 + | --+-------+--------+--------+---------+-------+--------+--------+10 12 14 16 18 20 22 24 VELOC NOTE: 4 obs hidden.
45
O diagrama de disperso mostra uma tendncia crescente da capacidade da mquina em funo da velocidade utilizada. Os dados observados sero ajustados inicialmente por uma funo linear. o relatrio de sada consta de duas sees, Anlise da Varincia e Estimativas dos Parmetros, apresentadas a seguir:
AJUSTE DA FUNCAO LINEAR Model: MODEL1 Dependent Variable: CAPAC Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 1 22 23 Sum of Squares 2294.80982 76.08652 2370.89633 1.85970 52.31833 3.55458 Mean Square 2294.80982 3.45848 R-square Adj R-sq F Value 663.532 Prob>F 0.0001
0.9679 0.9664
Parameter Estimates Variable INTERCEP VELOC DF 1 1 Parameter Estimate 6.100234 2.650500 Standard Error 1.83396047 0.10289565 T for H0: Parameter=0 3.326 25.759 Prob > |T| 0.0031 0.0001
A seo de Anlise de Varincia contm informaes sobre a qualidade do ajuste. So elas: - DF Identifica as fontes de variaes dos dados e os respectivos graus de liberdade. - SOMA DOS QUADRADOS (SS): Separam a variao dos dados em pores que podem ser tanto atribudas ao modelo como ao erro. Parte da variao total da capacidade da mquina se deve velocidade utilizada e outra parte se deve a erros aleatrios ou outros fatores independentes da velocidade. SS total = SS models + SS erro Observando os valores da varivel Capacidade da Mquina quando o valor da velocidade de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta variao se deve ao erro do experimento ou a fatores outros que no a velocidade.
46
- MDIA QUADRTICA (MS): SS/DF MS erro = 3.45848 estima a varincia da populao dos valores da capacidade da mquina para valores determinados da velocidade. - F, PROB > F: Fornece o valor da estatstica teste e o p-valor associado ao teste de hiptese de que o modelo explica uma parte significante da variao dos dados. - R_SQUARE : SS modelo / SS Total R_Square a frao da variao total devida s variveis do modelo. Seu valor varia dentro do intervalo [0,1], sendo que quanto mais prximo de 1, melhor o modelo explica a variao dos dados. Neste caso o modelo proposto explica 96% da variabilidade total. implicando um alto grau de aderncia dos valores observados reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square no a explica sozinho. Recomenda-se tambm uma Anlise dos Resduos. - Adj R_SQUARE uma estatstica alternativa ao R-Square. utilizada em REGRESSO MLTIPLA. A seo Estimativas dos Parmetros prov coeficientes para a linha de regresso e testes para determinar se estes coeficientes so significativamente diferentes de zero. O modelo de ajuste, neste caso, representado por: CAPAC = 6.10 + 2.65 VELOC O valor de INTERCEP = 6.10 no tem uma interpretao especfica no modelo. Para VELOC = 0, a capacidade predita pelo modelo de 6.10 HP. O coeficiente 2.65 pode ser interpretado como o acrscimo da capacidade esperada para cada unidade adicional da velocidade. Para verificar a suposio de que os coeficientes so no nulos, tem-se: - DF Fornece o grau de liberdade para os parmetros estimados. Para cada parmetro estimado DF= 1. - Erro Padro: Mede o quanto cada parmetro estimado poderia vaiar de um conjunto de dados para outro. Eles so utilizados na construo de intervalos de confiana.
47
- T para H0 : Parmetro = 0: Estatstica para testar a hiptese que o parmetro igual a zero. Seu valor dado por: Valor Estimado do Parmetro / Erro Padro - PROB > T: Fornece o p-valor para a estatstica teste T. Para o parmetro VELOC, o p-valor de 0.0001, evidenciando que o grau de inclinao da reta ajustada diferente de zero. O intercepto tambm difere de zero.
A anlise dos resduos ei= Yi - Y i = Yi - 6.10 - 2.65 VELOC importante para avaliar se a escolha do modelo apropriada para o conjunto de dados apresentado. Pelo comportamento da distribuio dos resduos (PROC GPLOT) sugere-se a utilizao de um termo quadrtico.
A validade dos testes de significncia dependem da suposio de que os resduos so normalmente distribudos. Para se verificar essa suposio basta utilizar a PROC UNIVARIATE com as opes NORMAL e PLOT, o que gera as seguintes sadas:
48
TESTE DE NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 24 0 1.818821 -0.95935 76.08652 . 0 24 1 4 0.896308 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 24 0 3.308109 4.145739 76.08652 0.371265 1.0000 13 0.8388 0.9119 0.0170
Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min Range Q3-Q1 Mode Extremes Lowest -5.82224( -1.88049( -1.75174( -1.27624( -0.90924( Obs Highest 24) 1.13076( 17) 1.449259( 23) 1.54026( 16) 3.35976( 13) 3.51976( Obs 3) 10) 9) 2) 12) 3.51976 0.92076 0.011261 -0.67199 -5.82224 9.342001 1.592748 -0.38124 99% 95% 90% 10% 5% 1% 3.51976 3.35976 1.54026 -1.75174 -1.88049 -5.82224
A estatstica W de Shapiro WIL indica que os dados no so normalmente distribudos. O valor da assimetria de 0.9593, encontrando-se fora do intervalo (-0.87 , 0.87), e o valor da curtoze de 4.1457, que est fora do intervalo(1.20,2.30). Estes so os intervalos a 95% de confiana para a assimetria e curtoze, referentes a um tamanho de amostra n=24, retirada de uma populao normalmente distribuda. (Ver ANEXO 2).
Stem 3 2 1 0 -0 -1 -2 -3 -4 -5 Leaf 45 0145 0023358 9954441 983 # 2 4 7 7 3 Boxplot 0 | +--+--+ +-----+ |
8 ----+----+----+----+
TESTE DE NORMALIDADE DOS RESIDUOS
49
Univariate Procedure Variable=RESIDUAL Residual
Normal Probability Plot 3.5+ * ++*++ | ++++++ | +++** * 0.5+ *+***+*** | * ****+*+ | * * *++++ -2.5+ ++++++ | +++++ |++++ -5.5+ * +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
Observa-se pelo histograma dos resduos que a distribuio assimtrica a esquerda. Os asteriscos (*) no plote acima representam os resduos observados, e os sinais de (+) so utilizados para prover uma linha de referncia baseada na mdia e no desvio padro amostral, que so indicadores do intercepto e do grau de inclinao da linha, respectivamente. Se os dados so normais, eles tendem a acompanhar a disposio da linha de referncia indicada pelos sinais (+). Quando isto acontece somente os asteriscos (*) so amostrados. No caso em questo, a disposio dos resduos no se ajusta a linha de referncia, colocando em cheque a suposio de normalidade dos resduos. Mais uma vez fica comprovada a necessidade de uma nova tentativa de ajuste dos dados analisados. FUNO QUADRTICA Os comandos a seguir ajustam uma funo quadrtica aos dados do arquivo MQUINA1. Alm de gerar um plote para os resduos do ajuste, intervalos de confiana para a mdia da capacidade da populao e uma curva de previso para os dados, com a opo r o programa tambm gera resduos padronizados que permitem verificar se pontos fora do padro ('outliers') se devem a causas aleatrias ou a causas especiais de variao. Um teste para a normalidade dos resduos tambm efetuado para o ajuste quadrtico.
OPTIONS FORMDLIM='*' LS=80; DATA MAQUINA2 SAS; /* EXEMPL05 SAS */ INPUT VELOC CAPAC @@; VELOC2 = VELOC*VELOC; CARDS; 22.0 64.03 20.0 62.47 18.0 54.94 16.0 48.84 14.0 43.73 12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21 22.0 64.03 20.0 62.63 18.0 52.90 16.0 48.84 14.0 42.74 12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17 19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89 ; PROC REG; MODEL CAPAC=VELOC VELOC2 / CLM R; ID VELOC; OUTPUT OUT=RESlD2 P=PREVISTO R=RESIDUAL; TITLE 'AJUSTE DE FUNCAO QUADRATICA'; PROC GPLOT;
50
PLOT RESIDUAL * VELOC / VREF=0; TITLE 'PLOT DE RESIDUOS P/ AJUSTE QUADRATICO'; RUN; PROC UNIVARIATE NORMAL; VAR RESIDUAL; TITLE 'TESTE PARA NORMALIDADE DOS RESIDUOS'; PROC GPLOT; PLOT PREVISTO*VELOC; TITLE 'CURVA DE PREVISAO'; RUN;

AJUSTE DA FUNCAO QUADRATICA Model: MODEL1 Dependent Variable: CAPAC Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 2 21 23 Sum of Squares 2329.52618 41.37016 2370.89633 1.40357 52.31833 2.68275 Mean Square 1164.76309 1.97001 R-square Adj R-sq F Value 591.248 Prob>F 0.0001
0.9826 0.9809
Parameter Estimates Variable INTERCEP VELOC VELOC2 DF 1 1 1 Parameter Estimate -19.184839 5.710855 -0.088391 Standard Error 6.18024426 0.73314324 0.02105601 T for H0: Parameter=0 -3.104 7.790 -4.198 Prob > |T| 0.0054 0.0001 0.0004
O modelo do ajuste quadrtico dado por: CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2 O teste de significncia dos coeficientes indica que para o coeficiente -0.08 de VELOC2 : t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81 A probabilidade de significncia para esta estatstica 0.0004, ou seja, existe somente quatro chances em dez mil de se encontrar uma estatstica t to grande quanto a calculada acima. O desvio padro da estimativa do coeficiente de VELOC2 to pequeno que pode-se afirmar que seu valor estatisticamente diferente de zero. O modelo quadrtico, portanto, est representando melhor o relacionamento entre a velocidade da mquina e sua capacidade de produo, quando comparado ao modelo linear.
51
Os valores preditos e os limites de confiana para a mdia da populao obtidos com o ajuste quadrtico esto relacionados a seguir:
AJUSTE DA FUNCAO QUADRATICA Obs VELOC Dep Var CAPAC 64.0300 62.4700 54.9400 48.8400 43.7300 37.4800 46.8500 51.1700 58.0000 63.2100 64.0300 62.6300 52.9000 48.8400 42.7400 36.6300 32.0500 39.6800 45.7900 51.1700 56.6500 62.6100 65.3100 63.8900 Predict Value 63.6726 59.6758 54.9718 49.5607 43.4425 36.6171 46.5900 52.3546 57.4122 61.7626 63.6726 59.6758 54.9718 49.5607 43.4425 36.6171 31.0340 40.1182 46.5900 52.3546 57.4122 61.7626 65.4059 66.9623 Std Err Predict 0.488 0.374 0.401 0.397 0.396 0.596 0.385 0.405 0.385 0.398 0.488 0.374 0.401 0.397 0.396 0.596 0.921 0.460 0.385 0.405 0.385 0.398 0.651 0.878 Lower95% Mean 62.6568 58.8981 54.1382 48.7356 42.6198 35.3785 45.7890 51.5114 56.6114 60.9343 62.6568 58.8981 54.1382 48.7356 42.6198 35.3785 29.1185 39.1612 45.7890 51.5114 56.6114 60.9343 64.0513 65.1364 Upper95% Mean 64.6884 60.4534 55.8054 50.3858 44.2651 37.8556 47.3909 53.1978 58.2130 62.5909 64.6884 60.4534 55.8054 50.3858 44.2651 37.8556 32.9495 41.0751 47.3909 53.1978 58.2130 62.5909 66.7605 68.7883 Residual 0.3574 2.7942 -0.0318 -0.7207 0.2875 0.8629 0.2600 -1.1846 0.5878 1.4474 0.3574 2.9542 -2.0718 -0.7207 -0.7025 0.0129 1.0160 -0.4382 -0.8000 -1.1846 -0.7622 0.8474 -0.0959 -3.0723
1 22 2 20 3 18 4 16 5 14 6 12 7 15 8 17 9 19 10 21 11 22 12 20 13 18 14 16 15 14 16 12 17 10.5 18 13 continuao ... 19 20 21 22 23 24 15 17 19 21 23 24
O plote dos resduos studentizados pode indicar a ocorrncia de pontos discrepantes. Cada asterisco corresponde metade de uma unidade. Observaes com quatro ou cinco asteriscos tem resduos studentizados entre 2.0 e 3.0, e esto num range suspeito. Observaes com seis ou mais asteriscos provavelmente so outliers. No plote a seguir, as observaes 2 e 12 (VELOC=20), e a 24 esto num range suspeito. O grfico dos reduos mostrado ao fim deste exemplo confirma estas suposies. O prximo passo seria reavaliar a fonte de dados e identificar alguma razo peculiar para a ocorrncia destes valores.
Obs 1 2 3 4 5 6 7 8 9 10 11 12 VELOC 22 20 18 16 14 12 15 17 19 21 22 20 Std Err Residual 1.316 1.353 1.345 1.346 1.347 1.271 1.350 1.344 1.350 1.346 1.316 1.353 Student Residual 0.272 2.065 -0.024 -0.535 0.214 0.679 0.193 -0.882 0.436 1.075 0.272 2.184 | | | | | | | | | | | | -2-1-0 1 2 | |**** | *| | |* | *| | |** | |**** | | | | | | | | | | | | Cook's D 0.003 0.109 0.000 0.008 0.001 0.034 0.001 0.024 0.005 0.034 0.003 0.121
52
13 14 15 16 17 18 19 20 21 22 23 24
18 16 14 12 10.5 13 15 17 19 21 23 24
1.345 1.346 1.347 1.271 1.059 1.326 1.350 1.344 1.350 1.346 1.243 1.095
-1.540 -0.535 -0.522 0.010 0.959 -0.330 -0.593 -0.882 -0.565 0.630 -0.077 -2.806 0 41.3702 65.0917
| ***| | *| | *| | | | |* | | | *| | *| | *| | |* | | | *****|
| | | | | | | | | | | |
0.070 0.008 0.008 0.000 0.232 0.004 0.010 0.024 0.009 0.012 0.001 1.687
Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press)
Atravs do grfico dos resduos (PROC GPLOT) observa-se que nem toda as observaes seguem a mesma forma geral. O ponto onde VELOC=24 encontrase abaixo dos demais, e os dois pontos prximos VELOC=20 esto acima dos demais. Isto pode se dever causas especiais ou simplesmente ao acaso, e precisa ser verificado. Os demais pontos esto bem distribudos ao longo do grfico, podendo ser admitida a suposio de varincia da distribuio dos resduos.
53
TESTE DE NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 24 0 1.341157 0.194918 41.37016 . 0 24 0 -5 0.961296 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 24 0 1.798702 1.047599 41.37016 0.273763 1.0000 12 1.0000 0.8899 0.4711
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 2.954224 0.717615 -0.00944 -0.74144 -3.07234 6.026565 1.45905 -1.18464 Extremes Lowest Obs Highest Obs -3.07234( 24) 0.862912( 6) -2.0718( 13) 1.015991( 17) -1.18464( 20) 1.447409( 10) -1.18464( 8) 2.794224( 2) -0.79996( 19) 2.954224( 12) 99% 95% 90% 10% 5% 1% 2.954224 2.794224 1.447409 -1.18464 -2.0718 -3.07234
Range Q3-Q1 Mode
O p-valor associado ao teste de normalidade dos resduos de 0.47. A hiptese de normalidade dos resduos do Ajuste Quadrtico no pode ser rejeitada aos nveis usuais de significncia. A curva de previso baseada no modelo ajustado mostrado no (PLOT GPLOT).
54
9 INFERNCIA ESTATSTICA
9.1 Testes para igualdade de duas mdias (PROC TTEST)
Na prtica freqentemente nos vemos diante de situaes onde uma deciso deva ser tomada acerca de populaes, baseadas nas informaes obtidas a partir das amostras. Este captulo abordar testes de hipteses, para o caso em que duas amostras so consideradas, em princpio de populaes distintas, Com base nestas amostras, as mdias equivalentes s populaes envolvidas so comparadas. O teste t apropriado quando a anlise envolve uma nica varivel independente (preditora), medida na escala nominal e assumindo somente dois valores, e uma nica varivel resposta, medida na escala de razo ou de intervalo. O teste t usualmente conhecido como teste de diferenas de grupos. Dois casos tpicos sero considerados neste tipo de experimento. O primeiro o teste para dados no pareados, ou seja, amostras independentes (populaes no correlacionadas). O segundo, para dados pareados, (populaes correlacionadas). O que diferencia os dois testes a forma do clculo da estatstica t. Hipteses adicionais devem ser atendidas para a validao destes testes.
55
- AMOSTRAS INDEPENDENTES: - Nvel de Medida: A varivel resposta deve ser acessada na escala de razo ou de intervalo. A varivel independente deve estar na escala nominal e assumir somente dois nveis. - Observaes Independentes: Uma dada observao no pode depender de qualquer outra entre os dois grupos. - Amostras Aleatrias: Os valores da varivel resposta devem representar uma amostra aleatria oriunda de uma populao normal. Se cada amostra contiver cerca de 30 observaes, o teste considerado robusto no que diz respeito normalidade. - Homogeneidade de Varincias: O teste t exato utilizado quando o teste F para igualdade de varincias leva a no rejeio da hiptese nula de igualdade de varincias na populao. PROC TTEST A PROC TTEST desempenha um teste de hiptese para checar se a mdia de duas populaes so iguais. Uma estatstica t para o teste calculada, assumindo que as varincias so iguais para os dois grupos. Uma estatstica T aproximada calculada, assumindo que as varincias so diferentes. Para testar a igualdade das varincias calculada uma estatstica F. Para cada uma das estatsticas T e F so associados os respectivos graus de liberdade e probabilidades de significncia (p-valor). Se o p-valor menor que o nvel de significncia associado ao teste, o resultado estatisticamente significante, e a hiptese nula rejeitada, ou seja, as mdias para os dois grupos so significativamente diferentes.
56
Os testes paramtricos que envolvem observaes pareadas sero abordados no item 9.2. Os testes no paramtricos sero assunto do prximo captulo. FORMA GERAL: PROC TTEST DATA = arquivo de dados; CLASS varivel; VAR varivel; RUN; COMANDOS DISPONVEIS: CLASS nomeia a varivel que forma os grupos. Estes grupos podem assumir somente dois valores distintos, uma vez que o teste utilizado para comparao de duas mdias. nomeia a varivel cuja mdia ser comparada. Se o comando VAR for omitido, todas as variveis numricas contidas no arquivo de entrada (exceto as que aparecem no comando CLASS) sero includas na anlise.
VAR
Ex6.: Dados no pareados com varincias desconhecidas e supostamente iguais. Sejam amostras obtidas de dois tipos de cabo de ao em relao carga de ruptura. Ao nvel de significncia de 5% pode-se concluir que o cabo do tipo l seja mais resistente que o do tipo 2 ? Carga de Ruptura (Kgf) Tipo 1 760 755 758 761 755 Tipo 2 758 748 757 753 755
OPTIONS FORMDLIM='*' LS=80; DATA CABO A; /* EXEMPL06 SAS */ INPUT TIPO $ CARGA @@; CARDS; Tl 760 T2 758 Tl 755 T2 748 Tl 758 T2 757 Tl 761 T2 753 Tl 755 T2 755 ; PROC TTEST; CLASS TIPO; VAR CARGA; TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; RUN;
57

TESTE PARA IGUALDADE DE MEDIAS TTEST PROCEDURE Variable: CARGA TIPO N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------T1 5 757.8000000 2.77488739 1.24096736 755.0000000 761.0000000 T2 5 754.2000000 3.96232255 1.77200451 748.0000000 758.0000000 Variances T DF Prob>|T| --------------------------------------Unequal 1.6641 7.2 0.1392 Equal 1.6641 8.0 0.1347 For H0: Variances are equal, F' = 2.04 DF = (4,4) Prob>F' = 0.5072
Para comparar dois grupos independentes observa-se primeiramente a linha que testa a igualdade de varincias. O p-valor para este teste dado por PROB>F'=0.5072 que maior que 0.10, indicando que as varincias no so significantemente diferentes a um nvel de 10% de significncia. Utiliza-se ento o t-test exato. Para o teste da igualdade de mdias, a linha denominada UNEQUAL d o resultado de um t-test aproximado, que utilizado quando no se pode assumir a igualdade das varincias os dois grupos de observaes. O p-valor para o t-test PROB > ITI = 0.1347 que maior que 0.05, indicando que ambas as mdias para o cabo do tipo 1 e tipo 2 no so significativamente diferentes ao nvel de 5% de significncia. Valores altos para estatstica T indicam diferenas significativas entre as mdias. Para o teste exato, o grau de liberdade DF calculado como a soma dos tamanhos das amostras dos dois grupos menos dois (8 = 5 + 5 - 2). Ex7.: Dados no pareados com varincias desconhecidas e supostamente diferentes. Deseja-se saber se duas mquinas de empacotar caf esto fornecendo o mesmo peso mdio por pacote, tanto como uma das mquinas nova e a outra velha, razovel supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponveis constam de seis pacotes produzidos pela mquina nova e nove produzidos pela mquina velha. Os pesos em quilogramas desses pacotes so: mquina nova mquina velha 0,82 0,83 0,79 0,81 0,81 0,80 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78
Qual a concluso, ao nvel de 5% de significncia ?

OPTIONS FORMDLIM='*' LS=80; DATA CAF A; /* EXEMPL07 SAS */
58
INPUT MAQUINA $ PESO @@, CARDS; NOVA 0.82 NOVA 0.83 NOVA 0.79 NOVA 0.81 NOVA 0.81 NOVA 0.80 VELHA 0.79 VELHA 0.82 VELHA 0.73 VELHA 0.74 VELHA 0.80 VELHA 0.77 VELHA 0.75 VELHA 0.84 VELHA 0.78 ; PROC TTEST DATA=CAFE, CLASS MAQUINA; TITLE 'TESTE PARA IGUALDADE DE MEDIAS DADOS NO PAREADOS'; RUN;

TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS TTEST PROCEDURE Variable: PESO MAQUINA N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------NOVA 6 0.81000000 0.01414214 0.00577350 0.79000000 0.83000000 VELHA 9 0.78000000 0.03674235 0.01224745 0.73000000 0.84000000 Variances T DF Prob>|T| --------------------------------------Unequal 2.2156 11.1 0.0486 Equal 1.8893 13.0 0.0814 For H0: Variances are equal, F' = 6.75 DF = (8,5) Prob>F' = 0.0501
O p-valor para o teste de igualdade de varincias dado por PROB >F'=0.0501 que menor que 0.10, indicando que as varincias so significativamente diferentes a um nvel de 10% de significncia. Para o teste de igualdade de mdias, a linha denominada UNEQUAL deve ser utilizada. A um nvel de 5% de significncia h diferena significativa entre as mdias dos pesos dos pacotes, pois PROB > ITI = 0.0486 < 0.05.
9.2 Testes para dados pareados
Os resultados de duas amostras constituem dados emparelhados (ou pareados) quando esto relacionados dois a dois segundo algum critrio que introduz uma influncia mercante entre os diversos pares. Esta influncia incide igualmente sobre os valores de cada par.
59
Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante uma semana a uma dieta com certo tipo de rao. Os pesos das cobaias so medidos no incio e no fim do tratamento, e deseja-se tirar concluses sobre o aumento mdio do peso verificado. Se os animais forem perfeitamente identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os dados sero pareados, pois cada valor da palmeira amostra estar perfeitamente associado ao respectivo valor da segunda amostra. O critrio que garante o emparelhamento a identidade de cada cobaia. razovel esperar que a identidade de cada animal tenha influncia nos valores observados de seu peso, porm essa influncia deve exercer-se de forma aproximadamente igual dentro de cada para de valores 'antes e depois', logo, ao se tomarem as diferenas entre vrios pares de valores, a influncia individual de cada animal tende a desaparecer, restando apenas os efeitos produzidos pela rao. No mesmo exemplo, se os animais no fossem identificados, no haveria como associar os valores das duas amostras, e os dados seriam noemparelhados. Se os dados de duas amostras so emparelhados tem sentido calcular as diferenas di correspondentes a cada par de valores, reduzindo assim os dados a uma nica amostra de n diferenas. Testa-se ento a hiptese de que a diferena entre as mdias das populaes emparelhadas seja igual a um certo valor, reduzindo o problema ao teste de uma nica mdia. As hipteses a serem atendidas para validao deste teste so listadas baixo: - AMOSTRAS PAREADAS: Nvel de medida: A varivel resposta deve estar na escala de intervalo ou de razo. A varivel independente deve estar na escala nominal e assumir somente duas categorias. Observaes pareadas: Uma dada observao que aparece em uma condio tem que estar de algum moda associada uma observao correspondente na outra condio. Observaes Independentes: Um valor de dado em uma condio no pode ser afetado por qualquer outro valor de dado em ambas condies. Amostras Aleatrias: Os valores da varivel resposta devem representar uma amostra aleatria oriunda de uma populao de interesse. Distribuio Normal para a diferena de Scores: As diferenas de scores entre os pares de valores devem ser normalmente distribudas. No h necessidade que a varivel resposta seja normalmente distribuda.
60
Homogeneidade de Varincias: As populaes representadas pelas duas condies devem ter iguais varincias . PROC UNIVARIATE Para observaes pareadas, o primeiro passo encontrar as diferenas para cada observao na amostra. O segundo sumarizar estas diferenas. Para calcular estas diferenas, pode-se criar uma nova varivel no DATA STEP, cuja mdia ser sumarizada atravs da PROC UNIVARIATE. Outro caminho para sumarizar os dados amostrais produzir grficos que mostrem a distribuio dos valores. Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa rao durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no princpio e no fim da semana, so designados respectivamente por peso 1 e peso 2. Ao nvel de 5% de significncia pode-se concluir que o uso da rao contribuiu para o aumento do peso mdio dos animais? O programa a seguir prov um teste de hiptese para checar se a diferena mdia de pesos significativamente diferente de zero.
OPTIONS FORMDLIM='*' LS=80; DATA TRAT A; /* EXEMPL08 SAS */ INPUT COBAIA PESO1 PESO2 @@; DIF= PESO2-PESO1; CARDS; 1 635 640 2 704 712 3 662 681 4 560 558 5 603 610 6 745 740 7 698 707 8 575 585 9 633 635 10 669 682 ; PROC PRINT; TITLE 'LISTA DAS DIFERENCAS PAREADAS'; RUN; PROC UNIVARIATE; VAR DIF; TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS'; PROC CHART; VBAR DIF; TITLE 'CARTA PARA DIFERENCAS PAREADAS'; RUN;
61

LISTA DAS DIFERENCAS PAREADAS OBS 1 2 3 4 5 6 7 8 9 10 COBAIA 1 2 3 4 5 6 7 8 9 10 PESO1 635 704 662 560 603 745 698 575 633 669 PESO2 640 712 681 558 610 740 707 585 635 682 DIF 5 8 19 -2 7 -5 9 10 2 13
TESTE PARA DIFERENCA DE OBSERVACOES PAREADAS Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 10 6.6 7.042727 -0.0293 882 106.708 2.963487 10 3 22.5 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 10 66 49.6 0.054015 446.4 2.227106 0.0159 8 0.1094 0.0215
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 19 10 7.5 2 -5 24 8 -5 Extremes Lowest -5( -2( 2( 5( 7( Obs 6) 4) 9) 1) 5) Highest 8( 9( 10( 13( 19( Obs 2) 7) 8) 10) 3) 99% 95% 90% 10% 5% 1% 19 19 16 -3.5 -5 -5
Range Q3-Q1 Mode
62
O relatrio parcial da PROC UNIVARIATE mostra na linha denominada T:MEAN=0 o valor da estatstica de teste T (T=2.9635) e o p-valor associado ao teste PROB > |T| = 0,0159. O p-valor menor que 0.05, donde se conclui que a diferena mdia dos pesos das cobaias com a utilizao da rao significativamente diferente de zero. A um nvel de 5% de significncia o uso da rao contribui para o aumento do peso mdio dos animais.
CARTA PARA DIFERENCAS PAREADAS Frequency 4 + ***** | ***** | ***** | ***** | ***** | ***** | ***** 3 + ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** 2 + ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** 1 + ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** --------------------------------------------------------4 4 12 20 DIF Midpoint
O grfico com a distribuio dos valores das diferenas obtido atravs da PROC CHART. As barras verticais mostram que a mais alta freqncia ocorre para valores entre 8 e 16, prximo a 12, indicando mais uma vez que a variao mdia das diferenas estatisticamente significante.
63
10 MTODOS NO PARAMTRICOS
10.1 Testes para igualdade de duas mdias (PROC NPAR1WAY) Os testes no paramtricos utilizam-se de poucas suposies a respeito da distribuio de habilidade dos dados. Ele indicado quando o tamanho das amostras analisadas muito pequeno para validar a suposio de normalidade dos dados. PROC NPAR1WAY A PROC NPARLWAY um procedimento no paramtrico para testar se a distribuio de uma varivel tem o mesmo parmetro de locao sobre diferentes grupos. Ela trabalha com grupos independentes, dados no pareados. Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o teste dos ranks de Wilcoxon. FORMA GERAL: PROC NPARLWAY DATA= arquivo de dados opes; VAR variveis; CLASS varivel; BY variveis; COMANDOS DISPONVEIS: VAR nomeia variveis a serem analisadas para a comparao dos dois grupos. (comando opcional). Uma vez omitido , as anlises so feitas sobre todas as variveis numricas do arquivo de dados. nomeia somente uma varivel de classificao de grupo. O comando CLASS obrigatrio. A varivel que identifica os grupos podem ser caracteres ou numricas. separa a anlise em observaes definidas pelas variveis do comando BY. Os dados precisam estar ordenados antes de se utilizar este comando.
CLASS
BY
OPES DISPONVEIS: WILCOXON desempenha o teste da Soma dos Ranks de Wilcoxon para uma varivel de dois nveis. Ele se baseia na soma dos ranks dos valores observados. Este rank ir indicar a posio de um determinado valor no conjunto ordenado (crescente ou decrescentemente), do primeiro ao ltimo elemento Valores iguais so considerados com um rank mdio de modo a no afetar os rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16, considerados numa ordem crescente, tero os seguintes ranks: 2, 64 Prof. Luis Felipe Lopes
1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo vlida a hiptese nula de identicidade entre as populaes, a soma dos postos nas amostras deveriam fornecer valores intermedirios compatveis com cada amostra. Com base nessa idia, determina-se quais os limites para a soma dos ranks nas amostras, alm dos quais deve-se rejeitar a hiptese nula. Para uma varivel de classificao que assuma mais que dois nveis, esta opo corresponde ao Teste de Kruskal- Wallis. MEDIAN requisita uma anlise dos escores das medianas. Se as populaes so idnticas, a mediana do conjunto formado pelas duas amostras fornece uma boa estimativa da mediana da distribuio comum. A proporo de valores abaixo da mediana geral deve tender a ser a mesma nas duas amostras. O escore da mediana 1 para pontos abaixo da mediana geral, e 0 caso contrrio. Para mais que duas amostras, esta opo produz o Teste de Brown- Mood.
Ex9.: Clica um distrbio comum em cavalos e freqentemente fatal. Em casos extremos uma cirurgia o nico recurso. Pesquisadores estudam novas tcnicas de cirurgia para reduzir os perodos sob anestesia a que so submetidos os animais. Nove cavalos que se submeteram cirurgia foram aleatoriamente assinalados para uma dentre as duas tcnicas utilizadas. A tcnica A envolve a suspenso da anestesia depois da sutura da inciso, e a tcnica B envolve a suspenso da anestesia durante a sutura. O tempo de recuperao da anestesia foi medido em minutos a partir do final da cirurgia at o momento que o cavalo levanta. Determinar se os tempos de recuperao diferem para as duas tcnicas cirrgicas utilizadas.
OPTIONS FORMDLIM='*' LS=80; DATA ANEST1 A; /* EXEMPL09 SAS */ INPUT CAVALO TECN $ TEMREC @@; CARDS; l A 47 2 A 34 3 A 44 4 A 16 5 A 53 6 B 79 7 B 42 8 B 14 9 B 11 ; PROC NPAR1WAY WILCOXON MEDIAN; VAR TEMREC; CLASS TECN; TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA'; RUN;
65

ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN A B N 5 4 Sum of Scores 28.0 17.0 Expected Under H0 25.0 20.0 Std Dev Under H0 4.08248290 4.08248290 Mean Score 5.60000000 4.25000000
Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 17.0000 Z= -.612372 Prob > |Z| = 0.5573 0.4624 0.5403
T-Test approx. Significance =
Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0.54000 DF= 1 Prob > CHISQ= ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E
Median Scores (Number of Points above Median) for Variable TEMREC Classified by Variable TECN TECN A B N 5 4 Sum of Scores 3.0 1.0 Expected Under H0 2.22222222 1.77777778 Std Dev Under H0 0.785674201 0.785674201 Mean Score 0.600000000 0.250000000
Median 2-Sample Test (Normal Approximation) S= 1.00000 Z= -.989949 Prob > |Z| = 0.3222
Median 1-Way Analysis (Chi-Square Approximation) CHISQ= 0.98000 DF= 1 Prob > CHISQ= 0.3222
O p-valor para o teste de Wilcoxon dado por Prob > |Z|= 0.5403 que superior a 0.05. Conclui-se, portanto, que as mdias dos tempos de recuperao no so significativamente diferentes ao nvel de 5% de significncia. O p-valor para o teste de medianas dado por Prob > |Z| = O.3222 que maior que 0.05, ou seja, a um nvel de 5% de significncia no h diferena significativa entre os tempos de recuperao referentes as duas tcnicas utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximao de Chi-quadrado.
66
Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo, Por exemplo feita no sentido de verificar a existncia de diferena entre os tempos de recuperao dentro de cada grupo. O programa a seguir mostra como desempenhar esta anlise.
OPTIONS FORMDLIM='*' LS=80; DATA ANEST2 A; /* EXEMP10 SAS */ INPUT CAVALO SEXO $ TECN $ TEMPREC; CARDS; l M A 47 2 M A 34 3 F A 44 4 F A 16 5 F A 53 6 M B 79 7 M B 42 8 M B 14 9 F B 11; PROC SORT; BY SEXO; PROC NPAR1WAY WILCOXON; VAR TEMPREC; CLASS TECN; BY SEXO; RUN;

ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=F -------------------------------N P A R 1 W A Y P R O C E D U R E
Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 1.00000 Z= -.894427 Prob > |Z| = 0.4370 0.1797 0.3711
Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 1.8000 DF= 1 Prob > CHISQ=
67
ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=M -------------------------------N P A R 1 W A Y P R O C E D U R E
Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 6.00000 Z= 0 Prob > |Z| = 0.9999 0.9999 0.9999
Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0 DF= 1 Prob > CHISQ=
O p-valor de 0.3711 superior a 0.05, ou seja, para o grupo de fmeas no h diferena significativa os tempos de recuperao referentes as duas tcnicas utilizadas Prob > |Z| = 0.3711, um nvel de 5% de significncia. Para o grupo de machos, PROB>|Z|=0.9999 tambm superior 0.05, donde se conclui que no h diferena significativa entre os tempos de recuperao dentro deste subgrupo, a um nvel de 5% de significncia.
11 ANLISE DE VARINCIA
11.1 Dados balanceados (PROC ANOVA)
Quando se deseja fazer inferncias sobre um conjunto de mais que duas mdias, utiliza-se a Anlise de Varincia. A Anlise da Varincia se resume na aplicao de um teste de hipteses sobre um experimento projetado estatisticamente. Esta anlise permite saber se h efeitos significativos de determinadas variveis agindo sobre os resultados alm do erro experimental. Neste captulo, o termo ANOVA refere-se especificamente a uma anlise paramtrica da varincia, que utilizada se algumas suposies sobre os dados observados forem atendidas. As suposies que envolvem uma anlise da varincia so: - as observaes devem ser independentes: a medida para determinada observao no afeta a medida de outra observao. Treinamento Sistema SAS 68 Prof. Luis Felipe Lopes
- as observaes so geradas por uma distribuio normal. Se existe uma diferena entre os grupos, talvez exista uma distribuio normal especfica para cada grupo. - as varincias dos grupos so iguais. Quando o experimento consiste na anlise de uma nica varivel (ou fator), com vrios nveis, a anlise dita ANOVA a fator nico. Para este tipo de anlise, os procedimentos SAS no fazem distino quanto ao tipo de dados utilizados: se balanceados ou no. Dados balanceados so aqueles cujos grupos experimentais tem o mesmo tamanho de amostra. Dados no balanceados, o tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e ANOVA, tratam estes dados na devida situao. PROC ANOVA A PROC ANOVA para anlise da varincia a fator nico pode ser utilizada, como visto anteriormente, para ambos dados balanceados e no balanceados. Em geral, entretanto, no se utiliza a PROC ANOVA para dados no alanceados. Ela utilizada para: - Blocos aleatorizados - Quadrados latinos Projetos com Blocos Aleatorizados assumem que uma populao de unidades experimentais pode ser dividida em um nmero relativamente homogneo de subpopulaes ou blocos. Os tratamentos so aleatoriamente atribudos s unidades experimentais dentro de cada bloco. Se todos os tratamentos so atribudos em cada bloco, o projeto denominado Projeto com Blocos Completamente Aleatorizados. Para exemplificar, suponha um experimento que, em funo da durao do mesmo, sejam efetuadas edies pela manh e outra tarde. Se a temperatura influir na varivel resposta, a variabilidade do experimento cresce, e a sensibilidade dos efeitos do fator em anlise ser prejudicada. Em outras palavras, entre ma medida feita pela manh e a outra tarde, tem-se as variabilidades devidas ao erro experimental da edio em si, ao efeito do fator (se houver) e variao da temperatura. Como a temperatura no um fator de interesse no experimento, pode-se dizer que ela aumentou o erro experimental. Uma maneira de quantificar e isolar esta influncia consiste em efetuar um grupo completo de medies, que inclua todos os nveis do fator pela manh e outro tarde. Cada grupo ser homogneo em relao temperatura e recebe a designao de bloco aleatorizado. Quando o projeto envolve a blocagem de mais de um fator no experimento, ele denominado de quadrado latino, e representado por uma forma quadrada (4 X 4) tendo o fator em estudo representado por letras latinas.
69
Os aspectos acima descritos dizem respeito ao controle do erro experimental. Outro aspecto a ser considerado na Anlise de Varincia seria a estrutura de tratamento fatorial, que pode ser aplicada qualquer esquema de aleatorizao. Um experimento fatorial balanceado consiste de todas as possveis combinaes dos nveis de duas ou mais variveis. Estes nveis podem se referir quantidades numricas das variveis, tais como graus de temperatura, quantidade de fertilizantes, ou variveis que definam categorias qualitativas, tais como tipos de fertilizantes, condies operacionais (Temperatura: baixa, mdia ou alta). Um exemplo de experimento fatorial o estudo envolvendo o uso de nitrognio, fsforo e potssio, cada um trs nveis. Este experimento possui 3 **3 = 27 combinaes de tratamento. Experimentos fatoriais so utilizados para investigar no somente todas as diferenas entre os nveis de cada fator (efeitos principais), como tambm como os nveis de um fator afetam a varivel resposta, em combinao com os nveis dos demais fatores (interaes). A PROC ANOVA pode ser utilizada interativamente. Uma vez especificado um modelo com o comando MODEL, que ser visto a seguir, e rodar o procedimento com o comando RUN, outra variedade de comandos poder ser executada sem que o procedimento recalcule as estatsticas do modelo geradas inicialmente. FORMA GERAL: PROC ANOVA DATA = arquivo SAS; CLASS variveis; /*tratamentos*/ MODEL dependente = efeitos / opes; MANOVA H = varivel / opes; MEANS efeitos / opes; OUTPUT OUT = arquivo SAS P= nova varivel R = nova varivel L95 = nova varivel U95 = nova varivel L95M = nova varivel U95M=nova varivel; RUN; COMANDOS DISPONVEIS: CLASS nomeia as variveis de classificao utilizadas para identificar os grupos para anlise. Este comando tem que aparecer antes do comando MODEL. nomeia as variveis dependentes e independentes do modelo. se o comando MODEL inclui mais que uma varivel dependente, este comando fornece estatsticas multivariadas. gera mdias para cada nvel das variveis independentes e para a interao dos nveis, quando existir.
MODEL MANOVA
MEANS
70
OUTPUT
gera arquivo de sada com as variveis que iro conter os valores previstos, residuais, intervalos de confiana para um valor individual da varivel dependente, e intervalos de confiana para o valor esperado ( mdia ) da varivel dependente.
OPES DISPONIVEIS NO COMANDO MODEL: INT requisita teste associado ao intercepto como parmetro do modelo. Por default, ele includo no modelo, mas o teste associado no listado. Com esta opo o teste associado listado. requisita que o intercepto no seja usado no modelo. suprimi estatsticas univariadas.
NOINT NOUNI
OPES DISPONVEIS NO COMANDO MANOVA: H PRINTH especifica efeitos no modelo para usar como matriz de hipteses. lista a matriz de hipteses SSCP e a matriz de erro. A opo PRINTE tambm lista uma matriz de coeficientes de correlao parcial e derivada da matiz de erros SSCP. Esta matriz de correlao representa a correlao das variveis dependentes corrigidas para todos os fatores independentes definidos no comando MODEL.
OPES DISPONVEIS NO COMANDO MEANS: As opes especificam os testes utilizados para comparao mltipla e so aplicadas somente para os termos de efeitos principais . DUNCAN desempenha teste de mltiplos ranges para todas as mdias dos efeitos principais especificados no comando MEANS. desempenha teste de ranges de Student para todas as mdias dos efeitos principais especificados no comando MEANS. d os nveis de significncia para a comparao entre as mdias. Por default Alpha=0.05. Para a opo DUNCAN, somente os valores 0.01, 0.05 ou 0.1 so vlidos. Nas demais opes que desempenham testes de comparao mltipla, valores entre 0.0001 e 0.9999 so vlidos.
TUKEY
ALPHA
71
Teste de Duncan O teste de Duncan usado na anlise de varincia para comparar todo e qualquer contraste entre duas mdias de tratamentos. menos rigoroso que o Teste de Tukey, pois detecta diferena significativa entre duas mdias quando o o teste de Tukey no o faz. um teste bastante usado em trabalhos de laboratrios, pode ser usado tanto para tratamentos com o mesmo nmero de repeties, quanto tratamentos com parcelas perdidas. Teste de Tukey O teste de Tukey usado na anlise de varincia para comparar todo e qualquer contraste entre duas mdias de tratamentos. o teste de comparao de mdias mais usado em experimentao, por ser bastante rigoroso e de fcil aplicao. Ele mais exato quando os nmeros de repeties das mdias dos tratamentos forem iguais. Quando o Teste Tukey no der diferena significativa e o teste F for significativo, o mesmo poder ser substitudo pelo Teste de Duncan, por ser menos rigoroso, ou trocar o nvel de significncia para 10%, ou simplesmente aceitar a anlise encontrada. Teste de Scheff O teste de Schfe usado na anlise de varincia numa forma mais abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer constraste, pode ser usado tanto para duas mdias (contraste simples) como para mais de duas mdias (contraste mltiplo), na qual ele o mais indicado, por ser mais rigoroso que o Teste de Tukey. Anlise dos Trs Testes Quando o teste F da anlise de varincia no for significativo os trs testes acima no tero efeito de aplicao (s se o teste F estiver prximo da significncia). Para melhor visualizar a anlise comparativa das mdias, as mdias dos tratamentos so colocadas em ordem crescente e para cada conjunto de mdias que no diferem estatisticamente atribuda uma mesma letra, ou seja, para letras iguais mdias estatisticamente iguais, para letras diferentes mdias estatisticamente diferentes. Para a anlise usa-se um nvel de significncia de 5%.
72
ESTUDO DE CASO
11.1.1 Experimento Completamente Casualizado
Suponha que os pesquisadores de uma linha de produo automobilstica queiram comparar o desgaste de 4 tipos de pneus. Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm aps 10.000 Km rodados pelos 4 carros em condies idnticas de direo.
Considere as seguintes questes: 1 - As unidades experimentais deste experimento so os pneus. 2 - As suposies para anlise consistem em tratamentos aleatoriamente atribudos para as 16 posies nos 4 carros, com o desgaste por marca de pneu sendo normalmente distribudo, com varincia comum. 3 - O modelo experimental representado por: DESGASTE = CTE + efeito TIPO + erro A hiptese a ser testada : Ho: As mdias do desgaste para os 4 tipos de pneus so iguais Leia os dados em um arquivo SAS e anlise com a PROC ANOVA a hiptese testada.
73
OPTIONS FORMDLIM='*' LS=80; DATA PNEU1 A; /* EXEMP11 SAS */ INPUT TIPOS $ DESGASTE @@; CARDS; 1 1.83 2 2.42 3 1.98 4 1.83 1 1.88 2 2.05 3 1,86 4 1.81 1 1.86 2 2.10 3 2.30 4 1.75 1 1.77 2 2.61 3 2.31 4 1.92 ; PROC ANOVA; CLASS TIPO; MODEL DESGASTE = TIPO; TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; RUN;

EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Class Level Information Class TIPO Levels 4 Values 1 2 3 4
Number of observations in data set = 16 EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 3 12 15 Sum of Squares 0.62175000 0.39015000 1.01190000 C.V. 8.937409 Anova SS 0.62175000 Root MSE 0.1803122 Mean Square 0.20725000 F Value 6.37 DESGASTE Mean 2.0175000 Pr > F 0.0079 Mean Square 0.20725000 0.03251250 F Value 6.37 Pr > F 0.0079
R-Square 0.614438 Source TIPO DF 3
A estimativa da varincia do erro da populao dada por MSE (Error) = 0.032; O R_Square descreve a quantidade de variao nos dados que se deve a diferena existente entre os Grupos. Logo, 61% da variabilidade do modelo explicada pela diferena entre os tipos dos pneus.
74
O p-valor dado por Pr > F = 0.0079 inferior ao nvel de significncia de 0.10, donde se conclui que a mdia do desgaste significativamente diferente para os diferentes tipos de pneus. A Soma dos Quadrados (SS) mede a quantidade de variao atribuda a uma dada fonte. Note que Model SS e Error SS somam a variao total do modelo. A mdia global do desgaste dos pneus dada por DESGASTE Mean. O coeficiente de variao CV calculado multiplicando o desvio padro por 100 e dividindo pela mdia, ou seja. 100 (std/mean).
11.1.2 Experimento com Blocos Aleatorizados
A fim de controlar a influncia do fator tipo de carro no desgaste dos pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu aparecesse em cada carro, Logo, cada carro consiste num bloco de edies, o que permite: - O controle da variao que se deve aos diferentes tipos de carro. - A eliminao da variao de cada carro em relao aos tipos de pneus utilizados. - A obteno de uma preciso maior do erro do experimento. O modelo experimental em questo dado por: DESGASTE = CTE + efeito TIPO + efeito CARRO + erro Os efeitos dos blocos so aditivos, ou seja, no existe interao entre o tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout:
75
OPTIONS FORMDLIM='*' LS=80; DATA PNEU2 A; /* EXEMP12 SAS */ INPUT TIPO $ CARRO DESGASTE @@; CARDS; A l 1.51 A 2 1.71 A 3 1.78 A B l 2.36 B 2 2.45 B 3 2.24 B C l 2.20 C 2 2.05 C 3 2.01 C D l 1.51 D 2 2.22 D 3 1.73 D ; PROC ANOVA; CLASS TIPO CARRO; MODEL DESGASTE = TIPO CARRO; TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS'; RUN;
4 4 4 4
1.80 2.41 2.01 1.80

EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Class Level Information Class TIPO CARRO Levels 4 4 Values A B C D 1 2 3 4
Number of observations in data set = 16 ************************************************************************* EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 6 9 15 Sum of Squares 1.14733750 0.26440625 1.41174375 C.V. 8.626687 Anova SS 1.04526875 0.10206875 Root MSE 0.1714015 Mean Square 0.34842292 0.03402292 F Value 11.86 1.16 DESGASTE Mean 1.9868750 Pr > F 0.0018 0.3780 Mean Square 0.19122292 0.02937847 F Value 6.51 Pr > F 0.0068
R-Square 0.812709 Source TIPO CARRO DF 3 3
76
Pode-se notar que estimativa da varincia do erro deste experimento inferior a vista anteriormente. O fator de blocagem CARRO poderia ser retirado do experimento, uma vez que ele no significativo.
11.1.3 Experimento com Quadrado Latino
A localizao do pneu no carro pode ter algum efeito sobre o resultado do desgaste. Se o interesse for controlar o efeito da localizao do pneu a fim de se obter uma idia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser posicionados da seguinte maneira:
Nesse experimento cada tipo de pneu aparece em cada carro, todos os tipos em diferentes posies. O modelo experimental dado por: DESGASTE = CTE + TIPO + CARRO + POS + ERRO
Os efeitos dos blocos (carro e posio do pneu) so aditivos. Analise a varincia do experimento apresentado.
OPTIONS FORMDLIM='*' LS=80; DATA PNEU3 A; /* EXEMP13 SAS */ INPUT CARRO POS TIPO $ DESGASTE CARDS; 1 l B 2.23 2 l C 2.31 3 l D 2.07 l 2 C 2.04 2 2 D 1.97 3 2 A 1.69 1 3 D 1.78 2 3 A 1.73 3 3 B 2.20 1 4 A 1.64 2 4 B 2.22 3 4 C 1.80 ; PROC ANOVA; CLASS CARRO POS TIPO; MODEL DESGASTE = CARRO POS TIPO; TITLE 'EXPERIMENTO COM QUADRADO LATINO'; RUN;
4 4 4 4
1 2 3 4
A B C D
1.97 2.59 2.25 1.86
ANLISE DOS RESULTADOS: Treinamento Sistema SAS 77 Prof. Luis Felipe Lopes
EXPERIMENTO COM QUADRADO LATINO Analysis of Variance Procedure Class Level Information Class CARRO POS TIPO Levels 4 4 4 Values 1 2 3 4 1 2 3 4 A B C D
Number of observations in data set = 16 ************************************************************************* EXPERIMENTO COM QUADRADO LATINO Analysis of Variance Procedure Dependent Variable: DESGASTE Source Model Error Corrected Total DF 9 6 15 Sum of Squares 0.98925625 0.06598750 1.05524375 C.V. 5.186817 Anova SS 0.15621875 0.15546875 0.67756875 Root MSE 0.1048710 Mean Square 0.05207292 0.05182292 0.22585625 F Value 4.73 4.71 20.54 DESGASTE Mean 2.0218750 Pr > F 0.0505 0.0510 0.0015 Mean Square 0.10991736 0.01099792 F Value 9.99 Pr > F 0.0055
R-Square 0.937467 Source CARRO POS TIPO DF 3 3 3
Observa-se uma reduo na varincia do erro experimental MS(ERROR) = 0.010. O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de pneu um fator significativo para o modelo, pois Pr > F = 0.0055 inferior ao nvel de significncia de 0.10.
78
12 EXERCCIOS RESOLVIDOS E COMENTADOS 1) Um analista de uma cadeia de lanchonetes quer investigar o relacionamento entre o nmero de atendentes no balco self-service e as vendas de caf. Quatorze lanchonetes foram escolhidas para teste por serem similares em alguns aspectos tais como: volume total de negcios, tipo de clientela e localizao. O nmero de atendentes que so colocados nas lanchonetes-teste varia de zero a sete (o caf servido numa linha de atendimento), e distribudo aleatoriamente em cada lanchonete, como mostra os dados abaixo: No de Atendentes 5 1 0 7 5 2 0 6 4 1 6 7 2 4 Crie um arquivo LANCHE.SAS para: A) Criar uma tabela das vendas de caf X nmero de atendentes e plote o grfico. B) Ajustar um modelo linear de regresso das vendas em funo do nmero de atendentes. Verifique a existncia de pontos fora do padro, e, atravs da PROC UNIVARIATE, verifique a qualidade do ajuste. C) Idem para o modelo quadrtico. Vendas 729,1 568,2 508,1 854,7 787,6 651,7 498,4 841,4 755,3 577,3 831,8 871,4 657,0 758,9
D) Caso seja identificado algum outlier, elimine-o da anlise e verifique novamente a qualidade dos resduos.
OPTIONS FORMDLIM='*' LS=80; DATA LANCHES A; INPUT NO_AT VENDAS @@; NUM2=NO_AT*NO_AT; CARDS; 5 729.1 1 568.2 0 508.1 7 854.7 5 787.6 2 651.7 0 498.4 6 841.4 4 755.3 1 577.3 6 831.8 7 871.4 2 657.0 4 758.9 ; /* #############( A )################## */ PROC FREQ; TABLES NO_AT*VENDAS /LIST; TITLE 'TABELA NO ATENDENTES * VENDAS';
79
RUN; PROC PLOT; PLOT VENDAS*NO_AT='*'; TITLE 'DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES'; RUN; /* #############( B )################## */ PROC REG; MODEL VENDAS=NO_AT /R; PLOT R.*NO_AT='*'; OUTPUT OUT=RESIDUO1 R=RESID1; TITLE 'REGRESSAO LINEAR DE VENDAS * NO ATENDENTES'; PROC UNIVARIATE DATA=RESIDUO1 NORMAL; VAR RESID1; TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR'; RUN; /* #############( C )################## */ PROC REG; MODEL VENDAS=NO_AT NUM2 /R; PLOT R.*NO_AT='*'; OUTPUT OUT=RESIDUO2 R=RESID2; TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES'; PROC UNIVARIATE DATA=RESIDUO2 NORMAL; VAR RESID2; TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO'; RUN; /* #############( D )################## */ PROC REG; MODEL VENDAS=NO_AT NUM2 /R; WHERE NO_AT NE 5 OR VENDAS NE 729.1; PLOT R.*NO_AT='*'; OUTPUT OUT=RESIDUO3 R=RESID3; TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS'; PROC UNIVARIATE DATA=RESIDUO3 NORMAL; VAR RESID3; TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS'; RUN;
A)
TABELA NO ATENDENTES * VENDAS Cumulative Cumulative NO_AT VENDAS Frequency Percent Frequency Percent ---------------------------------------------------------0 498.4 1 7.1 1 7.1 0 508.1 1 7.1 2 14.3 1 568.2 1 7.1 3 21.4 1 577.3 1 7.1 4 28.6 2 651.7 1 7.1 5 35.7 2 657.0 1 7.1 6 42.9 4 755.3 1 7.1 7 50.0 4 758.9 1 7.1 8 57.1 5 729.1 1 7.1 9 64.3 5 787.6 1 7.1 10 71.4 6 831.8 1 7.1 11 78.6 6 841.4 1 7.1 12 85.7 7 854.7 1 7.1 13 92.9 7 871.4 1 7.1 14 100.0
80
DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES Plot of VENDAS*NO_AT. Symbol used is '*'.
900 + | | * | * 850 + | * | * | 800 + V | * E | N | * D750 + A | S | | * 700 + | | | * 650 + * | | | 600 + | | * | * 550 + | | |* 500 +* -+--------+--------+--------+--------+--------+--------+--------+0 1 2 3 4 5 6 7 NO_AT NOTE: 1 obs hidden.
B)
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES Model: MODEL1 Dependent Variable: VENDAS Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 1 12 13 Sum of Squares 211484.38607 7725.12322 219209.50929 25.37243 706.49286 3.59132 Mean Square 211484.38607 643.76027 R-square Adj R-sq Parameter Estimates Variable INTERCEP NO_AT DF 1 1 Parameter Estimate 526.678767 50.347945 Standard Error 12.01686851 2.77782371 T for H0: Parameter=0 43.828 18.125 Prob > |T| 0.0001 0.0001 F Value 328.514 Prob>F 0.0001
0.9648 0.9618
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES
81
Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Dep Var VENDAS 729.1 568.2 508.1 854.7 787.6 651.7 498.4 841.4 755.3 577.3 831.8 871.4 657.0 758.9
Predict Value 778.4 577.0 526.7 879.1 778.4 627.4 526.7 828.8 728.1 577.0 828.8 879.1 627.4 728.1
Std Err Predict 7.857 9.849 12.017 11.691 7.857 8.065 12.017 9.565 6.885 9.849 9.565 11.691 8.065 6.885 Cook's D
Residual -49.3185 -8.8267 -18.5788 -24.4144 9.1815 24.3253 -28.2788 12.6336 27.2295 0.2733 3.0336 -7.7144 29.6253 30.8295
Std Err Residual 24.125 23.383 22.346 22.518 24.125 24.057 22.346 23.500 24.420 23.383 23.500 22.518 24.057 24.420
Student Residual -2.044 -0.377 -0.831 -1.084 0.381 1.011 -1.265 0.538 1.115 0.012 0.129 -0.343 1.231 1.262
-2-1-0 1 2 | | | | | | | | | | | | | | ****| | *| **| | |** **| |* |** | | | |** |** | | | | | | | | | | | | | |
0.222 0.013 0.100 0.158 0.008 0.057 0.232 0.024 0.049 0.000 0.001 0.016 0.085 0.063 0 7725.1232 10165.3789
82
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES RESIDUAL ------+-------+-------+-------+-------+-------+-------+-------+-----| | 40 + + | * | | * | | * | | * | 20 + + | * | | * | | | | * | 0 + * + | * | | * | | | | * | -20+ + | * | | | | * | | | -40+ + | | | | | * | | | -60+ + ------+-------+-------+-------+-------+-------+-------+-------+-----0 1 2 3 4 5 6 7 NO_AT TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR Univariate Procedure Variable=RESID1 Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 14 0 24.37704 -0.44594 7725.123 . 0 14 1 4.5 0.952408 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 14 0 594.2402 -0.49803 7725.123 6.515039 1.0000 8 0.7905 0.8077 0.5667
83
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 30.82945 24.32534 1.653425 -18.5788 -49.3185 80.14795 42.90411 -49.3185 99% 95% 90% 10% 5% 1% 30.82945 30.82945 29.62534 -28.2788 -49.3185 -49.3185
Range Q3-Q1 Mode
Extremes Lowest -49.3185( -28.2788( -24.4144( -18.5788( -8.82671( Obs 1) 7) 4) 3) 2) Highest 12.63356( 24.32534( 27.22945( 29.62534( 30.82945( Obs 8) 6) 9) 13) 14)
COMENTRIO: O modelo de regresso linear explica 96.48% da variabilidade das vendas de caf. Tanto o intercepto quanto o parmetro relativo ao nmero de atendentes so significativos para o modelo (p-valor=0.0001).O plote dos resduos de Student indica que a 1a observao do arquivo est num range suspeito. O plote dos resduos sugere a necessidade de um termo quadrtico. No teste de normalidade obtido com a PROC UNIVARIATE, h indicao de normalidade dos resduos. Um termo quadrtico deve ser considerado nas anlises. C)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES
Model: MODEL1 Dependent Variable: VENDAS Analysis of Variance Source Model Error C Total DF 2 11 13 Sum of Squares 214249.72406 4959.78522 219209.50929 21.23416 706.49286 3.00557 Mean Square 107124.86203 450.88957 R-square Adj R-sq F Value 237.586 Prob>F 0.0001
Root MSE Dep Mean C.V.
0.9774 0.9733
Parameter Estimates Variable INTERCEP NO_AT NUM2 DF 1 1 1 Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T|
507.641529 12.65833646 40.103 0.0001 72.191126 9.12139574 7.914 0.0001 -3.151289 1.27247482 -2.477 0.0308 REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES Predict Std Err Std Err Student
Dep Var
84
Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14
VENDAS 729.1 568.2 508.1 854.7 787.6 651.7 498.4 841.4 755.3 577.3 831.8 871.4 657.0 758.9 -2-1-0 1 2 |******| | | | | | | | | | |* | *| | |* | | | | | | | |* | |* | |*
Value 789.8 576.7 507.6 858.6 789.8 639.4 507.6 827.3 746.0 576.7 827.3 858.6 639.4 746.0
Predict 8.026 8.244 12.658 12.829 8.026 8.319 12.658 8.026 9.248 8.244 8.026 12.829 8.319 9.248 Cook's D
Residual -60.7149 -8.4814 0.4585 -3.8663 -2.2149 12.2814 -9.2415 14.0581 9.3146 0.6186 4.4581 12.8337 17.5814 12.9146
Residual 19.659 19.569 17.049 16.921 19.659 19.537 17.049 19.659 19.114 19.569 19.659 16.921 19.537 19.114
Residual -3.088 -0.433 0.027 -0.228 -0.113 0.629 -0.542 0.715 0.487 0.032 0.227 0.758 0.900 0.676
| | | | | | | | | | | | | |
0.530 0.011 0.000 0.010 0.001 0.024 0.054 0.028 0.019 0.000 0.003 0.110 0.049 0.036 0 4959.7852 7100.0421
85
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES RESIDUAL ------+-------+-------+-------+-------+-------+-------+-------+-----20 + + | * | | * * * | | * | 10 + * + | | | * | | | 0 + * * + | * | | * | | * | -10 + * + | | | | | | -20 + + | | | | | | -30 + + | | | | | | -40 + + | | | | | | -50 + + | | | | | | -60 + * + ------+-------+-------+-------+-------+-------+-------+-------+-----0 1 2 3 4 5 6 7 NO_AT TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO Univariate Procedure Variable=RESID2 Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 14 0 19.53259 -2.52959 4959.785 . 0 14 2 18.5 0.714683 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 14 0 381.5219 7.77964 4959.785 5.220303 1.0000 9 0.4240 0.2676 0.0004
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 17.58138 12.83375 2.538376 -3.86625 -60.7149 78.29631 16.7 99% 95% 90% 10% 5% 1% 17.58138 17.58138 14.05812 -9.24153 -60.7149 -60.7149
Range Q3-Q1
86
Mode
-60.7149 Extremes
Lowest -60.7149( -9.24153( -8.48137( -3.86625( -2.21494(
Obs 1) 7) 2) 4) 5)
Highest 12.28138( 12.83375( 12.91459( 14.05812( 17.58138(
Obs 6) 12) 14) 8) 13)
COMENTRIO: No ajuste quadrtico observa-se que a soma dos quadrados devido ao erro da regresso diminuiu relativamente regresso linear, e o R-square aumentou para 97.74%. Todos os parmetros relativos ao ajuste quadrtico so significativos para o modelo ao nvel de 5%. Os resduos indicam aleatoriedade (alternncia homognea de pontos positivos e negativos). Com o plote dos resduos de Student, pode-se verificar a existncia de um ponto fora do padro. Para verificar a qualidade do ajuste, indica-se o teste para a normalidade dos resduos. Ao nvel de = 5% de significncia, Prob<W=0.0004<, indicando a no normalidade dos resduos. Considerando a 1a observao como um 'outlier', ela pode estar influenciando nos resultados. O mesmo ajuste pode ser efetuado eliminando esta observao. D)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS
Model: MODEL1 Dependent Variable: VENDAS Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF Sum of Squares Mean Square 109000.00716 65.90980 R-square Adj R-sq F Value 1653.775 Prob>F 0.0001
2 218000.01432 10 659.09799 12 218659.11231 8.11849 704.75385 1.15196
0.9970 0.9964
87
Parameter Estimates Variable INTERCEP NO_AT NUM2 DF 1 1 1 Parameter Estimate 502.811932 79.780492 -4.071212 Standard Error 4.87646962 3.61173750 0.49965821 T for H0: Parameter=0 103.110 22.089 -8.148 Prob > |T| 0.0001 0.0001 0.0001
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 | | | | | | | | | | | | | Dep Var VENDAS 568.2 508.1 854.7 787.6 651.7 498.4 841.4 755.3 577.3 831.8 871.4 657.0 758.9 -2-1-0 1 2 **| |* **| ***| |* *| |* | | | |** |** | | | | | | | | | | | | | | Predict Value 578.5 502.8 861.8 799.9 646.1 502.8 834.9 756.8 578.5 834.9 861.8 646.1 756.8 Std Err Predict 3.160 4.876 4.921 3.314 3.286 4.876 3.209 3.781 3.160 3.209 4.921 3.286 3.781 Cook's D 0.113 0.125 0.233 0.185 0.037 0.087 0.046 0.004 0.002 0.011 0.429 0.141 0.008 0 659.0980 1140.4168 Residual -10.3212 5.2881 -7.0860 -12.3341 5.6119 -4.4119 6.4688 -1.4945 -1.2212 -3.1312 9.6140 10.9119 2.1055 Std Err Residual 7.478 6.491 6.457 7.411 7.424 6.491 7.457 7.184 7.478 7.457 6.457 7.424 7.184 Student Residual -1.380 0.815 -1.097 -1.664 0.756 -0.680 0.867 -0.208 -0.163 -0.420 1.489 1.470 0.293
88
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS RESIDUAL ------+-------+-------+-------+-------+-------+-------+-------+-----| | 15 + + | | | | | * | 10 + + | * | | * | | * | 5 + * + | | | * | | | 0 + + | * * | | * | | * | -5 + + | | | * | | | -10 + * + | * | | | | | -15 + + | | ------+-------+-------+-------+-------+-------+-------+-------+-----0 1 2 3 4 5 6 7 NO_AT TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS Univariate Procedure Variable=RESID3 Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 13 0 7.411129 -0.1599 659.098 . 0 13 -0.5 0.5 0.965059 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 13 0 54.92483 -1.01313 659.098 2.055477 1.0000 6 1.0000 1.0000 0.7796
89
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 10.91193 5.611932 -1.22121 -4.41193 -12.3341 23.24602 10.02386 -12.3341 99% 95% 90% 10% 5% 1% 10.91193 10.91193 9.614015 -10.3212 -12.3341 -12.3341
Range Q3-Q1 Mode
Extremes Lowest -12.3341( -10.3212( -7.08598( -4.41193( -3.13125( Obs 4) 1) 3) 6) 10) Highest 5.288068( 5.611932( 6.46875( 9.614015( 10.91193( Obs 2) 5) 7) 11) 12)
COMENTRIO: O coeficiente de determinao para este ajuste de 99,70%. A soma dos quadrados devido ao erro da regresso caiu de 4959,78 para 659,09, e no teste da normalidade de resduos o p-valor associado Pr<W=0.77>, indicando a normalidade dos resduos. 2) Trs testes foram aplicados para a admisso de crianas em uma escola. So eles: Inteligncia, Psicomotricidade e Motivao. Os coeficientes de rendimento so guardados em uma varivel chamada CR. As notas e o CR obtidos por cada criana so mostrados a seguir. Criar um arquivo TESTE.SAS para resolver este problema. QI 80 75 71 71 71 65 60 60 59 57 65 PSICO 36 35 34 33 30 35 20 25 31 31 35 MOTIVA 10 10 9 9 10 9 7 7 9 9 9 CR 10 10 9 9 8 7 7 7 7 7 8
A) O pedagogo deseja verificar a validade destes testes, ou seja, eles tem importncia significativa no processo de seleo da escola? Use a PROC CORR para verificar o grau de associao de cada teste com o coeficiente de rendimento dos alunos.
90
B) A varivel CR depende das notas obtidas pelas crianas nos trs testes. Supondo que o CR vai linearmente de acordo com as notas, testar pela anlise da varincia, a significncia da equao de regresso. Primeiramente ajuste um modelo de regresso mltipla aos dados e, passo a passo, identifique as variveis mais significativas para o modelo.
OPTIONS FORMDLIM='*' LS=80; DATA TESTE A; INPUT QI PSICO MOTIVA CR @@; CARDS; 80 36 10 10 75 35 10 10 71 34 9 9 71 33 9 9 71 30 10 8 65 35 9 7 60 20 7 7 60 25 7 7 59 31 9 7 57 31 9 7 65 35 9 8 ; /* #############( A )################## */ PROC CORR; VAR QI PSICO MOTIVA; WITH CR; TITLE 'ANALISE DE CORRELACAO'; RUN; /* #############( B.1 )################ */ PROC REG; MODEL CR = QI PSICO MOTIVA; OUTPUT OUT=RESID1 R=RESIDUAL; PLOT RESIDUAL.*PREDICTED.='*'; TITLE 'ANALISE DE REGRESSAO MULTIPLA'; RUN; /* #############( B.2 )################ */ PROC REG; MODEL CR = QI /NOINT; OUTPUT OUT=RESID2 R=RESIDUAL; PLOT RESIDUAL.*PREDICTED.='*'; TITLE 'ANALISE DE REGRESSAO MULTIPLA'; PROC UNIVARIATE NORMAL PLOT; VAR RESIDUAL; TITLE 'ANALISE DOS RESIDUOS'; RUN;
A)
ANALISE DE CORRELACAO Correlation Analysis 3 'VAR' 1 'WITH' Variables: CR Variables: QI PSICO Simple Statistics MOTIVA
Variable CR QI PSICO MOTIVA
Mean
Std Dev 1.22103 7.41742 4.92489 1.04447
Sum 89.00000 734.00000 345.00000 98.00000
Minimum 7.00000 57.00000 20.00000 7.00000
Maximum 10.00000 80.00000 36.00000 10.00000
11 8.09091 11 66.72727 11 31.36364 11 8.90909
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 11 QI CR 0.93048 0.0001 PSICO 0.59261 0.0547 MOTIVA 0.63442 0.0360
COMENTRIO:
91
QI um fator significativamente importante dentro do processo de seleo dos alunos: Coef. Corr. Pearson (QI) = 0.93 e p-valor = 0.00001 < , para nveis de 1%, 5% e 10%. O p-valor associado ao teste de correlao nula para PSICO supera os nveis usuais de significncia, evidenciando a hiptese nula, ou seja, a correlao baixa entre a varivel PSICO e o CR do aluno. Ao nvel de 1% de significncia h evidncia de H0. J aos nveis de 5% e 10% h indicaes que a verdadeira correlao entre CR e MOTIVA difere de zero. B.1)
Model: MODEL1 Dependent Variable: CR Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 3 7 10 Sum of Squares 12.97836 1.93073 14.90909 0.52518 8.09091 6.49104 Mean Square 4.32612 0.27582 R-square Adj R-sq F Value 15.685 Prob>F 0.0017 ANALISE DE REGRESSAO MULTIPLA
0.8705 0.8150
Parameter Estimates Variable INTERCEP QI PSICO MOTIVA DF 1 1 1 1 Parameter Estimate -2.009199 0.151679 0.030064 -0.108196 Standard Error 1.61813951 0.03066149 0.05964986 0.30874764 T for H0: Parameter=0 -1.242 4.947 0.504 -0.350 Prob > |T| 0.2543 0.0017 0.6297 0.7363
92
ANALISE DE REGRESSAO MULTIPLA RESIDUAL ------+------+------+------+------+------+------+------+------+-----0.8 + + | | | * | | | 0.6 + + | | | | 0.4 + * + | | | * | 0.2 + * + | * | | * * | | | 0.0 + + | * | | * | | | -0.2+ + | | | | | | -0.4+ + | | | | | * | -0.6+ + | | | | | | -0.8+ + | | | * | | | -1.0+ + ------+------+------+------+------+------+------+------+------+-----6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 Predicted Value of CR PRED
COMENTRIO: O modelo obtido para CR, com a Regresso Mltipla dados por: CR= -2.01 + 0.15 QI + 0.03 PSICO - 0.11 MOTIVA Pode-se notar que o erro padro relativo estimativa do parmetro de QI bem pequeno (Standard Error=0.03). Este modelo explica 87% da variao de CR. Como Prob>F=0.0017 'fechado' em zero, h evidncias da hiptese nula, isto , ao menos 1 parmetro do modelo deve ser diferente de zero. O p-valor para o intercepto, PSICO e MOTIVA so altos, havendo grandes chances dos parmetros relativos estas variveis serem iguais a zero. J o parmetro relativo varivel QI (pvalor = 0.0015), existe forte evidncia que seja significativamente diferente de zero. Podemos testar portanto, um novo modelo de regresso, porm sem o intercepto e apenas com a varivel QI. A rotina (B.2) desempenham esta tarefa.
ANALISE DE REGRESSAO MULTIPLA Model: MODEL1 NOTE: No intercept in model. R-square is redefined.
93
Dependent Variable: CR Analysis of Variance Source Model Error U Total Root MSE Dep Mean C.V. DF 1 10 11 Sum of Squares 732.44486 2.55514 735.00000 0.50548 8.09091 6.24755 Mean Square 732.44486 0.25551 F Value 2866.554 Prob>F 0.0001
R-square Adj R-sq
0.9965 0.9962
Parameter Estimates Variable QI DF 1 Parameter Estimate 0.121608 Standard Error 0.00227134 T for H0: Parameter=0 53.540 Prob > |T| 0.0001
94
ANALISE DE REGRESSAO MULTIPLA RESIDUAL ----+----+----+----+----+----+----+----+----+----+----+----+----+---| | 1.0 + + | | | * | 0.8 + + | | | | 0.6 + + | | | | 0.4 + + | * | | * | 0.2 + + | * | | * | 0.0 + + | | | * | -0.2+ + | | | * | -0.4+ + | | | | -0.6+ + | * | | | -0.8+ + | | | * | -1.0+ + | | ----+----+----+----+----+----+----+----+----+----+----+----+----+---6.75 7.00 7.25 7.50 7.75 8.00 8.25 8.50 8.75 9.00 9.25 9.50 9.75 Predicted Value of CR PRED ANALISE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 11 Sum Wgts 11 0 Sum 0 0.4394 Variance 0.193073 -0.89363 Kurtosis 1.147284 1.930728 CSS 1.930728 . Std Mean 0.132484 0 Pr>|T| 1.0000 11 Num > 0 7 1.5 Pr>=|M| 0.5488 5 Pr>=|S| 0.7002 0.925844 Pr<W 0.3534 Quantiles(Def=5) 0.663001 0.221649 0.071596 -0.12546 -0.9284 1.591405 0.347107 -0.9284 99% 95% 90% 10% 5% 1% 0.663001 0.663001 0.405283 -0.57997 -0.9284 -0.9284
Range Q3-Q1 Mode
Extremes Lowest -0.9284( Obs Highest 6) 0.101925( Obs 9)
95
-0.57997( -0.12546( -0.08576( 0.064553( Stem 6 4 2 0 -0 -2 -4 -6 -8 Leaf 6 1 2 6709 39 8
5) 0.191585( 1) 0.221649( 8) 0.405283( 7) 0.663001( # 1 1 1 4 2 1
3) 4) 10) 2) Boxplot | | +-----+ *--+--* +-----+ | |
3 1 0 ----+----+----+----+ Multiply Stem.Leaf by 10**-1 ANALISE DOS RESIDUOS Univariate Procedure
Variable=RESIDUAL
Residual
Normal Probability Plot 0.7+ ++*++ | +*++ | ++*++ | * *+*++* -0.1+ * *++++ | +++++ | ++*+ | +++++ -0.9+ ++++ * +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
COMENTRIO: A regresso linear de CR em funo unicamente do QI da criana bem significativa. O modelo proposto CR= 0.12 QI explica 99.65% da variabilidade do CR. O grfico do resduos apresenta uma alternncia de sinais positivos e negativos, indicando aleatoriedade. Para verificar a qualidade deste ajuste: A hiptese de normalidade no deve ser rejeitada, pois Prob<W=0.35 alto. O valor para a assimetria Skewness = -0.894, encontra-se dentro do intervalo de [1.26, 1.26], confirmando a hiptese testada. 3) Um proprietrio est interessado em analisar o efeito de seu ar condicionado na sua conta de luz. Para isto ele tem registrado o nmero de horas de utilizao do ar nos ltimos 21 dias. Ele tem monitorado o relgio de eletricidade para estes dias e computado a quantidade de eletricidade consumida, Killowat/Hora. Finalmente ele registrou o nmero de vezes que sua secadora foi usada a cada dia. Crie um arquivo SAS com os registros abaixo, relativos ao consumo de eletricidade do proprietrio. CONSUMO 35 63 66 17 94 Treinamento Sistema SAS NO_HORA S 1,5 4,5 5,0 2,0 8,5 96 USO_SEC 1 2 2 0 3 Prof. Luis Felipe Lopes
79 93 66 94 82 78 65 77 75 62 85 43 57 33 65 33 Pede-se:
6,0 13,5 8,0 12,5 7,5 6,5 8,0 7,5 9,0 7,5 12,0 6,0 2,5 5,0 7,5 6,0
3 1 1 1 2 3 1 2 2 1 1 0 3 0 1 0
A) Obter um plot do Consumo X Nmero de Horas ar para verificar o efeito que o ar condicionado tem no consumo de eletricidade. B) Use a PROC CORR para obter o coeficiente de correlao entre o consumo e o tempo de utilizao do ar. C) Para verificar a forma de relacionamento entre as duas variveis acima descritas utilize a anlise de regresso fazendo o ajuste de uma reta atravs dos pontos obtidos no plot do item A. D) Suponha que o proprietrio queira predizer o consumo em um dia que o ar seja usado por 8 horas. Com a reta ajustada calcule o valor predito para o consumo quando o Nmero de Horas ar = 8
97
E) O plot do item A mostra que o valor do consumo para um dia de 8 horas de utilizao de ar varia num range de 45 a 85 KWH, dependendo de outros fatores que possam afetar o consumo naquele dia . O proprietrio pode colocar limites de confiana para um determinado valor predito, como o encontrado no Item D. Estes limites fornecem um range provvel para ocorrncia do no. de KWH consumido em um determinado dia. Com a PROC REG riste os valores preditos do consumo e os respectivos limites de predio . F) Para melhor visualizao grfica do ajuste, obter um plot que contenha os valores do no. de horas de utilizao do ar, os valores preditos e os limites de predio a 95% de confiana para o consumo. (Utilize a opo overlay com o comando plot da PROC REG para que os plotes saiam no mesmo grfico). G) O proprietrio tambm registrou o no. de vezes que sua secadora foi utilizada a cada dia . Esta varivel pode ser utilizada em adio ao no. de horas de ar para predizer o valor do consumo de eletricidade ? Use a PROC REG para ajustar um modelo de regresso mltipla para os dados acima.
OPTIONS FORMDLIM='*' LS=80; DATA ENERGIA A; INPUT CONSUMO NO_HORAS USO_SEC @@; CARDS; 35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0 94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1 94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1 77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 1 43 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1 33 6.0 0 ; /* #############( A )################## */ PROC PLOT; PLOT CONSUMO*NO_HORAS; TITLE 'DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS'; RUN; /* #############( B )################## */ PROC CORR; VAR CONSUMO; WITH NO_HORAS; TITLE 'ANALISE DE CORRELACAO CONSUMO E NO HORAS'; RUN; /* #############( C-E )############### */ PROC REG; MODEL CONSUMO=NO_HORAS; ID NO_HORAS; VAR USO_SEC; PLOT RESIDUAL.*PREDICTED.='*'; TITLE 'REGRESSAO LINEAR DO CONSUMO EM FUNCAO DO NO HORAS'; PRINT CLI; TITLE 'LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO'; RUN; /* #############( F )################## */ PLOT CONSUMO*NO_HORAS='O' P.*NO_HORAS='_' L95.*NO_HORAS='L' U95.*NO_HORAS='U' /OVERLAY; TITLE 'LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA'; RUN;
98
/* #############( G )################## */ PROC REG; MODEL CONSUMO=NO_HORAS USO_SEC; TITLE 'REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA'; RUN;
A)
DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS Plot of CONSUMO*NO_HORAS. Legend: A = 1 obs, B = 2 obs, etc.
CONSUMO | | 95 + A A 93 + A 91 + 89 + 87 + 85 + A 83 + A 81 + 79 + A A 77 + A 75 + A 73 + 71 + 69 + 67 + A A 65 + A A 63 + A A 61 + 59 + 57 + A 55 + 53 + 51 + 49 + 47 + 45 + 43 + A 41 + 39 + 37 + 35 + A 33 + A A 31 + 29 + 27 + 25 + 23 + 21 + 19 + 17 + A | -+--------+--------+--------+---------+---------+---------+---------+ 0 2 4 6 8 10 12 14 NO_HORAS
99
COMENTRIO: O plote mostra uma tendncia crescente entre as variveis. B)

ANALISE DE CORRELACAO CONSUMO E NO HORAS Correlation Analysis 1 'WITH' Variables: NO_HORAS 1 'VAR' Variables: CONSUMO Simple Statistics Variable NO_HORAS CONSUMO N 21 21 Mean 6.92857 64.85714 Std Dev 3.13562 21.88444 Sum 145.50000 1362 Minimum 1.50000 17.00000 Maximum 13.50000 94.00000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 21 CONSUMO NO_HORAS 0.76528 0.0001
COMENTRIO: O valor do Coef. Corr. Pearson=0.765 reflete a tendncia crescente mostrada no plote, ou seja, quando h um aumento do uso do ar, h aumento no consumo de energia. C)
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO Model: MODEL1 Dependent Variable: CONSUMO Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 1 19 20 Sum of Squares 5609.66260 3968.90883 9578.57143 14.45303 64.85714 22.28440 Mean Square 5609.66260 208.88994 R-square Adj R-sq F Value 26.855 Prob>F 0.0001
0.5856 0.5638
100
Parameter Estimates Variable INTERCEP NO_HORAS DF 1 1 Parameter Estimate 27.851072 5.341082 Standard Error 7.80653827 1.03067009 T for H0: Parameter=0 3.568 5.182 Prob > |T| 0.0021 0.0001
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO RESIDUAL -+----+----+----+----+----+----+----+----+----+----+----+----+----+-| | 30 + + | | | | | | | * | 20 + + | * | | * * | | * | | * * | 10 + + | * | | | | * | | | 0 + * + | * * | | * | | * * | | * * | -10 + + | | | | | * | -20 + + | * * | | | | * | -30 + + | | -+----+----+----+----+----+----+----+----+----+----+----+----+----+-35 40 45 50 55 60 65 70 75 80 85 90 95 100 Predicted Value of CONSUMO PRED
COMENTRIO: O modelo de regresso obtido dado por: CONSUMO = 27.85 + 5.341 NO_HORAS E pode ser interpretado como: Quando NO_HORAS = 0, h um nvel de consumo mnimo estimado de energia de 27,85. A cada hora de uso de ar, o aumento estimado do consumo de 5.341 kwh.
101
D) Os dados do arquivo contm 3 observaes com N0_HORAS = 8, cujos valores correspondentes para CONSUMO so 66, 65 e 75. Isso mostra a existncia de um faixa de possveis valores de CONSUMO para um dado valor de NO_HORAS. No modelo de regresso estimado, para o valor de NO_HORAS = 8: CONSUMO = 27.85 - 5.34 * 8 = 70,57. E)
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 NO_HORAS 1.5 4.5 5 2 8.5 6 13.5 8 12.5 7.5 6.5 8 7.5 8 7.5 12 6 2.5 5 7.5 6 Dep Var CONSUMO 35.0000 63.0000 66.0000 17.0000 94.0000 79.0000 93.0000 66.0000 94.0000 82.0000 78.0000 65.0000 77.0000 75.0000 62.0000 85.0000 43.0000 57.0000 33.0000 65.0000 33.0000 Predict Value 35.8627 51.8859 54.5565 38.5332 73.2503 59.8976 99.9557 70.5797 94.6146 67.9092 62.5681 70.5797 67.9092 70.5797 67.9092 91.9441 59.8976 41.2038 54.5565 67.9092 59.8976 Std Err Predict 6.423 4.026 3.728 5.979 3.545 3.296 7.471 3.342 6.551 3.208 3.185 3.342 3.208 3.342 3.208 6.105 3.296 5.548 3.728 3.208 3.296 Lower95% Predict 2.7597 20.4834 23.3158 5.7963 42.1028 28.8704 65.9024 39.5312 61.4013 36.9223 31.5919 39.5312 36.9223 39.5312 36.9223 59.1057 28.8704 8.8010 23.3158 36.9223 28.8704 Upper95% Predict 68.9657 83.2884 85.7971 71.2702 104.4 90.9247 134.0 101.6 127.8 98.8961 93.5443 101.6 98.8961 101.6 98.8961 124.8 90.9247 73.6065 85.7971 98.8961 90.9247 Residual -0.8627 11.1141 11.4435 -21.5332 20.7497 19.1024 -6.9557 -4.5797 -0.6146 14.0908 15.4319 -5.5797 9.0908 4.4203 -5.9092 -6.9441 -16.8976 15.7962 -21.5565 -2.9092 -26.8976
0 3968.9088 4728.5664
COMENTRIO: O intervalo de confiana para os valores preditos de AC dado por:

IC NO_HORAS = [ NO_HORAS ( ttab * S) ]
Para = 0.05 (/2 = 0.025 ), o valor da estatstica t consultado na Tabela de uma Distribuio T de Student : t (1-/2, 19) = t (0.975, 19) = 2.09
102
Logo:
IC NO_HORAS = [ NO_HORAS ( 2.09 * 1.03 ) ]
F)
LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA CONSUMO --+----+---+---+----+----+----+----+----+----+----+----+----+----+--140 + + | U | | | | U | | U | | | 20 + + | | | | | | | U | | U | 100 + U _ + | | | U O ? O | | U _ | | | | U O | | U O | 80 + O + | O O | | U O _ | | U _ | | U _ | | O O O L | | O _ O | 60 + _ L L + | O | | _ | | _ | | | | O L | 40 + _ L + | _ _ L | | O O O | | L | | L | | | | L | 20 + L + | O | | | | L | | L | | L | 0 + + --+----+---+---+----+----+----+----+----+----+----+----+----+----+--1 2 3 4 5 6 7 8 9 10 11 12 13 14
NO_HORAS
COMENTRIO: Pode-se observar que todos os pontos reais e previstos esto dentro dos limites de predio.
G)
REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA
Model: MODEL1
103
Dependent Variable: CONSUMO Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 2 18 20 Sum of Squares 9299.80154 278.76989 9578.57143 3.93538 64.85714 6.06777 Mean Square 4649.90077 15.48722 R-square Adj R-sq F Value 300.241 Prob>F 0.0001
0.9709 0.9677
Parameter Estimates Variable INTERCEP NO_HORAS USO_SEC DF 1 1 1 Parameter Estimate 8.105385 5.465903 13.216600 Standard Error 2.48085116 0.28075519 0.85621937 T for H0: Parameter=0 3.267 19.469 15.436 Prob > |T| 0.0043 0.0001 0.0001
COMENTRIO: Observa-se que: SS(Erro) mltipla = 278.76 < SS (Erro) simples O modelo: CONSUMO = 8.10 + 5.466 NO_HORAS + 13.217 USO_SEC representa 97% da variabilidade do consumo de energia. O valor de 8,10 representa o nmero de kwh consumido num dia onde nem o ar e nem a secadora so utilizados. O valor de 5,466 a estimativa de energia consumida para cada hora de uso do ar, e 13,217 representa a estimativa de energia consumida a cada vez que a secadora ligada. 4) Uma droga que mistura estimulante e relaxante administrada em 15 animais. taxa de pulsao medida antes e depois da administrao da droga. O propsito do experimento determinar se existe uma mudana na taxa de pulsao com o uso da droga. Os dados so apresentados abaixo:
104
ANTES 62 63 58 64 64 51 68 66 65 66 67 69 61 64 61 63
DEPOIS 61 62 51 61 63 58 61 64 64 62 68 65 60 65 63 62
OPTIONS FORMDLIM='*' LS=80; DATA APT A; INPUT ANIMAL ANTES DEPOIS @@; DIF=DEPOIS-ANTES; CARDS; 1 62 61 2 63 62 3 58 51 4 64 61 5 51 58 6 68 61 7 66 64 8 65 64 9 66 62 10 67 68 11 69 65 12 61 60 13 64 65 14 61 63 15 63 62 ; PROC UNIVARIATE; VAR DIF; TITLE 'TESTE PARA DIFERENCAS DE OBS. PAREADA'; RUN; TESTE PARA DIFERENCAS DE OBS. PAREADA Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 15 -1.4 3.521363 0.508266 203 -251.526 -1.53979 15 -3.5 -29.5 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 15 -21 12.4 1.407817 173.6 0.909212 0.1459 4 0.1185 0.0984
105
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 7 1 -1 -4 -7 14 5 -1 Obs 99% 95% 90% 10% 5% 1% 7 7 2 -7 -7 -7
Range Q3-Q1 Mode Lowest -7( -7( -4( -4( -3(
Extremes Highest -1( 1( 1( 2( 7( Obs 15) 10) 13) 14) 5)
6) 3) 11) 9) 4)
Como Prob>|T|=0.0285<0.05. ao nvel de 5% de significncia h evidncias que a diferena mdia da taxa de pulsao com a utilizao de droga difere de zero. 5) Um aparelho utilizado para testar a durabilidade de lmpadas submetidas a diversas tenses. O aparelho consta de oito soquetes ligados em paralelo e de um reostato ligado em srie com um gerador e oito soquetes. Oito lmpadas da marca A e oito da B foram ensaiadas nesse aparelho, sob as mesmas condies , fornecendo as seguintes duraes, em horas: SOQUETE Marca A Marca B 1 35 23 2 26 28 3 40 31 4 35 35 5 31 36 6 49 30 7 38 27 8 24 26
Pode-se concordar, a um nvel de significncia de 1%, com os fabricantes da marca A, que suas lmpadas tem durabilidade diferente das apresentadas pela marca B ?
OPTIONS FORMDLIM='*' LS=80; DATA LAMP A; INPUT MARCA $ TEMPO @@; CARDS; A 35 B 23 A 26 B 28 A 40 B 31 A 35 B 35 A 31 B 36 A 49 B 30 A 38 B 27 A 24 B 26 ; PROC TTEST; CLASS MARCA; VAR TEMPO; TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; RUN;
106
TESTE PARA IGUALDADE DE MEDIAS TTEST PROCEDURE Variable: TEMPO MARCA N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------A 8 34.75000000 7.99553447 2.82684832 24.00000000 49.00000000 B 8 29.50000000 4.44007722 1.56980436 23.00000000 36.00000000 Variances T DF Prob>|T| --------------------------------------Unequal 1.6236 10.9 0.1329 Equal 1.6236 14.0 0.1267 For H0: Variances are equal, F' = 3.24 DF = (7,7) Prob>F' = 0.1434
COMENTRIO: As varincias no so significativamente diferentes ao nvel de 10% de significncia, pois Prob>F=0.1434>. No teste de igualdade de mdias, na linha (Variances=Equal), ao nvel de 1%, como foi estipulado no enunciado, no h diferena significativa entre as mdias, uma vez que Prob>|T|=0.1265>(=0.01). 6) Duas amostras de carros produzidos em anos diferentes, do mesmo modelo e fabricante, foram testados em iguais condies, quanto ao consumo de combustvel em km/l a 80 Km/h, conforme mostrado na tabela abaixo. Desejase saber se os carros produzidos nos anos I e II tem o mesmo consumo ao nvel de 10% de significncia. Consumo (km/l)
Ano I Ano II 13.01 12.99 13.00 13.06 12.95 12.98 12.97 13.14 13.01 13.14 12.93 12.94 12.96 12.97 12.94
OPTIONS FORMDLIM='*' LS=80; DATA CONSUMO A; INPUT ANO $ CONSUMO @@; CARDS; I 13.01 I 13.00 I 12.95 I 12.97 I 13.01 I 12.93 I 12.94 I 12.96 I 12.97 I 12.94 II 12.99 II 13.06 II 12.98 II 13.14 II 13.14 ; PROC TTEST; CLASS ANO; VAR CONSUMO; TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; RUN;
107
TESTE PARA IGUALDADE DE MEDIAS TTEST PROCEDURE Variable: CONSUMO ANO N Mean Std Dev Std Error Minimum Maximum -----------------------------------------------------------------------I 10 12.96800000 0.02973961 0.00940449 12.93000000 13.01000000 II 5 13.06200000 0.07758866 0.03469870 12.98000000 13.14000000 Variances T DF Prob>|T| --------------------------------------Unequal -2.6147 4.6 0.0521 Equal -3.4569 13.0 0.0043 For H0: Variances are equal, F' = 6.81 DF = (4,9) Prob>F' = 0.0166
COMENTRIO: As varincias diferem significativamente ao nvel de 10% de significncia, pois Prob>F=0.0166<. No teste de igualdade de mdias, na linha (Variances=Equal), h indicao que o nvel mdio de consumo dos carros produzidos nos anos I e II so diferentes ao nvel de 10% de significncia, Prob>|T|=0.052<(= 0.10). 7) Dez culturas de fungo foram estudadas quanto a susceptibilidade de crescimento devido exposio de luz permanente. O crescimento em termos de dimetro mdio da cultura foi medido antes e aps o perodo de exposio permanente de luz, durante 15 dias. A tabela abaixo mostra os resultados obtidos nas 10 culturas durante o perodo. Ao nvel de 2.5% pode-se afirmar que a luz permanente contribui para o crescimento das culturas de fungo? Obter um grfico da distribuio dos valores da varivel DIF=DEPOISANTES. DIAMETRO MDIO (CM) CULTURA 1 2 3 4 5 6 7 8 9 10 ANTES 6,4 7.0 6.6 5.6 6.0 7.5 7.0 5.8 6.3 6.7 DEPOIS 6.4 7.1 6.8 5.6 6.1 7.4 7.1 5.9 6.4 6.8
108
OPTIONS FORMDLIM='*' LS=80; DATA FUNGO A; INPUT CULTURA ANTES DEPOIS @@; DIF=DEPOIS-ANTES; CARDS; 1 6.4 6.4 2 7.0 7.1 3 6.6 6.8 4 5.6 5.6 5 6.0 6.1 6 7.5 7.4 7 7.0 7.1 8 5.8 5.9 9 6.3 6.4 10 6.7 6.8 ; PROC UNIVARIATE; VAR DIF; TITLE 'TESTE PARA DIFERENCA DE OBS. PAREADAS'; RUN; PROC CHART; VBAR DIF; TITLE 'GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS'; RUN; TESTE PARA DIFERENCA DE OBS. PAREADAS Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 10 0.07 0.082327 -0.80646 0.11 117.6104 2.688774 8 3 12 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 10 0.7 0.006778 1.236995 0.061 0.026034 0.0248 7 0.0703 0.1094
Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 0.2 0.1 0.1 0 -0.1 0.3 0.1 0.1 Extremes Lowest -0.1( 0( 0( 0.1( 0.1( Obs 6) 4) 1) 10) 7) Highest 0.1( 0.1( 0.1( 0.1( 0.2( Obs 7) 10) 8) 9) 3) 99% 95% 90% 10% 5% 1% 0.2 0.2 0.15 -0.05 -0.1 -0.1
Range Q3-Q1 Mode
109
GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS Frequency 6 + ***** | ***** | ***** 5 + ***** | ***** | ***** 4 + ***** | ***** | ***** 3 + ***** | ***** | ***** 2 + ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** 1 + ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** --------------------------------------------------------0.1 0.0 0.1 0.2 DIF Midpoint
COMANTRIO: Como o p-valor=0.0248<0.05, h evidncias de que a diferena mdia do dimetro da cultura com a exposio de luz significativamente diferente de zero, ou seja, a luz contribui para o crescimento das culturas. No plote das diferenas, observa-se que a mais alta freqncia ocorre para valores superiores a 0.05. 8) INSTITUTO DE PESQUISAS E EXPERIMENTAO AGROPECURIAS DO SUL MODELOS DE ANLISE ESTATSTICA DE EXPERIMENTOS EXPERIMENTOS EM QUADRADO LATINO Produo de Gros Secos em Gramas por Parcela de 5m3 C O L U N A 3 4
1125 (2) 1137 (5) 1100 (4) 1065 (1) 1118 (3) 1335 (1) 1163 (4) 885 (3) 1110 (5) 1012 (2)
1
F I L A 1 2 3 4 5 1400 (4) 1235 (2) 1545 (1) 1305 (3) 1293 (5)
2
1207 (3) 1515 (1) 1212 (5) 1295 (2) 1322 (4)
5
1350 (5) 1090 (3) 1206 (2) 1000 (4) 1303 (1)
Faa uma anlise de varincia com os dados acima: (PROC ANOVA)

OPTIONS FORMDLIM='*' LS=80; DATA GRAO A;
110
INPUT FILA COL VARIED PROD @@; CARDS; 1 1 4 1400 1 2 3 1207 1 3 2 1125 2 1 2 1235 2 2 1 1515 2 3 5 1137 3 1 1 1545 3 2 5 1212 3 3 4 1100 4 1 3 1305 4 2 2 1295 4 3 1 1065 5 1 5 1293 5 2 4 1322 5 3 3 1118 ; PROC ANOVA; CLASS FILA COL VARIED; MODEL PROD=FILA COL VARIED; TITLE 'ANALISE DE VARIANCIA'; RUN;
1 2 3 4 5
4 4 4 4 4
1 4 3 5 2
1335 1163 885 1110 1012
1 2 3 4 5
5 5 5 5 5
5 3 2 4 1
1350 1090 1206 1000 1303
ANALISE DE VARIANCIA Analysis of Variance Procedure Class Level Information Class FILA COL VARIED Levels 5 5 5 Values 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Number of observations in data set = 25 ************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: PROD Source Model Error Corrected Total R-Square 0.782763 Source FILA COL VARIED DF 4 4 4 DF 12 12 Sum of Squares Mean Square 38550.99333 10698.89333
F Value 3.60
Pr > F 0.0175
462611.92000 128386.72000 24
590998.64000 C.V. 8.526399 Anova SS Root MSE 103.43545 Mean Square 11380.26000 67100.96000 37171.76000 F Value 1.06 6.27 3.47 PROD Mean 1213.1200 Pr > F 0.4161 0.0058 0.0418
45521.04000 268403.84000 148687.04000
COMENTRIO: Hiptese Testada: No h diferena significativa no nivel mdio de produo devido aos fatores fila (FILA), coluna (COL) e variedade (VARIED) do gro plantado
Pr>F (FILA) = 0.4161 > (=0.05) Pr>F (COL) = 0.0058 < (=0.05) Pr>F (VARIED) = 0.0418 < (=0.05) Ao nvel de 5% o efeito coluna (COL) e variedade (VARIED) do gro so significativos no nvel mdio de produo. Treinamento Sistema SAS 111 Prof. Luis Felipe Lopes
9) Deseja-se determinar se h diferena significativa no percurso por galo obtido com quatro tipos de gasolina A, B, C, D. O expediente realizado com quatro carros diferentes, quatro motoristas diferentes, e em quatro estradas diferentes. M O T O R I S T A S 1 2 3 4 B3 19 A2 16 D4 16 C1 14 A4 15 B1 18 C3 11 D2 15 D1 14 C4 11 B2 21 A3 16 C2 16 D3 16 A1 15 B4 23
C A R R O S
1 2 3 4
TIPOS DE ESTRADA = 1 2 3 4 TIPOS DE GASOLINA = A B C D Faa uma anlise de varincia com os dados acima: (PROC ANOVA)
OPTIONS FORMDLIM='*' LS=80; DATA GAS A; INPUT MOTOR CARRO GAS $ ESTR PERC @@; CARDS; 1 1 B 3 19 1 2 A 2 16 1 3 D 4 16 1 4 C 2 1 A 4 15 2 2 B 1 18 2 3 C 3 11 2 4 D 3 1 D 1 14 3 2 C 4 11 3 3 B 2 21 3 4 A 4 1 C 2 16 4 2 D 3 16 4 3 A 1 15 4 4 B ; PROC ANOVA; CLASS MOTOR CARRO GAS ESTR; MODEL PERC=MOTOR CARRO GAS ESTR; TITLE 'ANALISE DE VARIANCIA'; RUN;
1 2 3 4
14 15 16 23
112
ANALISE DE VARIANCIA Analysis of Variance Procedure Class Level Information Class MOTOR CARRO GAS ESTR Levels 4 4 4 4 Values 1 2 3 4 1 2 3 4 A B C D 1 2 3 4
Number of observations in data set = 16 ************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: PERC Source Model Error DF 12 3 Sum of Squares Mean Square 11.83333333 2.00000000
F Value 5.92
Pr > F 0.0848
142.00000000 6.00000000 148.00000000 C.V. 8.838835 Anova SS 16.50000000 6.50000000 111.50000000 7.50000000
Corrected Total 15 R-Square 0.959459 Source MOTOR CARRO GAS ESTR DF 3 3 3 3
Root MSE 1.4142136 Mean Square 5.50000000 2.16666667 37.16666667 2.50000000 F Value 2.75 1.08 18.58 1.25
PERC Mean 16.000000 Pr > F 0.2141 0.4745 0.0193 0.4294
COMENTRIO: Hiptese Testada: No h diferena significativa no percurso por galo devido aos diferentes tipos de gasolina. Pr>F (MOTOR) = 0.2141 > (=0.05) Pr>F (CARRO) = 0.4745 > (=0.05) Pr>F (GAS) = 0.0193 < (=0.05) Pr>F (ESTR) = 0.4294 > (=0.05)
113
Ao nvel de 1% nenhum efeito significativo no percurso de gasolina por galo. J ao nvel de 5% h diferena significativa no percurso mdio por galo devido ao tipo de gasolina utilizada. 10) O exerccio a seguir consiste na avaliao de trs planos de vendas com cupons publicados nos jornais. Foi planejado um experimento com 3 tratamentos e 4 blocos. Os blocos representam os tamanhos das lojas bloco 1 as maiores de todas, bloco 2 as maiores seguintes, e assim por adiante. Os tratamentos so as vendas realizadas no dia imediato da publicao dos cupons nos jornais da cidade. Os resultados esto abaixo: TRATAMENTOS
Tamanho Loja Plano Cupom 1 Plano Cupom 2 Plano Cupom 3 Total
1 2 3 4 Total
20 18 15 11 64
17 14 13 8 62
14 10 7 5 36
51 42 35 24 152 BLOCO = Tamanho da Loja TRATAMENTO = Plano
Faa uma anlise de varincia com os dados acima: (PROC GLM)

OPTIONS FORMDLIM='*' LS=80; DATA PLANO A; INPUT LOJA $ PLANO $ N_VENDAS @@; CARDS; T1 P1 20 T1 P2 17 T1 P3 14 T2 P1 18 T2 P2 14 T2 P3 10 T3 P1 15 T3 P2 13 T3 P3 7 T4 P1 11 T4 P2 8 T4 P3 5 ; PROC GLM; CLASS LOJA PLANO; MODEL N_VENDAS=LOJA PLANO; TITLE 'ANALISE DE VARIANCIA'; RUN; ANALISE DE VARIANCIA General Linear Models Procedure Class Level Information Class LOJA PLANO Levels 4 3 Values T1 T2 T3 T4 P1 P2 P3
Number of observations in data set = 12
114
************************************************************************* ANALISE DE VARIANCIA General Linear Models Procedure Dependent Variable: N_VENDAS Sum of Source DF Squares Model Error 5 6 228.66666667 4.00000000 232.66666667 C.V. 6.446026 Type I SS 130.00000000 98.66666667 Type III SS 130.00000000 98.66666667 Root MSE 0.8164966 Mean Square 43.33333333 49.33333333 Mean Square 43.33333333 49.33333333 F Value 65.00 74.00 F Value 65.00 74.00 N_VENDAS Mean 12.666667 Pr > F 0.0001 0.0001 Pr > F 0.0001 0.0001 Mean Square 45.73333333 0.66666667
F Value 68.60
Pr > F 0.0001
Corrected Total 11 R-Square 0.982808 Source LOJA PLANO Source LOJA PLANO DF 3 2 DF 3 2
COMENTRIO: Hiptese Testada: No h diferena significativa no volume de vendas nos diferentes tamanhos de loja. Pr>F (LOJA) = 0.0001 < (=0.01) Pr>F (PLANO) = 0.0001 < (=0.01)
O baixo valor de Pr>F indica baixa probabilidade da hiptese testada ser verdadeira, ou seja, aos nveis usuais de significncia (=1%), tanto o fator tamanho da loja como o plano de vendas apresentam efeitos ponderveis sobre o volume das vendas. ( Exerccios 11 e 12 - Ref. F. Pimentel Gomes ) 11) Experimento Completamente Casualizado. Considere um experimento de competio de cultivares de cana-de-acar, completamente casualizado, com n=4 cultivares (A, B, C, D) e r = 6 repeties, com os seguintes resultados, em t/ha.
115
CULTIVARES Repeties 1 2 3 4 5 6 A 54 40 51 36 50 48 B 60 55 66 61 54 61 C 59 47 44 49 62 60 D 45 33 34 48 42 44
Obtenha a tabela de Anlise da Varincia para estes dados e compare as mdias dos tratamentos, duas duas, utilizando para isso o Teste de Tukev no comando MEANS da PROC ANOVA.
OPTIONS FORMDLIM='*' LS=80; DATA CANA A; INPUT CULTIV $ ALTURA @@; CARDS; A 54 B 60 C 59 D 45 A 40 B 55 C 47 D 33 A 51 B 66 C 44 D 34 A 36 B 61 C 49 D 48 A 50 B 54 C 62 D 42 A 48 B 61 C 60 D 44 ; PROC ANOVA; CLASS CULTIV; MODEL ALTURA=CULTIV; MEANS CULTIV /TUKEY; TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; RUN; EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Class Level Information Class CULTIV Levels 4 Values A B C D
Number of observations in data set = 24 ************************************************************************* EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Dependent Variable: ALTURA Source Model Error Corrected Total DF 3 20 23 Sum of Squares Mean Square 391.3750000 41.3250000
F Value 9.47
Pr > F 0.0004
1174.1250000 826.5000000 2000.6250000 C.V. 12.82484 Anova SS 1174.1250000
R-Square 0.586879 Source CULTIV DF 3
Root MSE 6.4284524 Mean Square 391.3750000 F Value 9.47
ALTURA Mean 50.125000 Pr > F 0.0004
*************************************************************************
116
EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: ALTURA NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 20 MSE= 41.325 Critical Value of Studentized Range= 3.958 Minimum Significant Difference= 10.388 Means with the same letter are not significantly different. Tukey Grouping A A A C C C Mean 59.500 53.500 46.500 41.000 N 6 6 6 6 CULTIV B C A D
B B B
COMENTRIO: Analisando o R-Square observa-se que 58.69% da variao do modelo explicado pela diferena entre os cultivares. O p-valor dado por Pr>F=0.0004 bem menor que o nvel de significncia de 10%, donde se conclui que a mdia das alturas significativamente diferente para os diferentes tipos de cultivares. Esta anlise pode ser vista tambm pelo Teste de Tukey. A mdia global (ALTURA Mean) das alturas 50.125. O coeficiente de variao (C V) das alturas 12.825
117
12) Experimento com blocos casualizados. Num experimento de competio de n=7 cultivares de milho, em r=4 blocos casualizados, as produes, em km/ha, foram as da tabela abaixo: Cultivares 1 2 3 4 5 6 7 Bloco 1 1920 3110 3260 2540 2270 3000 3310 Bloco 2 2340 3700 3990 2190 2800 3110 3420 Bloco 3 2100 3640 3420 2010 2820 3000 3640 Bloco 4 1920 3570 3510 2230 2710 3800 230
A) Os dados se encontram no arquivo MILHO.SAS. Obtenha a tabela de Anlise de Varincia ao nvel de 5% para testar se so iguais as mdias dos 7 tratamentos. Compare estas mdias par a par. B) Analise os dados considerando que tenha sido perdido o cultivar nmero 7 C) Analise os dados considerando apenas os 3 primeiros blocos
OPTIONS FORMDLIM='*' LS=80; DATA MILHO A; INPUT BLOCO CULTIV PROD @@; CARDS; 1 1 1920 2 1 2340 3 1 2100 4 1 1920 1 2 3110 2 2 3700 3 2 3640 4 2 3570 1 3 3260 2 3 3990 3 3 3420 4 3 3510 1 4 2540 2 4 2190 3 4 2010 4 4 2230 1 5 2270 2 5 2800 3 5 2820 4 5 2710 1 6 3000 2 6 3110 3 6 3000 4 6 3800 1 7 3310 2 7 3420 3 7 3640 4 7 2630 ; /* ############( A )############### */; PROC ANOVA; CLASS CULTIV BLOCO; MODEL PROD=CULTIV BLOCO; MEANS CULTIV BLOCO /TUKEY; TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO'; RUN; /* ############( B )############### */; PROC ANOVA; WHERE CULTIV NE 7; CLASS CULTIV BLOCO; MODEL PROD=CULTIV BLOCO; MEANS CULTIV BLOCO /TUKEY; TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7'; RUN; /* ############( C )############### */; PROC ANOVA; WHERE BLOCO NE 4; CLASS CULTIV BLOCO; MODEL PROD=CULTIV BLOCO; MEANS CULTIV BLOCO /TUKEY; TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4'; RUN; A) EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Class Level Information
118
Class CULTIV BLOCO
Levels 7 4
Values
1 2 3 4 5 6 7 1 2 3 4
Number of observations in data set = 28 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Dependent Variable: PROD Source Model Error Corrected Total DF 9 18 27 Sum of Squares Mean Square 1010380.1587 92130.5556
F Value 10.97
Pr > F 0.0001
9093421.4286 1658350.0000 10751771.4286 C.V. 10.36950 Anova SS 8761421.4286 332000.0000
R-Square 0.845760 Source CULTIV BLOCO DF 6 3
Root MSE 303.53016 Mean Square 1460236.9048 110666.6667 F Value 15.85 1.20
PROD Mean 2927.1429 Pr > F 0.0001 0.3377
************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 18 MSE= 92130.56 Critical Value of Studentized Range= 4.673 Minimum Significant Difference= 709.22
119
Means with the same letter are not significantly different. Tukey Grouping A A A A A A A C C C C C Mean 3545.0 3505.0 3250.0 3227.5 2650.0 2242.5 2070.0 N 4 4 4 4 4 4 4 CULTIV 3 2 7 6 5 4 1
B B B B B
************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 18 MSE= 92130.56 Critical Value of Studentized Range= 3.997 Minimum Significant Difference= 458.55 Means with the same letter are not significantly different. Tukey Grouping A A A A A A A Mean 3078.6 2947.1 2910.0 2772.9 N 7 7 7 7 BLOCO 2 3 4 1
COMENTRIO: Analisando o R-Square observa-se que 84.58% da variao do modelo explicado pela diferena entre os cultivares. O p-valor para a varivel CULTIV (Pr>F=0.0001) bem menor que o nvel de significncia de 10%, donde se conclui que a mdia da produo (PROD) significativamente diferente para os diferentes tipos de cultivares. Esta anlise pode ser vista tambm pelo Teste de Tukey. O p-valor para a varivel BLOCO (Pr>F=0.3377) maior o nvel de significncia de 10%, donde se conclui que a mdia da produo (PROD) no significativamente diferente para os diferentes tipos de blocos. Esta anlise pode ser vista tambm pelo Teste de Tukey. A mdia global (ALTURA Mean) da produo 2927.14.
O coeficiente de variao (C V) da produo 10.37%. B)

EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
120
Analysis of Variance Procedure Class Level Information Class CULTIV BLOCO Levels 6 4 Values
1 2 3 4 5 6 1 2 3 4
Number of observations in data set = 24 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 Analysis of Variance Procedure Dependent Variable: PROD Source Model Error Corrected Total DF 8 15 23 Sum of Squares 8675683.3333 1020650.0000 9696333.3333 C.V. 9.078347 Anova SS 8274983.3333 400700.0000 Root MSE 260.85117 Mean Square 1654996.6667 133566.6667 F Value 24.32 1.96 PROD Mean 2873.3333 Pr > F 0.0001 0.1629 Mean Square 1084460.4167 68043.3333 F Value 15.94 Pr > F 0.0001
************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 15 MSE= 68043.33 Critical Value of Studentized Range= 4.595 Minimum Significant Difference= 599.27 Means with the same letter are not significantly different. Tukey Grouping A A A A A C C C C C Mean 3545.0 3505.0 3227.5 2650.0 2242.5 2070.0 N 4 4 4 4 4 4 CULTIV 3 2 6 5 4 1
B B B
************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
121
Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 15 MSE= 68043.33 Critical Value of Studentized Range= 4.076 Minimum Significant Difference= 434.06 Means with the same letter are not significantly different. Tukey Grouping A A A A A A A Mean 3021.7 2956.7 2831.7 2683.3 N 6 6 6 6 BLOCO 2 4 3 1
COMENTRIO: Comparando o item (A) e (B) observa-se que o R-Square aumentou de 84.58% para 89.47%. O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a varivel BLOCO (Pr>F=0.1629) diminuiu, mas no significativamente. A mdia global (ALTURA Mean) da produo diminuiu para 2873.33. O coeficiente de variao (C V) da produo diminuiu para 9.078%. C)
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 Analysis of Variance Procedure Class Level Information Class CULTIV BLOCO Levels 7 3 Values
1 2 3 4 5 6 7 1 2 3
Number of observations in data set = 21 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 Analysis of Variance Procedure Dependent Variable: PROD Source Model Error Corrected Total DF 8 12 20 Sum of Squares 6931152.3810 669276.1905 7600428.5714 Mean Square 866394.0476 55773.0159 F Value 15.53 Pr > F 0.0001
122
C.V. 8.052322 Anova SS 6601895.2381 329257.1429
Root MSE 236.16311 Mean Square 1100315.8730 164628.5714 F Value 19.73 2.95
PROD Mean 2932.8571 Pr > F 0.0001 0.0907
************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUIDO BLOCO = 4 Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 12 MSE= 55773.02 Critical Value of Studentized Range= 4.949 Minimum Significant Difference= 674.85 Means with the same letter are not significantly different. Tukey Grouping A A A A A A A C C C C C Mean 3556.7 3483.3 3456.7 3036.7 2630.0 2246.7 2120.0 N 3 3 3 3 3 3 3 CULTIV 3 2 7 6 5 4 1
B B B
************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 12 MSE= 55773.02 Critical Value of Studentized Range= 3.773 Minimum Significant Difference= 336.76 Means with the same letter are not significantly different. Tukey Grouping A A A A A Mean 3078.6 2947.1 2772.9 N 7 7 7 BLOCO 2 3 1
COMENTRIO:
123
Comparando o item (A) e (C) observa-se que o R-Square aumentou de 84.58% para 91.19%. O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a varivel BLOCO (Pr>F=0.0907) diminuiu significativamente (<10%), o que significa que a mdia da produo (PROD) significativamente diferente para os diferentes tipos de BLOCOS. A mdia global (ALTURA Mean) da produo aumentou para 2932.85. O coeficiente de variao (C V) da produo diminuiu para 8.05%. 13) As variveis BLOCO e TRAT representam os fatores. As variveis CAMPO1 e CAMPO2 representam as respostas do experimento, Use o comando MODEL para obter uma anlise de varincia para cada uma das variveis dependentes CAMPO1 e CAMPO2.Use = 5 e 10%. T R A T A M E N T O S A B C 32.6 36.4 29.5 112 130 106 42.7 47.1 32.9 139 143 112 35.3 40.1 33.6 124 134 116
B L O C O S
1 2 3
OPTIONS FORMDLIM='*' LS=80; DATA CAMPO A; INPUT BLOCO TRAT $ CAMPO1 CAMPO2 @@; CARDS; 1 A 32.6 112 1 B 36.4 130 1 C 29.5 106 2 A 42.7 139 2 B 47.1 143 2 C 32.9 112 3 A 35.3 124 3 B 40.1 134 3 C 33.6 116 ; PROC ANOVA; CLASS BLOCO TRAT; MODEL CAMPO1 CAMPO2=BLOCO TRAT; TITLE 'ANALISE DE VARIANCIA'; RUN; ANALISE DE VARIANCIA Analysis of Variance Procedure Class Level Information Class BLOCO TRAT Levels 3 3 Values 1 2 3 A B C
Number of observations in data set = 9 ************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: CAMPO1
124
Source Model Error Corrected Total
DF 4 4 8
Sum of Squares 225.27777778 25.19111111 250.46888889 C.V. 6.840047 Anova SS 98.17555556 127.10222222
Mean Square 56.31944444 6.29777778
F Value 8.94
Pr > F 0.0283
R-Square 0.899424 Source BLOCO TRAT DF 2 2
Root MSE 2.5095374 Mean Square 49.08777778 63.55111111
CAMPO1 Mean 36.688889 F Value 7.79 10.09 Pr > F 0.0417 0.0274
************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: CAMPO2 Source Model Error Corrected Total DF 4 4 8 Sum of Squares Mean Square 311.8333333 37.6666667
F Value 8.28
Pr > F 0.0323
1247.3333333 150.6666667 1398.0000000 C.V. 4.949450 Anova SS 354.66666667 892.66666667
R-Square 0.892227 Source BLOCO TRAT DF 2 2
Root MSE 6.1373175 Mean Square 177.33333333 446.33333333
CAMPO2 Mean 124.00000 F Value 4.71 11.85 Pr > F 0.0889 0.0209
COMENTRIO: CAMPO1 Analisando o R-Square (CAMPO1) observa-se que o 89.24% da variao do modelo explicado pela diferena entre os blocos e entre os tratamentos. O p-valor para a varivel BLOCO (Pr>F=0.0417) menor que os nveis de significncia 5 e 10%, donde se conclui que a mdia do CAMPO1 significativamente diferente para os diferentes tipos de blocos. O p-valor para a varivel TRAT (Pr>F=0.0274) menor que os nveis de significncia 5 e 10%, donde se conclui que a mdia do CAMPO1 significativamente diferente para os diferentes tipos de tratamentos. A mdia global (CAMPO1 Mean) do CAMPO1 124.0. O coeficiente de variao (C V) do CAMPO1 6.84%. CAMPO2
125
Analisando o R-Square (CAMPO2) observa-se que 89.22% da variao do modelo explicado pela diferena entre os blocos e entre os tratamentos. O p-valor para a varivel BLOCO (Pr>F=0.0889) maior que os nivel de significncia 5%, donde se conclui que a mdia do CAMPO2 no significativamente diferente para os diferentes tipos de blocos, mas isso acontece para =10%. O p-valor para a varivel TRAT (Pr>F=0.0209) menor que os nveis de significncia 5 e 10%, donde se conclui que a mdia do CAMPO2 significativamente diferente para os diferentes tipos de tratamentos. A mdia global (CAMPO2 Mean) do CAMPO2 36.689. O coeficiente de variao (C V) do CAMPO2 4.95%.
126
13 EXEMPLO PRTICO 13.1 Banco de Dados

GRUPO IDADE PAS_INI PAD_INI PAS_FIM PAD_FIM PESO ESTAT
A A A A A A A A A A A A A B B B B B B B B B B B B B B B B
11,9 11,1 12,5 11,8 11,8 11,8 11,9 11,9 11,1 11,1 11,1 12,2 12,4 12,2 12,1 11,1 11,9 11,8 11,8 11,7 11,6 11,6 11,8 11,9 11,9 11,1 11,1 12,1 12,2
120 110 110 120 110 130 120 90 120 80 110 130 90 100 100 120 100 110 100 100 110 140 110 120 130 110 130 110 110
80 60 60 60 70 90 70 60 80 50 60 70 50 80 50 70 60 70 70 60 70 90 70 90 90 80 70 80 80
120 130 120 160 130 170 140 150 150 160 160 150 150 150 140 140 150 120 160 160 120 130 120 130 130 140 140 120 130
70 70 60 60 80 100 80 100 100 80 90 40 90 90 90 80 70 80 100 90 50 70 50 70 60 80 60 30 40
40,0 42,0 40,4 46,5 49,0 53,6 49,0 43,5 43,3 53,8 45,0 55,2 52,1 31,6 36,4 37,5 45,4 37,1 55,5 39,0 41,2 31,2 33,3 32,4 47,2 52,0 43,6 41,7 34,7
154,5 155,5 148,4 160,8 166,0 157,0 159,0 154,0 156,3 157,3 164,7 157,2 167,3 155,0 158,9 147,2 156,1 152,0 161,5 152,0 141,0 155,3 163,5 158,0 152,0 147,0 153,0 158,0 154,0
127
13.2 Anlise dos dados

TESTE DE NORMALIDADE - TESTE DE SHAPIRO-WILK ---------------------------------- GRUPO=A -----------------------------------Univariate Procedure Variable=IDADE W:Normal 0.874563 Pr<W 0.0586
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Univariate Procedure Variable=PAS_IN W:Normal 0.888869 Pr<W 0.0920
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAD_IN W:Normal 0.918092 Pr<W 0.2279
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAD_FI W:Normal 0.920703 Pr<W 0.2466
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAS_FI W:Normal 0.930316 Pr<W 0.3279
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PESO W:Normal 0.932284 Pr<W 0.3471
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=ESTAT W:Normal 0.946241 Pr<W 0.5094
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk
128
---------------------------------- GRUPO=B -----------------------------------Univariate Procedure Variable=IDADE W:Normal 0.878959 Pr<W 0.0375
Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05) Teste de Shapiro-Wilk Variable=PAS_IN W:Normal Moments 0.859048 Pr<W 0.0181
Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05) Teste de Shapiro-Wilk Variable=PAD_IN W:Normal 0.92103 Pr<W 0.1767
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAD_FI W:Normal 0.902441 Pr<W 0.0893
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk W:Normal 0.959803 Pr<W 0.6350
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PESO W:Normal 0.935181 Pr<W 0.2925
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk Variable=ESTAT W:Normal 0.966555 Pr<W 0.7506
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05) Teste de Shapiro-Wilk
129
Concluso do Teste de Normalidade As variveis que devero ser analisadas por uma Anlise de varincia (para os dois grupos as variveis esto normalizadas) so:
PAD_IN PAS_FI PAD_FI PESO ESTAT FCREP FLEX
As demais devero ser analisadas por Testes No Paramtricos (Teste de Kruskal-Wallis) para variveis independentes.
IDADE PAS_IN
******************************************************************************* ANALISE DE VARIANCIA - DADOS PARAMTRICOS Analysis of Variance Procedure Class Level Information Class GRUPO Levels 2 Values A B
Number of observations in data set = 29 ANALISE DE VARIANCIA - DADOS Analysis of Variance Procedure Dependent Variable: PAD_IN Source Model Error Corrected Total DF 1 27 28 R-Square 0.101026 Sum of Squares 413.85941645 3682.69230769 4096.55172414 C.V. 16.60232 Root MSE 11.678870 PAD_IN Mean 70.344828 Mean Square 413.85941645 136.39601140 F Value 3.03 Pr > F 0.0929
GRUPO
413.85941645
413.85941645
3.03
0.0929
******************************************************************************* Analysis of Variance Procedure Dependent Variable: PAS_FI Source Model Error Corrected Total DF 1 27 28 R-Square 0.056641 Sum of Squares 592.19164456 9862.98076923 10455.17241379 C.V. 26.02200 Root MSE 19.112707 PAS_FI Mean 73.448276 Mean Square 592.19164456 365.29558405 F Value 1.62 Pr > F 0.2138
130
Source GRUPO
DF 1
Anova SS 592.19164456
Mean Square 592.19164456
F Value 1.62
Pr > F 0.2138
******************************************************************************* Analysis of Variance Procedure Dependent Variable: PAD_FI Source Model Error Corrected Total DF 1 27 28 R-Square 0.092122 Source GRUPO DF 1 Sum of Squares 598.47480106 5898.07692308 6496.55172414 C.V. 10.53118 Anova SS 598.47480106 Root MSE 14.779963 Mean Square 598.47480106 F Value 2.74 PAD_FI Mean 140.34483 Pr > F 0.1095 Mean Square 598.47480106 218.44729345 F Value 2.74 Pr > F 0.1095
****************************************************************************** ANALISE DE VARIANCIA - DADOS PARAMTRICOS Analysis of Variance Procedure Dependent Variable: PESO Source Model Error Corrected Total DF 1 27 28 R-Square 0.247717 Source GRUPO DF 1 Sum of Squares 371.52005968 1128.25442308 1499.77448276 C.V. 14.95889 Anova SS 371.52005968 Root MSE 6.4643020 Mean Square 371.52005968 F Value 8.89 PESO Mean 43.213793 Pr > F 0.0060 Mean Square 371.52005968 41.78720085 F Value 8.89 Pr > F 0.0060
******************************************************************************* Analysis of Variance Procedure Dependent Variable: ESTAT Source Model Error Corrected Total DF 1 27 28 R-Square 0.137685 Sum of Squares 131.16880802 821.50360577 952.67241379 C.V. 3.537059 Root MSE 5.5159822 ESTAT Mean 155.94828 Mean Square 131.16880802 30.42605947 F Value 4.31 Pr > F 0.0475
131
Source GRUPO
DF 1
Anova SS 131.16880802
Mean Square 131.16880802
F Value 4.31
Pr > F 0.0475
******************************************************************************* Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAD_IN NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 136.396 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 8.948 Means with the same letter are not significantly different. Duncan Grouping A A A Mean 73.750 66.154 N 16 13 GRUPO B A
******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAD_IN NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 136.396 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 8.9477 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A A A Mean 73.750 66.154 N 16 13 GRUPO B A
******************************************************************************* Analysis of Variance Procedure Scheffe's test for variable: PAD_IN NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 136.396 Critical Value of F= 4.21001 Minimum Significant Difference= 8.9477 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping Mean N GRUPO
132
A A A
73.750 66.154
16 13
B A
******************************************************************************* Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAS_FI NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 365.2956 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 14.64 Means with the same letter are not significantly different. Duncan Grouping A A A Mean 78.462 69.375 N 13 16 GRUPO A B
******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAS_FI NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 365.2956 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 14.643 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A A A Mean 78.462 69.375 N 13 16 GRUPO A B
******************************************************************************* Analysis of Variance Procedure Scheffe's test for variable: PAS_FI NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 365.2956 Critical Value of F= 4.21001 Minimum Significant Difference= 14.643 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping Mean N GRUPO
133
A A A
78.462 69.375
13 16
A B
******************************************************************************* Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: PAD_FI NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 218.4473 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 11.32 Means with the same letter are not significantly different. Duncan Grouping A A A Mean 145.385 136.250 N 13 16 GRUPO A B
******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAD_FI NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 218.4473 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 11.324 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A A A Mean 145.385 136.250 N 13 16 GRUPO A B
Scheffe's test for variable: PAD_FI NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 218.4473 Critical Value of F= 4.21001 Minimum Significant Difference= 11.324 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483
134
Means with the same letter are not significantly different. Scheffe Grouping A A A Mean 145.385 136.250 N 13 16 GRUPO A B
Duncan's Multiple Range Test for variable: PESO NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 41.7872 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 4.953 Means with the same letter are not significantly different. Duncan Grouping A B Mean 47.185 39.988 N 13 16 GRUPO A B
Tukey's Studentized Range (HSD) Test for variable: PESO NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 41.7872 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 4.9526 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A B Mean 47.185 39.988 N 13 16 GRUPO A B
Scheffe's test for variable: PESO NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 41.7872 Critical Value of F= 4.21001
135
Minimum Significant Difference= 4.9526 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping A B Mean 47.185 39.988 N 13 16 GRUPO A B
Duncan's Multiple Range Test for variable: ESTAT NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 30.42606 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 4.226 Means with the same letter are not significantly different. Duncan Grouping A B Mean 158.308 154.031 N 13 16 GRUPO A B
Tukey's Studentized Range (HSD) Test for variable: ESTAT NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 30.42606 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 4.226 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping A B Mean 158.308 154.031 N 13 16 GRUPO A B
Scheffe's test for variable: ESTAT NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all
136
pairwise comparisons Alpha= 0.05 df= 27 MSE= 30.42606 Critical Value of F= 4.21001 Minimum Significant Difference= 4.226 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping A B Mean 158.308 154.031 N 13 16 GRUPO A B
******************************************************************************* N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable IDADE Classified by Variable GRUPO Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score 15.5769231 14.5312500
GRUPO A B
N 13 16
202.500000 195.0 22.5578621 232.500000 240.0 22.5578621 Average Scores Were Used for Ties
Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 202.500 Z = 0.310313 Prob > |Z| = 0.7563
T-Test Approx. Significance = 0.7586 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.11054 DF = 1 Prob > CHISQ = 0.7395 ******************************************************************************* TESTE NAO PARAMETRICO - WILCOXON N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable PAS_IN Classified by Variable GRUPO GRUPO A B N 13 16 Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score 15.3076923 14.7500000
199.0 195.0 22.1452883 236.0 240.0 22.1452883 Average Scores Were Used for Ties
Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 199.000 Z = 0.158047 Prob > |Z| = 0.8744
T-Test Approx. Significance = 0.8756 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.03263 DF = 1 Prob > CHISQ = 0.8567 ******************************************************************************* ANALISE DE CORRELAO - POR GRUPO
137
---------------------------------- GRUPO=A -----------------------------------Correlation Analysis Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 IDADE IDADE PAS_IN PAD_IN PAD_FI PAS_FI PESO ESTAT 1.00000 0.0 0.11355 0.7119 -0.01829 0.9527 -0.29866 0.3216 -0.35359 0.2359 0.11772 0.7017 -0.09825 0.7495 PAS_IN 0.11355 0.7119 1.00000 0.0 0.78224 0.0016 -0.05119 0.8681 -0.32011 0.2863 -0.03421 0.9116 -0.14034 0.6475 PAD_IN -0.01829 0.9527 0.78224 0.0016 1.00000 0.0 -0.01332 0.9655 0.16250 0.5958 -0.03653 0.9057 -0.21510 0.4803 PAD_FI -0.29866 0.3216 -0.05119 0.8681 -0.01332 0.9655 1.00000 0.0 0.37142 0.2115 0.61683 0.0247 0.35160 0.2388 PAS_FI -0.35359 0.2359 -0.32011 0.2863 0.16250 0.5958 0.37142 0.2115 1.00000 0.0 -0.03737 0.9035 0.22572 0.4584 PESO 0.11772 0.7017 -0.03421 0.9116 -0.03653 0.9057 0.61683 0.0247 -0.03737 0.9035 1.00000 0.0 0.45355 0.1196 ESTAT -0.09825 0.7495 -0.14034 0.6475 -0.21510 0.4803 0.35160 0.2388 0.22572 0.4584 0.45355 0.1196 1.00000 0.0
---------------------------------- GRUPO=B -----------------------------------Correlation Analysis 7 'VAR' Variables: IDADE ESTAT PAS_IN PAD_IN PAD_FI PAS_FI PESO
Simple Statistics Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 16 IDADE IDADE PAS_IN PAD_IN PAD_FI PAS_FI PESO ESTAT 1.00000 0.0 -0.41854 0.1066 0.02114 0.9381 -0.08451 0.7557 -0.15240 0.5731 -0.32680 0.2167 0.52205 0.0381 PAS_IN -0.41854 0.1066 1.00000 0.0 0.63341 0.0084 -0.41562 0.1094 -0.31914 0.2283 -0.16878 0.5320 -0.17507 0.5167 PAD_IN 0.02114 0.9381 0.63341 0.0084 1.00000 0.0 -0.37376 0.1538 -0.34073 0.1966 -0.12430 0.6465 -0.05596 0.8369 PAD_FI -0.08451 0.7557 -0.41562 0.1094 -0.37376 0.1538 1.00000 0.0 0.73254 0.0012 0.36355 0.1663 0.12034 0.6571 PAS_FI -0.15240 0.5731 -0.31914 0.2283 -0.34073 0.1966 0.73254 0.0012 1.00000 0.0 0.16864 0.5324 0.05036 0.8530 PESO -0.32680 0.2167 -0.16878 0.5320 -0.12430 0.6465 0.36355 0.1663 0.16864 0.5324 1.00000 0.0 -0.14503 0.5920 ESTAT 0.52205 0.0381 -0.17507 0.5167 -0.05596 0.8369 0.12034 0.6571 0.05036 0.8530 -0.14503 0.5920 1.00000 0.0
138
REFERNCIAS BIBLIOGRFICAS
BUSSAB, W.O.; MORETTIN, P.A. (1981) Estatstica Bsica. So Paulo: Atual Editora. COSTA NETO, Pedro L. O. Estatstica. So Paulo: Mc Graw-Hill do Brasil. FONSECA, J.S.; MARTINS, G.A. (1993) Curso de Estatstica. So Paulo: Ed. Atlas. FONSECA, J.S.; MARTINS, G.A.; TOLEDO, G.L. (1991) Estatstica Aplicada. So Paulo: Ed. Atlas. Manuais do SAS/BASIC. Vol. I e II. Manuais do SAS/STAT. STEVENSON, W.J. (1981) Estatstica Aplicada Administrao. So Paulo: Ed. Harbra. VIEIRA, S.; HOFFMANN R. (1989) Estatstica Experimental. So Paulo: Ed. Atlas.
139
ANEXOS
140
ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE ASSIMENTRIA E CURTOSE - Skewness and Kurtosis Intervalo de confiana de 95%
n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
Skewness -1.81 -1.70 -1.57 -1.45 -1.37 -1.31 -1.26 -1.21 -1.17 -1.13 -1.09 -1.06 -1.03 -1.00 -0.98 -0.95 -0.93 -0.91 -0.89 -0.87 -0.85 -0.84 -0.82 -0.81 -0.79 -0.78 -0.77 -0.76 -0.74 -0.73 -0.72 -0.71 -0.70 1.81 1.70 1.57 1.45 1.37 1.31 1.26 1.21 1.17 1.13 1.09 1.06 1.03 1.00 0.98 0.95 0.93 0.91 0.89 0.87 0.85 0.84 0.82 0.81 0.79 0.78 0.77 0.76 0.74 0.73 0.72 0.71 0.70
Kurtosis . . -0.87 -0.89 -0.90 -0.92 . -0.93 . . -0.94 . . . . . -1.27 -1.25 -1.22 -1.20 -1.18 -1.16 -1.14 -1.12 -1.11 -1.09 -1.08 -1.06 -1.05 -1.04 -1.03 -1.01 -1.00 . . 1.54 1.68 1.79 1.85 . 1.93 . . 1.95 . . . . . 2.44 2.39 2.34 2.30 2.26 2.22 2.18 2.15 2.12 2.08 2.05 2.03 2.00 1.97 1.94 1.92 1.90
n 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70
Skewness -0.69 -0.68 -0.67 -0.67 -0.66 -0.65 -0.64 -0.63 -0.63 -0.62 -0.61 -0.61 -0.60 -0.59 -0.59 -0.58 -0.58 -0.57 -0.57 -0.56 -0.56 -0.55 -0.55 -0.54 -0.54 -0.53 -0.53 -0.52 -0.52 -0.51 -0.51 -0.51 -0.50 0.69 0.68 0.67 0.67 0.66 0.65 0.64 0.63 0.63 0.62 0.61 0.61 0.60 0.59 0.59 0.58 0.58 0.57 0.57 0.56 0.56 0.55 0.55 0.54 0.54 0.53 0.53 0.52 0.52 0.51 0.51 0.51 0.50
Kurtosis -0.99 -0.98 -0.97 -0.96 -0.95 -0.95 -0.94 -0.93 -0.92 -0.91 -0.91 -0.90 -0.89 -0.88 -0.88 -0.87 -0.87 -0.86 -0.85 -0.85 -0.84 -0.84 -0.83 -0.83 -0.82 -0.82 -0.81 -0.81 -0.80 -0.80 -0.79 -0.79 -0.78 1.87 1.85 1.83 1.81 1.79 1.77 1.75 1.73 1.71 1.69 1.68 1.66 1.64 1.63 1.61 1.60 1.58 1.57 1.56 1.54 1.53 1.52 1.50 1.49 1.48 1.47 1.46 1.45 1.43 1.42 1.41 1.40 1.39
141
n 71 72 73 74 75 76 77 78 79 80 81 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 100 101 102 103 105 107 108 109
Skewness -0.50 -0.50 -0.49 -0.49 -0.48 -0.48 -0.48 -0.47 -0.47 -0.47 -0.46 -0.46 -0.46 -0.45 -0.45 -0.45 -0.44 -0.44 -0.44 -0.44 -0.43 -0.43 -0.43 -0.43 -0.42 -0.42 -0.42 -0.41 -0.41 -0.41 -0.41 -0.40 -0.40 -0.40 -0.40 0.50 0.50 0.49 0.49 0.48 0.48 0.48 0.47 0.47 0.47 0.46 0.46 0.46 0.45 0.45 0.45 0.44 0.44 0.44 0.44 0.43 0.43 0.43 0.43 0.42 0.42 0.42 0.41 0.41 0.41 0.41 0.40 0.40 0.40 0.40
Kurtosis -0.78 -0.78 -0.77 -0.77 -0.76 -0.76 -0.76 -0.75 -0.75 -0.75 -0.74 -0.74 -0.73 -0.73 -0.73 -0.72 -0.72 -0.72 -0.71 -0.71 -0.71 -0.70 -0.70 -0.70 -0.70 -0.69 -0.69 -0.69 -0.68 -0.68 -0.68 -0.67 -0.67 -0.67 -0.66 1.38 1.37 1.36 1.35 1.35 1.34 1.33 1.32 1.31 1.30 1.29 1.28 1.27 1.26 1.26 1.25 1.24 1.23 1.23 1.22 1.21 1.21 1.20 1.19 1.19 1.18 1.17 1.16 1.16 1.15 1.14 1.13 1.12 1.12 1.11
n 110 111 112 113 114 115 117 118 119 121 123 125 127128 129 130 132 133 134 135 137 140 143 146 148 149 152 155 156 158 159 161 164 165
Skewness -0.39 -0.39 -0.39 -0.39 -0.39 -0.38 -0.38 -0.38 -0.38 -0.37 -0.37 -0.37 -0.36 -0.36 -0.36 -0.36 -0.36 -0.35 -0.35 -0.35 -0.35 -0.34 -0.34 -0.34 -0.33 -0.33 -0.33 -0.33 -0.32 -0.32 -0.32 -0.32 -0.32 -0.31 0.39 0.39 0.39 0.39 0.39 0.38 0.38 0.38 0.38 0.37 0.37 0.37 0.36 0.36 0.36 0.36 0.36 0 35 0 35 0 35 0 35 0 34 0 34 0 34 0 33 0 33 0 33 0 33 0 32 0 32 0 32 0.32 0.32 0.31
Kurtosis -0.66 -0.66 -0.66 -0.65 -0.65 -0.65 -0.65 -0.64 -0.64 -0.64 -0.63 -0.63 -0.63 -0.62 -0.62 -0.62 -0.62 -0.62 -0.61 -0.61 -0.61 -0.60 -0.60 -0.59 -0.59 -0.59 -0.5 -0.58 -0.58 -0.58 -0.57 -0.57 -0.57 -0.57 1.11 1.10 1.09 1.09 1.08 1.08 1.07 1.07 1.06 1.05 1.04 1.03 1.02 1.02 1.01 1.01 1.00 1.00 1.00 0.99 0.98 0.97 0.96 0.95 0.95 0.94 0.93 0.92 0.92 0.91 0.91 0.90 0.89 0.89
142
n 167 168 171 175 179 183 186 187 191 192 196 198 200 201 205 210 211 212 215 220 222 225 231 234 237 241 243 246 249 255 258 260 262
Skewness -0.31 -0.31 -0.31 -0.30 -0.30 -0.30 -0.29 -0.29 -0.29 -0.29 -0.29 -0.28 -0.28 -0.28 -0.28 -0.28 -0.27 -0.27 -0.27 -0.27 -0.27 -0.26 -0.26 -0.26 -0.26 -0.25 -0.25 -0.25 -0.25 -0.25 -0.24 -0.24 -0.24 0.31 0.31 0.31 0.30 0.30 0.30 0.29 0.29 0.29 0.29 0.29 0.28 0.28 0.28 0.28 0.28 0.27 0.27 0.27 0.27 0.27 0.26 0.26 0.26 0.26 0.25 0.25 0.25 0.25 0.25 0.24 0.24 0.24
Kurtosis -0.56 -0.56 -0.56 -0.55 -0.55 -0.54 -0.54 -0.54 -0.54 -0.53 -0.53 -0.53 -0.53 -0.52 -0.52 -0.52 -0.52 -0.51 -0.51 -0.51 -0.50 -0.50 -0.50 -0.49 -0.49 -0.49 -0.49 -0.48 -0.48 -0.48 -0.48 -0.47 -0.47 0.89 0.88 0.87 0.86 0.85 0.84 0.84 0.83 0.82 0.82 0.81 0.81 0.80 0.80 0.79 G.78 0.78 0.78 0.77 0.76 0.76 0.75 0.74 0.74 0.73 0.73 0.72 0.72 0.71 0.70 0.70 0.70 0.69
n 269 274 277 278 284 289 292 300 301 306 309 318 323 325 328 338 342 348 354 359 363 371 383 385 386 396 409 410 423 436 438 454 464
Skewness -0.24 -0.24 -0.24 -0.23 -0.23 -0.23 -0.23 -0.22 -0.22 -0.22 -0.22 -0.22 -0.22 -0.21 -0.21 -0.21 -0.21 -0.21 -0.20 -0.20 -0.20 -0.20 -0.20 -0.20 -0.19 -0.19 -0.19 -0.19 -0.18 -0.18 -0.18 -0.18 -0.18 0.24 0.24 0.24 0.23 0.23 0.23 0.23 0.22 0.22 0.22 0.22 0.22 0.22 0.21 0.21 0.21 0.21 0.21 0.20 0.20 0.20 0.20 0.20 0.20 0.19 0.19 0.19 0.19 0.18 0.18 0.18 0.18 0.18
Kurtosis -0.47 -0.46 -0.46 -0.46 -0.46 -0.45 -0.45 -0.45 -0.45 -0.44 -0.44 -0.44 -0.43 -0.43 -0.43 -0.43 -0.42 -0.42 -0.42 -0.42 -0.41 -0.41 -0.41 -0.40 -0.43 -0.40 -0.40 -0.39 -0.39 -0.38 -0.38 -0.38 -0.37 0.68 0.68 0.67 0.67 0.66 0.66 0.65 0.65 0.64 0.64 0.63 0.62 0.62 0.62 0.61 0.60 0.60 0.59 0.59 0.58 0.58 0.57 0.56 0.56 0.56 0.55 0.54 0.54 0.53 0.53 0.52 0.51 0.51
143
n 466 470 488 495 506 516 526 529 547 566 569 575 593 607 618 645 652 674 701 705 730 738 755 774 812 816 833 853 883 898 947 958 961 1000
Skewness -0.17 -0.17 -0.17 -0.17 -0.17 -0.16 -0.16 -0.16 -0.16 -0.16 -0.16 -0.15 -0.15 -0.15 -0.15 -0.14 -0.14 -0.14 -0.14 -0.14 -0.13 -0.13 -0.13 -0.13 -0.13 -0.13 -0.12 -0.12 -0.12 -0.12 -0.12 -0.12 -0.11 -0.11 0.17 0.17 0.17 0.17 0.17 0.16 0.16 0.16 0.16 0.16 0.16 0.15 0.15 0.15 0.15 0.14 0.14 0.14 0.14 0.14 0.13 0.13 0.13 0.13 0.13 0.13 0.12 0.12 0.12 0.12 0.12 0.12 0.11 0.11
Kurtosis -0.37 -0.37 -0.37 -0.36 -0.36 -0.36 -0.36 -0.35 -0.35 -0.34 -0.34 -0.34 -0.34 -0.33 -0.33 -0.33 -0.32 -0.32 -0.31 -0.31 -0.31 -0.31 -0.30 -0.30 -0.30 -0.29 -0.29 -0.29 -0.28 -0.28 -0.28 -0.27 -0.27 -0.27 0.51 0.50 0.49 0.49 0.48 0.48 0.47 0.47 0.46 0.46 0.45 0.45 0.44 0.44 0.43 0.42 0.42 0.41 0.41 0.40 0.40 0.39 0.39 0.38 0.37 0.37 0.37 0.36 0.36 0.35 0.34 0.34 0.34 0.33
144

Apostila SAS

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apostila SAS

Caricato da

Copyright:

Formati disponibili

MINISTRIO DE EDUCAO E DESPORTOS UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CINCIAS NATURAIS E EXATAS DEPARTAMENTO DE ESTATSTICA LABORATRIO - S.A.S.

TREINAMENTO SISTEMA - S.A.S.

SANTA MARIA RS 2006

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

68 68 73 75 77 79 127 127 128

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

TREINAMENTO SISTEMA - S.A.S. Statistical Analisys System

3 O QUE O SISTEMA SAS ?

DADOS Apresentao Anlise

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

5.1 Comando de controle de arquivos

DATA TESTE; INPUT . . . . .

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

5.2 Comandos que lem e gravam arquivos de dados

DATA TESTE; INPUT A 1-3

INPUT SEXO $ 10 IDADE 1213 NOME $ 18 PESO 2126 ALTURA 1519;

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

DATA CLASSE; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS;

Vai para a coluna n. Move a posio n posies.

a.5) OUTROS CONTROLADORES DE POSIO /e#

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

5.3 Comandos que lem e gravam arquivos SAS

DATA NOVACLAS; SET CLASSES; ANO_NASC=91-IDADE; PROC PRINT DATA=NOVACLAS;

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Resultado da Concatenao (SET) HOMENS+MULHERES

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Ex.: Criando quatro observaes SAS de cada linha de entrada

TRIM3 TRIM4; OUTPUT; OUTPUT; OUTPUT; OUTPUT;

5.4 Comandos que atuam sobre valores de dados

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

5.6 Comandos que controlam o fluxo lgico de programao

A condio IF pode envolver comparaes de ANDs e de ORs.

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

6 PRINCIPAIS PROCEDURES - PROCs

6.1 PROC SORT

PROC SORT DATA=TESTE; BY NOME;

PROC SORT; BY PESQUISA; BY ESTADO CIDADE NOME;

PROC SORT; BY PESQUISA; OUT = NOVO; BY ESTADO CIDADE NOME;

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

6.2 PROC PRINT

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

6.3 PROC FORMAT

Ex.: PROC FORMAT; VALUE FAIXAS

LOW-12 = CRIANCA 13-19 = JOVEM 20-HIGH = ADULTO; F = FEMININO M = MASCULINO;

IDADESEXO /LIST; IDADESEXO /LIST; IDADE FAIXAS. SEXO

FREQ; TABLES SEXOIDADEPESO /LIST;