Sei sulla pagina 1di 147

MINISTÉRIO DE EDUCAÇÃO E DESPORTOS UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CIÊNCIAS NATURAIS E EXATAS DEPARTAMENTO DE ESTATÍSTICA LABORATÓRIO - S.A.S.

TREINAMENTO SISTEMA - S.A.S. Prof. Dr. Luis Felipe Lopes
TREINAMENTO SISTEMA - S.A.S.
Prof. Dr. Luis Felipe Lopes

SANTA MARIA – RS

2 0 0 6

SUMÁRIO

1 INTRODUÇÃO

1

2 LIMITAÇÕES

1

3 O QUE É O SISTEMA SAS?

1

3.1 O SAS/BASE

2

3.2 Tópicos gerais

3

4 ARQUIVOS SAS

3

5 COMANDOS DE PROGRAMAÇÃO

3

5.1 Comandos de controle de arquivos

4

5.2 Comandos que lêem e gravam arquivos de dados

6

5.3 Comandos que lêem e gravam arquivos SAS

10

5.4 Comandos que atuam sobre valores de dados

13

5.5 Comandos de informação

15

5.6 Comandos que controlam o fluxo lógico de programação

17

6 PRINCIPAIS “PROCEDURES” – PROCs

20

6.1 PROC SORT

20

6.2 PROC PRINT

21

6.3 PROC FORMAT

22

6.4 PROC FREQ

23

6.5 PROC MEANS

24

7 ESTATÍSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE

27

7.1 Introdução

27

7.2 Testes de Normalidade (PROC UNIVARIATE)

27

8 ANÁLISE DE CORRELAÇÃO E REGRESSÃO

32

8.1 Introdução

32

8.2 Correlação de Pearson (PROC CORR)

33

8.3 Regressão (PROC REG)

39

8.4 Inferência na regressão

41

8.5 Resíduos

41

9 INFERÊNCIA ESTATÍSTICA

55

9.1 Testes para igualdade de duas medias (PROC TTEST)

54

9.2 Teste para dados pareados

59

10 MÉTODOS NÃO PARAMÉTRICOS

64

10.1 Testes para igualdade de duas medias (PROC NPAR1WAY)

64

11

ANÁLISE DE VARIÂNCIA

68

11.1

Dados balanceados (PROC ANOVA)

68

11.1.1 Experimento Completamente Casualizado

73

11.1.2 Experimento com Blocos Aleatorizados

75

11.1.3 Experimento com Quadrado Latino

77

12 EXERCÍCIOS RESOLVIDOS E COMENTADOS

79

13 EXEMPLO PRÁTICO

127

13.1 Banco de dados

127

13.2 Análise dos dados

128

REFERÊNCIAS BIBLIOGRÁFICAS

139

ANEXOS

140

ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE ASSIMENTRIA E CURTOSE - Skewness and Kurtosis

141

TREINAMENTO SISTEMA - S.A.S. – Statistical Analisys System

1 INTRODUÇÃO

O Objetivo deste Curso é ajudar o usuário a conhecer os comandos básicos do Sistema SAS de modo que possa obter as respostas a problemas práticos de uma maneira rápida e objetiva.

2 LIMITAÇÕES

Este curso é apenas uma introdução ao SAS, contendo uma pequena fração de informação que você encontrará no SAS USER’S GUIDE: BASIC e SAS USER’S GUIDE STATISTICS.

3 O QUE É O SISTEMA SAS ?

É um sistema de aplicação integrada, que consiste em vários produtos que tem por função: acesso, gerenciamento, análise estatística e apresentação de dados, somada a uma linguagem poderosa de programação e geração de relatórios.

Acesso Gerenciamento DADOS Apresentação Análise
Acesso
Gerenciamento
DADOS
Apresentação
Análise

Acesso aos dados - o sistema SAS possui ferramentas para acessar os bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS.

Gerenciamento de dados - com o SAS é possível editar, selecionar, ordenar, concatenar e margear os arquivos.

Análise de dados - o SAS possui rotinas estatísticas para análises de regressão, análise de variância, de componentes principais, discriminante, modelos lineares, análise fatorial, previsões, controle de qualidade, cálculos matriciais,

Apresentação de informações - a geração de relatórios é fácil e flexível. Eles podem ser listados, tabulados e gráficos.

O SAS por ser um sistema integrado, ele é composto por módulos para comercialização.

Principais módulos:

SAS/BASE

contém

uma

linguagem

de

Quarta

geração,

com

procedimentos para estatística básica e gráficos de baixa resolução.

SAS/STAT este módulo é composto de procedimentos para estatística avançada, como análise de variância, análise de regressão, multivariada, fatorial, discriminante, outras.

SAS/GRAPH gera gráficos de alta resolução: barras verticais ou horizontais, setoriais, cartesianos, mapas e superfícies tridimensionais.

SAS/ETS ferramenta de previsão e análise de séries temporais.

SAS/OR Procedimentos para Pesquisa Operacional, programação linear, gerenciamento de projetos e apoio à tomada de decisões.

SAS/IML linguagem para operação com matrizes.

SAS/QC

ferramenta

delineamentos experimentais.

para

controle

estatístico

de

qualidade

e

Existem outros módulos, mas que não são de interesse para a estatística.

3.1 O SAS/BASE

É o instrumento principal do Sistema SAS. Ele permite ao usuários:

- Criar, montar e acessar qualquer tipo de dado;

- Produzir relatórios e gráficos simples;

- Atualizar estatisticamente os dados;

- Utilizar a linguagem de programação SAS.

3.2 Tópicos gerais

- Todo os comandos do SAS terminam em (;).

- Os comandos iniciam e terminam em qualquer posição.

- Vários comandos poderá estar numa mesma linha.

- Um comando poderá ser escrito em várias linhas.

- Palavras serão separadas por um mais espaços.

- O comando INPUT é obrigatório não interessando onde os dados estão

armazenados.

- Arquivos SAS são armazenados em tabelas retangulares.

- Referenciam-se arquivos e variáveis pelos nomes.

- Nomes de arquivos ou variáveis poderá ter no máximo 8 caracteres, iniciando obrigatoriamente por letras (A-Z), podendo ter associado número e/ou caracteres especiais com ( - ‘quebra’).

4 ARQUIVO SAS

Um arquivo SAS é uma coleção de valores de dados arrumados em uma tabela retangular.

Ex.:

Variáveis

CULTURA

ALTURA1

ALTURA2

OBSERVAÇÕES

arroz

0.35

0.39

.

feijão

0.25

0.30

.

soja

0.15

0.17

As colunas da tabela são chamadas de VARIÁVEIS

- Variáveis corresponde a campos de dados.

- Cada variável tem um nome.

- Há três tipos de variáveis: caracter, numérica e data.

As linhas são chamadas de OBSERVAÇÕES

- Não há limite para o número de observações.

5 COMANDOS DE PROGRAMAÇÃO

Os seguintes comandos são básicos para a programação em SAS:

- Comandos de controle de arquivos.

- DATA

- INFILE

- CARDS

- FILE

- Comandos que lêem e gravam arquivos de dados.

- INPUT

- PUT

- LIST

- Comandos que lêem e gravam arquivos SAS.

- SET

- MERGE

- UPDATE

- OUTPUT

- Comandos que atuam sobre valores de dados.

- FUNÇÕES e EXPRESSÕES

- Comandos de informação.

- DROP

- RENAME

- LABEL

- FORMAT

- TITLE

- Comandos que controlam o fluxo lógico de programação.

- IF (THEN / ELSE)

- DELETE

5.1 Comando de controle de arquivos

- DATA

O primeiro comando em um programa SAS, geralmente é um DATA. O comando DATA diz ao SAS que se quer criar um arquivo SAS.

Você poderá escolher qualquer nome para esse arquivo, desde que tenha até 8 caracteres ou menos e comece por uma letra (A-Z).

Ex.:

DATA TESTE;

INPUT

.

.

A palavra TESTE é o nome do arquivo SAS.

Se o nome for omitido pelo usuário, o SAS se encarrega de nomeá-lo. Dando o nome de DATAn (n número de DATAS criados).

O comando DATA pode aparecer em outros lugares dentro do arquivo SAS quando se quer fazer referências a outros arquivos.

- CARDS

É um comando dado logo após o comando DATA. O comando CARDS indica ao SAS que os registros de dados seguem imediatamente abaixo no texto até o ponto e virgula ‘; ‘ do último dado.

Ex.:

DATA A1;

INPUT IDADE 1–2 ALTURA 5-8 1 PESO 10–14 1; CARDS;

21

180

75.2

18

170

65.3

25

175

80.3

: :

:

: :

:

;

- INFILE

Também vem a ser um comando logo após o comando DATA, só que os valores de dados estão em disco (na forma de arquivo), logo deve-se incluir o comando INFILE. Ele deve conter um nome com no máximo 8 caracteres e deverá ser lido com o código ASCII.

Características do INFILE:

Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados estão armazenados.

Os dados estão armazenados em disco no arquivo chamado ARQUIVO.

Ex.: DATA A1; INFILE ‘ARQUIVO DADOS’; INPUT NOME $10. @30 NOTA1 30 – 32 1
Ex.:
DATA A1;
INFILE ‘ARQUIVO DADOS’;
INPUT
NOME $10.
@30
NOTA1
30 – 32
1
NOTA2
33 – 35 1
MEDIA 37 – 39 1;
PROC PRINT;

Obs.: Este dois comandos CARDS e INFILE especificam de onde serão lidos os dados. O INFILE indica que serão lidos de um arquivo externo (banco de dados – ASCII) e o CARDS indica que os dados estão no programa logo abaixo deste comando.

5.2 Comandos que lêem e gravam arquivos de dados

- INPUT

A função do comando INPUT é descrever para o sistema SAS como são,

quais os nomes, e em que posição se encontra as VARIÁVEIS no arquivo de dados.

O comando INPUT geralmente segue o comando DATA.

Ex.:

DATA TESTE;

INPUT

A

1-3

Y

5-6;

Obs.: Lembre-se das regras para nomes (no máximo 8 caracteres).

a) Tipos de INPUT

a.1) INPUT COLUNADO

Especifica onde encontrar os valores pela posição da coluna.

Ex.:

INPUT NOME $ 1–8 SEXO $ 10 IDADE 12-13 ALTURA 15–19 PESO 21–26;

Restrições:

As posições dos campos são fixas. O ‘$’ é usado para indicar variável alfanumérica.

Características do INPUT COLUNADO:

Os campos (variáveis) podem ser lidos em qualquer ordem.

Ex.:

INPUT SEXO $ 10 IDADE 12–13 NOME $ 1–8 PESO 21–26 ALTURA 15–19;

Campos em brancos são considerados não informados.

(posições 9, 11, 14, 20).

Caracteres em branco só serão permitidos em variáveis alfanuméricas.

Ex.: ‘JOSE CARLOS’

Campos ou partes de campos podem ser relidos como uma nova

variável;

Ex.:

INPUT NOME $ 1-8 ININOME $ 1;

Valores numéricos podem aparecer em qualquer posição do campo, podendo ser especificado sinais decimais ou ponto decimais.

Ex.:

INPUT PESO $ 1–6;

   

C A M P

O S

1

2

3

 

4

5

6

1

       

2

5

2

   

2

 

5

.

 

3

 

2

5

     

4

   

2

 

5

.

5

5

       

.

 

Obs.: 1 - Não se usa ‘ , ’ (virgula) para separar a parte decimal e sim

. 2 - Um campo em branco deverá ser representado por um ‘ . ponto (missing). Ex.: linha 5

(ponto). Ex.: linhas 2 e 4

a.2) INPUT LISTADO

O SAS procura pelos campos brancos até encontrar um caracter, então lê o campo até o próximo branco.

Forma geral INPUT lista de variáveis;

Ex.:

INPUT SEXO $ IDADE NOME $ PESO ALTURA;

Restrições:

Todo o campo (var.) deve ser especificado em ordem.

Campos devem ser separados por brancos.

Não é permitido campos em branco e sim ‘ . ‘ .

Ex.:

DATA CLASSE; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS;

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

C

A

R

L

O

S

 

M

   

2 1

0

   

8

0

.

5

 

7

8

.

5

J

O

S

E

 

M

 

1

8

 

1

7

5

 

7

0

.

8

       

A

N

A

 

F

 

1

7

   

1 .

6

5

 

6

 

6

2

.

5

     

P

A

U

L

A

 

F

 

2

 

1 6

1

 

8

 

5

5

         

a.3) INPUT FORMATADO

Especifica a posição e o tamanho do campo.

Formato de Entrada:

W

Largura do campo numérico

W.d

Numérica com decimal

Controle de posição:

 

@n

Vai para a coluna ‘n’.

 

+n

Move a posição ‘n’ posições.

 

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

J

O

S

E

           

M

 

2 0

   

1 8

 

0

.

 

5 7

 

8

.

5

J

O

S

E

 

L U

 

I

 

S M

   

1 8

   

1 7

 

5

     

7

0

.

8

A

N

A

             

F

 

1 7

   

1 6

 

5

.

 

6 6

 

2

.

5

A

N

A

 

P

A U

 

L

 

A F

   

2 1

   

1 6

 

8

     

5

5

   

Ex.:

INFILE ‘BANCO DADOS’; INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1 ALTURA 5. +1 PESO 4.;

Características do INPUT FORMATADO:

Variáveis e formatos de entrada podem ser agrupados separadamente com parênteses.

Ex.:

INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.); ou INPUT (JAN FEV MAR ABR MAI) (3.);

Variáveis numeradas podem ser usadas para abreviar diversas variáveis relacionadas.

Ex.:

INPUT (MES1 MES2 MES3 MES4 MES5) (3.); ou INPUT (MES1-MES5) (3.);

a.4) MISTURANDO TIPOS DE INPUT

Os

três

tipos

de

INPUT

vistos

podem

ser

combinados

(LISTADO,

COLUNADO e FORMATADO) em um único comando INPUT.

Ex.:

DATA CLASSE; INPUT NOME $ @11 SEXO $ 1. IDADE 13-14 ALTURA 16–19 @21 PESO 5.;

a.5) OUTROS CONTROLADORES DE POSIÇÃO

/

‘ e ‘ #

 

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

1 J

 

O

S

E

           

M

 

2 0

   
 

1

8

0

.

5

 

7

8

.

5

         

2 J

 

O

S

E

 

L U

 

I

S

 

M

 

1 8

   
 

1

7

5

     

7

0

.

8

         

3 A

 

N

A

             

F

 

1 7

   
 

1

6

5

.

6

 

6

2

.

5

         

4 A

 

N

A

 

P

A U

 

L

A

 

F

 

2 1

   
 

1

6

8

     

5

5

             

Ex.:

DATA CLASSE; INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. / ALTURA 5. PESO 7-10;

ou DATA CLASSE; INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. #2 ALTURA 1-5. PESO 7-10;

Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicação ‘#sempre precederá o nome da variável, logo dispensa-se informar a próxima linha, ou seja, a partir da variável altura as demais variáveis o SAS entende que pertencem ao segundo cartão do registro. 2 - Quando estivermos nos referindo a uma data devemos após a variável colocar sua formatação (DT_NASC DDMMYY8. ).

5.3 Comandos que lêem e gravam arquivos SAS

- SET

O comando SET é usado para transferir dados de um arquivo SAS existente para um novo arquivo SAS.

Todas as variáveis do arquivo SAS são passadas automaticamente para o novo arquivo SAS (a não ser que sejam direcionadas de outra maneira com comandos de programação).

Novas variáveis que se queira criar devem ser adicionadas com comandos de atribuição.

Ex.:

DATA NOVACLAS; SET CLASSES;

ANO_NASC=91-IDADE;

PROC PRINT DATA=NOVACLAS;

Obs.: No arquivo criado pelo comando SET possui uma variável nova ANO_NASC.

Como criamos uma variável nova ao gerar o arquivo NOVACLAS, podemos também excluir variáveis, com o comando DROP associado ao comando SET;

Ex.:

DATA NOVACLAS; SET CLASSES; DROP NOME SEXO; PROC PRINT DATA=NOVACLAS;

O campo (variável) NOME é através dessa variável referenciada com o BY que fará a junção dos dois arquivos num só. Obviamente que os dois arquivos deverão estar em ordem por NOME.

Ex.:

DATA AMBOS; SET HOMENS MULHERES; BY NOME; PROC PRINT; TITLE ´RESULTADO DA CONCATENACAO´;

HOMENS

MULHERES

OBS

DEPT

NOME

SEXO

OBS

DEPT

NOME

SEXO

1

213

Alvaro

m

1

914

Eliane

f

2

917

Otto

m

2

918

Lorena

f

3

916

Ricardo

m

3

917

Sonia

f

4

914

Vitor

m

Resultado da Concatenação (SET)

HOMENS+MULHERES

OBS

DEPT

NOME

SEXO

1

213

Alvaro

m

2

914

Eliane

f

3

918

Lorena

f

4

917

Otto

m

5

916

Ricardo

m

6

917

Sonia

f

7

914

Vitor

m

Outra observação que se faz necessária para usar este comando com a finalidade de juntar (concatenando) dois ou mais arquivos, é que a estrutura dos arquivos sejam idênticas, ou seja, com mesmas variáveis.

Podemos também selecionar observações na criação de um novo arquivo com o comando IF

- MERGE

O comando MERGE é usado para juntar observações de dois ou mais arquivos, colocando os mesmos um ao lado do outro.

Algumas considerações:

-

Até 50 arquivos pode ser “mergeados” em um procedimento.

-

Os arquivos de entrada devem estar ordenados pela variável(eis) chaves se um comando BY é utilizado.

-

O arquivo resultante (saída) conterá todas as variáveis presentes nos arquivos de entrada a menos que o comando DROP ou qualquer outro de seleção tenha sido utilizado.

-

Ex.:

DATA JUNTA; MERGE GERAL SALARIO; PROC PRINT; TITLE ´ARQUIVO MERGEADO´;

 
 

GERAL

     

SALÁRIO

 

OBS

DEPT

NOME

SEXO

OBS

NOME

SAL_LIQ SAL_BRU

1

917

Sonia

f

1

Sonia

169.10

279.10

2

918

Alvaro

m

2

Alvaro

223.00

310.05

3

917

Otto

m

3

Otto

329.05

410.75

4

914

Eliane

f

4

Eliane

650.70

715.12

5

916

Lorena

f

5

Lorena

380.95

470.30

 

“MERGEADO”

   

OBS

DEPT

NOME

SEXO

SAL_LIQ SAL_BRU

1

917

Sonia

f

169.10

279.10

2

918

Alvaro

m

223.00

310.05

3

917

Otto

m

329.05

410.75

4

914

Eliane

f

650.70

715.12

5

916

Lorena

f

380.95

470.30

Obs.: O comando BY não foi necessário ao “mergear” os arquivos porque a chave principal NOME nos dois arquivos estão na mesma ordem. Se não estivessem o comando BY seria necessário, assim como teríamos que classificar os arquivos através do comando SORT.

- OUTPUT

O comando OUTPUT pode ser usado para:

Criar duas ou mais observações para cada linha de entrada.

Combinar diversas observações a partir de uma única observação.

Criar um arquivo SAS sem nenhum dado de entrada.

Ex.: Criando quatro observações SAS de cada linha de entrada

DATA RECEITA; INPUT ANO TRIM1 TRIM2 TRIM3 TRIM4; TRIMESTRE=1; VENDAS=TRIM1; OUTPUT; TRIMESTRE=2; VENDAS=TRIM2; OUTPUT; TRIMESTRE=3; VENDAS=TRIM3; OUTPUT;

TRIMESTRE=4; VENDAS=TRIM4; OUTPUT; CARDS;

1996 1.2

0.9

1.1

1.5

1997 1.7

1.9

2.4

2.5;

PROC PRINT; TITLE ´RESULTADO DA EXECUCAO DO ARQUIVO RECEITA´; RUN;

SAÍDA

ANO

TRIM1

TRIM2

TRIM3

TRIM4

TRIMESTRE

VENDAS

1996

1.2

0.9

1.1

1.5

1 1.2

 

1996

1.2

0.9

1.1

1.5

2 0.9

1996

1.2

0.9

1.1

1.5

3 1.1

1996

1.2

0.9

1.1

1.5

4 1.5

1997

1.7

1.9

2.4

2.5

1 1.7

1997

1.7

1.9

2.4

2.5

2 1.9

1997

1.7

1.9

2.4

2.5

3 2.4

1997

1.7

1.9

2.4

2.5

4 2.5

5.4 Comandos que atuam sobre valores de dados

- Criando variáveis

Quando se cria nova variável, se está adicionando um novo grupo de valores de dados ao arquivo.

Por exemplo, supondo que temos um arquivo com as seguintes variáveis:

ALUNO

NOTA1

NOTA2

NOTA3

se quisermos criar uma nova variável chamada MEDIA devemos:

MEDIA = (NOTA1 + NOTA2 + NOTA3)/3;

Este comando informa para o SAS:

O sinal ‘ = ‘ significa atribua ao valor da esquerda o que se refere à esquerda. Para cada observação (linha) do arquivo, some as três notas (variáveis) e divida por 3;

De o nome ao resultado obtido de MEDIA (nova variável).

Obs.:

As

demais

cálculos.

variáveis

continuam

- Funções e expressões

disponíveis

para

posteriores

Operações aritméticas mais conhecidas:

SÍMBOLO

OPERAÇÃO

 

EXEMPLO

 

NO SAS

]]

exponenciação

Y

= X 2

Y

= X ** 2

]

multiplicação

A

= B x C

A

= B * C

/

divisão

A

= H / I

A

= H / I

+

adição

R

= S + T

R

= S + T

-

subtração

X

= Z - W

X

= Z - W

Outras funções numéricas:

FUNÇÃO

O que faz

ABS

Valor absoluto

SQRT

Raiz quadrada

COS

Cosseno

SIN

Seno

ARCOS

Arcosseno

LOG

Logaritmo neperiano (base e)

LOG10

Logaritmo base 10

SUM

Soma

MEAN

Média aritmética

VAR

Variância

MIN

Valor mínimo

MAX

Valor máximo

STD

Desvio padrão

ROUD

Valor arredondado

Ex.:

X = 326.25;

Y

= ROUND (X); RESULTADO Y = 327 (não está nas normas brasileiras)

Z

= MIN (Y);

Z

= MIN (of L – Y);

W

= SQRT (A + B/C);

K

= MEAN (IDADE);

K

= MEAN (of V1 – V7);

SOMA= SUM (of V1 – V10);

5.5 Comandos de Informação

- DROP

O comando DROP exclui a variável ou variáveis indicadas, da análise em

questão;

O comando DROP é válido no DATA e nas PROCs. Não é um comando

executável, fornece a informação ao SAS quando o comando é compilado.

O comando DROP poderá ser escrito em qualquer posição.

Ex.: DROP IDADE

SEXO;

O comando DROP retira a variável, portanto, todos os valores de IDADE e SEXO são desconsiderados (coluna).

- TITLE

O comando TITLE define cabeçalhos a serem impressos no topo das páginas de saída. Até dez títulos poderão ser especificados.

Forma Geral TITLEn

´t i t u

l o´;

n = número da linhas do título.

Ex.:

TITLE1 ´

Levantamento Sócio-econômico;

TITLE2 ´

da´;

TITLE3 ´Populacao Periferica de Santa Maria´;

- FOOTNOTE

Define o texto a ser impresso no rodapé das páginas de saída. A sintaxe é a mesma do comando TITLE.

Ex.: FOOTNOTE ´Departamento de Estatística - UFSM´;

- LABEL

O comando LABEL é usado para atribuir rótulos (nomes) descritivos de

até 40 caracteres.

Rótulos podem ser atribuídos temporariamente para a duração de apenas um processamento, ou permanente definido no primeiro DATA.

Ex1.:

DATA CLASSES;

INPUT

NOME $ 8. SEXO $ 11 IDADE 13-14 ALT 13-19 PESO 21-25;

CARDS;

Linha de Dados; PROC MEANS;

 

VAR

ALT PESO;

 

LABEL ALT=’ALTURA EM POLEGADAS’ PESO=’PESO EM LIBRAS’; TITLE ‘ESTATISTICAS DAS ALTURAS E DOS PESOS’; RUN;

Ex2.:

DATA CLASSES; INPUT V1 – V3; LABEL V1=’NÚMERO DE ALUNOS’

 

V2=’CURSO’

V3=’SEXO’;

 

CARDS;

- COMMENT

O comando COMMENT serve para documentar. Pode ser usado em qualquer parte do programa.

Início (/*)

Fim (*/)

Ex.:

DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; /* CALCULO DO INSS */ INPS = SAL * .12; IF DEPTO=201 THEN DO;

DEPTO=´VENDA´;

COM=VENDA*.10;

/* CALCULO DO SALARIO BRUTO*/ SAL_BRUTO=COM+SAL; /* CALCULO DO DESCONTO */ DESC=INPS + SEG; /* CALCULO DO SALARIO LIQUIDO */ SAL_LIQ=SAL_BRUTO - DESC;

END;

CARDS;

Obs.: Este comando também poderá cancelar uma determinada operação temporariamente;

- FORMAT

O comando FORMAT é usado para especificar os formatos para valores

dos dados.

Os formatos podem ser definidos apenas para a apuração de uma “procedure – PROC”.

Ex.:

DATA CLASSE; INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO; CARDS;

;

PROC FORMAT; VALUE SEX 1 = ‘MASCULINO’; 2 = ‘FEMININO’;

PROC PRINT; FORMAT SEXO SEX.; TITLE ’USANDO O COMANDO FORMAT’; RUN;

5.6 Comandos que controlam o fluxo lógico de programação

- IF (THEN / ELSE)

Algumas vezes necessita-se trabalhar com parte dos dados, não todos. Por exemplo suponhamos que se queira analisar somente o sexo masculino. O comando IF pode ser usado para esta seleção.

Ex.:

DATA

INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO; IF SEXO=M; CARDS; Linha de Dados;

A1;

O SAS lê cada observação e verifica se o SEXO é “M” (masculino), caso

contrário nova observação será lida.

A condição IF poderá ser Verdadeira (THEN) ou Falsa (ELSE).

A condição IF também pode ser uma simples comparação de uma variável ou valor.

Ex.:

IF ALTURA < 172 THEN DELETE;

IF PRETEST < TESTE THEN RESULT=´SIM´; ELSE RESULT=´NÃO´;

Principais operadores de comparação:

Símbolo

Abreviatura

Comparação

<

LT

Menor que

LE

Menor que ou igual a

>

GT

Maior que

GE

Maior que ou igual a

=

EQ

Igual

NE

Diferente

Principais operadores lógicos:

Símbolo

Comparação

OR

Um ou outro

AND

E, ambos

NOT

Não, negação

A condição IF pode envolver comparações de ANDs e de ORs.

Ex.:

IF

THEN REGIAO=´SUL´;

ESTADO=´RS´ AND CIDADE=´SANTA_MARIA’

IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50 THEN LIST;

IF RESULT=68 THEN RESP=´CERTO´; ELSE RESP=´ERRADO´;

Usando o comando IF com melhor aproveitamento:

IF CODIGO=1 THEN RESPOSTA=´BOM´; ELSE

IF CODIGO=2 THEN RESPOSTA=´REGULAR´; ELSE

IF CODIGO=3 THEN RESPOSTA=´RUIM´;

Uso do comando DO e END associado ao comando IF:

O comando DO especifica que todos os comandos entre ele e o comando

END devem ser executados;

Ex.:

DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; INPS = SAL * .12; IF DEPTO=201 THEN DO;

DEPTO=´VENDA´;

COM=VENDA*.10;

SAL_BRUTO=COM+SAL;

SEG=SAL_BRUTO*.001;

DESC=INPS + SEG; SAL_LIQ=SAL_BRUTO - DESC;

END; ELSE DO; DPTO=´ADMIN´; SAL_LIQ=SAL - INPS;

CARDS; Linha de Dados;

- DELETE

Quando se quer descartar uma observação., por ela conter um valor não válido para a análise que se esta tratando usa-se o comando DELETE;

Quando este comando é carregado o SAS para de trabalhar na observação corrente, não adicionando ao arquivo SAS que esta sendo criado, e começa imediatamente na observação seguinte.

O comando DELETE normalmente aparece com parte de um comando IF.

Ex.:

IF SEXO=´F´ THEN DELETE;

IF SEXO=´F´ THEN IDADE LE 14 THEN DELETE;

O comando DELETE retira toda a observação do arquivo, logo aconselha-se colocá-lo dentro de uma rotina “DATA SET”;

Ex.: DATA A1; SET A;

6 PRINCIPAIS “PROCEDURES” - PROCs

6.1 PROC SORT

Função: Quando se precisa ordenar os dados.

A ordem das observações não importa muito para o processamento estatístico, por exemplo para calcular a média da ALTURA dos alunos por SEXO, a ordem como estão as observações não importa. Porém necessita-se LISTAR as observações por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por SET, as observações terão que estar ordenadas (SORT). Por exemplo se quisermos combinar as informações do estudo de ALTURA e PESO deste ano com as dos anos anteriores ambos os arquivos deverão ser ordenados.

A ordenação é a arrumação das observações de um arquivo em ordem determinada pelos valores de uma ou mais variáveis indicados no comando BY (POR).

Para ordenar-se um arquivo usa-se a “procedure” PROC SORT seguida do comando BY que indicará a variável pela qual o arquivo será ordenado.

Ex.:

PROC SORT DATA=TESTE; BY NOME;

Suponha que temos um arquivo chamado PESQUISA e que queremos ordená-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente por NOME de cada cidade.

Ex.:

PROC SORT; BY PESQUISA; BY ESTADO CIDADE NOME;

Obs.: A ordenação vista até aqui foi feita em cima do próprio arquivo (PESQUISA). Se não desejar que isso aconteça use o comando OUT.

Ex.:

PROC SORT; BY PESQUISA; OUT = NOVO; BY ESTADO CIDADE NOME;

Os registros após a ordenação estarão gravados no arquivo chamado NOVO e no arquivo PESQUISA continuam desordenados.

Obs.: Existem outros tipos de rotinas de programação usando o PROC SORT, onde poderemos incluir outras PROCs dentro dela.

Ex.:

PROC SORT; BY SEXO; PROC FREQ; TABLES V1 V2 V3 /LIST; PROC UNIVARIATE; VAR V1 V2 V3; PROC COR; VAR V1; WITH V2 V3;

6.2 PROC PRINT

Este “procedure” serve para imprimir (listar) seus dados no relatório.

Ex.:

Listar ALTURA e PESO dos homens separado das mulheres

INPUT SEXO $ ALTURA PESO; CARDS; Linha de Dados; PROC PRINT; BY SEXO;

Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar o DATA, a impressão será do último DATA referenciado.

2 - O PROC PRINT imprime todos os dados, se for seguido do comando VAR imprimirá somente as variáveis selecionadas no comando VAR.

Ex.:

PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA;

3 – O comando PROC PRINT poderá listar em função de um valor de uma determinada variável

Ex.:

PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA; WHERE SEXO=M;

6.3 PROC FORMAT

O procedimento FORMAT é usado para criar formatos definidos pelos

usuários.

Comando usado no PROC FORMAT VALUE

VALUE NOME VALOR = ´DESCRIÇÃO´;

O

NOME

obedece

as

mesmas

regras

usadas

para

variáveis

(8

caracteres), pois não deixa de ser uma nova variável selecionada.

A DESCRIÇÃO terá tamanho máximo de 40 caracteres e deverá ser

incluída entre aspas (´ ´).

Ex.:

PROC FORMAT; VALUE FAIXAS

LOW-12 = ´CRIANCA´

 

13-19

= ´JOVEM´

20-HIGH = ´ADULTO´;

 

VALUE $SEX

F = ‘FEMININO’ M = ‘MASCULINO’;

Obs.:

LOW = Lowest (do menor valor) HIGH = Highest (ao maior valor)

Ex.:

DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados;

PROC FORMAT; VALUE FAIXAS

LOW-12 = ´CRIANCA´

 

13-19

= ´JOVEM´

20-HIGH = ´ADULTO´;

 

VALUE $SEX

F = ‘FEMININO’ M = ‘MASCULINO’;

PROC PRINT; FORMAT IDADE FAIXAS. SEXO $SEX.;

RUN;

6.4 PROC FREQ

O procedimento FREQ será útil para variáveis discretas e qualitativas. Para as variáveis contínuas aconselha-se usar o PROC UNIVARIATE ou PROC MEANS, pois este tipo de variável possui muitos valores diferentes.

Outro benefício que a tabela de freqüência ou tabulação cruzada oferece é poder sumarizar variáveis caracteres, porque somente variáveis numéricas podem ser sumarizadas por estatísticas como média e desvio padrão.

- Tabelas de Freqüência Simples

Este tipo de tabela poderá ajudar a sumarização dos dados. Mostrar as distribuição dos valores das variáveis, podendo-se verificar quantas observações tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19 anos e assim por diante.

Para

obter

as

Tabelas

de

Freqüências

Simples

das

variáveis

que

interessam usa-se o comando TABLES com a relação das mesmas.

Ex.:

PROC

FREQ; TABLES IDADE PESO ALTURA;

ou

PROC FREQ; TABLES IDADE PESO ALTURA /LIST;

Podemos utilizar o comando FORMAT:

Ex.:

PROC

FREQ; TABLES IDADE /LIST; FORMAT IDADE FAIXAS.; TABLES SEXO /LIST; FORMAT SEXO SEXOV.;

Com o uso do comando FORMAT na tabela de freqüência para as variáveis IDADE e SEXO teremos no relatório a DESCRIÇÃO para cada valor.

- Tabelas de Freqüência Cruzada

A tabela de freqüência cruzada mostra a união da distribuição de valores de duas ou mais variáveis. Por exemplo, queremos saber quantas mulheres com 19 anos temos no arquivo estudado.

Para obter-mos a resposta devemos cruzar as duas variáveis: IDADE e

SEXO.

Ex.:

PROC

FREQ; TABLES IDADE*SEXO /LIST;

ou PROC FREQ; TABLES IDADE*SEXO /LIST; FORMAT IDADE FAIXAS. SEXO SEXOV.;

Aconselha-se usar o comando /LIST para facilitar a visualização da tabela cruzada. Este comando também será aconselhado quando quisermos cruzar mais de duas variáveis.

Ex.:

PROC

FREQ; TABLES SEXO*IDADE*PESO /LIST;

Ex.:

DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados;

PROC FREQ; TABLES SEXO*(IDADE--PESO) /LIST /*(I até P)*/ TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/

RUN;

6.5 PROC MEANS

Suponhamos que no arquivo que se está estudando possua valores para a variável PESO. Pode-se obter um quadro completo desses pesos pela simples listagem dos mesmos (PROC FREQ). Mas isso significa que teríamos que olhar e analisar todos os valores.

O PROC MEANS sumariza todos os valores para computar a média. Então teremos como resultado um único valor representativo para todo o grupo.

O PROC MEANS fornece outras estatísticas como:

- Número de Observações

- Média

- Desvio Padrão

- Valor Mínimo e Máximo

- Erro padrão - Variância - Coeficiente de variação

Ex.:

DATA A1;

INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC MEANS;

VAR IDADE

RUN;

ALTURA

PESO;

Usando o comando BY

Podemos obter estatísticas sumarizadas por grupos de dados associados ao comando BY. Por exemplo queremos calcular as estatísticas para as mesmas variáveis do exemplo acima só que por SEXO.

Obs.: Antes de usar o comando BY para qualquer “procedure” SAS, o arquivo deverá ser ordenado pelas variáveis a serem usadas pelo comando BY.

Ex.:

DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC SORT; BY SEXO; PROC MEANS; BY SEXO; VAR IDADE ALTURA PESO;

RUN;

Obs.: Valores não informados (representados por um ponto ‘ . ‘) não serão incluídos no cálculo da PROC MEANS.

SAS/STAT

Pré requisito:

Ter conhecimento de Estatística Básica.

Ter conhecimento do SAS/BASIC;

Objetivo:

Este curso tem por objetivo expor alguns conceitos estatísticos e interpretá-los através da utilização de procedimentos do Sistema SAS. Os exemplos apresentados ilustram características da “release” 6.08 do SAS/STAT e orientam o usuário na sua programação quando seu interesse for:

Obter estatísticas descritivas elementares;

Desempenhar

testes

estatísticos

de

significância

para

verificar

a

normalidade da distribuição de seus dados;

Testar a igualdade de médias entre grupos de observações;

Encontrar um modelo que explique o comportamento de seus dados e, através deste modelo, fazer previsões e calcular intervalos de confiança para parâmetros da população em estudo.

Analisar a variabilidade de uma série de dados através do Método de Análise de Variância (ANOVA), critério de tomada de decisões estatisticamente formulado para detectar qualquer diferença no desempenho médio de um ensaio experimental.

Os conceitos básicos serão abordados a medida que os procedimentos forem sendo utilizados, assim como a interpretação das principais saídas.

7 ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE

7.1 Introdução

Depois que o usuário cria seu arquivo de dados ele pode desejar sumarizar estes dados através de medidas que descrevam seu comportamento. Estas medidas incluem parâmetros de posição como médias, modas, medianas, quartis e percentis, parâmetros de dispersão, como variâncias, desvios padrões, amplitude (range), e parâmetros que auxiliam na descrição da forma dos dados, como assimetria e curtose (ver anexo 2).

Nos problemas que envolvem a Estatística Indutiva, os conjuntos de dados analisados são representados por amostras retiradas das populações de interesse. Sendo as amostras aleatórias, todos os seus elementos fornecerão valores aleatórios da variável em análise. Para caracterizar a distribuição dos diversos valores assumidos por uma variável aleatória, o conceito de distribuição de probabilidades deve ser utilizado e estendido às populações, ou seja, cada valor da amostra deve ser considerado como valor de uma variável aleatória cuja distribuição de probabilidade é a mesma da população no instante da retirada desse elemento da amostra. Os valores calculados em função dos elementos da amostra, denominam-se estatísticas. Se estas estatísticas forem utilizadas para inferir informações a respeito de uma população, elas são consideradas como variáveis aleatórias, e terão, portanto uma distribuição de probabilidades, com uma média, uma variância, etc. Muitos métodos da análise estatística assumem que os dados da amostra provém de uma população com distribuição normal. A distribuição normal tem uma definição matemática precisa, com as seguintes características:

-

ser completamente definida por sua média e seu desvio padrão.

 

-

ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que por sua vez coincide com sua mediana.

-

ser

uma

distribuição

regular.

Do

seu

ponto

central

mais

alto

até

suas

extremidades não existe padrões irregulares.

 

-

ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição).

7.2 Teste de normalidade

Nos testes de normalidade é estabelecida a idéia de que uma amostra provém de uma distribuição normal. Através da amostra uma estatística é calculada e testada para checar essa idéia. Uma comparação é feita entre a forma da distribuição da amostra, com a forma de uma distribuição normal. Se não for encontrada nenhuma evidência para rejeitar a hipótese de normalidade, prossegue-se as análises baseando-se na suposição de que os dados da amostra são normalmente distribuídos (análise paramétrica). Quando os dados não são gerados por uma distribuição normal, a análise deve ser baseada em métodos

não paramétricos. A distribuição normal é simétrica, com os valores distribuídos em forma de sino.

Ao desempenhar um teste de hipótese tem-se sempre uma hipótese nula que descreve uma idéia sobre a população, e uma hipótese alternativa, que descreve uma idéia alternativa sobre a população.

Nos testes para a normalidade, a hipótese nula é que os dados da amostra são gerados por uma distribuição normal. A hipótese alternativa é que eles são gerados por uma distribuição não normal. O método utilizado para testar hipóteses consiste num conteúdo de decisão onde a probabilidade de rejeitar a hipótese nula, sendo ela verdadeira (erro do tipo I), não excede um valor pré- fixado chamado de nível de significância α do teste. Ao menor nível de significância para o qual a hipótese nula é rejeitada denominamos probabilidade de significância (p-valor). Se p-valor > α há evidências de que a hipótese nula é verdadeira.

A PROC UNIVARIATE é utilizada para a obtenção de estatísticas descritivas. Ela difere de outros procedimentos SAS por fornecer maiores detalhes das variáveis, tais como plots das distribuições, tabelas de freqüência e testes estatísticos para a normalidade.

FORMA GERAL:

PROC UNIVARIATE DATA = arquivo de dados opções; VAR variáveis; BY variáveis; FREQ variável; ID variáveis; OUTPUT OUT = arquivo de dados palavra-chave = nomes;

OPÇÕES DISPONÍVEIS:

FREQ

gera uma tabela de freqüência com valores de freqüência, percentagens e percentagens acumuladas.

NOPRINT

suprime toda a informação do OUTPUT. Esta opção é utilizada geralmente na criação de um arquivo de dados de saída.

NORMAL

desempenha um teste para a hipótese nula de que os dados provém de uma distribuição normal. Dependendo do tamanho da amostra, o teste utilizado será baseado na estatística de Shapiro-Wilk (N<2000) ou na estatística de Kolmogorov’s D. (N>2000).

PLOT

produz plotes de probabilidade da distribuição normal e plotes em “box” que auxiliam na determinação da forma da distribuição dos dados investigados.

COMANDOS SELECIONADOS:

VAR

lista as variáveis a serem sumarizadas no arquivo de dados.

BY especifica subgrupos onde as estatísticas devem ser obtidas. Para usar este comando o arquivo já deverá estar ordenado pela variável de subgrupo .

FREQ

especifica variáveis de freqüência.

ID

especifica as variáveis que irão identificar os valores extremos.

OUTPUT OUT

cria arquivo de saída que irá gravar as estatísticas geradas.

Estatísticas reservadas utilizadas na criação de um arquivo de saída:

N

NMISS

Prob T

MEAN

VAR

KURTOSIS

STDMEAN

CV

MEDIAN

SUM

RANGE

STD

SKEWNESS

Ex1.: Resultados obtidos de uma distribuição aproximadamente Normal.

Para ilustrar, suponha que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa está sendo representada pela variável IDADE, e sua identificação pela variável IDENT.

OPTIONS FORMDLIM='*' LS=80;

DATA

NORM

A;

/* EXEMPL01 SAS */

INPUT

IDENT

IDADE @@;

CARDS;

1

72

2

69

3

75

4

71

5

71

6

73

7

70

8

67

9

71

10

72

11

73

12

68

13

69

14

70

15

70

16

71

17

74

18

72

;

PROC UNIVARIATE NORMAL PLOT FREQ; VAR IDADE; ID IDENT;

RUN;

ANÁLISE DOS RESULTADOS:

Univariate Procedure

Variable=IDADE

Moments

N

18

Sum Wgts

18

Mean

71

Sum

1278

Std Dev

2.057983

Variance

4.235294

Skewness

0 Kurtosis

-0.13576

USS

90810 CSS

72

CV

2.898568 Std Mean

0.485071

T:Mean=0

146.3702 Pr>|T|

0.0001

Num ^= 0

18

Num > 0

18

M(Sign)

9 Pr>=|M|

0.0001

Sgn Rank

85.5

Pr>=|S|

0.0001

W:Normal

0.98356 Pr<W

0.9666

A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste

para normalidade. O valor zero de assimetria traduz a forma simétrica da distribuição. A estatística de curtose de -0.13576 significa que a distribuição de valores é relativamente achatada. O alto p-valor associado ao teste de normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se obtenha este mesmo resultado se os dados fossem oriundos de uma população Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em geral, rejeita-se a hipótese nula de normalidade dos dados somente quando o p- valor for menor que 0.05 .

Os quartis, percentis, a moda da distribuição, e os valores extremos estão relacionados a seguir:

Quantiles(Def=5)

100% Max

75

99%

75

75%

Q3

72

95%

75

50%

Med

71

90%

74

25%

Q1

70

10%

68

0%

Min

67

5%

67

1%

67

Range

8

Q3-Q1

2

Mode

71

Extremes

Lowest

ID

Highest

ID

67(

8)

72(

18)

68(

12)

73(

6)

69(

13)

73(

11)

69(

2)

74(

17)

70(

15)

75(

3)

O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados.

Entre estes plotes e o ‘boxplot’, há uma coluna que fornece a freqüência de observações em cada barra. O box plote indica o 25 o e 75 o percentil. A linha

central indica a mediana (50 o percentil). O sinal de (+) indica a média da distribuição, que está coincidindo com a mediana.

Stem Leaf

#

Boxplot

75

0

1

|

74

0

1

|

73

00

2

|

72

000

3

+-----+

71

0000

4

*--+--*

70

000

3

+-----+

69

00

2

|

68

0

1

|

67

0

1

|

----+----+----+----+

O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+)

formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra é gerada por uma distribuição normal, os asteriscos devem formar uma linha reta e

cobrir a maioria dos sinais positivos. A distribuição amostral aproxima-se da normalidade.

Variable=IDADE

Univariate Procedure

Normal Probability Plot

75.5+

* +++++

|

* +++++

|

* +*+++

|

**+*++

71.5+

**+**++

|

* **+++

|

* +*+++

|

+*+++

67.5+

+*+++

+----+----+----+----+----+----+----+----+----+----+

0

-2

-1

+1

+2

f(+) = 71 + 2.05 IDADE

A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de

distribuição de freqüência onde o número de ocorrências de cada valor da variável

IDADE é contabilizado juntamente com os percentuais e percentuais acumulados de ocorrência em cada categoria.

Frequency Table

 

Percents

 

Percents

Value Count

Cell

Cum

Value Count

Cell

Cum

67 1

5.6

5.6

72

3

16.7 77.8

68 1

5.6

11.1

73

2

11.1 88.9

69 2

11.1

22.2

74

1

5.6

94.4

70 3

16.7

38.9

75

1

5.6 100.0

71 4

22.2

61.1

8 - ANÁLISE DE CORRELAÇÃO E REGRESSÃO

8.1 Introdução

Existem numerosos procedimentos estatísticos para investigar relacionamentos bivariados (entre somente duas variáveis). Estes procedimentos podem fornecer um teste estatístico de significância, uma medida de associação, ou ambos. O teste estatístico objetiva testar hipóteses sobre o grau de relacionamento entre variáveis na população. Por exemplo, o coeficiente de correlação de Pearson. Num estudo para se testar a hipótese nula de que a correlação entre duas variáveis é zero na população, uma amostra de 200 observações determinou um coeficiente de correlação entre duas variáveis de 0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade de significância de 0.001. Este p-valor sugere que existe menos que uma chance em 1000 de se obter um valor igual ou superior à 0.35, para correlação amostral, se a hipótese nula fosse verdadeira. Rejeita-se portanto a hipótese nula, concluindo-se que a correlação é significativamente diferente de zero na população.

A escolha apropriada da estatística a ser usada no estudo do relacionamento entre duas variável irá depender da natureza delas. Atenção particular deve ser dada aos níveis de medidas usados para avaliar as duas variáveis. Uma breve discussão à este respeito é feita a seguir.

Uma variável medida numa escala nominal representa classes que indicam o grupo ao qual pertence uma determinada observação. Por exemplo, SEXO é uma variável que está numa escala nominal. Uma observação pode ser classificada como sendo da classe "masculino" ou da classe "feminino".

Uma variável medida numa escala ordinal representa valores num “rank” ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este “rank” de valores são ditos ordinais. Escalas ordinais de valores porém possuem uma limitação: iguais diferenças na escala de valores não tem necessariamente o mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade verbal entre um aluno com grau 1 e um aluno com grau 2 não é necessariamente

a mesma diferença existente entre as habilidades de um aluno com grau 2 e um com grau 3.

Uma variável medida numa escala de intervalo significa que iguais diferenças entre valores da escala tem igual significado quantitativo. Um exemplo

é a escala Fahrenheit de medição de temperatura. A diferença entre 70 e 75

graus é igual a diferença entre 75 e 80 graus. As unidades de medidas são iguais

através de todo o range da escala. A limitação existente nesta escala é que não existe um ponto zero real, ou seja, o zero da distribuição de temperaturas não indica que não haja nenhum calor presente no ambiente.

Uma variável medida numa escala de razão é aquela que iguais diferenças entre valores da escala tem igual significado quantitativo. Neste caso, além deste fato, é possível interpretar a razão entre os valores da escala. Um valor para peso igual à zero indica nenhum peso corporal. Com isto, é possível estabelecer que o peso de uma criança com 20 Kg é o dobro de peso de uma criança com 10 kg .

A tabela a seguir identifica as estatísticas apropriadas para avaliar o

relacionamento de pares de variáveis nos seus respectivos níveis de medida.

TABELA COM ESTATÍSTICAS APROPRIADAS

   

PREDITORA (INDEPENDENTE) – Xi

 
 

Nominal

Ordinal

Intervalo

Razão

R

Razão

ANOVA

Spearman

Pearson ou

Pearson ou

E

Spearman

Spearman

S

Intervalo

ANOVA

Spearman

Pearson ou

--------

P

Spearman

O

Ordinal

Kruskal

Spearman

---------

--------

S

Wallis

T

Nominal

Chi-quadrado

---------

---------

--------

A

8.2 Correlação de Pearson (PROC CORR)

O estudo de medidas de associação reflete o grau da intensidade da

relação entre variáveis. Se X e Y representam duas variáveis, ambas acessadas na escala de intervalo ou de razão, o diagrama de dispersão irá mostrar a localização dos pontos (x , y) em um sistema de coordenadas retangulares. Se os pontos desse diagrama se distribuírem nas proximidades de uma reta, como nas figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os pontos se distribuírem próximos de alguma curva, a correlação é denominada não linear, como pode ser visto na figura (C). Quando os pontos não apresentam nenhuma forma definida, figura (D), diz-se que as variáveis x e y são não correlacionadas. Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento entre duas variáveis com relacionamento não linear, ele normalmente subestima o verdadeiro valor. Por esta razão é sempre prudente avaliar primeiro o diagrama de dispersão para as variáveis, usando para isso a PROC PLOT, que tem a seguinte forma geral:

PROC PLOT DATA= ARQSAS; PLOT Y*X; RUN;

Para o tratamento quantitativo do problema da dispersão dos dados amostrais é necessário estabelec er
Para o tratamento quantitativo do problema da dispersão dos dados amostrais é necessário estabelec er

Para o tratamento quantitativo do problema da dispersão dos dados amostrais é necessário estabelecer medidas de correlação. O coeficiente de correlação de Pearson, simbolizado por “r”, será utilizado para medir o relacionamento entre duas variáveis que estejam na escala de intervalo ou de razão. Outra consideração a ser feita ao usar esta medida de associação, é que ambas as amostras tenham sido retiradas de uma população Normal. Caso contrário, uma medida de associação não paramétrica deverá ser usada, tal como o coeficiente de correlação de Spearman.

O range de “r” varia de -1 a 1. Se “r” for um valor próximo de 1 significa

que as duas variáveis são correlacionadas positivamente, se for próximo de -1,

significa que as variáveis são correlacionadas negativamente. Valores de “rpróximos de zero correspondem a uma dispersão de pontos que não mostra nem uma tendência crescente, nem decrescente, indicando uma baixa correlação entre as variáveis.

PROC CORR

A “procedure” CORR é utilizada para gerar coeficientes de correlação.

Quando é utilizada sozinha, ela obtém coeficientes de Pearson para todas as variáveis numéricas do arquivo, além de estatísticas básicas como médias e desvios padrões da distribuição de dados.

Outros coeficientes de correlacão podem ser obtidos como opção da PROC CORR. São eles: Kendall, Hoeffding e Spearman, que são medidas não paramétricas de associação .

FORMA GERAL:

PROC CORR opções; VAR variáveis; WITH variáveis; FREQ variáveis; BY