Monografia 20110505

EDUARDO CARDOSO DE OLIVEIRA
IDENTIFICAO E ELABORAO DE VARIVEIS ESTATSTICAS

NO ESTUDO DA PRODUO DE GROS E FIBRAS, NA REGIO
ADMINISTRATIVA DE PRESIDENTE PRUDENTE-SP

LONDRINA
2010



Monografia apresentada ao Curso de
Especializao em Estatstica com nfase em
Educao, da Universidade Estadual de Londrina,
como requisito parcial para a concluso do curso.

Orientador: Prof. Dr. Antonio Assiz de Carvalho
Filho

LONDRINA
2010



Monografia apresentada ao Curso de
Especializao em Estatstica com nfase em
Educao, da Universidade Estadual de Londrina,
como requisito parcial para a concluso do curso.

COMI SSO EXAMI NADORA

____________________________________
Prof. Dr. Antonio Assiz de Carvalho Filho
Universidade Estadual Paulista

____________________________________
Prof. Dr. Silvano Cesar da Costa
Universidade Estadual de Londrina

____________________________________
Profa. Dra. Ana Verginia Libos Messetti
Universidade Estadual de Londrina

Londrina, 30 de outubro de 2010.

A minha famlia e a todos que acreditam em meu
potencial e me apoiam.

AGRADECIMENTO
Agradeo ao meu orientador no s pela constante orientao neste trabalho,
mas sobretudo pela sua amizade e pacincia.
A todos os meus professores, aos colegas, a minha famlia e a todos que me
apoiaram.

"A educao faz um povo fcil de ser liderado, mas
difcil de ser dirigido; fcil de ser governado, mas
impossvel de ser escravizado."

Henry Peter.

OLIVEIRA, Eduardo Cardoso de. Identificao e Elaborao de Variveis Estatsticas no
Estudo da Produo de Gros e Fibras, na regio Administrativa de Presidente
Prudente-SP. 2010. 80p. Monografia apresentada ao Curso de Especializao em Estatstica
com nfase em Educao da Universidade Estadual de Londrina Universidade Estadual de
Londrina, Londrina, 2010.

RESUMO

Este trabalho trata-se do estudo estatstico da produo de gros e fibras na Regio
Administrativa de Presidente Prudente, fundamentado no fato da regio ser beneficiada por
possuir um sistema logstico de distribuio trimodal (ferrovirio, hidrovirio e rodovirio). O
banco de dados utilizado foi extrado do Levantamento de Unidades de Produo
Agropecurias (LUPA) e referente s reas disponibilizadas pelos municpios estudados
para a produo de gros e fibras e tambm de variveis econmicas relacionadas ao
agronegcio. As tcnicas estatsticas aplicadas foram anlise fatorial e anlise de
agrupamentos. Atravs da anlise fatorial, foram obtidas de 13 variveis originais, trs
descritores estatsticos (fatores). Os agrupamentos foram feitos a partir dos escores fatorais,
encontrando-se trs grupos por descritor e tambm no conjunto de descritores. Ao final do
trabalho, caracterizou-se a Regio Administrativa (R.A.) de Presidente Prudente segundo as
variveis selecionadas todas do ano de 2008, dando embasamento para auxiliar na elaborao
de estratgias empresariais e de formulao de polticas pblicas, para o desenvolvimento da
regio em estudo.

Palavras-chave: Gros e Fibras 1. Anlise Multivariada 2.

LISTA DE FIGURAS
Figura 1 - Mapa da rede de transportes do estado de So Paulo, 2010. Fonte:
Ministrio dos Transportes, 2010. ....................................................................... 11
Figura 2 - Recorte da Figura 1 para a rede de transportes da R.A. de Presidente
Prudente, 2005. Fonte: Departamento Nacional de Infra-estrutura de
Transporte, 2005. ................................................................................................. 12
Figura 3 - Resultado do Alpha de Cronbach e do teste KMO do script do programa R. .... 42
Figura 4 - Resultado do Alpha de Cronbach e do teste KMO do script do programa R,
sem as variveis eliminadas e com as variveis padronizadas. ........................... 43
Figura 5 - Grficos de caixa das variveis padronizadas em estudo. ................................... 45
Figura 6 - Matriz de disperso das variveis em estudo na R.A. de Presidente Prudente. .. 46
Figura 7 - Grficos de correlao entre as variveis representada pela gradao de cores. 46
Figura 8 - Grficos de Two-way joining das variveis em estudo. ...................................... 47
Figura 9 - Grfico de scree-plot relacionado a R.A. de Presidente Prudente. ..................... 49
Figura 10 - Dendrograma ou rvore hierrquica do agrupamento de municpios da
R.A. de Presidente Prudente, segundo o descritor PIB agrcola e gros
leguminosos. ...................................................................................................... 53
Figura 11 - Carta temtica dos municpios da R.A. de Presidente Prudente, segundo o
descritor PIB agrcola e gros leguminosos no ano de 2008, pela anlise
fatorial. ................................................................................................................ 55
Figura 12 - Dendrograma ou rvore hierrquica do agrupamento de municpios da R.A.
de Presidente Prudente, segundo o descritor Despesas municipais com
agricultura e produo agrcola diversificada. ................................................... 56
descritor Despesas municipais com agricultura e produo agrcola
diversificada no ano de 2008, pela anlise fatorial. ........................................... 58
Figura 14 - Dendrograma ou rvore hierrquica do agrupamento de municpios da R.A.
de Presidente Prudente, segundo o descritor Agricultura perene. ................... 59
descritor Agricultura perene no ano de 2008, pela anlise fatorial. ................ 61
Figura 16 - Dendograma ou rvore hierrquica do agrupamento de municpios da R.A.
de Presidente Prudente, segundo os trs descritores. .......................................... 62
Figura 17 - Carta temtica dos municpios da R.A. de Presidente Prudente, segundo os
trs descritores no ano de 2008, pela anlise fatorial. ......................................... 65

LISTA DE TABELAS
Tabela 1 - Valores de referncia para a interpretao do MSA. .......................................... 15
Tabela 2 - Tamanho amostral para referncia da significncia das cargas fatoriais. ........... 22
Tabela 3 - Medidas descritivas para as variveis referentes aos produtos em estudo. ......... 44
Tabela 4 - Autovalores e porcentagem da varincia explicada de cada fator. ..................... 48
Tabela 5 - Matriz fatorial sem rotao. ................................................................................ 49
Tabela 6 - Matriz fatorial com rotao varimax. .................................................................. 50
Tabela 7 - Escores Fatoriais para a R.A. de Presidente Prudente. ........................................ 51
Tabela 8 - rea mdia, rea total e nmero de municpios para cada varivel do
descritor PIB agrcola e gros leguminosos, em relao aos grupos
formados. ............................................................................................................. 54
descritor Despesas municipais com agricultura e produo agrcola
diversificada, em relao aos grupos formados. ................................................ 57
descritor Agricultura perene, em relao aos grupos formados. ..................... 60
Tabela 11 - rea mdia, rea total e nmero de municpios para cada varivel dos trs
descritores, em relao aos grupos formados. ..................................................... 63

SUMRIO
1 INTRODUO ....................................................................................................................... 8
2 A REGIO EM ESTUDO .................................................................................................... 10
3 TCNICAS ESTATSTICAS MULTIVARIADAS ............................................................. 13
3.1 Anlise Fatorial .................................................................................................................. 13
3.1.1 Suposies da Anlise Fatorial ........................................................................................ 14
3.1.2 Modelo fatorial Ortogonal ............................................................................................... 15
3.1.3 Mtodos para a estimao das matrizes ........................................................................... 18
3.1.3.1 Mtodo das componentes principais ............................................................................ 18
3.1.3.2 Mtodo dos fatores principais ...................................................................................... 19
3.1.4 Estimao do nmero m de fatores ................................................................................. 20
3.1.5 Rotao de fatores ........................................................................................................... 21
3.1.6 Interpretao da matriz fatorial........................................................................................ 21
3.1.7 Validao da Anlise Fatorial.......................................................................................... 22
3.1.8 Usos adicionais da anlise fatorial................................................................................... 22
3.1.8.1 Seleo de variveis substitutas .................................................................................... 23
3.1.8.2 Escalas mltiplas .......................................................................................................... 23
3.1.8.3 Escores fatoriais ............................................................................................................ 24
3.2 Anlise de Agrupamentos ................................................................................................... 24
3.2.1 Caracterizao mtrica do conjunto de dados ................................................................. 25
3.2.2 Medidas de Similaridade e Dissimilaridade .................................................................... 25
3.2.3 Padronizao dos dados ................................................................................................... 26
3.2.4 Procedimentos para a Construo dos Agrupamentos .................................................... 26
3.2.4.1 Procedimentos Hierrquicos Aglomerativos ................................................................ 27
3.2.4.1.1 Critrios para definir o nmero de clusters ............................................................... 29
3.2.4.2 Procedimentos no hierquicos .................................................................................... 32
3.2.5 Procedimentos no hierquicos vs. Procedimentos Hierrquicos ................................... 34
3.2.6 Anlise do agrupamento final .......................................................................................... 34
3.2.6.1 Validao ...................................................................................................................... 34
3.2.6.2 Anlise do Perfil ........................................................................................................... 35
4 RESULTADOS ..................................................................................................................... 36
4.1 Anlise descritiva dos dados............................................................................................... 43
4.1.1 Anlise grfica dos dados ................................................................................................ 44
4.2 Anlise Fatorial .................................................................................................................. 47
4.2.1 Determinao do nmero de fatores ................................................................................ 48
4.2.2 Interpretao dos fatores .................................................................................................. 49
4.2.3 Nomeao dos fatores ...................................................................................................... 50
4.2.4 Escores fatoriais ............................................................................................................... 51
4.3 Anlise de Agrupamentos ................................................................................................... 52
4.3.1 Analise de agrupamento no descritor: PIB agrcola e gros leguminosos ................. 53
4.3.2 Analise de agrupamento no descritor: Despesas municipais com agricultura e
produo agrcola diversificada ............................................................................................ 56
4.3.3 Analise de agrupamento no descritor: Agricultura perene ......................................... 59

4.3.4 Analise de agrupamento nos descritores: PIB agrcola e gros leguminosos,
Despesas municipais com agricultura e produo agrcola diversificada e
Agricultura perene ............................................................................................................... 62
5 CONCLUSO ....................................................................................................................... 66
REFERNCIAS ....................................................................................................................... 67
APNDICES ............................................................................................................................ 69
8
1 INTRODUO
De acordo com MICHELETTO (2009), a rea plantada de gros e fibras, no perodo
de 1985 a 1989, foi de 38,5 milhes de hectares, em mdia, envolvendo as culturas arroz,
soja, algodo, milho, trigo e feijo, enquanto que na safra de 2008/09, plantou-se 46,2
milhes. A expanso da rea plantada de gros e fibras nos ltimos 20 anos foi de apenas
20%, indicando um crescimento anual mdio em torno de 0,6% ao ano.
A cultura de soja foi a nica que apresentou desenvolvimento expressivo, com
acrscimo de 122% no mesmo perodo sustentando o desempenho global da rea plantada no
pas. A rea plantada de gros e fibras no pas cresceu apenas 7,7 milhes de hectares. Com
base nesses dados as outras atividades tiveram reduo na rea de plantio.
Segundo MICHELETTO (2009), se for observar o crescimento dos nmeros
registrados nas estatsticas oficias envolvendo o plantio de rea de gros e fibras, com certeza
a floresta amaznica no est sofrendo devastao. A produo agrcola brasileira est
obtendo grande ganho com o aumento de produtividade devido incorporao de tecnologia,
cujo resultado econmico est sendo transferido principalmente para o consumidor e para o
comrcio externo. Uma parcela muito pequena est ficando com os produtores, tendo em vista
o seu elevado grau de descapitalizao e de endividamento em que se encontram. A
porteira, no momento, est fechada para o agricultor obter lucro.
O crescimento das reas cultivadas com algodo, feijo, soja e arroz, influenciado
principalmente pela menor influncia do fenmeno La Nin sobre essas culturas, levou a
Companhia Nacional de Abastecimento (Conab) a projetar uma colheita de 153 milhes de
toneladas de gros na safra 2010/2011. Segundo a estatal, a m distribuio das chuvas foi
menos prejudicial do que o esperado.
O valor estimado pela Conab no quinto levantamento para esta safra, consolida a
possibilidade de um novo recorde de produo, com aumento de 2,6%, ou 3,8 milhes de
toneladas em relao ao ciclo passado, de 149,2 milhes de toneladas. Na comparao com o
levantamento anterior, anunciado h um ms, o crescimento foi de 2,4%, ou 3,6 milhes de
toneladas.
O quinto levantamento da safra de gros 2010/2011 foi realizado entre os dias 16 e 21
de janeiro por 58 tcnicos da Conab. Eles colheram informaes com representantes de
cooperativas e sindicatos rurais, rgos pblicos e privados nas regies Sul, Sudeste e Centro-
Oeste, alm de parte do Norte e Nordeste.
9
Considerando-se ento os fatos de que a Regio Administrativa (RA) de Presidente
Prudente tem boa localizao geogrfica no que diz respeito logstica de distribuio e tem
sua estrutura produtiva com forte perfil agroindustrial, a realizao deste estudo, ao destacar
como de importante relevncia a anlise da produo de gros e fibras, se constituir como
suporte s idias de Barat.
A logstica, em sentido amplo, e o transporte, como atividades-meio de apoio
produo de bens e servios, so essenciais para o aproveitamento do potencial produtivo de
uma regio, pas ou associao de pases. Esto na linha de frente de questes ligadas ao
desenvolvimento econmico e social, gerao de empregos, ocupao territorial, energia
e ao meio ambiente (Barat, 2007, pag.41). Dessa forma, tm profundas implicaes no
processo de desenvolvimento de uma regio.
Para a anlise dos dados sero utilizadas tcnicas estatsticas multivariadas, pois se
deseja formar novas variveis capazes de auxiliar na interpretao de como se comporta a
produo de gros e fibras na regio em questo.
Os dados que esto sendo trabalhados so as reas em produo referentes ao ano de
2008, e foram coletados no armazm de dados oficial do Instituto de Economia Agrcola
(IEA).
Com o apoio da Agncia Paulista de Tecnologias do Agronegcio, Plo da Alta
Sorocabana sediado em Presidente Prudente, ao final desse trabalho espera-se identificar qual a
relevncia dessa produo para a R.A. de Presidente Prudente, e assim fornecer subsdios ao
setor pblico e setor privado para formulaes de propostas que influenciem no desenvolvimento
da regio em questo.

10
2 A REGIO EM ESTUDO
A Regio Administrativa de Presidente Prudente situa-se no extremo oeste do Estado
de So Paulo, a quarta maior em extenso territorial, com 23.952 km
2
, ocupando 9,6% do
territrio paulista. Nela se localizam 53 municpios distribudos em trs regies de governo:
Adamantina, Dracena e Presidente Prudente (SEADE, 2007).
No ano de 2001, a regio era responsvel por cerca de 5,3% da produo agropecuria
do Estado de So Paulo. Alm dessa importante contribuio, a regio responde por cerca de
18% da produo total de carne bovina no Estado, garantindo assim, a posio de maior
exportadora desse produto em mbito nacional, alm de ser considerada uma das maiores
bacias leiteiras do pas. Podemos adicionar ainda, a produo de cana-de-acar e de ovos,
traando assim, o perfil agropecurio da regio.
Essa Regio Administrativa favorecida por uma boa condio de escoamento de
produtos, pois ela possui um sistema de logstica trimodal, ou seja, Fluvial, Rodovirio e
Ferrovirio, fato que cria condies de mobilidade e fluidez dos produtos produzidos na
regio.
No que diz respeito ao modal Fluvial, a regio conta com o Porto de Presidente
Epitcio, construdo na dcada de 60, com o objetivo de interligar o Rio Paran com o
terminal ferrovirio da antiga Companhia Paulista de Estradas de Ferro. Decorrente do
alagamento de boa parte da rea prxima ao Porto para a construo da Usina Hidreltrica
"Srgio Motta", este foi desativado em 1998. Atravs de um acordo com a Companhia de
Energia Paulista (CESP), comeou ento um trabalho de reconstruo e suas atividades
porturias foram retomadas em abril de 2008.
Alm de estar na rea de influncia da Hidrovia Tiet-Paran, que forma um corredor
de escoamento de produtos para pases do Mercosul, a Regio Administrativa de Presidente
Prudente tem como principais vias de acesso a Rodovia Raposo Tavares (SP-270), que faz a
ligao com a capital paulista e o Estado de Mato Grosso do Sul; a Assis Chateaubriand (SP-
425), que conecta ao Paran e s regies do oeste e norte do Estado de So Paulo; a
Comandante Joo Ribeiro de Barros (SP-294), que faz a juno de vrios municpios da R.A.
com o Rio Paran e, no sentido oposto, com Bauru e a Rodovia Marechal Rondon (SEADE,
2007).
11
Os trilhos da Estrada de Ferro Sorocabana, hoje ALL - Amrica Latina Logstica,
chegaram a Presidente Prudente no dia 19 de janeiro de 1919, sendo inaugurada tambm a
estao de Regente Feij. Trs anos depois a ferrovia atingiu a cidade de Presidente Epitcio,
as margens do Rio Paran.
Com a chegada das ferrovias houve uma grande expanso na economia,
principalmente pelo fato da interligao entre a ferrovia da Alta Sorocabana com o porto de
Presidente Epitcio, Paranagu e o Porto de Santos, favorecendo o escoamento da produo
agrcola.
No cenrio atual, das ferrovias existentes na regio, grande parte est desativada e sem
qualquer possibilidade de serem reinstaladas, e as que ainda funcionam encontram-se
abandonadas.
Na Figura 1, segue o desenho das rodovias, hidrovias e ferrovias que cruzam o Estado
de So Paulo.

Figura 1 - Mapa da rede de transportes do estado de So Paulo, 2010. Fonte: Ministrio dos Transportes, 2010.

Na Figura 2, segue o desenho das rodovias, hidrovias e ferrovias que cruzam a R.A. de
Presidente Prudente.

12

Figura 2 - Recorte da Figura 1 para a rede de transportes da R.A. de Presidente Prudente, 2005. Fonte:
Departamento Nacional de Infra-estrutura de Transporte, 2005.

Rodovias, ferrovias, aeroportos, portos e hidrovia
Trecho rodoanel em operao

Trecho rodoanel projetado

Principais rodovias

Demais rodovias

Ferrovias

Hidrovia Tiet-Paran

Aeroportos administrados por Infraero

Aeroportos administrados por Dsesp

Portos

Portos secos
13
3 TCNICAS ESTATSTICAS MULTIVARIADAS
De um modo geral, A anlise multivariada, refere-se a todos os mtodos estatsticos
que simultaneamente analisam mltiplas medidas sobre cada indivduo ou objeto sob
investigao (HAIR et. al., 2005, p. 26).
Segundo Mingoti (2005), a estatstica multivariada pode ser dividida em dois grupos:
o primeiro diz respeito s tcnicas exploratrias e de sintetizao da estrutura dos dados e o
segundo diz respeito aos mtodos de estimao de parmetros, testes de hipteses, anlise de
varincia, de covarincia e de correlao multivariados.
Neste trabalho, sero estudadas apenas tcnicas de carter exploratrio.
3.1 Anlise Fatorial
Segundo Hair et. al. (2005), a anlise fatorial uma tcnica de interdependncia, ou
seja, na qual todas as variveis so simultaneamente consideradas, cada uma relacionada com
as outras, empregando ainda o conceito da varivel estatstica, a composio linear de
variveis.
Essa tcnica busca condensar a informao contida em um nmero de variveis
originais em um conjunto menor de variveis alternativas, chamadas variveis latentes ou
fatores, de forma que se perca o mnimo de informao possvel. Tais fatores so formados a
fim de maximizar o poder de explicao de todo conjunto de variveis.
De forma sucinta, tem-se que o objetivo principal da anlise fatorial descrever a
variabilidade geral das variveis originais, em termos de um nmero menor m de variveis
aleatrias relacionadas com as variveis originais atravs de um modelo linear.
As tcnicas modernas de determinao da validade e da confiabilidade de testes, bem
como os mtodos da anlise fatorial so resultados diretos da descoberta, por Galton em 1888,
da correlao, produzida quando ele observou que as caractersticas tendem a regredir na
direo da mdia (CAZORLA, 156p.).
A atual modelagem da estrutura anlise fatorial foi introduzida por Sperman (1904).
Muitos dos exemplos iniciais aparecem na rea de psicologia e cincias sociais, na tentativa
14
de identificar os fatores relacionados com a inteligncia humana e lig-los, de algum modo,
etnia. (Mingoti, 2005, p.100). Desde ento a aplicao dessa tcnica vem sendo praticada em
diversas reas como qumica, geologia, marketing, economia, agropecuria, pesquisa de
mercado, entre outras.
De acordo com os objetivos do pesquisador, as tcnicas fatoriais podem ser abordadas
por meio de duas perspectivas:
- Confirmatria: baseando-se em estudos tericos ou pesquisas j realizadas, o
pesquisador j tem, a princpio, alguma idia sobre a real estrutura dos dados, ou
seja, ele tem um modelo fatorial hipottico pr-especificado ao qual deseja
confirmar se realmente aplicvel.
- Exploratria: nesse caso busca-se apenas encontrar uma estrutura subjacente ao
conjunto de variveis ou simplesmente a reduo dos dados, sem nenhuma pr-
suposio.
Ainda pode-se classificar a anlise fatorial em tipo R, que o mais utilizado e visa
identificar as dimenses latentes atravs da anlise de um conjunto de variveis, ou tipo Q que
uma forma de agrupar populaes em subpopulaes.
3.1.1 Suposies da Anlise Fatorial
De acordo com a literatura estudada, os desvios de normalidade, homoscedasticidade e
linearidade devem ser levadas em considerao para a aplicao da anlise fatorial medida
que diminuem as correlaes entre as variveis em questo. A suposio de normalidade dos
dados exigida somente quando se deseja aplicar testes para a significncia de fatores.
No que diz respeito s correlaes da matriz de dados, recomenda-se segundo Hair et.
al. (2005) um nmero substancial de correlaes maiores que 0,30; caso contrrio a anlise
fatorial se torna inapropriada. Outra forma de analisar as correlaes atravs da matriz anti-
imagem, que nada mais que o valor negativo das correlaes parciais, mas nesse caso os
valores devem ser baixos.
Outra forma de garantir a adequao dessa tcnica multivariada examinando a matriz
de correlao inteira atravs do teste Bartlett de esfericidade. Este teste fornece a
probabilidade de haver correlaes significantes pelo menos entre algumas das variveis.
15
O teste Alpha de Cronbach tambm uma ferramenta de grande utilidade para avaliar
as correlaes. Segundo literatura estudada, ele fornece uma medida de confiabilidade que
varia de 0 a 1, sendo que valores de 0,6 a 0,7 so considerados o limite inferior de
aceitabilidade. Em sntese, o teste proporciona medir a correlao existente entre as variveis,
podendo sofrer distoro em decorrncia do nmero de variveis envolvidas (no se
aconselha o emprego de menos de 5 variveis para obteno do teste).
Outra medida que pode ser utilizada para quantificar o grau de intercorrelaes entre
as variveis a medida de adequao da amostra (MSA), que varia entre 0 e 1, sendo que
quanto mais prximo de 1 (um), melhor a previso sem erro de cada varivel pelas outras
variveis. De acordo com Barroso e Artes (2003), a medida MSA pode ser interpretada com
as orientaes presentes na Tabela 1:
Tabela 1 - Valores de referncia para a interpretao do MSA.
Valores do MAS Interpretao
Insuficiente
Regular
Bom
timo
Excelente
Fonte: Barroso e Artes, 2003.

O MSA tambm pode ser obtido pelo teste de Kaiser-Meyer-Olkin (teste KMO).
Portanto fica claro que a adequao da aplicao da anlise fatorial responsabilidade
do pesquisador, ele quem deve averiguar se as suposies esto sendo atendidas, uma vez
que a tcnica por si s no possui meios para determinar precisamente sua adequao.
3.1.2 Modelo fatorial Ortogonal
Seja
] um vetor aleatrio com respectivo vetor de mdias
], matriz de covarincia
e matriz de correlao
, ento o modelo
fatorial pode ser definido por:
X F c = I +

16
O modelo fatorial, que relaciona de forma linear as p variveis com os mfatores a
princpio desconhecidos, pode ser expandido em um sistema de equaes por:

Os coeficientes L so as cargas fatoriais, que medem o grau de relacionamento linear
entre a i-sima varivel padronizada e o j-simo fator, ou seja, a correlao entre a i-sima
varivel padronizada e o j-simo fator. Os fatores (ou fatores comuns) so os
o e os
so
os erros aleatrios e correspondem parte no explicada da varivel padronizada pelos fatores
comuns
.
Na forma matricial, esse modelo pode ser representado da seguinte forma:

sendo que:

)
]
],
],
],
.
Para que um modelo fatorial possa ser considerado como ortogonal, ele tem que
atender as seguintes suposies:
(i) [
] , ou seja, todos os fatores tm medias iguais a zero;

(ii) [

], ou seja, todos os fatores so no
correlacionados e tm varincias igual a 1;
(iii) [
] =, ou seja, todos os erros tm mdias iguais a zero;

(iv) [
], ou seja, os erros so no
correlacionados entre si e no necessariamente tm a mesma varincia;
17
(v) Os vetores
so independentes, ento se tem que [
] .
Se o modelo atende todas as suposies acima, a matriz de correlao pode ser
reescrita como:
pxp
' P LL = + +
Devido ao fato que:
pxp
( ) ( ) ( ) ( ) ( , )
( ) ' 0 ' '
P Var Z V LF V LF V Cov LF
LV F L LIL LL
c c c = = + = + +
= + ++ = + + = + +

Atravs da equao acima, presume-se que o objetivo da anlise fatorial encontrar as
matrizes
para representar a matriz de correlao atravs de um valor mp,

embora segundo Johnson e Wichen (1998) infelizmente a maioria das matrizes de
correlao no podem ser decompostas, de forma que os m fatores sejam bem menores
que p. Para uma melhor visualizao e entendimento de tal decomposio:
]
As implicaes que a decomposio de
traz so as seguintes:
(i)
, onde
representa a variabilidade explicada pelos fatores

includos no modelo conhecida como comunalidade, e
representa a
variabilidade associada apenas ao erro aleatrio
, conhecida como unicidade;

(ii) (

;
(iii) (

)

;
(iv) A proporo explicada pelo fator
dada por:
2
1
p
ij
i
l
PVTE
p
=
=
.

18
3.1.3 Mtodos para a estimao das matrizes
Existem vrios mtodos para a estimao das matrizes, tais como: Mtodo dos
componentes principais, Mtodo dos fatores principais, Mtodo iterativo dos fatores
principais, Mtodo da mxima verossimilhana e Mtodo dos fatores cannicos. Nesse
trabalho sero detalhados apenas os mtodos para a estimao das matrizes: o mtodo dos
componentes principais e o mtodo dos fatores principais.
O primeiro usado quando se deseja encontrar o menor nmero possvel de fatores
necessrios para explicar a maior parte da varincia relativa ao conjunto de dados original.
Em contraste, o segundo usado para identificar as dimenses latentes que apenas mostrem o
que as variveis tm em comum.
Segundo literatura consultada, quando o nmero de variveis for maior que 30 ou
quando as comunalidades excederem 0,60, os dois mtodos chegam a um mesmo resultado.
3.1.3.1 Mtodo dos componentes principais
Neste mtodo, para cada autovalor
extrado da matriz de correlao calcula-se o

respectivo autovetor normalizado correspondente
, e ento a estimao das matrizes
dada por:
)
Pelo teorema da decomposio espectral, a matriz de correlao fica da seguinte
forma:

Assim, uma aproximao para a matriz
+ *

19
E ento, para a construo da matriz
, pode se considerar a utilizao de:

Mas como matriz resultante no ser uma matriz diagonal, no se pode utiliz-la
completamente para a estimao de . Ento, se considera apenas a diagonal da matriz
resultante.
Portanto, a matriz de correlao amostral
original ser aproximada por:

e o resduo dessa aproximao ser dado pela matriz:
(
)

Espera-se que os valores de sejam prximos de zero, isso significa que se
todos os valores obtidos dessa matriz forem praticamente nulos a qualidade do ajuste do
modelo fatorial razovel.
3.1.3.2 Mtodo dos fatores principais
Conhecido como mtodo de componentes principais iterativo este outro mtodo, como
o prprio nome sugere, funciona como um algoritmo iterativo. Basicamente, utilizando-se de
resultados do mtodo dos componentes principais busca as estimativas das matrizes
, mas usando a matriz de correlao terica .

Por ser um refinamento de outro mtodo, necessrio que o nmero m de fatores j
tenha sido definido.
Observe o modelo
, e ento tem-se que:
,
Suponha que as varincias especficas so conhecidas e assim se possa estimar a
matriz
:
20
,
Atravs do mtodo dos componentes principais, tem-se que:
+.
A partir de
inicia-se o processo de iteratividade, pois tem-se novas estimativas das

comunalidades (
). Essas novas comunalidades so substitudas na diagonal da

matriz principal
e repete-se o procedimento para a estimao da matriz
at que a
diferena entre as varincias comuns de duas iteraes consecutivas sejam bem pequenas.
De acordo com a literatura consultada, podem ocorrer alguns problemas durante a
execuo do algoritmo como, por exemplo, autovalores negativos da matriz
ou quando o
valor de algum
for maior que 1 gerando uma estimativa negativa
o que contradiz a
definio de varincia
Para a estimao dos valores iniciais das comunalidades
, Johnson & Wichern

(1998) sugerem:

onde
o i-simo elemento da diagonal de
.
3.1.4 Estimao do nmero m de fatores
No h ainda um mtodo exato para decidir o nmero de fatores a se extrair, mas os
seguintes critrios so muito utilizados:
- Critrio da raiz latente: muito utilizado, extrai apenas os fatores que possuem
autovalores maiores que 1;
- Critrio a priori: tem carter confirmatrio, pois o nmero de fatores a se extrair
conhecido antes de empreender a anlise fatorial;
- Critrio de porcentagem de varincia: o nmero de fatores extrados definido a
partir da definio de quanto da varincia total eles devem explicar;
21
- Critrio do grfico scree: constri-se um grfico dos autovalores versus o nmero
de cada fator e observa-se qual o ponto que a curva tende a se estabilizar. Esse
ponto referente ao nmero de fatores a serem extrados.
3.1.5 Rotao fatorial
Quando uma varivel possui correlaes similares em mais de um fator, a
interpretao desses fatores se torna algo muito complexo e nesse caso tem que utilizar um
recurso de transformao de fatores.
A rotao fatorial funciona como uma forma de transformao e consiste em
rotacionar os eixos de referncias dos fatores, at que uma posio seja alcanada. O efeito
final dessa rotao redistribuir a varincia dos fatores para atingir um padro fatorial mais
simples.
H dois casos de rotao fatorial, sendo eles:
- Rotao Ortogonal: Nesse caso os fatores so rotacionados, mas mantidos a 90
o
.
Os mtodos comumente mais abordados nesse tipo de rotao so: quartimax, varimax e
equamax;
- Rotao Oblqua: Mais flexvel por no possuir a necessidade de manter os eixos
em 90
o
, embora haja controvrsias sobre sua utilizao. Os mtodos mais comuns so:
quantimim, covarimim, oblimax e promax.
3.1.6 Interpretao da matriz fatorial
A interpretao da matriz de fatores consiste em observar as correlaes apresentadas
na matriz de cada varivel em cada fator. Podemos dizer que quando a carga alta em um dos
fatores, a varivel relacionada contribui, e muito, na nomeao desse fator.
Para saber se a carga fatorial significante ou no, Hair et. al, (2005) propem os
seguintes critrios:
- Significncia prtica: Em sntese, esse critrio considera as cargas fatoriais
menores que 0,30 com o mnimo de significncia; 0,40 importantes; e maiores
22
que 0,50 com significncia prtica. O valor da carga ao quadrado reflete a
varincia total da varivel explicada pelo fator;
- Significncia estatstica: Nesse critrio o conceito de poder do teste e tamanhos da
amostra empregado. A Tabela 2 revela qual deve ser o tamanho da amostra para
que a carga fatorial seja considerada significante.
Tabela 2 - Tamanho amostral para referncia da
significncia das cargas fatoriais.
Carga Fatorial Tamanho da amostra
0,30 350
0,35 250
0,40 200
0,45 150
0,50 120
0,55 100
0,60 85
0,65 70
0,70 60
0,75 50
Fonte: Clculos feitos com SOLO Power Analisis, BMDP
Statical Software, Inc., 1993.
Depois de definida a soluo fatorial de fundamental importncia, para a
interpretao da matriz fatorial, a nomeao dos fatores. Esse rtulo reflete quais so as
variveis com cargas num determinado fator.
3.1.7 Validao da Anlise Fatorial
A validao consiste em avaliar o grau em que os resultados da anlise podem ser
generalizados para a populao. Uma forma de avaliar a possibilidade de generalizao
avaliar a repetibilidade dos resultados atravs de uma amostra. Tambm pode-se dividir a
amostra em duas e comparar os dois modelos fatoriais resultantes.
3.1.8 Usos adicionais da anlise fatorial
Quando o objetivo final da anlise fatorial a descrio e o entendimento da estrutura
de correlao das variveis, o processo de anlise se encerra aqui.
23
No entanto, h pesquisas nas quais os objetivos envolvem anlises posteriores
aplicadas aos fatores identificados, e ento nesse caso pode-se utilizar uma das opes:
selecionar a varivel com maior carga fatorial como representativa (varivel substituta),
substituir o conjunto original por escalas mltiplas ou substituir o conjunto por escores
fatoriais. A seguir, ser explicada cada uma das trs opes.
3.1.8.1 Seleo de variveis substitutas
Essa abordagem consiste em selecionar apenas uma varivel para atuar como uma
nova varivel substituta de determinado fator. O indicado que se escolha a varivel com
maior carga fatorial em relao s demais para tal representao.
Um obstculo que dificilmente apenas uma varivel tem carga fatorial elevada em
determinado fator, ou seja, muitas vezes as cargas fatoriais tm valores muito prximos entre
as variveis. Nesse caso, a deciso deve ser baseada no conhecimento a priori que o
pesquisador tem a respeito da teoria do conjunto de dados.
Existem algumas desvantagens ao utilizar esse mtodo. Em Hair et. al. (2005), so
citadas duas: o erro de medida
1
e o risco de resultados extremamente enganadores.
3.1.8.2 Escalas mltiplas
Nesse mtodo combinam-se todas as variveis com cargas elevadas em um fator,
calcula-se o escore mdio de tais variveis, e ento se utiliza esse ltimo valor como uma
varivel substituta. Quando bem empregado, tal mtodo apresenta dois benefcios especficos.
Um se trata da reduo do erro de medida citado anteriormente e o outro diz respeito
habilidade de representar mltiplos conceitos complexos em uma nica medida.

1
Erro de medida o grau em que os valores observados no so representativos dos verdadeiros valores
(HAIR et al., 2005).
24
3.1.8.3 Escores fatoriais
Essa tcnica caracterizada por considerar todas as cargas fatoriais de determinado
fator, mesmo que sejam cargas de variveis pouco influentes para o fator.
O escore fatorial representa o grau medido atravs dos coeficientes referentes ao peso
das ponderaes de cada varivel em cada fator, e podem ser obtidos de diferentes formas tais
como: mtodo de mnimos quadrados ponderados, mtodo de regresso e mtodo ad hoc.
3.2 Anlise de Agrupamentos
A anlise de agrupamentos uma tcnica multivariada classificada como
interdependente, ou seja, todas as variveis so analisadas ao mesmo tempo com o intuito de
encontrar uma estrutura subjacente a todo o conjunto de variveis. Esta tcnica pode ser
caracterizada como uma tcnica descritiva, sem base terica e no inferencial.
Embora para a aplicao dessa tcnica as suposies de normalidade,
homocedasticidade e linearidade no tenham muito peso, de extrema importncia garantir
que ao se trabalhar com uma amostra, esta seja representativa da populao, e que a
multicolinearidade esteja assegurada.
Segundo Mingotti (2005) a anlise de agrupamentos, tambm conhecida como anlise
de conglomerados, classificao ou cluster, tem como objetivo dividir os elementos da
amostra, ou populao em grupos de forma que os elementos pertencentes a um mesmo grupo
sejam similares entre si com respeito s variveis (caractersticas) que neles foram medidas, e
os elementos em grupos diferentes sejam heterogneos em relao a estas mesmas
caractersticas.
A questo inicial que diz respeito formao desses grupos a de se saber o quo dois
elementos so ou no similares para que pertenam ou no a um mesmo grupo. Para medir tal
similaridade, considera-se certa distncia (medida de forma mtrica) entre os elementos
pertencentes amostra ou populao e ento procura-se agrupar aqueles que tenham a menor
distncia.

25
3.2.1 Caracterizao mtrica do conjunto de dados
Suponha um elemento qualquer pertencente anlise, em que se tenha observado
vrias caractersticas, ou seja, vrias variveis foram medidas. Esse elemento ser
representado pelo seguinte vetor:
]
Tal que:
=
ij
X Valor observado da varivel i medida no elemento j;
= i Varivel em questo;
= j Elemento em questo;
= p Total de variveis aleatrias medidas;
= n Total de elementos pertencentes ao conjunto de dados.
3.2.2 Medidas de Similaridade e Dissimilaridade
Distancia Euclidiana: Distncia entre dois elementos
l
X e
k
X , k l = , definida da
forma:
]

[
]

Distncia generalizada ou ponderada: Distncia entre dois elementos
l
X e
k
X ,
k l = , definida por:
]

Na qual
pxp
A uma matriz de ponderao, positiva definida, escolhida de acordo com
os interesses do pesquisador.
Distancia de Minkowsky: Distncia entre dois elementos
l
X e
k
X , k l = definida
por:
]

26
Na qual os
'
i
w s so os pesos de ponderao para as variveis. Se , tem-se a
distncia de Manhattan (tambm conhecida como distncia city-block
2
), e se , tem-se a
distncia Euclidiana. Quando se trata de observaes atpicas, a mtrica de Minkowsky
menos afetada do que a distncia Euclidiana.
Distancia Euclidiana Mdia: Distncia utilizada para comparar dois elementos
l
X e
k
X , k l = definida por:
]

3.2.3 Padronizao dos dados
A padronizao dos dados sugerida quando se encontra discrepncias entre escalas e
magnitudes de variveis, pois esses fatos quando no so reflexo de uma relao natural das
escalas implicam no uso de medidas de similaridade inadequadas e que tem como
consequncia agrupamentos que no condizem com a verdadeira semelhana dos dados.
Entre muitas formas existentes para se padronizar os dados, segundo Hair et. al.
(2005), a forma mais comum de padronizao a converso de cada varivel em escores
padro (tambm conhecidos como escores Z) pela subtrao da mdia e diviso pelo desvio-
padro de cada varivel.
3.2.4 Procedimentos para a Construo dos Agrupamentos
Estes procedimentos so subdividos em hierrquicos aglomerativos ou divisivos e no
hierrquicos. O primeiro caso utilizado quando se deseja identificar quantos possveis
clusters (ou grupos) os elementos de interesse podem formar, e o segundo utilizado quando
o pesquisador j tem pr-especificado o nmero g de grupos. Em se tratando de
procedimentos hierquicos, ser focado somente os aglomerativos em razo de serem mais
comumente empregados em softwares estatsticos.

2
City-block = Quarteires.
27
3.2.4.1 Procedimentos Hierrquicos Aglomerativos
Estes procedimentos partem do princpio que no incio do algoritmo tem-se n clusters,
ou seja, cada elemento considerado como um subgrupo. Nas etapas que se seguem, dois
elementos (ou grupos) vo se combinando atravs de similaridades, reduzindo ento o nmero
de agrupamentos em uma unidade a cada passo at que se tenha g grupos.
A idia de hierarquia sintetizada no sentido de que se dois elementos so unidos em
alguma etapa eles no podero mais ser separados. Sua representao pode ser visualizada na
forma de dendrograma ou grfico em rvore.
No final do algoritmo todos os elementos pertencem a um nico grupo. Por essa razo,
esses procedimentos so tambm conhecidos como mtodos construtivos. A seguir so
descritos cinco deles.
3.2.4.1.1 Ligao Simples
Neste procedimento inicialmente calculada a distncia entre todos os elementos, e
ento dois elementos so ligados (ou combinados) atravs da menor distncia existente. Em
seguida as distncias relativas ao grupo formado so recalculadas e comparadas para que
novamente se escolha a menor distncia assim forme outro cluster.
A ttulo de ilustrao, suponha que em certo estgio do agrupamento existam os
grupos
} e
}. A distncia entre eles ser dada por:
}
3.2.4.1.2 Ligao completa
O procedimento de ligao completa diferencia-se do mtodo de ligao simples a
partir de quando o primeiro agrupamento formado, pois a forma de calcular a distncia entre
dois subgrupos passa a ser o valor de mximo das distncias, embora para a escolha do
seguinte agrupamento seja utilizado o menor valor das distncias mximas encontradas.
28
A ttulo de ilustrao, suponha que no segundo estgio de agrupamento se tenham os
grupos
} e
}. A distncia entre eles ser dada por:
}
3.2.4.1.3 Ligao Mdia
Este procedimento inicia-se como os dois anteriores, mas o critrio de agrupamento
a distncia mdia entre todos os pares de elementos em um agrupamento aos demais em um
outro.
Para o clculo das distncias, suponha que um grupo
tem
elementos e outro
grupo
tem
elementos, a distncia entre eles ser:

3.2.4.1.4 Mtodo do Centride
Segundo a literatura consultada o mtodo do centride tem vantagem sobre os outros
mtodos hierrquicos por ser menos afetado por observaes atpicas, embora exija um tempo
computacional maior que os outros.
A distncia comparada entre dois grupos a distncia entre seus respectivos
centrides, que nada mais so do que os vetores de mdias de cada grupo. Para um melhor
entendimento, considere dois grupos
} e
}, os centrides da distncia
entre eles so dados por:

Para a formao de novos grupos levado em considerao menor distncia
29
3.2.4.1.5 Mtodo de Ward
De acordo com Mingotti (2005), este mtodo foi proposto por Ward em 1963 e
fundamentado na mudana de variao entre os grupos e dentro dos grupos que esto sendo
formados em cada passo do agrupamento.
A distncia entre os grupos
definida por:

Como nos outros mtodos, a distncia levada em considerao para a formao de
novos grupos tambm a menor.
3.2.4.1.6 Critrios para definir o nmero de grupos ou agrupamentos
A questo mais desconfortvel para o pesquisador saber quando se deve interromper
o algoritmo de agrupamento, ou seja, quantos grupos devem ser formados. De acordo com a
literatura estudada, para auxiliar nessa deciso existem os seguintes critrios:

Critrio 1 - Anlise do nvel de fuso (distncia):
Constri-se um grfico do passo do algoritmo pelo nvel da distncia e observa-se
onde h um ou mais pontos de salto. Se for identificado apenas um ponto, ento no passo
correspondente a este ponto que a partio total definida, mas se existirem vrios pontos
aconselhvel verificar o ponto de parada por algum outro mtodo.

Critrio 2 - Anlise do nvel de similaridade
O nvel de similaridade entre dois grupos
definido por:
}
)

em que, {
} a maior distncia entre os elementos do conjunto de

dados.
30
Em cada estgio do agrupamento esse nvel calculado e para definir o ponto de
parada procura-se detectar onde h um decrescimento do valor de

.
Segundo Felix (2004 apud Mingotti, 2005) um valor para
acima de 90% resulta

nmero de grupos muito grandes.

Critrio 3 - Anlise da soma de quadrados entre os grupos
Nesse critrio calcula-se a cada passo do agrupamento a soma de quadrados entre os
grupos g* e tambm dentro de cada um deles.
Considere as definies a seguir:
-
) o vetor de medidas correspondentes ao

elemento do grupo;
-

) o vetor de mdias do grupo;

-
;
- (
, a soma de quadrados total corrigida;

- (
, a soma de quadrados total dentro dos

grupos da partio;
-
, a soma de quadrados total entre os g*

grupos;
-
.

Para identificar o ponto de parada da partio pode ser construdo um grfico de

versus cada passo do agrupamento. Onde for localizado um ponto de salto no grfico o
passo em que o nmero de grupos est bem definido.

Critrio 4 - Estatstica Pseudo F
A estatstica Pseudo F definida por:

Neste critrio a estatstica pseudo F utilizada basicamente como a estatstica F da
inferncia clssica, ou seja, busca-se um valor alto de F pra que se garanta heterogeneidade
31
entre os grupos. Para definir o ponto de parada observa-se o passo correspondente ao ponto de
salto no grfico de Pseudo F versus estgio do algoritmo.

Critrio 5 - Estatstica Pseudo T
2
Considere que num determinado ponto do agrupamento
seja a unio de dois

conglomerados, isso ,
. Assim a estatstica Pseudo T

2
dada por:

em que,
[(
)]

Aqui tambm se define como critrio de parada do algoritmo o ponto de salto no
grfico de Pseudo T
2
versus passo do agrupamento.

Critrio 6 - Correlao semiparcial ou Mtodo de Ward
Assim como no critrio 4,
e o coeficiente de correlao semiparcial

definido por:

sendo,

Elabora-se um grfico do passo do agrupamento pelo coeficiente
e assim
como em outros mtodos j mencionados, identifica-se o ponto de salto que ser
correspondente ao nmero final g de grupos.

Critrio 7 - Estatstica CCC (Cubic Clustering Criterium)
Neste procedimento se obtm o valor da estatstica CCC numa comparao do valor
de
j mencionado no critrio 3 com uma aproximao para o
, onde se considera que

os grupos so construdos a partir de uma distribuio uniforme p-dimensional.
32
Segundo literatura estudada, valores maiores que 3 seriam uma referncia para o ponto
de parada do processo de agrupamento.
3.2.4.2 Procedimentos no hierquicos
Esse mtodo difere principalmente dos mtodos hierrquicos aglomerativos no sentido
de que a princpio j se tem definido um nmero de grupos/agrupamentos.
O algoritmo funciona de forma que a cada passo do processo de agrupamento, pode
ocorrer juno ou diviso de um grupo, isso significa que nem sempre elementos
pertencentes a um cluster permanecero juntos at o final do agrupamento. Por tal motivo,
no possvel construir o diagrama em rvore (ou dendrograma).
A seguir sero descritos dois mtodos no hierrquicos.
3.2.4.2.1 Mtodo das K-Mdias
Nesse mtodo, as observaes se designam ou no a algum grupos/agrupamentos
seguindo tambm o critrio de distncias, sendo que a mais utilizada distncia Euclidiana.
A comparao da menor distncia no feita inicialmente entre os elementos, em vez
disso escolhe-se K-vetores de mdias conhecidos e j citados anteriormente como centrides
de acordo com algum critrio, e compara-se ento a distncia de cada elemento do conjunto
de dados com tais centrides. Dessa forma, o elemento alocado ao grupo cuja distncia a
menor.
A cada passo do agrupamento os centrides so recalculados, e isso ocorre at que
todos os elementos estejam agrupados.
Para escolha inicial dos centrides ou sementes existem as seguintes alternativas,
segundo literatura estudada.
(i) Uso de tcnicas hierrquicas aglomerativas: Simplesmente aplica-se algum
procedimento hierrquico aglomerativo para que se tenha o nmero de grupos e os
elementos que pertencero a este grupo. Em seguida calculam-se os vetores de
mdias de cada grupo, obtendo-se ento os centrides iniciais.
33
(ii) Escolha aleatria: Seleciona-se por meio de amostragem aleatria simples sem
reposio amostras aleatrias para grupos, repete-se o processo m vezes e
depois calculado o vetor de mdias de cada grupo, ou seja, as sementes.
(iii) Escolha atravs de uma varivel aleatria: Observam-se quais das variveis
aleatrias possui a maior varincia, agrupam-se os elementos mais parecidos em
grupos e calcula-se o centride de cada grupo.
(iv) Escolha atravs de valores discrepantes: Analisam-se quais so as observaes
discrepantes a assim cada uma delas passa a ser uma semente de cada um dos
grupos iniciais.
(v) Escolha pr-fixada: Sua utilizao no muito aconselhvel, pois o pesquisador
escolhe as sementes baseado apenas em seus conhecimentos sobre a anlise em
questo.
(vi) Escolha dos k primeiros valores do conjunto de dados: Como o prprio
subttulo sugere, as sementes iniciais so os primeiros elementos do conjunto de
dados.
3.2.4.2.2 Mtodo Fuzzy c-means
Este mtodo busca uma partio para minimizar a funo objetivo , descrita por:

[(
(
)
(
)
)

Em que:
Grupo em questo;
Semente ou centride;
Parmetro Fuzzy, que deve ser maior que 1.
Probabilidade de que o elemento pertena ao centride
.
34
Durante o procedimento, so geradas novas sementes e a escolha final feita quando a
distncia (geralmente a Euclidiana), entre os vetores de sementes menor que um erro
estabelecido pelo pesquisador. Uma forma de fazer o agrupamento alocar cada elemento ao
grupo que ele tenha maior probabilidade de pertencer.
3.2.5 Procedimentos no hierquicos vs. Procedimentos Hierrquicos
Os procedimentos hierrquicos so mais utilizados por serem mais rpidos e menos
pesados computacionalmente, embora sejam indicados para conjuntos de dados menores em
decorrncia de que muitas vezes nem mesmo com a tecnologia disponvel atualmente
possvel realizar o processo de computao, pois a capacidade dos computadores pessoais no
suporta a demanda de armazenamento.
Uma alternativa seria fazer uma reamostragem representativa da prpria amostra,
embora surja um novo problema que saber o quanto esta nova amostra ser representativa.
Em relao aos mtodos no hierrquicos, se tem as vantagens de que eles levam em
considerao a viso do pesquisador e so menos suscetveis s observaes atpicas quando
as sementes no so escolhidas de forma aleatria.
Como saber ento quais dos mtodos devem ser usados?
Uma resposta definitiva a essa questo no pode ser dada, mas uma sugesto seria
combinar os dois mtodos sendo que inicialmente se usaria algum mtodo hierrquico para a
escolha das sementes e identificao do nmero de clusters, e depois para a formao dos
grupos seria utilizado algum mtodo no hierrquico.
3.2.6 Anlise do agrupamento final
3.2.6.1 Validao
Ao final do agrupamento deve-se garantir que os grupos formados sejam
representativos da populao, e assim possam ser generalizados para outros objetos.
35
Um mtodo que pode auxiliar a decidir se o agrupamento ou no representativa a
validade preditiva. Para a execuo desse mtodo, seleciona-se uma varivel bem definida
dentro de padres tericos, alocam-se os elementos em grupos tomados como referencia o
prprio agrupamento e por fim realiza-se algum teste para verificar se esses novos grupos
diferem entre si.
3.2.6.2 Anlise do Perfil
A anlise do perfil da partio final envolve no as caractersticas que determinam o
agrupamento e sim as do que o agrupamento revelar.
Para avaliar o perfil utiliza-se a tcnica multivariada chamada anlise discriminante.
36
4 RESULTADOS
Para esse estudo foram coletadas informaes sobre os municpios pertencentes 10
Regio Administrativa do estado de So Paulo (R.A. de Presidente Prudente), em armazns de
dados da Fundao SEADE e do censo do Instituto de Economia Agrcola, o Levantamento
de Unidade de Produo Agropecuria (LUPA) do estado de So Paulo, referentes ao ano de
2008. A seguir apresentada a relao das variveis, suas descries e fontes.

1- Varivel: despmunagric
Descrio: Total de Despesas Municipais - Agricultura e Organizao Agrria. Despesas
realizadas pelo Poder Pblico Municipal decorrentes das aes voltadas para agricultura.
Fonte: SEADE

2- Varivel: vlradicfiscagric
Descrio: Valor Adicionado Fiscal da Agricultura, Pecuria e Outros Produtos Animais
O Valor Adicionado Fiscal obtido, para cada municpio, atravs da diferena entre o valor
das sadas de mercadorias e dos servios de transporte e de comunicao prestados no seu
territrio e o valor das entradas de mercadorias e dos servios de transporte e de comunicao
adquiridos, em cada ano civil. calculado pela Secretaria da Fazenda e utilizado como um
dos critrios para a definio do ndice de Participao dos Municpios no produto da
arrecadao do Imposto sobre Operaes Relativas Circulao de Mercadorias e sobre
Prestaes de Servios de Transporte Interestadual e Intermunicipal e de Comunicao -
ICMS. Esta atividade econmica abrange:
- A explorao ordenada dos recursos naturais vegetais e animais em ambiente natural e em
ambiente protegido. Compreende as atividades de cultivo agrcola, de criao e produo
animal, de explorao da madeira em p, de produtos florestais madeireiros e no-
madeireiros, e de explorao de animais silvestres em seus habitats naturais;
- As atividades de pesca, aqicultura e servios relacionados.
Na CNAE Fiscal 1.1, corresponde s sees A (Agricultura, Pecuria, Silvicultura e
Explorao Florestal) e B (Pesca).
Fonte: SEADE
37
3- Varivel: crdtragr
Descrio: Crdito Rural Agricultura
Valor dos financiamentos concedidos por instituies financeiras pblicas e privadas,
pertencentes ao Sistema Nacional de Crdito Rural (SNCR), a produtores e cooperativas de
produtores do Estado de So Paulo para fins de custeio, investimento e comercializao nas
atividades agrcolas.
Fonte: SEADE

4- Varivel: vea
Descrio: Vnculos Empregatcios na Agropecuria.Nmero de vnculos empregatcios na
agropecuria. Refere-se, em uma determinada data, ao total de vnculos empregatcios
remunerados, efetivamente ocupados por trabalhadores com carteira de trabalho assinada
(regime da Consolidao das Leis do Trabalho CLT), estatutrios (funcionrios pblicos) e
trabalhadores avulsos, temporrios e outros, desde que formalmente contratados, informados
pelos estabelecimentos quando da elaborao da Relao Anual de Informaes Sociais Rais,
do Ministrio do Trabalho. Deve-se observar que: a) "O nmero de empregos diferente do
nmero de pessoas empregadas, porque um mesmo indivduo pode estar acumulando, na data
de referncia, mais de um emprego" (MTE. Anurio Rais 1992). Essa diferena deve-se ao
fato de que o levantamento feito a partir dos estabelecimentos, que equivalem s "unidades
de cada empresa separadas espacialmente, ou seja, com endereos distintos" (idem, ibidem);
b) "A Rais, como qualquer outro registro administrativo, apesar de ser uma declarao
compulsria, est sujeita a erros e omisses", uma vez que nem todos os estabelecimentos
respondem pesquisa ou fornecem informaes completas e fidedignas (MTE. Painel Fixo da
Rais 1979/1992.). c) A Rais apresenta oscilaes de cobertura ao longo dos anos, razo pela
qual deve-se evitar a comparao dos totais de emprego. difcil identificar se as variaes
ocorrem devido ao aumento ou reduo real do mercado de trabalho, ou de um melhor ou
pior desempenho na declarao (idem, ibidem).
Fonte: SEADE

5- Varivel: partVEA
Descrio: Participao dos Vnculos Empregatcios na Agropecuria no Total de Vnculos.
Vnculos empregatcios na agropecuria em relao ao total de vnculos.
Fonte: SEADE

38
6- Varivel: rendMedioVEA
Descrio: Rendimento Mdio nos Vnculos Empregatcios na Agropecuria. Soma dos
salrios nos vnculos empregatcios na agropecuria em relao ao total de vnculos no setor.
Fonte: SEADE

7- Varivel: areatotal
Descrio: Nmero total de Unidades de Produo Agropecuria (UPA) do municpio.
Fonte: LUPA

8- Varivel: areacultperene
Descrio: Nmero de Unidades de Produo Agropecuria do municpio com culturas
perenes
3
.
Fonte: LUPA

9- Varivel: areatemp
Descrio: Nmero de Unidades de Produo Agropecuria do municpio com culturas
temporrias
4
.
Fonte: LUPA

10- Varivel: de0a10
Descrio: Nmero de Unidades de Produo Agropecuria do municpio com (0, 10] ha
5
.
Fonte: LUPA

11- Varivel: de10a20
Descrio: Nmero de Unidades de Produo Agropecuria do municpio com (10, 20] ha.
Fonte: LUPA

12- Varivel: de20a50
Descrio: Nmero de Unidades de Produo Agropecuria do municpio com (20, 50] ha.
Fonte: LUPA

3
Cultura perene a cultura que aps ser plantada e concluir um ciclo produtivo, no h necessidade de se
replantar. (Fonte: http://www.webartigos.com/articles/24527/1/Cultura-perene/pagina1.html#ixzz1G3BSiLet)
4
Cultura Temporria: So culturas cujo ciclo de no mximo 1 (um) ano e se caracteriza somente por uma
colheita. (http://www.portaldecontabilidade.com.br/guia/atividaderural.htm)
5
ha = Hectares
39
13- Varivel: mais50
Descrio: Nmero de Unidades de Produo Agropecuria do municpio com mais de 50 ha.
Fonte: LUPA

14- Varivel: GF_TOTalgodao
Descrio: rea de cultura de algodo cultivada no municpio em ha.
Fonte: LUPA

15- Varivel: GF_TOTamendoim
Descrio: rea de cultura de amendoim cultivada no municpio em ha.
Fonte: LUPA

16- Varivel: GF_TOTarroz
Descrio: rea de cultura de arroz cultivada no municpio em ha.
Fonte: LUPA

17- Varivel: GF_TOTaveia
Descrio: rea de cultura de aveia cultivada no municpio em ha.
Fonte: LUPA

18- Varivel: GF_TOTcaf
Descrio: rea de cultura de caf cultivada no municpio em ha.
Fonte: LUPA

19- Varivel: GF_TOTcolza
Descrio: rea de cultura de colza cultivada no municpio em ha.
Fonte: LUPA

20- Varivel: GF_TOTervilha
Descrio: rea de cultura de ervilha cultivada no municpio em ha.
Fonte: LUPA

40
21- Varivel: GF_TOTfeijao
Descrio: rea de cultura de feijo cultivada no municpio em ha.
Fonte: LUPA

22- Varivel: GF_TOTfeijaoco
Descrio: rea de cultura de feijo de corda cultivada no municpio em ha.
Fonte: LUPA

23- Varivel: GF_TOTgirassol
Descrio: rea de cultura de girassol cultivada no municpio em ha.
Fonte: LUPA

24- Varivel: GF_TOTlentilha
Descrio: rea de cultura de lentilha cultivada no municpio em ha.
Fonte: LUPA

25- Varivel: GF_TOTmilho
Descrio: rea de cultura de milho cultivada no municpio em ha.
Fonte: LUPA

26- Varivel: GF_TOTmilhodoc
Descrio: rea de cultura de milho doce cultivada no municpio em ha.
Fonte: LUPA

27- Varivel: GF_TOTmilhosaf
Descrio: rea de cultura de milho safrinha cultivada no municpio em ha.
Fonte: LUPA

28- Varivel: GF_TOTsoja
Descrio: rea de cultura de soja cultivada no municpio em ha.
Fonte: LUPA

41
29- Varivel: GF_TOTsorgo
Descrio: rea de cultura de sorgo cultivada no municpio em ha.
Fonte: LUPA

30- Varivel: GF_TOTsorgofor
Descrio: rea de cultura de sorgo forrageiro cultivada no municpio em ha.
Fonte: LUPA

31- Varivel: GF_TOTsorgovas
Descrio: rea de cultura de sorgo vassoura cultivada no municpio em ha.
Fonte: LUPA

32- Varivel: GF_TOTtrigo
Descrio: rea de cultura de trigo cultivada no municpio em ha.
Fonte: LUPA

Utilizando-se o Alpha de Cronbach nas 32 variveis selecionadas nos armazns de
dados do SEADE e do LUPA, obteve-se o valor de alpha de aproximadamente zero para as
variveis sem transformao e 0,80 para as variveis padronizadas. O teste KMO, segundo a
Tabela 1, obteve um valor insuficiente (0,4968779), indicando a necessidade de eliminao de
uma ou mais variveis para que seja possvel a aplicao da anlise fatorial.
Na Figura 3 apresenta-se o resultado do Alpha de Cronbach e do teste KMO, as
variveis que foram eliminadas da anlise esto assinalados em amarelo.
42

Figura 3 - Resultado do Alpha de Cronbach e do teste KMO do script
6
do programa R.
Aps a eliminao das variveis "crdtragr", "de0a10", "de10a20", "de20a50",
"mais50", "vea", "GF_TOTalgodao", "GF_TOTaveia", "areatotal", "rendMedioVEA",
"GF_TOTfeijaoco", "GF_TOTervilha", "GF_TOTlentilha", "GF_TOTgirassol",
"GF_TOTmilhodoc", "GF_TOTmilhosaf", "GF_TOTsorgovas", "GF_TOTsorgofor" e
"GF_TOTsoja", o valor de Alpha de Cronbach para as variveis padronizadas aumentaram
para 0,85 e o valor do teste KMO aumentou para 0,7572492, classificando-o como timo
segundo a Tabela 1, vide a Figura 4.

6
Script do programa R pode ser encontrado no Apndice A
raw_alpha std.alpha G6(smc) average_r mean sd
0.0027 0.8 1 0.11 290214 769503

Reliability if an item is dropped:
raw_alpha std.alpha G6(smc) average_r
despmunagric 0.0040 0.79 1.00 0.11
vlradicfiscagric -0.0019 0.78 1.00 0.10
vea 0.0027 0.78 1.00 0.10
crdtragr 0.0194 0.80 1.00 0.12
partVEA 0.0027 0.81 1.00 0.12
rendMedioVEA 0.0027 0.80 1.00 0.12
areatotal 0.0027 0.78 0.94 0.10
areacultperene 0.0027 0.79 1.00 0.11
areatemp 0.0027 0.78 1.00 0.10
de0a10 0.0027 0.79 0.95 0.11
de10a20 0.0027 0.79 0.95 0.11
de20a50 0.0027 0.78 0.95 0.11
mais50 0.0027 0.77 0.95 0.10
GF_TOTalgodao 0.0027 0.80 1.00 0.11
GF_TOTamendoim 0.0027 0.78 1.00 0.10
GF_TOTarroz 0.0027 0.81 1.00 0.12
GF_TOTaveia 0.0027 0.79 1.00 0.11
GF_TOTcaf 0.0027 0.80 1.00 0.12
GF_TOTcolza 0.0027 0.80 1.00 0.12
GF_TOTervilha 0.0027 0.80 1.00 0.12
GF_TOTfeijao 0.0027 0.80 1.00 0.11
GF_TOTfeijaoco 0.0027 0.81 1.00 0.12
GF_TOTgirassol 0.0027 0.81 1.00 0.12
GF_TOTlentilha 0.0027 0.81 1.00 0.12
GF_TOTmilho 0.0027 0.79 1.00 0.11
GF_TOTmilhodoc 0.0027 0.81 1.00 0.12
GF_TOTmilhosaf 0.0027 0.81 1.00 0.12
GF_TOTsoja 0.0027 0.79 1.00 0.11
GF_TOTsorgo 0.0027 0.79 1.00 0.11
GF_TOTsorgofor 0.0027 0.81 1.00 0.12
GF_TOTsorgovas 0.0027 0.80 1.00 0.12
GF_TOTtrigo 0.0027 0.79 1.00 0.11

>
kmo.test(dadosz[,c("despmunagric","vlradicfiscagric","vea","crdtragr",
+ "partVEA","rendMedioVEA","areatotal","areacultperene","areatemp",
+ "de0a10","de10a20","de20a50","mais50","GF_TOTalgodao",
+ "GF_TOTamendoim","GF_TOTarroz","GF_TOTaveia","GF_TOTcaf",
+ "GF_TOTcolza","GF_TOTervilha","GF_TOTfeijao","GF_TOTfeijaoco",
+ "GF_TOTgirassol","GF_TOTlentilha","GF_TOTmilho","GF_TOTmilhodoc",
+ "GF_TOTmilhosaf","GF_TOTsoja","GF_TOTsorgo","GF_TOTsorgofor",
+ "GF_TOTsorgovas","GF_TOTtrigo")])
[1] 0.4968779
43

Figura 4 - Resultado do Alpha de Cronbach e do teste KMO do script do programa R, sem as variveis
eliminadas e com as variveis padronizadas.
4.1 Anlise descritiva dos dados
A anlise descritiva dos dados por mais que possam parecer comuns so de extrema
importncia na utilizao de qualquer tcnica estatstica. Elas podem oferecer uma
perspectiva de como se comportam os dados e de como so as inter-relaes existentes entre
elas. Na Tabela 3, so apresentadas algumas medidas descritivas referentes s variveis em
estudo.
raw_alpha std.alpha G6(smc) average_r mean sd
0.85 0.85 0.94 0.30 1.7e-17 0.6

Reliability if an item is dropped:
raw_alpha std.alpha G6(smc) average_r
Z.despmunagric 0.83 0.83 0.91 0.29
Z.vlradicfiscagric 0.83 0.83 0.92 0.28
Z.partVEA 0.83 0.83 0.92 0.28
Z.areacultperene 0.86 0.86 0.94 0.33
Z.areatemp 0.83 0.83 0.93 0.29
Z.GF_TOTamendoim 0.85 0.85 0.93 0.32
Z.GF_TOTarroz 0.85 0.85 0.93 0.32
Z.GF_TOTcaf 0.86 0.86 0.94 0.34
Z.GF_TOTcolza 0.82 0.82 0.92 0.28
Z.GF_TOTfeijao 0.83 0.83 0.92 0.28
Z.GF_TOTmilho 0.86 0.86 0.94 0.34
Z.GF_TOTsorgo 0.83 0.83 0.93 0.30
Z.GF_TOTtrigo 0.84 0.84 0.93 0.31

Item statistics
n r r.cor r.drop mean sd
Z.despmunagric 54 0.71 0.72 0.63 1.9e-17 1
Z.vlradicfiscagric 54 0.79 0.81 0.73 -1.0e-18 1
Z.partVEA 54 0.78 0.78 0.72 -1.8e-17 1
Z.areacultperene 54 0.35 0.28 0.23 2.3e-17 1
Z.areatemp 54 0.75 0.74 0.69 1.6e-17 1
Z.GF_TOTamendoim 54 0.45 0.43 0.34 4.7e-17 1
Z.GF_TOTarroz 54 0.49 0.47 0.38 8.0e-17 1
Z.GF_TOTcaf 54 0.33 0.25 0.21 -7.6e-18 1
Z.GF_TOTcolza 54 0.82 0.84 0.77 -1.0e-17 1
Z.GF_TOTfeijao 54 0.78 0.80 0.72 1.2e-17 1
Z.GF_TOTmilho 54 0.29 0.22 0.17 1.6e-17 1
Z.GF_TOTsorgo 54 0.67 0.64 0.59 -6.7e-18 1
Z.GF_TOTtrigo 54 0.57 0.54 0.47 2.4e-17 1

> kmo.test(ddz)
[1] 0.7572492
44
Tabela 3 - Medidas descritivas para as variveis referentes aos produtos em estudo.
Variveis Produto Mdia Varincia Desvio Padro Assimetria Curtose
X1 despmunagric 394370,360 138626748069 372326,100 Positiva Platicrtica
X2 vlradicfiscagric 3503777,194 3,015802*e
13
5491632,000 Positiva Leptocrtica
X3 partVEA 17,315 155,002 12,450 Positiva Leptocrtica
X4 areacultperene 138,278 33624,920 183,371 Positiva Leptocrtica
X5 areatemp 230,963 35749,700 189,076 Positiva Platicrtica
X6 GF_TOTamendoim 168,231 205706,600 453,549 Positiva Leptocrtica
X7 GF_TOTarroz 2,143 5,810 2,410 Positiva Leptocrtica
X8 GF_TOTcaf 207,023 192435,100 438,674 Positiva Leptocrtica
X9 GF_TOTcolza 6,150 2,645 1,626 Positiva Platicrtica
X10 GF_TOTfeijao 51,212 5441,722 73,768 Positiva Leptocrtica
X11 GF_TOTmilho 599,588 1037166,000 1018,414 Positiva Leptocrtica
X12 GF_TOTsorgo 79,705 26937,720 164,127 Positiva Leptocrtica
X13 GF_TOTtrigo 26,050 999,045 31,608 Positiva Platicrtica

Analisando a Tabela 3, observa-se que todas as variveis possuem assimetria positiva,
ou seja, os dados esto concentrados esquerda da distribuio, prximas do valor zero,
individualmente, as variveis X1, X2, X6, X8 e X11 possuem varincia muito alta indicando
que existem municpios com valores muito altos e municpios com valores muito baixos para
cada uma dessas variveis.
Atravs das medidas de curtose nota-se que as variveis X1, X5, X9 e X13 apresentam
curvatura achatada (Platicrtica), o que significa que no h um acmulo grande de
observaes em um determinado ponto da distribuio de cada uma dessas variveis.
Enquanto que as outras variveis (X2, X3, X4, X6, X7, X10, X11 e X12), apresentam
curvatura alongada (Leptocrtica), o que indica que h um acumulo grande de observaes
em um determinado ponto da distribuio de cada uma dessas variveis.
4.1.1 Anlise grfica dos dados
Na Figura 5, so apresentados em forma de grficos de caixa os dados
7
das variveis
que compem esse estudo, evidenciando o que as estatsticas descritivas j haviam indicado
atravs dos resultados de assimetria e curtose, todas as variveis possuem valores
discrepantes, outliers.

7
As variveis esto padronizadas o eixo y apresenta a magnitude dos dados em desvios padro.
45

Figura 5 - Grficos de caixa das variveis padronizadas em estudo.

Na Figura 6 apresenta-se a matriz de correlao das variveis referentes produo de
gros e fibras na R.A. de Presidente Prudente. Os valores acima da diagonal principal so as
correlaes bivariadas entre as variveis em estudo, esses valores se apresentam em tamanhos
diferentes representando a intensidade da correlao, ou seja, quanto maior a correlao maior
o tamanho da fonte; abaixo da diagonal principal observamos os grficos de disperso; e a
diagonal principal contm os histogramas que representam a distribuio de cada varivel.
46

Figura 6 - Matriz de disperso das variveis em estudo na R.A. de Presidente Prudente.
Uma forma de representar a correlao entre as variveis apresentada na Figura 7,
utilizando-se da gradao de cores, conforme apresentado na legenda da Figura 7.

Figura 7 - Grficos de correlao entre as variveis representada pela gradao de cores.
47
Pela Figura 8 mostrado um grfico chamado Two-way Joining, que uma forma de
se avaliar o agrupamento onde a intensidade da cor apresenta em que municpio determinada
produo est mais relacionada, por exemplo, Rancharia est mais relacionada com as reas
cultivadas com produo de colza e feijo.

Figura 8 - Grficos de Two-way joining das variveis em estudo.
4.2 Anlise Fatorial
A anlise fatorial foi aplicada nas 13 variveis selecionadas atravs das tcnicas
indicadas anteriormente e, como a tcnica sugere, foram verificadas as correlaes entre as
variveis, apresentada na Figura 6; 33 correlaes das 78 correlaes calculadas, ou seja,
42,31% so iguais ou superiores a 0,3 o que, segundo Hair et. al.(2005), uma valor
indicativo de que a anlise fatorial apropriada.
48
Resgatando os valores de Alpha de Cronbach de 0,85 e o valor do teste KMO de
aproximadamente 0,76, conclui-se ento que a tcnica de anlise fatorial pode ser aplicada ao
conjunto de dados.
4.2.1 Determinao do nmero de fatores
Para determinar quantos fatores sero retidos nessa etapa da anlise, sero levados em
conta trs critrios. Primeiramente sero analisados os autovalores maiores que um, ou seja,
ser utilizado o critrio da raiz latente, vide Tabela 4.
Tabela 4 - Autovalores e porcentagem da varincia explicada de cada fator.
Fatores Autovalor
Percentual da Varincia
Explicado pelo Fator
Percentual Acumulado da Varincia
Explicado pelo Fator
1 5,48884 42,22 42,22
2 2,88514 22,19 64,41
3 1,26732 9,75 74,16
4 0,80605 6,20 80,36
5 0,75104 5,78 86,14
6 0,51288 3,95 90,09
7 0,38264 2,94 93,03
8 0,35651 2,74 95,77
9 0,26028 2,00 97,77
10 0,17313 1,33 99,10
11 0,07711 0,59 99,69
12 0,03651 0,28 99,97
13 0,00254 0,02 99,99

Como se pode observar existe trs autovalores maiores que um e, portanto trs fatores
seriam retidos utilizando esse critrio.
O segundo critrio utilizado foi o do percentual acumulado da varincia explicado pelo
conjunto de fatores, que pela Tabela 4, verifica-se que com trs fatores explica-se 74,16% da
varincia total.
O terceiro critrio trata-se da anlise visual do grfico scree-plot, apresentado na
Figura 9, que assim como os dois primeiros critrios analisados, tambm indica que trs
fatores so suficientes. E como os trs critrios indicam que trs fatores so suficientes para
serem retidos, portanto, a anlise prosseguir dessa forma.

49

Figura 9 - Grfico de scree-plot relacionado a R.A. de Presidente Prudente.
4.2.2 Interpretao dos fatores
Na Tabela 5 so apresentadas as cargas fatoriais presentes em cada fator, segundo
variveis padronizadas.
Tabela 5 - Matriz fatorial sem rotao.
Variveis Produto Fator 1 Fator 2 Fator 3
X1 Total de Desp. Mun. - Agric. e Org. Agrria 0,46 0,82 -0,08
X2 Vlr. Adic. Fiscal da Agric. 0,93 -0,19 0,00
X3 Part. nos Vnc. Emp. na Agrop. 0,88 -0,10 0,13
X4 UPAs com cultura perene 0,14 0,52 0,64
X5 UPAs com cultura temporria 0,83 -0,04 0,02
X6 rea de cultura de Amendoim 0,21 0,79 -0,11
X7 rea de cultura de Arroz 0,22 0,82 -0,30
X8 rea de cultura de Caf 0,16 0,41 -0,62
X9 rea de cultura de Colza 0,95 -0,12 0,04
X10 rea de cultura de Feijo 0,92 -0,20 0,00
X11 rea de cultura de Milho 0,05 0,54 0,58
X12 rea de cultura de Sorgo 0,76 -0,13 -0,03
X13 rea de cultura de Trigo 0,70 -0,29 -0,05
50

Verifica-se que as variveis X4, X8 e X11 apresentam cargas fatoriais muito prximas
em mais de um fator, fato que cria dificuldades ao interpretar esses resultados. Para contornar
esse problema foi utilizada a rotao fatorial ortogonal varimax, com o intuito de redistribuir
tais cargas. Segue na Tabela 6 como ficou a nova matriz:
Tabela 6 - Matriz fatorial com rotao varimax.
Variveis Produto Fator 1 Fator 2 Fator 3
X1 Total de Desp. Mun. - Agric. e Org. Agrria 0,25 0,82 0,39
X2 Vlr. Adic. Fiscal da Agric. 0,95 0,05 -0,02
X3 Part. nos Vnc. Emp. na Agrop. 0,89 0,04 0,14
X4 UPAs com cultura perene 0,04 0,13 0,83
X5 UPAs com cultura temporria 0,81 0,14 0,07
X6 rea de cultura de Amendoim 0,01 0,75 0,33
X7 rea de cultura de Arroz 0,01 0,88 0,18
X8 rea de cultura de Caf 0,04 0,69 -0,31
X9 rea de cultura de Colza 0,95 0,09 0,05
X10 rea de cultura de Feijo 0,94 0,04 -0,02
X11 rea de cultura de Milho -0,05 0,16 0,78
X12 rea de cultura de Sorgo 0,76 0,08 -0,03
X13 rea de cultura de Trigo 0,74 -0,06 -0,13

Utilizando-se a rotao varimax, houve a redistribuio das cargas fatorias de forma
que os fatores ficassem ortogonais.
4.2.3 Nomeao dos fatores
Portanto, de acordo com a matriz fatorial com rotao varimax, as variveis alocam-se
da seguinte forma:
Fator 1: X2 (Valor Adicionado Fiscal da Agricultura, Pecuria e Outros Produtos
Animais), X3 (Participao dos Vnculos Empregatcios na Agropecuria no Total de
Vnculos), X5 (Nmero de Unidades de Produo Agropecuria do municpio com culturas
temporria), X9 (rea de cultura de colza cultivada no municpio em ha), X10 (rea de
cultura de feijo cultivada no municpio em ha), X12 (rea de cultura de sorgo cultivada no
municpio em ha) e X13 (rea de cultura de trigo cultivada no municpio em ha);
Fator 2: X1 (Total de Despesas Municipais - Agricultura e Organizao Agrria), X6
(rea de cultura de amendoim cultivada no municpio em ha), X7 (rea de cultura de arroz
cultivada no municpio em ha) e X8 (rea de cultura de caf cultivada no municpio em ha);
51
Fator 3: X4 (Nmero de Unidades de Produo Agropecuria do municpio com
culturas perenes) e X11 (rea de cultura de milho cultivada no municpio em ha).
Dessa forma, nomearemos o fator 1 como PIB agrcola e gros leguminosos, o fator
2 como Despesas municipais com agricultura e produo agrcola diversificada e fator 3
como Agricultura perene.
4.2.4 Escores fatoriais
Nesta etapa sero calculados os escores fatoriais para cada municpio da R.A. de
Presidente Prudente referentes aos trs fatores retidos, com o intuito de utilizar os resultados
na aplicao da prxima tcnica multivariada estudada durante a realizao deste trabalho. Os
escores obtidos podem ser visualizados na Tabela 7.
Tabela 7 - Escores Fatoriais para a R.A. de Presidente Prudente.
Municpio Fator 1 Fator 2 Fator 3
Adamantina -0,29 0,52 -0,51
Alfredo Marcondes -0,28 -0,10 0,18
lvares Machado -0,26 1,18 -0,48
Anhumas -0,24 -0,42 -0,12
Caiabu -0,24 -0,38 -0,21
Caiu -0,30 0,58 0,03
Dracena -0,12 -0,76 5,40
Emilianpolis -0,26 -0,69 -0,39
Estrela do Norte -0,28 -0,78 0,20
Euclides da Cunha Paulista -0,35 1,07 -0,31
Flora Rica -0,28 -0,75 -0,74
Florida Paulista -0,07 0,46 -0,01
Iep 0,62 -0,39 -0,92
Indiana -0,31 -0,59 0,26
Inbia Paulista -0,27 -0,94 0,02
Irapuru -0,31 -0,18 0,04
Joo Ramalho -0,19 -0,70 -0,61
Junqueirpolis -0,36 0,52 0,70
Luclia -0,23 0,10 -0,38
Marab Paulista -0,32 0,81 -1,17
Maripolis -0,28 -0,07 0,26
Martinpolis 0,92 0,12 2,02
Mirante do Paranapanema -0,51 5,32 -0,18
Monte Castelo -0,29 -0,14 -0,15
Nantes 0,92 -0,90 -0,73
Narandiba 0,23 -0,75 -0,25

52
(continuao)
Municpio Fator 1 Fator 2 Fator 3
Nova Guataporanga -0,29 -0,87 -0,45
Osvaldo Cruz -0,25 0,18 -0,21
Ouro Verde -0,05 -0,54 -0,47
Pacaembu -0,17 -0,14 0,37
Panorama -0,25 -0,78 -0,56
Paulicia -0,22 -0,69 -0,15
Piquerobi -0,18 -0,81 0,61
Pirapozinho 0,40 0,47 -1,36
Pracinha -0,28 -0,93 -0,50
Presidente Bernardes 0,58 1,30 0,17
Presidente Epitcio -0,31 0,92 0,58
Presidente Prudente -0,29 1,30 1,38
Presidente Venceslau -0,27 0,39 0,54
Rancharia 6,85 0,40 -0,08
Regente Feij -0,21 -0,44 0,19
Ribeiro dos ndios -0,24 -0,69 -0,03
Rosana -0,19 0,35 1,00
Sagres -0,24 -0,40 -0,55
Salmouro -0,20 -0,72 -0,56
Sandovalina 0,17 -0,60 -0,09
Santa Mercedes -0,27 -0,79 -0,10
Santo Anastcio 0,27 0,49 0,00
Santo Expedito -0,27 -0,66 -0,69
So Joo do Pau dAlho -0,41 0,98 -2,05
Taciba 0,34 -0,58 -0,02
Tarabai 0,05 -0,64 -0,41
Teodoro Sampaio -0,31 1,08 1,31
4.3 Anlise de Agrupamentos
Sero utilizados os descritores (fatores) estatsticos: PIB agrcola e gros
leguminosos (descritor 1), Despesas municipais com agricultura e produo agrcola
diversificada (descritor 2) e Agricultura perene (descritor 3). Como referencial terico, o
mtodo hierrquico aglomerativo escolhido para a construo dos grupos de municpios foi o
Mtodo de Ward e como distncia foi utilizada a Distncia Minkowsky.
Com o intuito de analisar como se comporta a produo de gros e fibras e de se
identificar quais so os ncleos produtivos, no que diz respeito s reas em produo, os
municpios pertencentes a R.A. de Presidente Prudente foram alocados segundo os valores de
cada descritor em trs grupos. A seguir so apresentados os agrupamentos na forma de
53
dendrogramas, cartas temticas e tabelas com as mdias e totais da variveis de cada
descritor.
4.3.1 Analise de agrupamento no descritor: PIB agrcola e gros leguminosos
A Figura 10 apresenta o dendrograma do descritor PIB agrcola e gros
leguminosos.

Figura 10 - Dendrograma ou rvore hierrquica do agrupamento de municpios da R.A. de Presidente Prudente,
segundo o descritor PIB agrcola e gros leguminosos.
O Grupo 1 formado por 44 municpios: Adamantina, Alfredo Marcondes, lvares
Machado, Anhumas, Caiabu, Caiu, Dracena, Emilianpolis, Estrela do Norte, Euclides da
Cunha Paulista, Flora Rica, Florida Paulista, Indiana, Inbia Paulista, Irapuru, Joo Ramalho,
Junqueirpolis, Luclia, Marab Paulista, Maripolis, Mirante do Paranapanema, Monte
Castelo, Nova Guataporanga, Osvaldo Cruz, Ouro Verde, Pacaembu, Panorama, Paulicia,
54
Piquerobi, Pracinha, Presidente Epitcio, Presidente Prudente, Presidente Venceslau, Regente
Feij, Ribeiro dos ndios, Rosana, Sagres, Salmouro, Santa Mercedes, Santo Expedito, So
Joo do Pau dAlho, Tarabai, Teodoro Sampaio e Tupi Paulista.
O Grupo 2 organizou-se com nove municpios: Iep, Martinpolis, Nantes, Narandiba,
Pirapozinho, Presidente Bernardes, Sandovalina, Santo Anastcio e Taciba.
E o Grupo 3 formado pelo municpio de Rancharia.
Para que se pudesse ter uma melhor compreenso da magnitude desses grupos, no que
diz respeito ao descritor PIB agrcola e gros leguminosos, as variveis originais foram
retomadas na Tabela 8:
Tabela 8 - rea mdia, rea total e nmero de municpios para cada varivel do descritor
PIB agrcola e gros leguminosos, em relao aos grupos formados.
Grupo Descrio Mdia Total
N de
Muncipios
1
Vlr. Adic. Fiscal da Agric. 1.321.087,955 29.063.935,000 22
Part. nos Vnc. Emp. na Agrop. 16,712 735,310 44
UPAs com cultura temporria 223,705 9.843,000 44
rea de cultura de Colza 6,150 12,300 2
rea de cultura de Feijo 51,994 1.715,800 33
rea de cultura de Sorgo 16,823 218,700 13
rea de cultura de Trigo 3,700 3,700 1
Total

44
2
UPAs com cultura temporria 225,000 2025,000 9
rea de cultura de Colza - - -
rea de cultura de Feijo 47,529 332,700 7
rea de cultura de Trigo - - -
Total

9
3
UPAs com cultura temporria 604,000 604,000 1
rea de cultura de Feijo - - -
Total

1

No Grupo 1 pode-se notar que todas as variveis tm valores em pelo menos um
municpio, no Grupo 2 apenas as variveis rea de cultura e colza e trigo no esto presentes
em pelo menos um municpio e no Grupo 3 as variveis rea de cultura de colza e feijo no
55
esto presentes em pelo menos um municpio. Para as variveis que esto presentes em mais
de um grupo observa-se que o Grupo 1 tem os valores em mdia menores do que o Grupo 2 e
o Grupo 2 tm valores em mdia menores do que o Grupo 3, com exceo de feijo e sorgo
do Grupo 2 que menor que os valores mdios do Grupo 1.
Para visualizao cartogrfica dos grupos de municpios formados segundo o descritor
PIB agrcola e gros leguminosos, observe a Figura 11.

Figura 11 - Carta temtica dos municpios da R.A. de Presidente Prudente, segundo o descritor PIB agrcola e
gros leguminosos no ano de 2008, pela anlise fatorial.

56
4.3.2 Analise de agrupamento no descritor: Despesas municipais com agricultura e
produo agrcola diversificada
A Figura 12 apresenta o dendrograma do descritor Despesas municipais com
agricultura e produo agrcola diversificada.

segundo o descritor Despesas municipais com agricultura e produo agrcola diversificada.
O Grupo 1 formado por 18 municpios: Adamantina, lvares Machado, Caiu,
Euclides da Cunha Paulista, Florida Paulista, Junqueirpolis, Marab Paulista, Pirapozinho,
Presidente Bernardes, Presidente Epitcio, Presidente Prudente, Presidente Venceslau,
Rancharia, Rosana, Santo Anastcio, So Joo do Pau dAlho, Teodoro Sampaio e Tupi
Paulista.
57
O Grupo 2 organizou-se com 35 municpios: Alfredo Marcondes, Anhumas, Caiabu,
Dracena, Emilianpolis, Estrela do Norte, Flora Rica, Iep, Indiana, Inbia Paulista, Irapuru,
Joo Ramalho, Luclia, Maripolis, Martinopolis, Monte Castelo, Nantes, Narandiba, Nova
Guataporanga, Osvaldo Cruz, Ouro Verde, Pacaembu, Panorama, Paulicia, Piquerobi,
Pracinha, Regente Feij, Ribeiro dos ndios, Sagres, Salmouro, Sandovalina, Santa
Mercedes, Santo Expedito, Taciba e Tarabai.
E o Grupo 3 formado pelo municpio de Mirante do Paranapanema.
diz respeito ao descritor Despesas municipais com agricultura e produo agrcola
diversificada, as variveis originais foram retomadas na Tabela 9:
Despesas municipais com agricultura e produo agrcola diversificada, em
relao aos grupos formados.
N de
Muncipios
1
Total de Desp. Mun. - Agric. e
Org. Agrria
476.004,250 7.616.068,000 16
rea de cultura de Amendoim 345,880 3.458,800 10
rea de cultura de Arroz 1,300 1,300 1
rea de cultura de Caf 158,282 2.690,800 17
Total

18
2
Org. Agrria
352.207,455 11.622.846,000 33
Total

35
3
Org. Agrria
479.604,000 479.604,000 1
rea de cultura de Amendoim 6,500 6,500 1
rea de cultura de Caf 96,600 96,600 1
Total

1

O Grupo 1 tem o maior valor mdio na rea de cultura de amendoim, a segunda maior
valor mdio para o total de despesa municipal com agricultura e organizaes agrrias e rea
de cultura de caf e o menor valor mdio de rea de cultura de arroz. O Grupo 2 tem o maior
valor mdio na rea de cultura de arroz e caf, o segundo menor valor mdio para a rea de
cultura de amendoim e o menor valor mdio para o total de despesa municipal com
agricultura e organizaes agrrias. O Grupo 3 tem o maior valor mdio para o total de
58
despesa municipal com agricultura e organizaes agrrias o segundo maior valor mdio da
rea de cultura de arroz e os menores valores mdios para a rea de cultura de amendoim e
caf.
Despesas municipais com agricultura e produo agrcola diversificada, observe a
Figura 13.

Figura 13 - Carta temtica dos municpios da R.A. de Presidente Prudente, segundo o descritor Despesas
municipais com agricultura e produo agrcola diversificada no ano de 2008, pela anlise fatorial.

59
4.3.3 Analise de agrupamento no descritor: Agricultura perene
A Figura 14 apresenta o dendrograma do descritor Agricultura perene.

segundo o descritor Agricultura perene.
O Grupo 1 formado por 19 municpios: Adamantina, lvares Machado,
Emilianpolis, Flora Rica, Iep, Joo Ramalho, Luclia, Marab Paulista, Nantes, Nova
Guataporanga, Ouro Verde, Panorama, Pirapozinho, Pracinha, Sagres, Salmouro, Santo
Expedito, So Joo do Pau dAlho e Tarabai.
Caiu, Estrela do Norte, Euclides da Cunha Paulista, Florida Paulista, Indiana, Inbia
Paulista, Irapuru, Junqueirpolis, Maripolis, Mirante do Paranapanema, Monte Castelo,
60
Narandiba, Osvaldo Cruz, Pacaembu, Paulicia, Piquerobi, Presidente Bernardes, Presidente
Epitcio, Presidente Venceslau, Rancharia, Regente Feij, Ribeiro dos ndios, Sandovalina,
Santa Mercedes, Santo Anastcio, Taciba e Tupi Paulista.
E o Grupo 3 formado por 5 municpios: Dracena, Martinpolis, Presidente Prudente,
Rosana e Teodoro Sampaio.
diz respeito ao descritor Agricultura perene, as variveis originais foram retomadas, e ento
foram obtidos os seguintes resultados na Tabela 10:
Agricultura perene, em relao aos grupos formados.
N de
Muncipios
1
UPAs com cultura perene 55,579 1.056,000 19
rea de cultura de Milho 602,600 10.244,200 17
Total

19
2
Total

30
3
Total

5

O Grupo 1 tem o menor valor mdio no nmero de UPAs com cultura perene e o
segundo maior valor mdio em rea de cultura de milho. O Grupo 2 tem o segundo maior
valor mdio no nmero de UPAs com cultura perene e o menor valor mdio na rea de cultura
de milho. O Grupo 3 tem o maior valor mdio para o nmero de UPAs com cultura perene e a
rea de cultura de milho.
Agricultura perene, observe a Figura 15.
61

Figura 15 - Carta temtica dos municpios da R.A. de Presidente Prudente, segundo o descritor Agricultura
perene no ano de 2008, pela anlise fatorial.

62
4.3.4 Analise de agrupamento nos descritores: PIB agrcola e gros leguminosos,
Despesas municipais com agricultura e produo agrcola diversificada e Agricultura
perene
A Figura 16 apresenta o dendrograma dos trs descritores.

Figura 16 - Dendograma ou rvore hierrquica do agrupamento de municpios da R.A. de Presidente Prudente,
segundo os trs descritores.
O Grupo 1 formado por 21 municpios: Adamantina, lvares Machado, Caiu,
Euclides da Cunha Paulista, Florida Paulista, Junqueirpolis, Luclia, Marab Paulista,
Martinpolis, Mirante do Paranapanema, Osvaldo Cruz, Pirapozinho, Presidente Bernardes,
Presidente Epitcio, Presidente Prudente, Presidente Venceslau, Rosana, Santo Anastcio, So
Joo do Pau dAlho, Teodoro Sampaio e Tupi Paulista.
63
Emilianpolis, Estrela do Norte, Flora Rica, Iep, Indiana, Inbia Paulista, Irapuru, Joo
Ramalho, Mariapolis, Monte Castelo, Nantes, Narandiba, Nova Guataporanga, Ouro Verde,
Pacaembu, Panorama, Paulicia, Piquerobi, Pracinha, Regente Feij, Ribeiro dos ndios,
Sagres, Salmouro, Sandovalina, Santa Mercedes, Santo Expedito, Taciba e Tarabai.
E o Grupo 3 formado por 2 municpios: Dracena e Rancharia.
diz respeito dos trs descritores, as variveis originais foram retomadas na Tabela 11.
Tabela 11 - rea mdia, rea total e nmero de municpios para cada varivel dos trs
descritores, em relao aos grupos formados.
N de
Muncipios
1
Org. Agrria
450.112,105 8.552.130,000 19
rea de cultura de Trigo - - -
Total

21
2
Org. Agrria
288.213,034 8.358.178,000 29
rea de cultura de Amendoim 53,293 799,400 15
Total

31

64
(continuao)
N de
Muncipios
3
Org. Agrria
1.404.105,000 2.808.210,000 2
UPAs com cultura perene 212,500 425,000 2
rea de cultura de Amendoim 1.212,400 2.424,800 2
rea de cultura de Arroz - - -
rea de cultura de Caf 396,400 792,800 2
rea de cultura de Milho 2.847,800 5.695,600 2
Total

2

O Grupo 1 tem o maior valor mdio nas variveis nmero de UPAs com cultura
perene e rea de cultura de Colza, o segundo maior valor mdio nas variveis total de despesa
municipal com agricultura e organizaes agrrias, valor adicionado fiscal da agricultura,
pecuria e outros produtos animais, nmero de UPAs com cultura temporria, rea de cultura
de amendoim, rea de cultura de arroz, rea de cultura de caf, rea de cultura de feijo, rea
de cultura de milho e rea de cultura de sorgo, a varivel participao dos vnculos
empregatcios na agropecuria no total de vnculos tem o menor valor mdio e nenhum
municpio do Grupo 1 apresentou rea de cultura de trigo.
O Grupo 2 apresenta o maior valor mdio para as variveis participao dos vnculos
empregatcios na agropecuria no total de vnculos e rea de cultura de arroz, a varivel com o
segundo maior valor mdio rea de cultura de trigo, e as variveis com o menor valor mdio
no Grupo 3 so total de despesa municipal com agricultura e organizaes agrrias, valor
mdio nas variveis valor adicionado fiscal da agricultura, pecuria e outros produtos animais,
nmero de UPAs com cultura perene, nmero de UPAs com cultura temporria, rea de
cultura de amendoim, rea de cultura de caf, rea de cultura de feijo, rea de cultura de
milho e rea de cultura de sorgo e nenhum municpio do Grupo 1 apresentou rea de cultura
de Colza.
O Grupo 3 apresenta o maior valor mdio para as variveis total de despesa municipal
com agricultura e organizaes agrrias, valor adicionado fiscal da agricultura, pecuria e
outros produtos animais, nmero de UPAs com cultura temporria, rea de cultura de
65
amendoim, rea de cultura de caf, rea de cultura de feijo, rea de cultura de milho, rea de
cultura de sorgo e rea de cultura de trigo, as variveis com o segundo maiores valores mdios
so participao dos vnculos empregatcios na agropecuria no total de vnculos, nmero de
UPAs com cultura perene e rea de cultura de Colza, e nenhum municpio do Grupo 3
apresentou rea de cultura de arroz.
Para visualizao cartogrfica dos grupos de municpios formados segundo os trs
descritores, observe a Figura 17.

Figura 17 - Carta temtica dos municpios da R.A. de Presidente Prudente, segundo os trs descritores no ano de
2008, pela anlise fatorial.

66
5 CONCLUSO
O presente estudo retratou as caractersticas da produo de gros e fibras na Regio
Administrativa de Presidente Prudente no ano de 2008, para dar embasamento a futuras
discusses e trabalhos sobre o tema.
Com a aplicao da tcnica Anlise Fatorial, resumiu-se o conjunto de 13 variveis
para trs descritores estatsticos (fatores): PIB agrcola e gros leguminosos, Despesas
municipais com agricultura e produo agrcola diversificada e Agricultura perene.
Os agrupamentos de municpios possibilitam avaliar a existncia ou no de ncleos
produtivos locais, por descritor ou no conjunto de descritores, de forma a orientar instituies
pblicas e privadas do Estado de So Paulo na reflexo sobre como se encontra o atual
cenrio de produo de gros e fibras da regio estudada, e ento tomar decises que
possibilitem o desenvolvimento regional.
Apesar da Regio Administrativa de Presidente Prudente poder usufruir de um sistema
de distribuio trimodal, o que poucas regies do estado tm a disposio, isso no se traduz
na disposio de se produzir em grande escala. Assim sendo a descrio estatstica
apresentada nesse trabalho motiva e motivo do descaso poltico no desenvolvimento e
aperfeioamento das rodovias, ferrovias e porto fluvial.

67
REFERNCIAS
AGNCIA BRASIL, Novo levantamento da Conab prev safra recorde de 153 milhes de
toneladas de gros. Agncia Brasil Empresa Brasil de Comunicao. 2011. Disponvel em:
<http://agenciabrasil.ebc.com.br/home/-/journal_content/56/19523/3184747>. Acesso em: 10
fevereiro de 2011.
BARAT, J. ; Vidigal, A. A. F. V.; GANDRA, M.; DUPAS, G. Logstica e Transporte no
Processo de Globalizao: Oportunidades para o Brasil. 1 ed. So paulo: Ed. Unesp: IEE,
2007. 255 p.
BARROSO, L. P.; ARTES, R. 10 SIMPSIO DE ESTATSTICA APLICADA
EXPERIMENTAO AGRONMICA (SEAGRO), 2003, Lavras. Anlise multivariada:
minicurso. Lavras: UFLA, 2003.151 p.
Brasil. Ministrio dos transportes Governo Federal, Disponvel em:
<http://www.transportes.gov.br/bit/estados/port/sp.htm>. Acesso em: 25 de novembro de
2010.
CARVALHO FILHO, A. A. Tcnicas de anlise multivariada em minerao de dados (data
mining) em dados da 10 Regio Administrativa de Presidente Prudente-SP nas reas
temticas: economia, demografia, sade e educao. 2005. Pesquisa de RDIDP do trinio
2003 2005, Universidade Estadual Paulista - Campus de Presidente Prudente, 2005. 187 p.
CAZORLA, I. M. Apostila de Estatstica: VIII. Anlise de correlao e regresso, Disponvel
em: <http://pt.scribd.com/doc/54133345/VIII-Analise-de-Correlacao-e-Regressao>. Acesso
em: 05 de maio de 2011.
DALMAS, J. C. Apostila de Metodologia de pesquisa. Londrina-PR: Universidade Estadual
de Londrina, 2010. 39p.
HAIR, J.F.; TATHAM, R.L.; ANDERSON, R.E.; BLACK, W.C.; trad. Adonai Schlup
SantAnna e Anselmo Chaves Neto. Anlise multivariada de dados. Porto Alegre: Bookman,
5 ed., 2005.
JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th ed. Upper
Saddle River: Ed. Prentice Hall, 1998. 816 p.
MICHELETTO, M. Crescimento da rea plantada de gros e fibras nos ltimos 20 anos.
Paran. 2009. Disponvel em: <http://www.deputadomoacirmicheletto.com.br/attachments/
265_Crescimento_da_area_plantada.pdf>. Acesso em: 25 outubro de 2010.
MINGOTI, S.A. Anlise de dados atravs de mtodos de estatstica multivariada: Uma
abordagem aplicada. Sueli Aparecida Mingoti. Belo Horizonte: Ed. UFMG, 2005. 297 p.
NAKAMURA, L.R.; CARVALHO FILHO, A.A. Utilizao de tcnicas estatsticas
multivariadas para orientar a elaborao de polticas pblicas na rea do trabalho, nas regies
68
administrativas de Presidente Prudente, Marlia e Araatuba. Trabalho de concluso do curso
de Estatstica. FCT/UNESP. Presidente Prudente, SP. 2009.
PORTER, M. E. Competio on competition: Estratgias Competitivas Essenciais. 4 ed. Rio
de Janeiro: Ed. Campus, 1999. 515 p.
SO PAULO (Estado). Fundao Sistema Estadual de Anlise de Dados (SEADE). Regio
Administrativa de Presidente Prudente. So Paulo: [s.n.], 2007. 20 p. Disponvel em:
<http://www.emprego.sp.gov.br/outros/caravana_trabalho/boletim_presidenteprudente.pdf>.
Acesso em: 25 outubro de 2010.
SO PAULO (Estado). Fundao Sistema Estadual de Anlise de Dados (SEADE). Regio
Administrativa de Presidente Prudente. So Paulo: [s.n.], 2002. 7 p. Disponvel em:
<http://www.seade.gov.br/produtos/iprs/analises/RAPresprudente.pdf>. Acesso em: 20 de
novembro de 2010.

69

APNDICES
70
APNDICE A Script com os comandos do programa R.
# ----- Define a function for plotting a matrix ----- #
myImagePlot <- function(x, ...){
min <- min(x)
max <- max(x)
yLabels <- rownames(x)
xLabels <- colnames(x)
title <-c()
# check for additional function arguments
if( length(list(...)) ){
Lst <- list(...)
if( !is.null(Lst$zlim) ){
min <- Lst$zlim[1]
max <- Lst$zlim[2]
}
if( !is.null(Lst$yLabels) ){
yLabels <- c(Lst$yLabels)
}
if( !is.null(Lst$xLabels) ){
xLabels <- c(Lst$xLabels)
}
if( !is.null(Lst$title) ){
title <- Lst$title
}
}
# check for null values
if( is.null(xLabels) ){
xLabels <- c(1:ncol(x))
}
if( is.null(yLabels) ){
yLabels <- c(1:nrow(x))
}

layout(matrix(data=c(1,2), nrow=1, ncol=2), widths=c(4,1), heights=c(1,1))

# Red and green range from 0 to 1 while Blue ranges from 1 to 0
ColorRamp <- rgb( seq(0,1,length=256), # Red
seq(0,1,length=256), # Green
seq(1,0,length=256)) # Blue
ColorLevels <- seq(min, max, length=length(ColorRamp))

# Reverse Y axis
reverse <- nrow(x) : 1
yLabels <- yLabels[reverse]
x <- x[reverse,]

# Data Map
# par(mar = c(3,5,2.5,2))
image(1:length(xLabels), 1:length(yLabels), t(x), col=ColorRamp, xlab="",
ylab="", axes=FALSE, zlim=c(min,max))
if( !is.null(title) ){
title(main=title)
}
axis(BELOW<-1, at=1:length(xLabels), las=2, labels=xLabels)
axis(LEFT <-2, at=1:length(yLabels), labels=yLabels, las=HORIZONTAL<-1)

# Color Scale
71
# par(mar = c(2.5,1.8,1,2))
par(mai=c(7,2,1,1), cex.axis=7)
image(1, ColorLevels,
matrix(data=ColorLevels, ncol=length(ColorLevels),nrow=1),
col=ColorRamp,
xlab="",ylab="",
xaxt="n")

layout(1)
}
# ----- END plot function ----- #

kmo.test <- function(df)
{
cor.sq = cor(df)^2
cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2
library(corpcor)
pcor.sq = cor2pcor(cor(df))^2
pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2
kmo = cor.sumsq/(cor.sumsq+pcor.sumsq)
return(kmo)
}

msa.test <- function(df,dg=6)
{
library(corpcor)
t=ncol(df)
msa=array(0,t,1)
mx=max(nchar(names(df)))
for (k in 0:t-1) {
cor.sq = cor(df)^2
cor.sumsq = (sum(cor.sq[k,])-1)
pcor.sumsq = (sum(pcor.sq[k,])-1)
msa[k] = round(cor.sumsq/(cor.sumsq+pcor.sumsq),digits = dg)
}
names(msa)=names(df)
cor.sq = cor(df)^2
cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2
library(corpcor)
pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2
kmo = round(cor.sumsq/(cor.sumsq+pcor.sumsq),digits = dg)
result = paste(" Kaiser's Measure of Sampling Adequacy: MSA Global\n", "MSA = ",kmo, "\n", "\n")
result1="Kaiser's Measure of Sampling Adequacy: MSA das Variveis\n"
for (k in 1:t) {
result1 = paste(result1,sprintf(paste("%-",mx,"s"), names(df[k]))," = ",msa[k],"\n")
}
cat(result,result1)
}

panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
diagonal="histograma"
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits=digits)[1]
txt <- paste(prefix, txt, sep="")
if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
72
text(0.5, 0.5, txt, cex = cex.cor * r)
}
panel.hist <- function(x, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)
}

library(corpcor) ###needs the function pcor.sq
library("xtable")
library(gplots)
library(nFactors)
library(FactoClass)
library(clValid)
library(Rcmdr)
library(descr)
library(maptools)
library(moments)

###
"GF_TOTgirassol","GF_TOTarroz","GF_TOTcolza","GF_TOTmilhosaf","GF_TOTsorgofor","GF_TOTlentilha
","GF_TOTmilhodoc","GF_TOTervilha","GF_TOTfeijaoco","GF_TOTsorgovas",

setwd('d:/Eduardo/Especializao - UEL/Dalmas')
dados<-read.table('AreaNUPA.csv', header=TRUE, fill=TRUE,sep=';')
dadosz<-read.table('AreaNUPAz.csv', header=TRUE, fill=TRUE,sep=';')

alpha(dadosz[,c("despmunagric","vlradicfiscagric","vea","crdtragr","partVEA",
"rendMedioVEA","areatotal","areacultperene","areatemp","de0a10",
"de10a20","de20a50","mais50","GF_TOTalgodao",
"GF_TOTamendoim","GF_TOTarroz","GF_TOTaveia","GF_TOTcaf",
"GF_TOTcolza","GF_TOTervilha","GF_TOTfeijao","GF_TOTfeijaoco",
"GF_TOTgirassol","GF_TOTlentilha","GF_TOTmilho","GF_TOTmilhodoc",
"GF_TOTmilhosaf","GF_TOTsoja","GF_TOTsorgo","GF_TOTsorgofor",
"GF_TOTsorgovas","GF_TOTtrigo")])

kmo.test(dadosz[,c("despmunagric","vlradicfiscagric","vea","crdtragr","partVEA",

summary(dados[,c("despmunagric","vlradicfiscagric","vea","crdtragr","partVEA",

round(colMeans(dados[,c("despmunagric","vlradicfiscagric","partVEA",
"areacultperene","areatemp","GF_TOTamendoim","GF_TOTarroz","GF_TOTcaf",
73
"GF_TOTcolza","GF_TOTfeijao","GF_TOTmilho","GF_TOTsorgo","GF_TOTtrigo")],
na.rm = TRUE),3)

round(var(dados[,"despmunagric"], na.rm = T),3)
round(var(dados[,"vlradicfiscagric"], na.rm = T),3)
round(var(dados[,"partVEA"], na.rm = T),3)
round(var(dados[,"areacultperene"], na.rm = T),3)
round(var(dados[,"areatemp"], na.rm = T),3)
round(var(dados[,"GF_TOTamendoim"], na.rm = T),3)
round(var(dados[,"GF_TOTarroz"], na.rm = T),3)
round(var(dados[,"GF_TOTcaf"], na.rm = T),3)
round(var(dados[,"GF_TOTcolza"], na.rm = T),3)
round(var(dados[,"GF_TOTfeijao"], na.rm = T),3)
round(var(dados[,"GF_TOTmilho"], na.rm = T),3)
round(var(dados[,"GF_TOTsorgo"], na.rm = T),3)
round(var(dados[,"GF_TOTtrigo"], na.rm = T),3)

round(sd(dados[,"despmunagric"], na.rm = T),3)
round(sd(dados[,"vlradicfiscagric"], na.rm = T),3)
round(sd(dados[,"partVEA"], na.rm = T),3)
round(sd(dados[,"areacultperene"], na.rm = T),3)
round(sd(dados[,"areatemp"], na.rm = T),3)
round(sd(dados[,"GF_TOTamendoim"], na.rm = T),3)
round(sd(dados[,"GF_TOTarroz"], na.rm = T),3)
round(sd(dados[,"GF_TOTcaf"], na.rm = T),3)
round(sd(dados[,"GF_TOTcolza"], na.rm = T),3)
round(sd(dados[,"GF_TOTfeijao"], na.rm = T),3)
round(sd(dados[,"GF_TOTmilho"], na.rm = T),3)
round(sd(dados[,"GF_TOTsorgo"], na.rm = T),3)
round(sd(dados[,"GF_TOTtrigo"], na.rm = T),3)

# Assimetria
round((mean(dados[,"despmunagric"], na.rm=T)-((3*median(dados[,"despmunagric"], na.rm=T))-
(2*mean(dados[,"despmunagric"], na.rm=T))))/sd(dados[,"despmunagric"], na.rm=T),3)
round((mean(dados[,"vlradicfiscagric"], na.rm=T)-((3*median(dados[,"vlradicfiscagric"], na.rm=T))-
(2*mean(dados[,"vlradicfiscagric"], na.rm=T))))/sd(dados[,"vlradicfiscagric"], na.rm=T),3)
round((mean(dados[,"partVEA"], na.rm=T)-((3*median(dados[,"partVEA"], na.rm=T))-
(2*mean(dados[,"partVEA"], na.rm=T))))/sd(dados[,"partVEA"], na.rm=T),3)
round((mean(dados[,"areacultperene"], na.rm=T)-((3*median(dados[,"areacultperene"], na.rm=T))-
(2*mean(dados[,"areacultperene"], na.rm=T))))/sd(dados[,"areacultperene"], na.rm=T),3)
round((mean(dados[,"areatemp"], na.rm=T)-((3*median(dados[,"areatemp"], na.rm=T))-
(2*mean(dados[,"areatemp"], na.rm=T))))/sd(dados[,"areatemp"], na.rm=T),3)
round((mean(dados[,"GF_TOTamendoim"], na.rm=T)-((3*median(dados[,"GF_TOTamendoim"], na.rm=T))-
(2*mean(dados[,"GF_TOTamendoim"], na.rm=T))))/sd(dados[,"GF_TOTamendoim"], na.rm=T),3)
round((mean(dados[,"GF_TOTarroz"], na.rm=T)-((3*median(dados[,"GF_TOTarroz"], na.rm=T))-
(2*mean(dados[,"GF_TOTarroz"], na.rm=T))))/sd(dados[,"GF_TOTarroz"], na.rm=T),3)
round((mean(dados[,"GF_TOTcaf"], na.rm=T)-((3*median(dados[,"GF_TOTcaf"], na.rm=T))-
(2*mean(dados[,"GF_TOTcaf"], na.rm=T))))/sd(dados[,"GF_TOTcaf"], na.rm=T),3)
round((mean(dados[,"GF_TOTcolza"], na.rm=T)-((3*median(dados[,"GF_TOTcolza"], na.rm=T))-
(2*mean(dados[,"GF_TOTcolza"], na.rm=T))))/sd(dados[,"GF_TOTcolza"], na.rm=T),3)
round((mean(dados[,"GF_TOTfeijao"], na.rm=T)-((3*median(dados[,"GF_TOTfeijao"], na.rm=T))-
(2*mean(dados[,"GF_TOTfeijao"], na.rm=T))))/sd(dados[,"GF_TOTfeijao"], na.rm=T),3)
round((mean(dados[,"GF_TOTmilho"], na.rm=T)-((3*median(dados[,"GF_TOTmilho"], na.rm=T))-
(2*mean(dados[,"GF_TOTmilho"], na.rm=T))))/sd(dados[,"GF_TOTmilho"], na.rm=T),3)
round((mean(dados[,"GF_TOTsorgo"], na.rm=T)-((3*median(dados[,"GF_TOTsorgo"], na.rm=T))-
(2*mean(dados[,"GF_TOTsorgo"], na.rm=T))))/sd(dados[,"GF_TOTsorgo"], na.rm=T),3)
round((mean(dados[,"GF_TOTtrigo"], na.rm=T)-((3*median(dados[,"GF_TOTtrigo"], na.rm=T))-
(2*mean(dados[,"GF_TOTtrigo"], na.rm=T))))/sd(dados[,"GF_TOTtrigo"], na.rm=T),3)

# Kurtosis
74
round((quantile(dados[,"despmunagric"], prob=.75, na.rm=T)-quantile(dados[,"despmunagric"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"despmunagric"], prob=.9, na.rm=T)-quantile(dados[,"despmunagric"], prob=.1,
na.rm=T))),3)-0.263
round((quantile(dados[,"vlradicfiscagric"], prob=.75, na.rm=T)-quantile(dados[,"vlradicfiscagric"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"vlradicfiscagric"], prob=.9, na.rm=T)-quantile(dados[,"vlradicfiscagric"],
prob=.1, na.rm=T))),3)-0.263
round((quantile(dados[,"partVEA"], prob=.75, na.rm=T)-quantile(dados[,"partVEA"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"partVEA"], prob=.9, na.rm=T)-quantile(dados[,"partVEA"], prob=.1,
na.rm=T))),3)-0.263
round((quantile(dados[,"areacultperene"], prob=.75, na.rm=T)-quantile(dados[,"areacultperene"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"areacultperene"], prob=.9, na.rm=T)-quantile(dados[,"areacultperene"], prob=.1,
na.rm=T))),3)-0.263
round((quantile(dados[,"areatemp"], prob=.75, na.rm=T)-quantile(dados[,"areatemp"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"areatemp"], prob=.9, na.rm=T)-quantile(dados[,"areatemp"], prob=.1,
na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTamendoim"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTamendoim"],
prob=.25, na.rm=T))/(2*(quantile(dados[,"GF_TOTamendoim"], prob=.9, na.rm=T)-
quantile(dados[,"GF_TOTamendoim"], prob=.1, na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTarroz"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTarroz"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"GF_TOTarroz"], prob=.9, na.rm=T)-quantile(dados[,"GF_TOTarroz"], prob=.1,
na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTcaf"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTcaf"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"GF_TOTcaf"], prob=.9, na.rm=T)-quantile(dados[,"GF_TOTcaf"], prob=.1,
na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTcolza"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTcolza"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"GF_TOTcolza"], prob=.9, na.rm=T)-quantile(dados[,"GF_TOTcolza"], prob=.1,
na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTfeijao"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTfeijao"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"GF_TOTfeijao"], prob=.9, na.rm=T)-quantile(dados[,"GF_TOTfeijao"],
prob=.1, na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTmilho"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTmilho"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"GF_TOTmilho"], prob=.9, na.rm=T)-quantile(dados[,"GF_TOTmilho"],
prob=.1, na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTsorgo"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTsorgo"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"GF_TOTsorgo"], prob=.9, na.rm=T)-quantile(dados[,"GF_TOTsorgo"],
prob=.1, na.rm=T))),3)-0.263
round((quantile(dados[,"GF_TOTtrigo"], prob=.75, na.rm=T)-quantile(dados[,"GF_TOTtrigo"], prob=.25,
na.rm=T))/(2*(quantile(dados[,"GF_TOTtrigo"], prob=.9, na.rm=T)-quantile(dados[,"GF_TOTtrigo"], prob=.1,
na.rm=T))),3)-0.263

nas=sapply(dados[,c("despmunagric","vlradicfiscagric","vea","crdtragr","partVEA",
"GF_TOTsorgovas","GF_TOTtrigo")], function(x)(sum(is.na(x)))) # NA counts
(pnas=nas/54)

.Z <- scale(dados[,c("despmunagric","vlradicfiscagric","vea","crdtragr",
"partVEA","rendMedioVEA","areatotal","areacultperene","areatemp","de0a10",
dados$Z.areacultperene <- .Z[,1]
dados$Z.areatemp <- .Z[,2]
75
dados$Z.areatotal <- .Z[,3]
dados$Z.crdtragr <- .Z[,4]
dados$Z.de0a10 <- .Z[,5]
dados$Z.mais50 <- .Z[,8]
dados$Z.despmunagric <- .Z[,9]
dados$Z.GF_TOTalgodao <- .Z[,10]
dados$Z.GF_TOTamendoim <- .Z[,11]
dados$Z.GF_TOTarroz <- .Z[,12]
dados$Z.GF_TOTaveia <- .Z[,13]
dados$Z.GF_TOTcaf <- .Z[,14]
dados$Z.GF_TOTcolza <- .Z[,15]
dados$Z.GF_TOTervilha <- .Z[,16]
dados$Z.GF_TOTfeijao <- .Z[,17]
dados$Z.GF_TOTfeijaoco <- .Z[,18]
dados$Z.GF_TOTgirassol <- .Z[,19]
dados$Z.GF_TOTlentilha <- .Z[,20]
dados$Z.GF_TOTmilho <- .Z[,21]
dados$Z.GF_TOTmilhodoc <- .Z[,22]
dados$Z.GF_TOTmilhosaf <- .Z[,23]
dados$Z.GF_TOTsoja <- .Z[,24]
dados$Z.GF_TOTsorgo <- .Z[,25]
dados$Z.GF_TOTsorgofor <- .Z[,26]
dados$Z.GF_TOTsorgovas <- .Z[,27]
dados$Z.GF_TOTtrigo <- .Z[,28]
dados$Z.partVEA <- .Z[,29]
dados$Z.rendMedioVEA <- .Z[,30]
dados$Z.vea <- .Z[,31]
dados$Z.vlradicfiscagric <- .Z[,32]
remove(.Z)

.Z <- scale(dadosz[,c("despmunagric","vlradicfiscagric","vea","crdtragr",
"partVEA","rendMedioVEA","areatotal","areacultperene","areatemp","de0a10",
dadosz$Z.areacultperene <- .Z[,1]
dadosz$Z.areatemp <- .Z[,2]
dadosz$Z.areatotal <- .Z[,3]
dadosz$Z.crdtragr <- .Z[,4]
dadosz$Z.de0a10 <- .Z[,5]
dadosz$Z.mais50 <- .Z[,8]
dadosz$Z.despmunagric <- .Z[,9]
dadosz$Z.GF_TOTalgodao <- .Z[,10]
dadosz$Z.GF_TOTamendoim <- .Z[,11]
dadosz$Z.GF_TOTarroz <- .Z[,12]
dadosz$Z.GF_TOTaveia <- .Z[,13]
dadosz$Z.GF_TOTcaf <- .Z[,14]
dadosz$Z.GF_TOTcolza <- .Z[,15]
dadosz$Z.GF_TOTervilha <- .Z[,16]
dadosz$Z.GF_TOTfeijao <- .Z[,17]
dadosz$Z.GF_TOTfeijaoco <- .Z[,18]
dadosz$Z.GF_TOTgirassol <- .Z[,19]
dadosz$Z.GF_TOTlentilha <- .Z[,20]
76
dadosz$Z.GF_TOTmilho <- .Z[,21]
dadosz$Z.GF_TOTmilhodoc <- .Z[,22]
dadosz$Z.GF_TOTmilhosaf <- .Z[,23]
dadosz$Z.GF_TOTsoja <- .Z[,24]
dadosz$Z.GF_TOTsorgo <- .Z[,25]
dadosz$Z.GF_TOTsorgofor <- .Z[,26]
dadosz$Z.GF_TOTsorgovas <- .Z[,27]
dadosz$Z.GF_TOTtrigo <- .Z[,28]
dadosz$Z.partVEA <- .Z[,29]
dadosz$Z.rendMedioVEA <- .Z[,30]
dadosz$Z.vea <- .Z[,31]
dadosz$Z.vlradicfiscagric <- .Z[,32]
remove(.Z)

ddz=dadosz[,c("despmunagric","vlradicfiscagric",
"partVEA","areacultperene","areatemp",
"GF_TOTamendoim","GF_TOTarroz","GF_TOTcaf",
"GF_TOTcolza","GF_TOTfeijao",
"GF_TOTmilho",
"GF_TOTsorgo",
"GF_TOTtrigo")]

### "Z.crdtragr","Z.de0a10","Z.de10a20","Z.de20a50","Z.mais50","Z.vea","Z.GF_TOTalgodao",
"Z.GF_TOTaveia","Z.areatotal","Z.rendMedioVEA","Z.GF_TOTfeijaoco",
"Z.GF_TOTervilha","Z.GF_TOTlentilha","Z.GF_TOTgirassol","Z.GF_TOTmilhodoc","Z.GF_TOTmilhosaf","
Z.GF_TOTsorgovas","Z.GF_TOTsorgofor","Z.GF_TOTsoja",
ddz=dadosz[,c("Z.despmunagric","Z.vlradicfiscagric",
"Z.partVEA","Z.areacultperene","Z.areatemp",
"Z.GF_TOTamendoim","Z.GF_TOTarroz","Z.GF_TOTcaf",
"Z.GF_TOTcolza","Z.GF_TOTfeijao",
"Z.GF_TOTmilho",
"Z.GF_TOTsorgo",
"Z.GF_TOTtrigo")]

dd=dados[,c("Z.despmunagric","Z.vlradicfiscagric",
"Z.partVEA","Z.areacultperene","Z.areatemp",
"Z.GF_TOTamendoim","Z.GF_TOTarroz","Z.GF_TOTcaf",
"Z.GF_TOTcolza","Z.GF_TOTfeijao",
"Z.GF_TOTmilho",
"Z.GF_TOTsorgo",
"Z.GF_TOTtrigo")]

alpha(ddz)
kmo.test(ddz)

summary(dd)
(xb=mean(ddz,na.rm = T))
(dp=sd(ddz,na.rm = T))
(dp=var(ddz,na.rm = T))
(var=var(ddz,na.rm = T))
(cor=cor(ddz))

dadosstd=as.data.frame(ddz)
(xb=round(mean(dadosstd),4))

jpeg(filename = 'figboxplot.jpg', width = 5000, height = 5000, pointsize = 12, quality = 100, bg = 'white')
par(mar = c(13,1.5,.5,.5), cex=10, lwd=8)
boxplot(dadosstd, whisklty=3, cex=1, cex.axis=.8, las=2, col='lightyellow',
names=c('Tot.de Desp.Mun.-Agric.e Org.Agrria','Vlr. Adic. Fiscal da Agric.',
'Part. nos Vnc. Emp. na Agrop.','UPAs com cultura perene',
77
'UPAs com cultura temporria','Amendoim','Arroz','Caf','Colza',
'Feijo','Milho','Sorgo','Trigo')
)
xi <- 0 + seq(length(xb))
abline(h=1, lwd=18, col = "pink")
abline(h=0, lwd=18, col = "orange")
abline(h=-1, lwd=18, col = "pink")
legend('topright', lwd=18, c('+1 Desv. Padro','Mdia','-1 Desv. Padro'), col=c('pink','orange','pink'),
text.col='black', lty=1, cex=.8, bty = 'n')
#points(xi, xb, col = "orange", pch = 18)
#arrows(xi, xb-1, xi, xb+1, code = 3, col = "pink", angle = 75, length = .1)
dev.off()

shapiro.test(dadosz[,c("Z.despmunagric")])
shapiro.test(dadosz[,c("Z.vlradicfiscagric")])
shapiro.test(dadosz[,c("Z.partVEA")])
shapiro.test(dadosz[,c("Z.areacultperene")])
shapiro.test(dadosz[,c("Z.areatemp")])
shapiro.test(dadosz[,c("Z.GF_TOTamendoim")])
shapiro.test(dadosz[,c("Z.GF_TOTarroz")])
shapiro.test(dadosz[,c("Z.GF_TOTcaf")])
shapiro.test(dadosz[,c("Z.GF_TOTcolza")])
shapiro.test(dadosz[,c("Z.GF_TOTfeijao")])
shapiro.test(dadosz[,c("Z.GF_TOTmilho")])
shapiro.test(dadosz[,c("Z.GF_TOTsorgo")])
shapiro.test(dadosz[,c("Z.GF_TOTtrigo")])

colnames(dadosstd)=c('Tot.de Desp.Mun.-Agric.e Org.Agrria','Vlr. Adic. Fiscal da Agric.',
'Part. nos Vnc. Emp. na Agrop.','UPAs com cultura perene',
'UPAs com cultura temporria','Amendoim','Arroz','Caf','Colza',
'Feijo','Milho','Sorgo','Trigo')
cor=cor(dadosstd)
kmo.test(dadosstd)

(xtable(dadosstd, caption = "Matriz de Correlao", label = "tab:correlacao", digits = 3))
jpeg(filename = 'figpairs.jpg', width = 5000, height = 5000, pointsize = 12, quality = 100, bg = 'white')
par(lwd=8)
pairs(dadosstd,
labels=c('X01','X02','X03','X04','X05','X06','X07','X08','X09','X10','X11','X12','X13'),cex.labels=10,
diag.panel=panel.hist, lower.panel = panel.smooth, upper.panel = panel.cor)
dev.off()

ord = order.dendrogram(as.dendrogram(hclust(dist(cor))))
jpeg(filename = 'figlevelplot.jpg', pointsize = 12, quality = 100, bg = 'white')
par(mar = c(0,0,2.5,.2), mai=c(0,.5,.2,0), lwd=8)
levelplot(cor[ord, ord], at = do.breaks(c(-1.01, 1.01), 10),
xlab="",ylab="", cex=10, scales = list(x = list(rot = 90)))
dev.off()

attach(dados)
jpeg(filename = 'figmyImagePlot.jpg', width = 5000, height = 5000, pointsize = 12, quality = 100, bg = 'white')
par(mai=c(7,16,1,1), cex.axis=7, lwd=8)
myImagePlot(dadosstd[,6:13], xLabels=c('Amendoim','Arroz','Caf','Colza','Feijo','Milho','Sorgo','Trigo'),
yLabels=c(as.character(municipio)))
dev.off()

ev <- eigen(cor)
ev$percexp = round((ev$values/length(ev$values))*100,digits=2)
j=0
repeat {
78
j=j+1
if(j>1) ev$percacum[j]=ev$percacum[j-1]+ev$percexp[j] else ev$percacum[j]=ev$percexp[j]
if(length(ev$values)<=j) break
}
ev
round(ev$values,5)
nS <- nScree(round(ev$values,5))
jpeg(filename = 'figscreeplot.jpg', width = 960, height = 770, pointsize = 12, quality = 100, bg = 'white')
par(mar = c(5,5,.5,.5), cex=6, mex=2, cex.axis=2, cex.lab=2, lwd=3, las=1)
plotnScree(nS, main='', ylab='Autovalores', xlab='Componentes')
dev.off()
s=cbind(round(ev$values,5),round(ev$percexp,3),round(ev$percacum,3))
colnames(s)=c('Autovalor','Percentual Var.','Percentual Acumulada Var.')
rownames(s)=1:13
s

(pca = principal(dadosstd, 3, rotate="none", scores = T))
(pca = principal(dadosstd, 3, rotate="varimax", scores = T))
pca$loadings
names(pca)
round(pca$PVAL,3)
(escores=round(pca$scores,digits=2))

dda=cbind(dadosz,escores)
names(dda)
cbind(dda[,c(2,67:69)])
write.matrix(cbind(dda[,c(2,67:69)]), file = 'escores.csv', sep = ';')

jpeg(filename = 'figdend0.jpg', width = 5000, height = 5000, pointsize = 12, quality = 100, bg = 'white')
HClust.0 <- hclust(dist(model.matrix(~-1 + RC1 + RC2 + RC3, dda), method="minkowski"), method="ward")
par(mar = c(0,0,.5,1), cex=10, lwd=8)
plot(HClust.0, hang = -1, las=2, main= "", xlab="", ylab="", axes=F, labels=dda[,2], cex=.6, sub="")
summary(as.factor(cutree(HClust.0, k = 3))) # Cluster Sizes
legend('topright', legend=c("Grupo 1","Grupo 2","Grupo 3"), cex = .7, lty=1, lwd=8,
col=c("red","blue","green","purple"), bty='n')
by(model.matrix(~-1 + RC1 + RC2 + RC3, dda), as.factor(cutree(HClust.0, k = 3)), mean)
rect.hclust(HClust.0, k=3, border=c("blue","red","green","purple"))
dda$hclus0 <- assignCluster(model.matrix(~-1 + RC1 + RC2 + RC3, dda), dda, cutree(HClust.0, k = 3))
dev.off()
k=cbind(dda[,c(2,70)])
attach(k)
k[hclus0==1,1]
k[hclus0==2,1]
k[hclus0==3,1]

HClust.1 <- hclust(dist(model.matrix(~-1 + RC1, dda), method="minkowski"), method="ward")
par(mar = c(0,0,.5,1), cex=10, lwd=8)
by(model.matrix(~-1 + RC1, dda), as.factor(cutree(HClust.1, k = 3)), mean)
rect.hclust(HClust.1, k=3, border=c("green","red","blue","purple"))
dda$hclus1 <- assignCluster(model.matrix(~-1 + RC1, dda), dda, cutree(HClust.1, k = 3))
dev.off()
attach(k)
k[hclus1==1,1]
79
k[hclus1==2,1]
k[hclus1==3,1]

par(mar = c(0,0,.5,1), cex=10, lwd=8)
rect.hclust(HClust.2, k=3, border=c("blue","green","red","purple"))
dev.off()
attach(k)
k[hclus2==1,1]
k[hclus2==2,1]
k[hclus2==3,1]

par(mar = c(0,0,.5,1), cex=10, lwd=8)
rect.hclust(HClust.3, k=3, border=c("red","blue","green","purple"))
dev.off()
attach(k)
k[hclus3==1,1]
k[hclus3==2,1]
k[hclus3==3,1]

attach(dda)
m=matrix(1,3,4)
sort(hclus0)
m[1,1]=mean(RC1[hclus0==1])

sort(hclus1)

sort(hclus2)

sort(hclus3)

colnames(m)=c('F1+F2+F3','F1','F2','F3')
80
rownames(m)=c('Grupo 1','Grupo 2','Grupo 3')
m
saida=array(,c(54,9))
saida[,2:9]=cbind(dda$CODIBGE,dda$hclus0,dda$hclus1,dda$hclus2,dda$hclus3,dda$RC1,dda$RC2,dda$RC3
)
colnames(saida)=c('mun','CODIBGE','hclus0','hclus1','hclus2','hclus3','RC1','RC2','RC3')
write.matrix(saida, file = 'saida.txt', sep = ';')
write.matrix(dda[,c(2,70:73)], file = 'saida.csv', sep = ';')

##################### Mapas
sp <- readShapePoly("d:/Eduardo/Mapas/sao_paulo/sao_paulo.shp")
summary(sp)

pp = sp[sp$RA==10,]
pp = rbind(pp,sp[305,])
summary(pp)
cores=c("red","blue","green","purple")
grupos=c("Grupo 1","Grupo 2","Grupo 3")

jpeg(filename = 'F1+F2+F3.jpg', width = 5000, height = 5000, pointsize = 12, quality = 100, bg = 'white')
par(lwd=8)
plot(pp)
#title("F1+F2+F3")
legend(-53, -21.1, bty = "n", fill = cores, cex = 9, legend = grupos)
t=length(levels(hclus0))
for (g in 1:t) {
pp1=pp[pp$CODMUNIC %in% dda[hclus0==g,1],]
plot(pp1, col=cores[g], add=TRUE)
}
plot(pp, add=TRUE)
dev.off()

jpeg(filename = 'F1.jpg', width = 5000, height = 5000, pointsize = 12, quality = 100, bg = 'white')
par(lwd=8)
plot(pp)
#title("F1")
legend(-53, -21.1, bty = "n", fill = cores, cex = 9, legend = c("Grupo 1","Grupo 2","Grupo 3"))
for (g in 1:t) {
}
plot(pp, add=TRUE)
dev.off()

par(lwd=8)
plot(pp)
#title("F2")
for (g in 1:t) {
}
plot(pp, add=TRUE)
dev.off()

par(lwd=8)
81
plot(pp)
#title("F3")
for (g in 1:t) {
}
plot(pp, add=TRUE)
dev.off()

Monografia 20110505

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Monografia 20110505

Caricato da

Copyright:

Formati disponibili

EDUARDO CARDOSO DE OLIVEIRA

IDENTIFICAO E ELABORAO DE VARIVEIS ESTATSTICAS

] um vetor aleatrio com respectivo vetor de mdias

] , ou seja, todos os fatores tm medias iguais a zero;

] =, ou seja, todos os erros tm mdias iguais a zero;

so independentes, ento se tem que [

para representar a matriz de correlao atravs de um valor mp,

representa a variabilidade explicada pelos fatores

, conhecida como unicidade;

extrado da matriz de correlao calcula-se o

, e ento a estimao das matrizes

, pode se considerar a utilizao de:

original ser aproximada por:

, mas usando a matriz de correlao terica .

, e ento tem-se que:

inicia-se o processo de iteratividade, pois tem-se novas estimativas das

). Essas novas comunalidades so substitudas na diagonal da

e repete-se o procedimento para a estimao da matriz

for maior que 1 gerando uma estimativa negativa

, Johnson & Wichern

o i-simo elemento da diagonal de

}. A distncia entre eles ser dada por:

}. A distncia entre eles ser dada por:

elementos, a distncia entre eles ser:

} a maior distncia entre os elementos do conjunto de

acima de 90% resulta

) o vetor de medidas correspondentes ao

, a soma de quadrados total corrigida;

, a soma de quadrados total dentro dos

, a soma de quadrados total entre os g*

seja a unio de dois

. Assim a estatstica Pseudo T

e o coeficiente de correlao semiparcial

j mencionado no critrio 3 com uma aproximao para o

, onde se considera que

Probabilidade de que o elemento pertena ao centride

Potrebbero piacerti anche