Sei sulla pagina 1di 9

Making the most with categorical data: an introduction to correspondence analysis

Resumo Como extrair o mximo de informao de dados categricos? Esse artigo apresenta uma introduo intuitiva anlise de correspondncia. Em termos metodolgicos, utilizamos dados sobre pesquisas eleitorais disponibilizados pelo IPESPE para ilustrar como essa ferramenta pode ser utilizada em desenhos de pesquisa em cincia poltica. Esperamos com esse trabalho difundir a tcnica de anlise de correspondncia como alternativa metodolgica na cincia social no Brasil em geral e na cincia poltica em particular.

Palavras-chave: anlise de correspondncia; mtodos quantitativos; pesquisa eleitoral.

Abstract How to extract most information from categorical data? This paper presents a nontechnical introduction to correspondence analysis. On methodological grounds, we use elections data from IPESPE to show how this technique can be employed in political science empirical research. We hope to diffuse correspondence analysis as a methodological tool in Brazilian social science in general and in political science, in particular. Keywords: correspondence analysis; quantitative methods; elections pools.

Methodology, not ideology, defines the most important cleavages within the social sciences today John Gerring

A produo cientfica brasileira, em geral, e o ensino de cincias sociais, em particular, apresentam uma lacuna significativa no campo das tcnicas de pesquisa, sejam elas quantitativas ou qualitativas, sejam exploratrias ou analticas Eduardo Marques

Introduo

Esse artigo apresenta uma introduo intuitiva tcnica de anlise de correspondncia. Mas por que um artigo sobre mtodos e tcnicas de pesquisa? Marques (2007), ao escrever em um dossi sobre metodologia nas cincias sociais no Brasil, afirma que a discusso sobre mtodo relativamente rara entre ns, visto que no temos tradio de pensar em nossas explicaes, nem tampouco nos modelos de anlise que so mobilizados por nossa produo cientfica (MARQUES, 2007: 141). Como na cincia social brasileira discute-se muito pouco a respeito das posies ontolgicas e epistemolgicas dos pesquisadores, natural ento que o debate sobre o mtodo seja igualmente esvaziado. Por exemplo, no encontro da Associao Nacional de PsGraduao em Cincias Sociais (ANPOCS) de 2011 foram catalogados 38 Grupos de Trabalho (GTs). Nenhum deles discutia mtodos ou tcnicas de pesquisa. Em 2010 foram realizadas 37 Sesses Temticas (STs). Nenhuma delas discutia mtodos ou tcnicas de pesquisa. No encontro da Associao Brasileira de Cincia Poltica (ABCP) de 2010 foram catalogadas 26 mesas redondas, nenhuma delas discutia mtodos ou tcnicas de pesquisa. Similarmente, foram registradas 10 reas temticas (grupos de trabalho), mas nenhuma delas discutia mtodos ou tcnicas de pesquisa. No encontro da ABCP de 2012 foram registrados X grupos de trabalho e Y mesas redondas. E em nenhum deles se discutiu mtodos ou tcnicas de pesquisa. Curiosamente, o peridico mais influente da cincia poltica contempornea exatamente uma revista com nfase em mtodos e tcnicas de pesquisa, registre-se: Political Analysis com um fator de impacto de 5,220. Para Marques (2007), o problema causado em parte por um crculo vicioso, visto que poucos entre ns foram formados (quando estudantes) para ensinar esse assunto, o que mantm as novas geraes de cientistas sociais pouco conhecedoras das principais ferramentas tcnicas existentes (MARQUES, 2007: 142)1. E o que dizer sobre a aplicao de mtodos e tcnicas de pesquisa? Para Soares (2005), h uma certa hostilidade em relao aos mtodos quantitativos e estatstica [na cincia social brasileira] (SOARES, 2005: 27). Os trabalhos de Werneck Vianna et al (1988), Valle e Silva (1999) e Santos e Coutinho (2000) corroboram esse diagnstico: a utilizao de tcnicas bsicas
1

Recentemente, Steiner (2010) discutiu as vantagens e limitaes da metodologia de estudo de caso aplicada a pesquisa em poltica ambiental. Rezende (2011) analisou a conexo entre mtodos quantitativos e qualitativos em poltica comparada. A professora Corine Davis tem ensinado a tcnica de grupo focal no curso de Metodologia Quantitativa (MQ) da Universidade Federal de Minas Gerais (UFMG).

de estatstica descritiva e inferencial ainda bastante limitada nas cincias sociais, isso independentemente do tipo de produo (artigos, dissertaes ou teses). O resultado prtico o enfraquecimento generalizado do conhecimento cientfico. Em especial, porque sabido que a utilizao dos mtodos qualitativos no tem melhor sorte. Ou seja, segundo Soares (2005), a ausncia de mtodos quantitativos no significa a presena de mtodos qualitativos. Regra geral, o padro o no mtodo. No existe um debate sistemtico sobre metodologia porque a aplicao limitada ou a utilizao de mtodos e tcnicas restrita porque no se discute metodologia?2 Partindo da hiptese de que a resistncia causada pelo no domnio das tcnicas (e num sentido mais geral dos fundamentos bsicos de estatstica), algumas medidas podem ser pensadas. Primeiro, pode-se aumentar a oferta de cursos de metodologia quantitativa, quer seja nos currculos regulares quer seja via cursos de especializao3. Segundo, parece desejvel examinar criticamente a literatura para identificar quais so as demandas mais latentes. Os dois caminhos tm o mesmo objetivo: assegurar que a preocupao com o mtodo seja uma constante. O principal objetivo desse artigo contribuir com essa perspectiva atravs de uma introduo a lgica da anlise de correspondncia. Em termos metodolgicos, utilizamos dados sobre pesquisas eleitorais disponibilizados pelo IPESPE para ilustrar como essa ferramenta pode ser utilizada em desenhos de pesquisa em cincia poltica. Esperamos com esse trabalho difundir

Em particular, a escassez de cursos de mtodos e tcnicas, sejam eles quantitativos e qualitativos, acaba prejudicando a formao dos profissionais na rea de cincias sociais, alm de reduzir a qualidade tcnica da produo acadmica. Um dos principais esforos para minorar esse problema foi materializado atravs do curso de Metodologia Quantitativa (MQ) em Cincias Humanas realizado anualmente pelos departamentos de Sociologia e Cincia Poltica UFMG. No plano internacional destaca-se o EMAS organizado pela Universidade de Salamanca, o Summer Program in Quantitative Methods of Social Research, (ICPSR), o Summer School in Methods and Techniques organizado pelo European Consortium for Political Research e a Essex Summer School in Social Sciences and Data Analysis. Entre 31 de janeiro e 12 de fevereiro de 2011 a IPSA realizou um curso de vero na Universidade de So Paulo (USP) Concepts, Methods, and Techniques in Political Science. A verso 2012 da Escola de Vero da USP j est confirmada. 3 Em particular, a escassez de cursos de mtodos e tcnicas, sejam eles quantitativos e qualitativos, acaba prejudicando a formao dos profissionais na rea de cincias sociais, alm de reduzir a qualidade tcnica da produo acadmica. Um dos principais esforos para minorar esse problema foi materializado atravs do curso de Metodologia Quantitativa (MQ) em Cincias Humanas realizado anualmente pelos departamentos de Sociologia e Cincia Poltica da Universidade Federal de Minas Gerais (UFMG). No plano internacional destaca-se o EMAS organizado pela Universidade de Salamanca, Espanha, o Summer Program in Quantitative Methods of Social Research, ICPSR, Michigan, EUA e o Summer School in Methods and Techniques organizado pelo European Consortium for Political Research. Tem-se, ainda, a Essex Summer School in Social Sciences and Data Analysis, Londres, Inglaterra. Entre 31 janeiro e 12 de fevereiro de 2011 a IPSA realizou um curso de vero na Universidade de So Paulo (USP) Concepts, Methods, and Techniques in Political Science.

a tcnica de anlise de correspondncia como alternativa metodolgica na cincia social no Brasil em geral e na cincia poltica em particular. Para tanto o artigo esta dividido em X partes. A prxima seo apresenta uma breve reviso da literatura sobre anlise de correspondncia. A meta familiarizar o leitor com os componentes da referida tcnica. A segunda parte ilustra a aplicao prtica de uma anlise de correspondncia, identificando os principais requisitos tcnicos que devem ser satisfeitos pelo pesquisador. O objetivo auxiliar a construo de um desenho de pesquisa que favorea a utilizao da referida tcnica. Na terceira parte discutimos os principais resultados que devem ser observados. Por fim, a ltima seo sumariza algumas concluses. Reviso da Literatura sobre anlise de correspondncia (AC)4 Em termos histricos, atribui-se a Hirschfeld (1935) os primeiros desenvolvimentos matemticos em relao anlise de correspondncia (PHILLIPS, 1995)5. Para Fox (2010), it was the French statistician Jean-Paul Benzecri who developed and popularized the method in the 1960s and 1970s, first in France, and then more generally in Europe, and who gave it its now widely used name (FOX, 2010: viii)6. Geograficamente, a referida tcnica se tornou mais popular na Europa do que na Amrica do Norte, notadamente nas reas de ecologia, psicologia e sociologia7. Em termos comparativos, at o incio da dcada de 1970 a utilizao da AC nos Estados Unidos ainda era bastante limitada (CLAUSEN, 1988). Atribui-se aos trabalhos de Greenacre (1984) a difuso da referida tcnica do ponto de vista conceitual e aos avanos

Para os leitores interessados em aprofundar seus conhecimentos sobre a supracitada tcnica ver Greenacre (1984, 1993); Benzecri (1992); Clausen (1998), Gabriel (2002) e Weller e Romney (1990). Le Roux e Rouanet (2010) apresentam uma introduo anlise de correspondncia mltipla. Para trabalhos em cincia poltica que utilizam anlise de correspondncia ver. Para trabalhos nacionais ver. Em Ecologia ver Greenacre e Vrba (1984), Ter Braak (1985), Palmer (1993) e Hoffman e Franke, 1986). 5 De acordo com Hill (1974) a anlise de correspondncia permaneceu durante muito tempo negligenciada e foi redescoberta de forma independente por diferentes autores. A aplicao proposta por Hirschfeld foi bastante limitada e no foi citada por Fisher (1940). O resultado disso que alguns autores atribuem a Fisher e no a Hirschfeld o pioneirismo da anlise de correspondncia. 6 De acordo com Phillips (1995), o termo analise de correspondncia eh uma traduo do vocbulo analyse ds correspondences e foi pioneiramente utilizado na rea de lingstica. De acordo com Heidjen, Falguerolles e Leeuw (1989) desde 1976 existe um peridico que vem publicando quase que exclusivamente aplicaes de AC - Les Cahiers de l'Analyse des Donnees. 7 Salvo melhor catalogao, a aplicao mais influente da tcnica de anlise de correspondncia em sociologia foi feita por Bourdieu (1984).

computacionais a sua utilizao por pesquisadores de reas com menor treinamento em Matemtica e/ou Estatstica. De acordo com Garson (2011), existem muitas variantes da tcnica de anlise de correspondncia, entre elas correspondence mapping, perceptual mapping, social space analysis, correspondence factor analysis, principal components analysis of qualitative data, and dual scaling. Da mesma forma, Doey e Kurta (2011) afirmam que a anlise de correspondncia tambem chamada de dual scaling, method of reciprocal average e categorical discriminant analysis. Apesar dessa variao, a lgica subjacente a mesma: identificar o nvel de correspondncia entre variveis categricas e represent-lo em um espao geomtrico. Por esse motivo, alguns autores se referem anlise de correspondncia como um tipo particular de anlise geomtrica de dados (geometric data analysis GDA) (LE ROUX e ROUANET, 2010)8. Mas o que anlise de correspondncia afinal? Para Benzecri (1992), a anlise de correspondncia uma tcnica exploratria ideal para analisar dados categricos9. Para Greenacre (2007), correspondence analysis is a method of data analysis for representing tabular data graphically (2007: 01). Hair et all (2010) definem anlise de correspondncia como a compositional method to perceptual mapping that is based on categories of a contingency table. Most applications involve a set of objects and attributes, with the results portraying both objects and attributes in a common perceptual map (HAIR ET AL, 2010: 583). Para Garson (2011), correspondence analysis is a method of factoring categorical variables and displaying them in a property space which maps their association in two or more dimensions. It is often used where a tabular approach is less effective due to large tables with many rows and/or columns (GARSON, 2011). Para Phillips (1995), correspodence analysis is primarily a technique for representing the rows and columns of a two way contingency table in a joint plot (PHILLIPS, 1995: 01)10. E para que serve a anlise de correspondncia? Nas palavras de Carvalho e Struchiner (1992),
8

Doey e Kurta (2011) afirmam que a multiplicidade de definies pode ser parcialmente explicada pela pluralidade de abordagens e pelo fato do desenvolvimento concomitante em pases e campos de pesquisa diferentes. Fielding (1992) apresenta uma ampla reviso a respeito das diferentes variantes da tcnica de anlise de correspondncia. 9 Em relao ao nvel de mensurao de variveis os livros de estatstica e economia geralmente identificam quatro diferentes nveis de mensurao: a) continuas; b) discreto; c) ordinal e d) nominal. Em geral, variveis continua e discretas so chamadas de quantitativas enquanto variveis ordinais e nominais so denominadas de qualitativas. 10 Em outro momento Phillips (1995) afirma que correspondence analysis seeks to represent the interrelationships of categories of row and column variables on a two dimensional map. It can be thought of as trying to plot a cloud of data points (the cloud having height, width, thickness) on a single plane to give a reasonable summary of the relationships and variation within them.

a anlise de correspondncia especialmente indicada para descrever matrizes com grande volume de dados discretos e sem uma estrutura claramente definida a priori. Este mtodo permite a visualizao das relaes mais importantes de um grande conjunto de variveis entre si. Os resultados so apresentados sob forma de grficos, onde esto representadas as categorias de cada varivel e onde se pode observar as relaes entre estas, atravs da distncia entre os pontos desenhados (CARVALHO e STRUCHINER,1992: 288).

Nesse artigo, adotamos a seguinte definio: a anlise de correspondncia uma tcnica descritiva que pode ser utilizada para representar graficamente tabelas de duas ou mltiplas entradas. A sua principal vantagem em relao a outras tcnicas descritivas a possibilidade de representar graficamente a distribuio de diferentes variveis categricas, alm de identificar nveis de correspondncia entre as categorias. Ela ideal para desenhos de pesquisa que utilizam grandes bancos de dados e/ou em que as variveis utilizadas so categricas. Diferente de outras tcnicas multivariadas, a anlise de correspondncia no precisa satisfazer diferentes pressupostos a respeito da natureza dos dados11. Um dos principais objetivos da AC descrever a relao entre variveis categricas, revelando o padro de associao entre as categorias dessas variveis. Graficamente, quanto mais prximas as categorias estiverem no espao bi-dimensional (biplot), maior o nvel de associao entre as categorias dessas variveis. Em particular, importncia da AC na reduo do espao kxp dimensional para o caso bidimensional (biplot), isto mais do que uma tabela de contingncia pois a associao dada nos nveis da varivel categrica. Alm do mais, as dimenses podem ter uma interpretao, a partir das principais contribuies para formao dos eixos e essas dimenses pode ser utilizadas como variveis independentes em futuras regresses. Dado que uma parte significativa das variveis utilizadas em cincia social so categricas, os benefcios associados a utilizao da AC so diretos. Doey e Kurta (2011), uma das principais vantangens da CA simplify complex data from a potentially large table into a simpler display of categorical variables while preserving all of the valuable information in the data set. This is especially valuable when it would be inappropriate to use a table to display the data because the associations between variables would not be apparent due to the size of the
11

De acordo com Czermainski (2004), a anlise de correspondncia pode ser considerada como um caso especial da anlise de componentes principais (ACP), porm dirigida a dados categricos organizados em tabelas de contingncia e no a dados contnuos. O problema anlogo a encontrar o maior componente principal de um conjunto de I observaes e J variveis, com modificaes devido ponderao das observaes e mtrica ponderada (CZERMAINSKI, 2004: 03). Similarmente, Fox (2010) afirma que correspondence analysis is a descriptive method for examining relationships among categorical variables. It is a close analogue of principal component analysis for quantitative variables (FOX, 2010: viii).

table (DOEY e KURTA, 2011: 06). Alm disso, por se tratar de uma tcnica no paramtrica, a AC no precisa satisfazer uma serie de pressupostos que muitas vezes comprometem a robustez dos resultados de pesquisa. Outra vantagem associada a AC a sua representao grfica.
Tabela XX Nmero de sobreviventes do Titanic por classe12 B A Sobreviveu Sim No 200 123 119 158 181 528 500 809 Classe 1 Total 323 227 709 1.309 2 3 Total Sobreviveu (%) No Sim 123 200 (38,1) (61,9) 158 119 (57) (43) 528 181 (74,5) (25,5) 809 500 (38) (61,8)

Classe 1 2 3 Total

Total 323 (100,0) 227 (100,0) 709 (100,0) 1.309 (100,0)

Em termos substantivos, o pesquisador esta interessado em investigar se existe relao entre a classe e a sobrevivncia dos passageiros. O primeiro passo para fazer isso evitar analisar os dados absolutos (Figura XX - A). Ele deve examinar a distribuio relativa das freqncias (Figura XX - B). A taxa geral de sobrevivncia de 61,8%. No entanto, parece existir diferenas entre as diferentes classes. Na primeira, 61,9% dos passageiros sobreviveram. Na segunda esse percentual foi de 43%. Finalmente, a menor taxa de sobrevivncia refere-se a terceira classe (25,5%). Diferentes testes podem ser utilizados para medir o grau de associao entre variveis categricas13. Mas medida que o numero de categorias das variveis aumenta, a utilizao de tabelas se torna cada vez menos recomendvel. Isso porque o excesso de categorias reduz a inteligibilidade da anlise.

12

Esses dados esto disponveis no seguinte http://lib.stat.cmu.edu/S/Harrell/data/descriptions/titanic.html 13 O chi-quadrado eh um dos testes mais comumente utilizados.

endereo

eletrnico:

A figura xx ilustra a lgica da analise de correspondncia

Planejamento de uma anlise de correspondncia

O planejamento de uma anlise de correspondncia envolve trs principais procedimentos: a) coleta dos dados; b) formulao das questes de pesquisa e c) interpretao dos resultados observados. O primeiro elemento que o pesquisador deve ter em mente eh que a AC uma tcnica eminentemente descritiva. Logo, o principal objetivo deve ser descrever regularidades empricas a partir dos dados observados e no desenvolver e testar modelos tericos a priori (Roux e Rouanet, 2010: 02). O biplot representa graficamente a distribuio das variveis categricas14. Aps um processo de padronizao e normalizao, as variveis so plotadas no espao geomtrico, facilitando a visualizao da relao entre as categorias das variveis. Esses eixos sao padronizados para
cada mapa, em cada mapa se analisa a correlao entre os nveis das variveis e os eixos. Com os dois mapas padronizados podemos colocarbum em cima do outro e agora podemos analisar a proximidades dos pontos do mapa 1 com os pontos do mapa 2. A construo desses mapas foi possvel devido uma decomposio espectral das matrizes contendo informaes das linhas (mapa 1) e uma decomposio espectral da matriz contendo informaes das colunas (mapa 2).

Dimenses
14

Nas palavras de Doey e Kurta (2011), the biplot typically consists of two or three dimensions. Rows with comparable patterns of counts will have points that are close together on the biplot and columns with comparable patterns of counts will also have points that are close together on the biplot. The row and column points are shown on the same graphical display allowing for easier visualization of the associations among variables (Doey e Kurta, 2011: 06).

Dado que nosso principal objetivo apresentar a lgica intuitiva, esse trabalho no discute as tecnicalidades envolvidas na estimao das dimenses15. Assim como a anlise fatorial, a anlise de correspondncia procura explicar a varincia das variveis observadas atravs de dimenses mais parcimoniosas16. Ou seja, o objetivo identificar a menor quantidade de fatores que expliquem a maior parte da variao observada nos dados originais. Enquanto a analise fatorial agrupa variveis a partir do nvel de correlao entre elas, a analise de correspondncia determina o grau de associao entre as categorias de diferentes variveis categricas. Por exemplo, no estudo seminal de Durkheim, a AC seria ideal para mostrar graficamente que a taxa de suicdio entre solteiros, vivos e divorciados maior do que entre pessoas casadas. De acordo com Garson (2011), a homogeneidade de varincia na distribuio das variveis entre as linhas e as colunas um dos pressupostos que precisam ser satisfeitos. Assume-se que no existem clulas vazias na tabela de freqncia. Em relao ao nvel de mensurao, as variveis devem ser discretas ou categricas. Para variveis contnuas, o pesquisador deve recodificar as variveis, criando intervalos. Quanto mais categorias, tanto maior ganho analtico produzido pela AC.

Resultados Concluso Referncias

15

Para o leitor interessado em aplicaes mais avanadas de anlise de correspondncia ver Para Hill (1974), the technique described here under the name "correspondence analysis" is an analogue of principal components analysis, which is appropriate to discrete rather than to continuous variates (HILL, 1974: 340).
16

Potrebbero piacerti anche