Sei sulla pagina 1di 22

Passo-a-Passo do Iramuteq

Tutorial para instalação

Tutorial de uso

O Iramuteq realiza análises de discursos, sendo importante para estudo de cenário de


um determinado tema. Executamos três tipos de análises no Software: 1) Método de
Reinert; 2) AFC; 3) Similitude.

O método de Reinert permite a consolidação das informações em grupos a partir das


aproximações entre elas com o intuito de investigar, posteriormente, os principais
discursos ou temas proferidos e os quão expressivos estão no debate analisado.
No exemplo abaixo investigamos a temática de economia para verificar quais assuntos
estiveram no debate durante a semana monitorada. Notamos quatro em relevância: 1)
Pré-Sal; 2) Termos técnicos; 3) Imposto; Paralisação. O Iramuteq as vezes cria termos
que são considerados ‘lixos’ para a análise como é o do vermelho. As palavras estão
ordenadas pela frequência, ou seja, no azul, as palavras “inflação” e “pib” são as
principais.
Essa análise é lida da seguinte forma: Há maior aproximação entre a classe 1 (vermelho)
e classe 2 (cinza), depois afinidade entre esses dois e o verde. A menor aproximação
entre os conjuntos criados está entre o verde e a rosa.
Nesse exemplo abaixo temos um número maior de categorias formadas, durante o
passo-a-passo mostraremos como fazer isso.

Esse exemplo foi criado a partir das menções ao PL do Veneno e temas correlatos. O
interessante é observar tanto as aproximações quanto os distanciamentos. A pauta do
plano Safra (vermelho) está próxima do discurso de investimentos do Governo. Ambas
estão distantes das menções direta ao PL (verde água). Entre essas duas, vemos debate
econômico, com discussões sobre impostos (azul) e o mercado chinês (azul-claro), por
exemplo.
A outra análise do Iramuteq é chamada de AFC. Basicamente ela reproduz o Método
Reinert em um plano cartesiano, sinalizando as aproximações entre os termos. As cores
são mantidas, dessa forma, é possível compreender o cenário a partir de ambas.
Vamos apresentar os dois exemplos acima. No primeiro, vemos que as aproximações e
distanciamentos apresentados pela metodologia Reinert se confirma: pré-sal está
distante dos outros discursos. Se olharmos com mais atenção vemos que os termos
próximos são de links de notícias (www, utm_source, utm_campaign, ly, co e outros),
dessa forma, podemos inferir que esse discurso está mais presente na imprensa.
O que une esse grupo do pré-sal aos demais é a Petrobras, vemos que a empresa está
entre ele e o aglomerado formado por outros tantos grupos: cinza, verde e azul-claro.
Esse aglomerado, se olharmos nos termos, veremos que é formado por um discurso do
cotidiano (dinheiro, imposto, pagar, fila e outros). Quanto maior o termo nessa
representação, maior é a frequência dele, ou seja, imposto é aquele com maior número
de referências nesse período monitorado.
Essa análise apresentou um comportamento interessante: à medida que os termos vão
se distanciando do aglomerado exposto acima, eles vão se mostrando mais técnicos. O
que une esse discurso do cotidiano e os termos técnicos é a paralisação dos
caminhoneiros.
No segundo exemplo a publicação do usuário “marcionutricionista” apresentou uma
disparidade que a faz estar isolada do debate. Além dela, outros discursos estão
distantes: grupo cinza e grupo verde. Interessante que aquilo que observamos na análise
a partir do Método Reinert se confirma: o anúncio de bilhões próximo ao plano Safra
(laranja e vermelho) é unido com o PL (verde água e verde) pela economia.
Em algumas situações a análise não dará um cenário tão claro, dessa forma, é preciso
buscar alternativas para compreender o cenário e os discursos. Outra investigação pode
ser usada a partir do Iramuteq, ela é chamada de Similitude e se baseia nas relações
entre os termos apontando indicações de relação entre eles. O interessante é que essa
análise aponta as palavras com maior frequência, indica, a partir da espessura das
ligações, as conexões com maior expressividade e colore os grupos por meio de uma
clusterização criada pelo próprio programa.
Diversos grupos foram criados no exemplo abaixo que fora realizado a partir da análise
dos termos correlatos ao Agronegócio. Para melhor visualização, retiramos as palavras
com maior frequência, dessa forma, conseguimos compreender o que está sendo
debatido. O discurso acima é mais econômico com referências à empresa, economia,
agronegócio, agropecuária, emprego, indústria, imposto, etc. Abaixo é um debate mais
regional, com citações às regiões do país: São Paulo, Mato Grosso, Rio Grande do Sul.
Associado a isso, vemos em azul e verde discussões sobre o produtor rural e produção.
Esse debate é conectado ao regional por um discurso de agrotóxico. A ponte entre esses
cenários é a agricultura. Logo, vemos que o agro tem um debate bem econômico, aliado
com empresariado, esse está conectado com parlamentares. Enquanto as referências
aos produtores rurais estão bem concentradas, assim, podemos inferir que é um debate
com menor volume.

Essa análise apresenta bom insumos, contudo, está complicado de visualizar. O


Iramuteq possibilita exportar essa rede para abrir no Gephi. Dessa forma, é possível
deixa-la mais apresentável. No passo-a-passo do Gephi vamos sinalizar como fazer isso.
Depois das explicações quanto a leitura das análises, vamos apresentar como elaborar
o arquivo que será lido pelo programa. Antes disso, é necessário destacar como o
Iramuteq realizada essa leitura.
Vamos supor que precisamos de uma análise de um número x de menções e as duas
primeiras são essas abaixo:
Usuário: Keka
Menção: estou namorando

Usuário: Pedro
Menção: sou todo tatuado

Para o programa reconhecer que é uma nova menção, ela precisa começar com **** ou
com 0000. Além disso, é interessante discernir que são usuários distintos. Usaremos a
primeira forma conforme abaixo:

**** *suj_0001
estou namorando

*** * suj_0002
sou todo tatuado

Colocamos “suj_” para ser sujeito, mas pode ser qualquer coisa, só precisa ser
diferenciado. Por isso, mudei de 0001 para 0002. Podemos deixar apenas suj_1, suj_2 e
assim por diante, opto pelo 000 para deixar mais organizado. Caso tenha mais de 10.000
linhas, é viável acrescentar mais um 0 e assim por diante. O arquivo com menções
organizadas da forma exposta deve ser salvo em bloco de notas com codificação UTF-8.
Para facilitar esse trabalho, criamos um processo que visa acelerar essa criação.
Esse processo começa com a planilha enviada. Ela realiza limpezas de caracteres que
podem bugar a análise (“; $; %; * e outros). A coluna “A” da planilha começa com “COLE
ABAIXO” siga a orientação e cole as menções do tema que querem realizar a análise.
Dados que queremos colar (aqui é um exemplo). Para as análises, dependendo do que
queremos saber, podemos deixar os RTs. Contudo, o volume expressivo de uma
determinada publicação pode contaminar todo o cenário, não sendo possível avaliar se
outros assuntos estão sendo comentados. Geralmente retiramos os RTs para observar
isso. Contudo, é essencial pontuar se um RT impactou o cenário monitorado.

Colando na planilha:

Entre as colunas B e Z temos essas limpezas, basicamente precisamos reproduzir as


fórmulas da linha 3 até a última. Um jeito fácil é selecionar da coluna “B” até a “AB” e
clicar no quadrado abaixo para a fórmula ‘descer’ até a última.
A coluna “AB” é a nossa principal, selecione e cole no bloco de notas. Note que depois
da nomenclatura do indivíduo “suj_000X” temos uma “|”. Esse caractere será utilizado
para criação de uma linha entre a identificação do indivíduo e a menção.
Copie esse bloco de notas para o Word. Selecione tudo, depois clique em substituir e
troque “|” por “^p”. Dessa forma, criaremos a separação do identificador com a menção
a partir de um parágrafo.

O arquivo ficará da forma que o Iramuteq aceita.

Agora é salvar o arquivo em formato de texto.


Clique em “permitir substituição de caracteres”. Isso permite excluir outros caracteres
de erro (Emojis).

Depois, precisamos abrir esse arquivo no bloco de notas. Clicar em salvar como e trocar
a codificação de “ANSI” para UTF-8. Agora é só salvá-lo para abrir no Iramuteq.
Ao abrir o Iramuteq, precisamos clicar nesse “T” vermelho. Ele significa “Textual corpus”
é onde faremos a exportação do nosso bloco de notas criado para o programa.

Nessa parte, temos algumas atividades:


Definir caracteres - seleciona a última opção. Como salvamos em UTF-8, precisamos que
ele entenda a codificação utilizada. Para não termos complicações, usaremos a
“utf_8_sig – all languages).
Idioma – troque o “idioma” para o utilizado, no nosso caso é o português.
O restante pode manter como está e clique em “Ok”.

No ícone destacado, vamos realizar o Método Reinert.

Clique em “ok”.
O modo default do Iramuteq não roda nas nossas menções por conta do quantitativo de
palavras em algumas delas, dessa forma, quando clicamos na análise precisamos mudar
o “número de classes terminais na fase 1” de 10 para 30 ou 40. Quanto maior o valor
desse número mais separações o Iramuteq fará. Ou seja, se realizarmos duas análises –
a primeira com 30 e a segunda 40 – da mesma base, a segunda terá maior categorias.

Em vermelho podemos ver a visualização com os termos, conforme apresentamos lá no


início. Em azul ele mostra os termos distribuídos em um plano cartesiano (AFC).
Visualização com os termos:

A segunda análise desse método mostra no plano cartesiano. Como destacado, em azul
temos as discussões sobre agricultura familiar e em vermelho sobre o PL do veneno. No
meio delas temos um debate mais econômico. Isso mostra que discussões sobre
“agricultura familiar” não possui uma relação clara com o PL. O contato entre eles é a
economia.
Toda figura gerada a partir das análises do Iramuteq é salva na pasta que está o bloco
de notas. As criadas através do Método Reinert possuem “alceste” no nome da pasta. A
medida que vamos criando novas análises dessa metodologia, ele nomeia com _X, ou
seja, a primeira será alceste_01, a segunda alceste_02 e assim por diante. Nessa pasta
ele dará, além das figuras, os arquivos utilizamos para gerar a análise. Em vermelho
estão sinalizadas algumas das figuras.
Além das mencionadas, ele aponta os usuários no plano cartesiano (figura 01), as classes
no plano (figura 02) e os termos considerados como ‘lixo’ (figura 3). Na primeira figura,
quanto maior o indivíduo, mais expressividade ele possui na classe. A classe, figura 2,
são as separações criadas pelo programa.
Figura 01 Figura 02

Figura 03

A análise de similitude é realizada no ícone abaixo.


Clique em “Ok”.

Em vermelho selecionamos as palavras que vão aparecer, recomendo deixar


substantivos e alguns verbos que fazem sentido para o tema, por exemplo: se formos
estudar o cenário de agro, é pertinente deixar “plantar”. Para melhor visualização clique
em “comunidades” e “halo” conforme sinalizado em azul.
Segure “shift” e desça até chegar em um número interessante de termos,
recomendamos por volta de 100, vai depender da visualização. Para verificar a
contagem, clique em “contar”. Dessa forma, o programa mostrará o número de termos.

Para fazer a exclusão daqueles que não fazem sentido, aperte “ctrl” e clique em cima do
termo que não quer no cenário.
Se a análise não ficar apresentável, é possível reeditar aquilo que foi feito tirando as
palavras que deixaram a visualização diferente ao clicar no ícone circulado. Ele volta
para os termos selecionados anteriormente. Nesse exemplo abaixo podemos retirar
Governo para observar se a apresentação ficará melhor.
O que essa análise mostra os principais grupos formados por aproximações. Geralmente
a visualização do Iramuteq basta, caso não fique interessante, é possível “exportar” para
visualizar pelo Gephi. No Gephi o que rola fazer é gerar a modularidade e o grau para
uma melhor visualização.
Caso a visualização não esteja interessante, contudo, ela apresente insumos, é possível
levar para o Gephi clicando em “export”, o arquivo será criado na pasta da análise de
similitude denominada por “simitxt”. O arquivo gerado para o Gephi tem a extensão
“graphml”, conquanto, pode ser que não abra diretamente para o Gephi, se isso ocorrer,
é só abrir o Gephi e selecionar o arquivo.

Potrebbero piacerti anche