Análise Jurisprudencial Com Técnica de Aprendizado de Máquina

Análise jurisprudencial com técnica de aprendizado de
máquina
Trabalho de Conclusão do Curso de
Tecnologia em Sistemas para Internet
Rhuan Paulo Lopes Barros

Orientador: André Peres
1
Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Sul (IFRS)
Campus Porto Alegre
Av Cel Vicente, 281, Porto Alegre – RS – Brasil
rhuanbarros@gmail.com
Resumo. Este trabalho apresenta o desenvolvimento de processo de descoberta

de conhecimento em base de dados de decisões judiciais com o objetivo des-
vendar qual a tendência de opinião de Tribunal do Trabalho brasileiro em
relação à parte favorecida sendo empregados ou empregadores. Foram apli-
cadas técnicas de aprendizado de máquina supervisionado para a classificação
dos documentos. Tal modelo preditivo alcançou escores superiores a 90% de
acurácia para classificação de decisões, resultando em informações contun-
dentes sobre a tendência de julgamento do Tribunal. Desse modo, o projeto
proposto contribui com o desenvolvimento de aplicação que permite aos ope-
radores do direito a obtenção de informações de maneira visual e exploratória
rapidamente, o que lhes permitirá focar mais esforços em estratégias jurı́dicas
do que em pesquisa jurisprudencial.
1. Introdução
A Justiça brasileira atua resolvendo conflitos entre cidadãos brasileiros. Ela é composta
de diversos ramos especilizados, como, por exemplo, a Justiça do trabalho, que resolve
especialmente causas entre empregados e empregadores. Desse modo, os operadores do
Direito, juı́zes, advogados e servidores públicos, trabalham para prestar a jurisprudencia
ao povo brasileiro.
Por lidar diariamente com decisões judiciais, com o passar tempo, advogados e
servidores públicos obtêm conhecimento sobre a tendência de opinião de diversos juı́zes.
Por exemplo, é possı́vel observar que determinados julgadores tendem mais para empresas
ou para empregados em determinadas causas. Entretanto, esse conhecimento é obtido
apenas após anos de trabalho no ramo. Por outro lado, uma questão intriga: seria possı́vel
obter conhecimento similar por meio da utilização de sistemas computacionais?
A utilização de métodos quantitativos para solução de problemas ocorre em
diversas áreas de pesquisa, como na Economia que aplica a econometria para ava-
liar seus modelos teóricos; já a Biologia utiliza a bioestatı́stica para trabalhar com
grandes volumes de dados e a tratar incertezas caracterı́sticas ao estudo dos seres vi-
vos. No ramo do Direito, [Loevinger 1948] cunhou o termo ‘jurimetrics’, o qual re-
presenta a união de teoria jurı́dica, métodos computacionais e estatı́stica, com o ob-
jetivo de explorar a jurisprudência e produzir análises descritivas e estudos preditivos
[Jaeger Zabala and Silveira 2014].
Simultaneamente, a Jurimetria vem se tornando foco de crescente interesse
por parte de pesquisadores em estudos no Direito brasileiro. A pesquisa de
[Salama et al. 2011] analisou manualmente 1044 acórdãos em busca de dados concre-
tos em relação à segurança jurı́dica no estabelecimento de valores de danos morais pelo
Poder Judiciário. Além disso, houve grande dificuldade para acessar a imensa quantidade
de decisões que tratam do cálculo de danos morais.
Enfim, é possı́vel compreender que os juristas se deparam no seu dia-a-dia com
um grande problema que é a extração de informações valiosas de maneira eficaz do corpus
de decisões judiciais brasileiro. Em parte, isso ocorre em virtude de que esses sistemas
foram desenvolvidos ainda nos anos 90 sob uma perspectiva de infraestrutura anterior ao
desenvolvimento de conceitos de “Big Data” e “Cloud Computing”. De fato, as necessi-
dades há época eram diferentes e não exigiam grande capacidade de armazenamento, tão
pouco de processamento, em vista de que a maior parte dos documentos judiciais ainda
eram redigidos em papel.
Nesse ı́nterim, novas soluções tecnológicas estão sendo implementadas com in-
tuito de aumentar a eficiência judiciária brasileira. Assim, em 2011 o Conselho Nacional
de Justiça (CNJ) iniciou a implantação do Processo Judicial Eletrônico (PJe), o qual per-
mite a tramitação do processo de maneira digital em sistema computacional [CNJ 2017].
Atualmente, mais de 8 milhões de processos estão em tramitação nesse sistema, e mais
de 100 milhões de processos estão em andamento na justiça [CNJ 2017], de maneira par-
cialmente digital. É possı́vel observar como o corpus de documentos digitais mantidos já
demanda grande quantidade de armazenamento à proporção de ”terabytes”, sem contar
todos os novos documentos e decisões judiciais publicadas diariamente.
Entretanto, pouco foi investido em novas ferramentas para a exploração,
visualização e análise desse corpus acessı́veis ao público. Na verdade, as ferramentas
continuam as mesmas, sofrendo apenas manutenção dos sistemas legados. Tais sistemas
computacionais, desenvolvidos por cada Tribunal para pesquisa somente em sua base de
acórdãos, apresentam diversos campos de pesquisa para a digitação de palavras-chave e
seleção de órgão julgador, após apresentam os resultados em uma lista com milhares de
resultados em diversas páginas. Nesses softwares, o usuário precisa repetir sua consulta
inúmeras vezes, realizando pequenas alterações nos critérios de consulta e vasculhando
as respostas à busca de novos itens de interesse [Constâncio 2017]. Mesmo com essas
soluções ainda existe a dificuldade de visualização, pois cada resultado é apresentado em
um bloco de texto de aproximadamente 6 linhas contendo a ementa da decisão. Isso exige
que o operador do direito leia uma grande quantidade de resultados para poder encontrar
os itens relevantes em meio a uma grande quantidade de resultados totalmente inúteis.
Nesse contexto o problema de negócio em questão que pressiona os operadores do
direito é como saber com confiança qual a tendência de opinião da turma de julgamento
que vai julgar o processo. Não seria interessante tomar uma decisão desse patamar ba-
seado somente em uma opinião subjetiva fundamentada na experiência de trabalho. Por-
tanto, nessa situação, o diretor jurı́dico procura se cercar do máximo de evidências para
fundamentar sua decisão em aceitar ou não um acordo de milhões de reais, por exemplo.
Desse modo, para realizar essa pesquisa por evidências, advogados gastam horas rea-
lizando pesquisas jurisprudenciais para fundamentar suas petições, utilizando o Google
ou ferramentas de busca fornecidas pelos próprios tribunais, as quais são desatualizadas,
desorganizadas, confusas e superficiais.
Assim, foi o aplicado processo de descoberta de conhecimento em bases de dados
para processamento de milhares de decisões judiciais do Tribunal Regional do Trabalho
da 3a Região, localizado no Estado de Minas Gerais, utilizando técnicas de mineração
de texto para extração e processamento dos documentos, bem como, processamento
de linguagem natural de forma a construir modelo representativo para classificação au-
tomática dos documentos. Em vista disso, tal modelo representativo foi desenvolvido
com técnicas de treinamento de inteligência artificial por aprendizagem supervisionada
com a utilização de decisões judiciais rotuladas para inferir as “features” mais importan-
tes para a classificação dos documentos. Esse classificador apresentou mais de 90% de
acurácia para classificação dos documentos.
A aplicação visa contribuir com o desenvolvimento de tecnologia que proporcione
aos operadores do Direito a obtenção de informações de maneira mais eficaz em menos
tempo. Isso lhes permitirá focar esforços em tarefas de maior demanda intelectual, como,
por exemplo, avaliar estrategicamente a melhor forma de se levar a pretensão ao órgão
judicial.
Este artigo está organizado conforme o seguinte: Fundamentação Teórica, Traba-
lhos Relacionados, Metodologia, Sistemas de Busca Jurisprudenciais Brasileiros, Desen-
volvimento do Modelo Proposto, Resultados e Conclusão.
2. Fundamentação Teórica
Nesta seção será desenvolvida uma breve explicação dos conceitos fundamentais que dão
base a esse trabalho, detalhando os conceitos, as ferramentas e os métodos que são nor-
malmente utilizados no contexto.
2.1. “Big Data”

“Big Data” é um termo utilizado para descrever grandes volumes de conteúdo — usual-
mente em quantidades medidas em ”terabytes”ou ”petabytes”— que as empresas querem
controlar e analisar [Akerkar 2013]. Os dados não estruturados são o maior componente
desse conjunto que estão somente parcialmente arquivados [Gandomi and Haider 2015].
De acordo com [Erl et al. 2016], os aspectos de “Big Data” são comumente referenciados
com 5 atributos: volume, velocidade, variedade, veracidade e valor.
Volume: grande quantidade de dados impõe demandas de processamento e arma-
zenamento distintas. No caso da Justiça brasileira, apenas os documentos com as decisões
podem alcançar a casa de ”petabytes”.
Velocidade: diariamente, são produzidos milhares de sentenças judiciais no Bra-
sil, de modo que, um software que fosse agregar todos esses documentos originários de
diversos tribunais precisaria de infraestrutura desenhada altamente elástica e disponı́vel
para pré-processar os dados e armazená-los [Erl et al. 2016].
Variedade: “Big Data” pode ser composto por diversos tipos de dados estruturados
e não estruturados [Pierson 2015]. Além disso, os dados podem ser recebidos em diversos
formatos de arquivos, como, por exemplo, .xml, .pdf e arquivos de texto.
Veracidade: refere-se a qualidade e fidelidade dos dados. Dados adquiridos em
ambiente controlado geralmente contém alta veracidade [Erl et al. 2016].
Valor: o valor é definido pela utilidade que os dados apresentam para a solução
de problema de negócio [Erl et al. 2016]. A análise de “Big Data” procura apresentar os
dados de maneira que gerem valor e também procura encontrar informações valiosas na
massa de dados.
2.2. Processo de descoberta de conhecimento em bases de dados
Descoberta de conhecimento em bancos de dados é um campo da Informática que estuda

como extrair conhecimento útil de grandes coleções de dados. Em 1996, representan-
tes de um grupo de empresas reuniram-se para a formação do CRISP-DM, acrônimo
para ”CRoss-Industry Standard Process for Data Mining”, o qual tinha como objetivo
desenvolver documentação e workshops de modo a propor padronização ao processo de
busca de conhecimento em bases de dados. Há época, não havia ferramentas, soluções ou
processos documentados que orientavam as empresas e pesquisadores sobre as melhores
práticas. Enfim, em 1999 foi lançado o CRISP-DM Guide 1.0 [Chapman et al. 2000].
O Guia CRISP-DM apresenta um processo iterativo composto de diversas fases,
que compõe desde a compreensão e as necessidades de negócio até a modelagem dos
dados e sua aplicação [Becker 2017]. A Figura 1 apresenta o ciclo do processo proposto
pelo grupo. As fases do processo compreendem as seguintes:
Compreensão do negócio: consiste em compreender o valor do conhecimento a
ser gerado pela perspectiva do negócio, de modo a alinhar o projeto com os objetivos
estratégicos da organização.
Compreensão dos dados: inicia com a coleta dos dados e com a exploração inicial,
o que permite a identificação de problemas de qualidade e também a aferição de conhe-
cimentos estatı́sticos sobre a massa de dados. Essa fase pode identificar se realmente os
dados podem responder às perguntas do negócio e também identificar as variáveis signi-
ficativas.
Preparação dos dados: o objetivo é o pré-processamento dos dados para torná-los
relevantes e consistentes com respeito à tarefa de busca de conhecimento. Essa fase é
extremamente necessária, pois os dados muitas vezes podem estar incompletos, inconsis-
tentes ou podem, até mesmo, conter erros.
Modelagem: consiste na tarefa de escolha de métodos e parametrização para a
extração de padrões, classificação, segmentação, regressão ou associação de itens, os
quais gerarão novos conhecimentos sobre a importância de cada uma das variáveis em
função do resultado final esperado.
Avaliação: fase em que os padrões reconhecidos, regras de associação e todo co-
nhecimento gerado é analisado para verificação da sua real utilidade. Podem ser utilizadas
medidas estatı́sticas, como também visualizações, para ajudar a perceber a utilidade dos
dados.
Aplicação: consiste na consolidação de todo processo na forma de relatório e
publicação do conhecimento ou na incorporação da modelagem a um sistema computaci-
onal.
Figura 1. Diagrama do processo de descoberta de conhecimento em bases de
dados CRISP [Chapman et al. 2000]
2.3. Recuperação de informações
A recuperação de informações em sistemas de busca baseia-se na correspondência en-

tre as palavras-chaves e os termos nos documentos. Um documento que menciona um
termo de busca com mais frequência, geralmente tem maior relação com a pesquisa
[Christopher et al. 2008].
Para realizar a ordenação de resultados, é necessário assinalar um peso para
cada termo nos documentos da coleção. A proposta mais simples é considerar a quan-
tidade de ocorrências do termo em cada documento como “Term Frequency” (TF)
[Christopher et al. 2008].
Entretanto, nem todas as palavras nos documentos são importantes. Há palavras
como preposições que não precisam ser indexadas. Além disso, há palavras, como, por
exemplo, “auto” em uma coleção da indústria automobilı́stica, que praticamente vai ter
essa palavra em todos os seus documentos. Para atenuar esse efeito, é importante reduzir
o peso dessas palavras conforme sua frequência aumenta na coleção. Consequentemente,
a proposta é definir uma variável chamada “Document Frequency” (DF), constituı́da pela
quantidade de documentos que contém o termo. Assim, a variável é introduzida como
“Inverse Document Frequency” (IDF) de modo que o IDF de um termo raro é alto e de
um termo frequente é baixo [Christopher et al. 2008].
A combinação é dada por TFIDFt,d = T Ft,d × IDFt
Esse ı́ndice assinala um peso que é alto, quando o termo ocorre muitas vezes em
um pequeno número de documentos; baixo, quando o termo possui poucas ocorrências
em um documento, ou ocorre em muitos documentos; baixo, quando o termo ocorre em
praticamente todos os documentos.
2.4. Aprendizado de máquina
Algoritmos de Aprendizado de Máquina identificam padrões em dados, resumem os
padrões em um modelo e usam esses modelos para fazer previsões, identificando os
mesmos padrões em novos dados. Assim, um modelo é uma estrutura que resume os
padrões de formato estatı́stico ou lógico, de modo que ele possa ser aplicado a novos
dados [Pierson 2015].
2.5. Aprendizado de máquina e suas limitações

O desenvolvimento de pesquisa quantitativa em grande volume de decisões judiciais sem
o auxı́lio de sistema computacional exigiria o esforço concentrado de uma grande equipe
de analistas, não apenas para realizar a análise inicial, mas também para executar a
manutenção dos resultados com o passar do tempo. Para superar esta barreira, técnica
de Aprendizagem de Máquina pode ser usada para programar um software, para que
ele possa executar tarefas de classificação de decisões judiciais em um curto perı́odo de
tempo.
Para realizar esse treinamento, é necessário alimentar o algoritmo com uma base
de decisões judiciais anotadas por especialistas. Esse processo compreende a leitura de
cada decisão judicial por um ser humano e a inserção de um rótulo. No caso desta pes-
quisa, o rótulo contém a informação sobre quem ganhou o caso. Empregado ou em-
pregador. Depois, esse banco de dados é processado por um algoritmo de Aprendizado
de Máquina, que gera um modelo. Esse modelo, por meio de processamento de amos-
tras aleatórias, transformações matemáticas e análise estatı́stica de palavras que estão em
cada decisão judicial, identifica padrões e os resume em um modelo matemático geral,
que é usado para realizar previsões e identificar esses mesmos padrões em novas decisões
judiciais [Ashley 2017].
No entanto, as técnicas de Aprendizado de Máquinas são sujeitas a certos li-
mites, como, por exemplo, o ”viés”ou a tendência inserida pelo algoritmo de aprendi-
zado da máquina, que, para desenvolver um modelo, precisa realizar alguns suposições,
generalizações e reduzir a pesquisa e tamanho do espaço. Além disso, a precisão do mo-
delo diminuirá consideravelmente, se a quantidade de documentos rotulados para uma das
duas categorias for muito maior que para o outro [Kubat 2015].
2.6. Jurisprudência e conceitos relacionados ao Direito

Jurisprudência é o conjunto das decisões dos tribunais no exercı́cio da aplicação da lei.
Representa a visão do tribunal, em determinado momento, sobre as questões legais le-
vadas a julgamento [TSE 2017]. Em vista disso, um processo judicial trabalhista inicia
em 1o Grau sendo sentenciado por um juiz singular. As partes inconformadas com a de-
cisão podem apresentar recurso e recorrer aos tribunais, também chamados de 2o Grau de
jurisdição.
Os Tribunais Regionais do Trabalho são compostos por diversos juı́zes, chama-
dos desembargadores, os quais são organizados em Turmas Recursais com 3 julgadores.
Assim, quando o recurso é encaminhado ao Tribunal, ele é distribuı́do aleatoriamente
para uma das Turmas Recusais para ser realizado um julgamento colegiado, chamado de
“acórdão”. O Tribunal Regional do Trabalho da 3a Região, por exemplo, é composto por
10 Turmas Recursais.
Além disso, um acórdão é constituı́do pelo voto dos Desembargadores componen-
tes da turma que recebeu o processo para ser julgado e pelo acórdão que contém a decisão
colegiada. Também é constituı́do da ementa, que é um resumo do acórdão [STF 2017].
Assim, a ementa é composta de palavras-chave para facilitar a pesquisa jurisprudencial,
além de ser composta de termos constantes do tesauro jurı́dico.
3. Trabalhos relacionados
O estudo realizado por [Borden and Baron 2014] apresenta o estado da arte até o mo-
mento. Os autores transcorrem apresentando como a busca por informações legais era
realizada de maneira manual, antes do advento da informática e como o processo sofreu
automatizações. Além disso, ressaltam a importância da aplicação futura de ferramentas
de ”Big Data”.
Diversos estudos concordam que a busca por palavras-chave tem diversos contra-
pontos, pois falham em extrair e indexar a semântica das palavras, além de não atenderem
a era da explosão digital de documentos jurı́dicos [Zhang et al. 2015], [Constâncio 2017],
[Borden and Baron 2014], [Ashley 2017]. Outro aspecto analisado é a grande quantidade
de estudos em relação ao uso de ontologias jurı́dicas aplicadas a recuperação de docu-
mentos [Zhang et al. 2015], [Jo and Kim 2015], [Constâncio 2017].
Outra área de estudo com foco crescente é a de resposta a perguntas jurı́dicas
[Adebayo et al. 2016], [Ross 2017]. Nessa área, o objetivo é treinar um robô de busca
incorporado a um sistema conversacional e a uma base de dados jurı́dica, de modo que o
software responda em linguagem natural a questões formuladas em linguagem natural.
No contexto brasileiro, [Weber 1999] Apud [Constâncio 2017] apresentou uma
proposta de indexação de documentos jurisprudenciais por meio da técnica de IA chamada
”Case-based Reasoning”(CBR). Em sua tese de doutorado, a autora cunhou a expressão
”Intelligent Jurisprudence Research”(IJR) para denominar seu processo de recuperação
de jurisprudências. A autora descreveu os resultados como superiores aos métodos tradi-
cionais.
Além disso, o artigo de [Ferauche 2011] Apud [Constâncio 2017] apresenta os re-
sultados de técnicas de Mineração de Texto na construção de classificadores automáticos.
O objetivo desse estudo era comparar a qualidade de classificação automática frente à
classificação manual, já em execução, a partir de uma ontologia existente. Entretanto o
autor informa que não houve taxas de acerto expressivas.
Em seu artigo, [Chen et al. 2013] Apud [Constâncio 2017] descreveram um pro-
cesso para utilização de Mineração de Texto para dar suporte a consultas jurisprudenciais
da Justiça de Taiwan utilizando termos populares no lugar de termos jurı́dicos.
4. Metodologia
Foi realizada pesquisa de Ciência de Dados com objetivo de extrair conhecimento oculto
de acórdãos judiciais. Assim, foi definido o objetivo de mineração de dados que é identi-
ficar e classificar as decisões em relação à parte favorecida.
Desse modo, os dados utilizados como matéria prima nessa pesquisa são docu-
mentos HTML que contém cada uma das decisões. Tal base de dados foi extraı́da do site
governamental LexML.gov.br por meio de técnica de ”scrapping”.
Além disso, os dados foram processados utilizando ferramentas de Ciência de
Dados na plataforma ”Python”e ”Jupyter Notebook”. Assim, por meio de técnicas de
processamento de texto e limpeza de dados, as decisões foram preparadas para o proces-
samento por meio de algoritmo de Aprendizado de Máquina.
Para o processamento de Aprendizado de Máquina, foi utilizada a biblioteca
”Python Scikit Learning”. Essa biblioteca apresenta diversos algoritmos para proces-
samento e extração de ”features”, para os algoritmos de Inteligência Artificial. Por isso,
diversos métodos foram testados em busca do que melhor se adaptasse a pesquisa.
Por fim, os resultados da pesquisa foram compilados em planilha do Microsoft
Excel e criados gráficos para melhor visualização do conhecimento. Assim, toda fase de
extração dos dados e processamento foi realizada na nuvem da IBM, e a parte final em
computador local para visualização dos dados.
5. Sistemas de busca jurisprudenciais brasileiros
Atualmente, a busca jurisprudencial é realizada pelos operadores do Direito por meio de

busca no Google e também nos sites de cada tribunal. Além disso, nos últimos anos
surgiram outros sites que agregam decisões judiciais e as fornecem em suas ferramentas
de pesquisa.
Todos os sites especializados fornecem pesquisa por palavras-chave, permitem o
uso de operadores lógicos, seleção de órgãos julgadores e ordenação por relevância e por
data. Em relação à ordenação dos resultados, poucas informações são apresentadas sobre
o algoritmo, ou seja, qual o critério utilizado para realizar a apresentação dos documentos.
Além disso, nenhum deles apresenta os dados por meio de gráficos e visualizações, tam-
pouco oferece recursos visuais para facilitar o entendimento dos documentos ou recursos
para exploração dos dados.
As ferramentas de busca disponibilizadas pelos órgãos públicos são desatualiza-
das tecnologicamente, pois suas interfaces não foram atualizadas para o acesso por meio
de dispositivos móveis. Além disso, apresentam resultados desorganizados e confusos
visto que consultas realizadas com palavras-chave idênticas oriundas de computadores
diferentes produzem resultados diferentes.
Na Tabela 1 é apresentada comparação das soluções atuais.
Tabela 1. Comparação entre sistemas de busca jurisprudenciais brasileiros

Apresentação Proteção contra
Palavra- Raiz Operadores Exploração
Website Ontologia da parte robôs de busca
chave semântica lógicos visual
vencedora (Captcha)
Google Sim Parcial Sim Não Não Não Não detectado
Digesto Sim Sim Parcial Não Não Não Não detectado
JusBrasil Sim Sim Não Não Não Não Não detectado
TRT da Sim, após
Sim Não Sim Não Não Não
3a Região algumas tentativas
TRT da Sim, após
Sim Não Sim Não Não Não
4a Região algumas tentativas
6. Desenvolvimento do modelo proposto
Este projeto busca atender ao problema de negócio determinado que é como saber com
confiança qual a tendência de opinião da Turma de Julgamento que vai julgar o processo.
Para isso, foi definido o objetivo de mineração de dados que é identificar e classificar as
decisões em relação à parte favorecida.
6.1. Extração de documentos

A base de dados utilizada é a fornecida pelo site governamental lexml.gov.br, o qual
disponibiliza milhões de decisões judiciais para indexação por meio de robô de busca. Por
conseguinte, o processo de indexação inicia acessando diversos arquivos “sitemap.xml”,
os quais apresentam URIs para cada um dos documentos disponibilizados em sua base
de dados, de modo que a extração das decisões pode ser realizada por meio da técnica de
“Web Scraping”.
Após, foi desenvolvido script para copiar todas as URIs contidas nos arquivos si-
temap.xml e filtrar apenas as que correspondem aos documentos do Tribunal Regional do
Trabalho da 3a Região. Com esses resultados, foi possı́vel iniciar efetivamente o processo
de ”Web Scraping”das páginas HTML que contém os documentos das decisões.
6.2. Compreensão dos dados

Foi observado que cada Turma Recursal apresenta estilo linguı́stico diverso, como, por
exemplo, palavras diferentes para indicar a parte vencedora, além de haver ementas em
que simplesmente não há informação sobre o beneficiário da decisão. Assim, foi ne-
cessário executar também a extração do inteiro teor dos julgamentos, o qual contém todas
as informações necessárias.
Assim, as decisões foram agrupadas por cada Turma Recursal, pois, decisões
da mesma Turma mantém estilo de escrita de suas decisões relativamente uniformes.
Também foram extraı́dos documentos publicados apenas em 2017, para evitar variações
de estilo de escrita que se alterem com o passar dos anos.
6.3. Anotação dos documentos

Inicialmente, o objetivo era ler o inteiro teor das decisões e anotar a parte vencedora.
Entretanto, foi observado que não há necessidade de leitura do documento inteiro, mas
apenas da parte final, em vista de que foi observado que todos os documentos contêm um
pequeno resumo do julgamento, indicando a parte que foi beneficiada.
Portanto, foi realizado processamento nos documentos para extrair apenas a parte
final das decisões, que contém as informações necessárias para se compreender a parte
favorecida. Como resultado, foi gerada planilha, Tabela 2, com essa pequena parte das
decisões, URL para o inteiro teor para consulta, campo para que o especialista possa
anotar a parte beneficiada e o tipo de parte recorrente, empresa ou empregado, ou ambos.
Durante esse processo, documentos em que não era possı́vel determinar qual a
parte vencedora foram excluı́dos do conjunto de dados. Também foram excluı́dos docu-
mentos que não dizem respeito a julgamentos de fatos de direito.
Por outro lado, os documentos extraı́dos contêm a decisão e seus fundamentos,
como também os nomes das partes recorrentes e recorridas. Entretanto, o classificador
Tabela 2. Exemplo de documentos anotados
FINAL DA SENTENÇA RECORRENTE CONCEDIDO PARTE
... em sessão hoje realizada, à unanimidade,
conheceu dos embargos de declaração; Empresa LTDA 0 2
no mérito, sem divergência, negou-lhes provimento...
... em sessão hoje realizada, à unanimidade, rejeitou
a preliminar de não admissibilidade do apelo suscitada pelo reclamante,
João 1 1
conheceu do recurso ordinário da reclamada e,
no mérito, sem divergência, negou-lhe provimento...
proposto deve apresentar a informação sobre a parte vencedora em relação a empresa ou

ao empregado, e não em relação a recorrente, pois esse pode ser empregado e empre-
gador. Assim, o resultado de mineração deve apresentar se o recorrente é empresa ou
empregado e se seu recurso foi deferido ou não. Entretanto, há certos documentos que
ambos o empregado e a empresa recorreram, os quais precisam ser removidos do processo
de aprendizagem e de classificação, pois não apresentariam resultados conclusivos, além
de diminuı́rem a acurácia do modelo. Portanto, foi realizada a anotação manual de 600
documentos de três Turmas Recursais diferentes em relação ao tipo de parte recorrente e
também em relação ao deferimento do julgado ao recorrente.
6.4. Modelos de aprendizado de máquina

Primeiramente foi desenvolvido modelo preditivo para detectar os casos em que ambos
o empregado e a empresa recorreram, para removê-los da base de dados. Tal tarefa foi
realizada com o cálculo do tamanho das ”strings”, pois as ”strings”que ambos recorreram
apresentam em média mais que o dobro da quantidade de caracteres.
Assim, foi desenvolvido modelo de predição com base no algoritmo “K-Nearest
Neighbors” (k-NN), o qual apresentou 84% de acurácia. Após os resultados em que
ambos recorreram, aproximadamente 1/3, foram retirados do ”dataset”. Em segundo lu-
gar, foi realizado o treinamento com a base de dados resultante para classificação entre
empregado e empregador, com a extração de ”features”por meio de ı́ndice TF-IDF e Re-
des Bayesianas. Desse modo, esse modelo alcançou 92% de acurácia. Nessa fase, foi
realizado o pré-processamento do ”dataset”com a retirada de “stop-words” da lı́ngua por-
tuguesa e todos os treinamentos foram realizados considerando 1/3 da base de dados para
testes.
Finalmente, as decisões foram processadas com a extração de ”features”por meio
de ı́ndice TF-IDF e Redes Bayesianas para identificação da concessão da decisão ao re-
corrente. Esse modelo alcançou 90% de acurácia. Além disso, tal modelo foi treinado
individualmente em cada Turma Recursal e em conjunto com as outras para ser possı́vel
averiguar possı́vel ”overtraining”, o qual não foi identificado, pois, os testes cruzados
entre Turmas apresentaram praticamente os mesmos resultados com variação de aproxi-
madamente 3%.
7. Resultados
Foi realizada a extração de mais de 10 mil acórdãos judiciais publicados em 2017 das
dez Turmas Recursais que compõem o Tribunal Regional do Trabalho da 3a Região e
processados com os modelos de aprendizado de máquina propostos, o quais classificaram
o tipo de recorrente como empresa ou empregado, e o deferimento do recurso ou não para
cada decisão. Assim, com essa base de dados, foi possı́vel determinar a visão do tribunal
sobre as questões legais levadas a seu julgamento. Essa visão apresenta a proporção de
pedidos deferidos em relação à quantidade de recursos impetrados por cada parte.
Com o objetivo de medir o possı́vel erro cometido e estabelecer limites que expres-
sem o nı́vel de precisão, foram determinados limites de confiança para os totais obtidos
nas classificações realizadas pelos modelos de aprendizado de máquina. Foi determinado
um intervalo de confiança de 90% para o percentual de julgamentos classificados como
deferidos. Esse percentual foi definido para padronizar com o nı́vel de acurácia já estabe-
lecido do modelo de classificação desenvolvido de 90%.
Como mostrado na Figura 2, foi verificado que, do total de recursos impetrados
pelos reclamantes, 61% foram deferidos total ou parcialmente. Já, do total de recursos
impetrados pelas reclamadas, 58% foram deferidos total ou parcialmente. A margem de
erro ficou em 0,8% para mais e para menos como ilustra o gráfico da Figura 2. Assim,
é possı́vel observar que o Tribunal de modo geral apreciou as causas de ambas as partes
aproximadamente da mesma maneira, indo de encontro ao conhecimento popular de que
“A Justiça do Trabalho sempre pendeu mais para o lado do trabalhador” [CSJT 2017] e
[ConJur 2012].
Por outro lado, é possı́vel notar que a tendência de julgamento de algumas Turmas
Recursais individualmente é diferente do que a média geral do Tribunal. Por exemplo, a
9a Turma Recursal deferiu 31% a mais de recursos para empregados do que para empre-
sas, já a 1a Turma Recursal deferiu 18% a mais de recursos para empresas do que para
empregados, como é possı́vel observar na Figura 3.
8. Conclusão
Foi desenvolvido projeto de análise jurisprudencial com técnica de aprendizado de
máquina para a apresentação de informações relevantes quanto aos vencedores das causas
sem a necessidade de leitura manual dos documentos inteiros. Por meio de aprendizado
supervisionado, foi possı́vel obter altos escores de acurácia na classificação dos documen-
tos. Por outro lado, considerando que atualmente em muitos casos o trabalho de análise
da tendência de julgamento de juı́zes e desembargadores é realizado sem a utilização de
métodos quantitivo, ou com uma pequena amostragem, é possı́vel considerar os nı́veis de
acurácia alcançados, em torno de 90%, satisfatórios.
Enfim, é possı́vel concluir que realmente há diferenças de entendimento entre Tur-
mas Recursais, algumas pendendo mais para empregados do que para empresas e vice-
versa. Entretanto, essas diferenças são normalizadas no contexto geral do Tribunal, o qual
apresenta visão uniforme independente da parte garantindo a jurisprudência para toda a
sociedade que recorre ao egrégio para dirimir suas questões.
Além disso, o projeto proporciona conhecimento suficiente para atender ao obje-
tivo de negócio que é como saber com confiança qual a tendência de opinião da turma
de julgamento que vai julgar o processo. Assim, os operadores do direito podem avaliar
estratégias diferentes de acordo com a Turma Recursal que seu processo foi distribuı́do
ou até mesmo trabalhar a concretização de um acordo antes do julgamento final.
Por outro lado, todo modelo de Aprendizado de Máquina está sujeito ao viés ou
tendência inserido pelo algoritmo. No entanto, o projeto foi projetado para minimizar a
Figura 2. Comparação entre o total de julgamentos classificados como conce-
dido para empresas e para empregados no Tribunal Regional do Trabalho da 3a
Região

dido para empresas e para empregados na 9a e na 1a Turma Recursal do TRT da
3a Região
inserção de elementos que poderiam diminuir a precisão ou causar “excesso de treina-
mento”.
Como trabalhos futuros, seria interessante realizar o processamento dos documen-
tos para identificação das matérias de direito que cada órgão julgador deferiu ou não de
modo a poder construir modelo probabilı́stico de sucesso de causas judiciais.
Referências
Adebayo, K. J., Di Caro, L., Boella, G., and Bartolini, C. (2016). An approach to infor-
mation retrieval and question answering in the legal domain. Proceedings of the 10th
International Workshop on Juris-informatics (JURISIN 2016).
Akerkar, R. (2013). Big data computing. Crc Press.
Ashley, K. D. (2017). Artificial intelligence and legal analytics: new tools for law practice
in the digital age. Cambridge University Press.
Becker, K. (2017). Slides de aula processo de kdd.
Borden, B. B. and Baron, J. R. (2014). Finding the signal in the noise: information
governance, analytics, and the future of legal practice. Richmond Journal of Law &
Technology, 20(2):7.
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., and Wirth,
R. (2000). Crisp-dm 1.0 step-by-step data mining guide. CRISP-DM 1.0 Step-by-step
data mining guide.
Chen, Y.-L., Liu, Y.-H., and Ho, W.-L. (2013). A text mining approach to assist the
general public in the retrieval of legal documents. Journal of the American Society for
Information Science and Technology, 64(2):280–290.
Christopher, D. M., Prabhakar, R., and Hinrich, S. (2008). Introduction to information
retrieval. An Introduction To Information Retrieval, 151(177):5.
CNJ, C. N. d. J. (2017). Pje atinge a marca de 7,4 mi de processos judiciais.
ConJur (2012). Conjur - justica do trabalho deixa de privilegiar empregado em acoões
trabalhistas. 2012.
Constâncio, A. S. (2017). Ontologia para um motor de busca semântica para recuperação
jurisprudencial no brasil.
CSJT, D. d. C. d. C. (2017). Divisao de comunicacao do csjt.
Erl, T., Khattak, W., Buhler, P., et al. (2016). Big Data Fundamentals. Prentice Hall:
Upper Saddle River, NJ, USA.
Ferauche, Thiago e de Almeida, M. A. (2011). Aprendizado de classificadores das emen-
tas da jurisprudência do tribunal regional do trabalho da 2a . região-sp. In VI WorkShop
de Pesquisa do Centro Estadual de Eucação Tecnológica Paula Souza–SP–Brasil.
Gandomi, A. and Haider, M. (2015). Beyond the hype: Big data concepts, methods, and
analytics. International Journal of Information Management, 35(2):137–144.
Jaeger Zabala, F. and Silveira, F. F. (2014). Jurimetria: Estatı́stica aplicada ao di-
reito/jurimetrics: Statistics applied in the law. Revista Direito e Liberdade, 16(1):87–
103.
Jo, D. W. and Kim, M. H. (2015). A framework for legal information retrieval based on
ontology.
Kubat, M. (2015). An introduction to machine learning, volume 681. Springer.
Loevinger, L. (1948). Jurimetrics–the next step forward. Minn. L. Rev., 33:455.
Pierson, L. (2015). Data science for dummies. John Wiley & Sons.
Ross, I. (2017). Ross.
Salama, B. M., Püschel, F., Hirata, A., Corrêa, A. R., and Rodriguez, J. R. (2011). Dano
moral no brasil. Serie Pensando o Direito.
STF, S. T. F. (2017). Stf - glossário.
TSE, T. S. E. (2017). Tse - glossário.
Weber, R. (1999). Intelligent jurisprudence research: a new concept. In Proceedings
of the 7th international conference on Artificial intelligence and law, pages 164–172.
ACM.
Zhang, N., Pu, Y.-F., and Wang, P. (2015). An ontology-based approach for chinese legal
information retrieval.
A. Apêndice

dido para empresas e para empregados no Tribunal Regional do Trabalho da 3a
Região

dido para empresas e para empregados na 1a Turma Recursal do Tribunal Regi-
onal do Trabalho da 3a Região




Figura 14. Comparação entre o total de julgamentos classificados como con-
cedido para empresas e para empregados na 10a Turma Recursal do Tribunal
Regional do Trabalho da 3a Região

Análise Jurisprudencial Com Técnica de Aprendizado de Máquina

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Análise Jurisprudencial Com Técnica de Aprendizado de Máquina

Caricato da

Copyright:

Formati disponibili

Análise jurisprudencial com técnica de aprendizado de

Rhuan Paulo Lopes Barros

Resumo. Este trabalho apresenta o desenvolvimento de processo de descoberta

2.1. “Big Data”

2.2. Processo de descoberta de conhecimento em bases de dados

Descoberta de conhecimento em bancos de dados é um campo da Informática que estuda

2.3. Recuperação de informações

A recuperação de informações em sistemas de busca baseia-se na correspondência en-

2.5. Aprendizado de máquina e suas limitações

2.6. Jurisprudência e conceitos relacionados ao Direito

5. Sistemas de busca jurisprudenciais brasileiros

Atualmente, a busca jurisprudencial é realizada pelos operadores do Direito por meio de

Tabela 1. Comparação entre sistemas de busca jurisprudenciais brasileiros

6.1. Extração de documentos

6.2. Compreensão dos dados

6.3. Anotação dos documentos

proposto deve apresentar a informação sobre a parte vencedora em relação a empresa ou

6.4. Modelos de aprendizado de máquina

Figura 3. Comparação entre o total de julgamentos classificados como conce-

Figura 4. Comparação entre o total de julgamentos classificados como conce-

Figura 5. Comparação entre o total de julgamentos classificados como conce-

Figura 7. Comparação entre o total de julgamentos classificados como conce-

Figura 9. Comparação entre o total de julgamentos classificados como conce-

Figura 11. Comparação entre o total de julgamentos classificados como conce-

Figura 13. Comparação entre o total de julgamentos classificados como conce-

Potrebbero piacerti anche