Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
máquina
Trabalho de Conclusão do Curso de
Tecnologia em Sistemas para Internet
1. Introdução
A Justiça brasileira atua resolvendo conflitos entre cidadãos brasileiros. Ela é composta
de diversos ramos especilizados, como, por exemplo, a Justiça do trabalho, que resolve
especialmente causas entre empregados e empregadores. Desse modo, os operadores do
Direito, juı́zes, advogados e servidores públicos, trabalham para prestar a jurisprudencia
ao povo brasileiro.
Por lidar diariamente com decisões judiciais, com o passar tempo, advogados e
servidores públicos obtêm conhecimento sobre a tendência de opinião de diversos juı́zes.
Por exemplo, é possı́vel observar que determinados julgadores tendem mais para empresas
ou para empregados em determinadas causas. Entretanto, esse conhecimento é obtido
apenas após anos de trabalho no ramo. Por outro lado, uma questão intriga: seria possı́vel
obter conhecimento similar por meio da utilização de sistemas computacionais?
A utilização de métodos quantitativos para solução de problemas ocorre em
diversas áreas de pesquisa, como na Economia que aplica a econometria para ava-
liar seus modelos teóricos; já a Biologia utiliza a bioestatı́stica para trabalhar com
grandes volumes de dados e a tratar incertezas caracterı́sticas ao estudo dos seres vi-
vos. No ramo do Direito, [Loevinger 1948] cunhou o termo ‘jurimetrics’, o qual re-
presenta a união de teoria jurı́dica, métodos computacionais e estatı́stica, com o ob-
jetivo de explorar a jurisprudência e produzir análises descritivas e estudos preditivos
[Jaeger Zabala and Silveira 2014].
Simultaneamente, a Jurimetria vem se tornando foco de crescente interesse
por parte de pesquisadores em estudos no Direito brasileiro. A pesquisa de
[Salama et al. 2011] analisou manualmente 1044 acórdãos em busca de dados concre-
tos em relação à segurança jurı́dica no estabelecimento de valores de danos morais pelo
Poder Judiciário. Além disso, houve grande dificuldade para acessar a imensa quantidade
de decisões que tratam do cálculo de danos morais.
Enfim, é possı́vel compreender que os juristas se deparam no seu dia-a-dia com
um grande problema que é a extração de informações valiosas de maneira eficaz do corpus
de decisões judiciais brasileiro. Em parte, isso ocorre em virtude de que esses sistemas
foram desenvolvidos ainda nos anos 90 sob uma perspectiva de infraestrutura anterior ao
desenvolvimento de conceitos de “Big Data” e “Cloud Computing”. De fato, as necessi-
dades há época eram diferentes e não exigiam grande capacidade de armazenamento, tão
pouco de processamento, em vista de que a maior parte dos documentos judiciais ainda
eram redigidos em papel.
Nesse ı́nterim, novas soluções tecnológicas estão sendo implementadas com in-
tuito de aumentar a eficiência judiciária brasileira. Assim, em 2011 o Conselho Nacional
de Justiça (CNJ) iniciou a implantação do Processo Judicial Eletrônico (PJe), o qual per-
mite a tramitação do processo de maneira digital em sistema computacional [CNJ 2017].
Atualmente, mais de 8 milhões de processos estão em tramitação nesse sistema, e mais
de 100 milhões de processos estão em andamento na justiça [CNJ 2017], de maneira par-
cialmente digital. É possı́vel observar como o corpus de documentos digitais mantidos já
demanda grande quantidade de armazenamento à proporção de ”terabytes”, sem contar
todos os novos documentos e decisões judiciais publicadas diariamente.
Entretanto, pouco foi investido em novas ferramentas para a exploração,
visualização e análise desse corpus acessı́veis ao público. Na verdade, as ferramentas
continuam as mesmas, sofrendo apenas manutenção dos sistemas legados. Tais sistemas
computacionais, desenvolvidos por cada Tribunal para pesquisa somente em sua base de
acórdãos, apresentam diversos campos de pesquisa para a digitação de palavras-chave e
seleção de órgão julgador, após apresentam os resultados em uma lista com milhares de
resultados em diversas páginas. Nesses softwares, o usuário precisa repetir sua consulta
inúmeras vezes, realizando pequenas alterações nos critérios de consulta e vasculhando
as respostas à busca de novos itens de interesse [Constâncio 2017]. Mesmo com essas
soluções ainda existe a dificuldade de visualização, pois cada resultado é apresentado em
um bloco de texto de aproximadamente 6 linhas contendo a ementa da decisão. Isso exige
que o operador do direito leia uma grande quantidade de resultados para poder encontrar
os itens relevantes em meio a uma grande quantidade de resultados totalmente inúteis.
Nesse contexto o problema de negócio em questão que pressiona os operadores do
direito é como saber com confiança qual a tendência de opinião da turma de julgamento
que vai julgar o processo. Não seria interessante tomar uma decisão desse patamar ba-
seado somente em uma opinião subjetiva fundamentada na experiência de trabalho. Por-
tanto, nessa situação, o diretor jurı́dico procura se cercar do máximo de evidências para
fundamentar sua decisão em aceitar ou não um acordo de milhões de reais, por exemplo.
Desse modo, para realizar essa pesquisa por evidências, advogados gastam horas rea-
lizando pesquisas jurisprudenciais para fundamentar suas petições, utilizando o Google
ou ferramentas de busca fornecidas pelos próprios tribunais, as quais são desatualizadas,
desorganizadas, confusas e superficiais.
Assim, foi o aplicado processo de descoberta de conhecimento em bases de dados
para processamento de milhares de decisões judiciais do Tribunal Regional do Trabalho
da 3a Região, localizado no Estado de Minas Gerais, utilizando técnicas de mineração
de texto para extração e processamento dos documentos, bem como, processamento
de linguagem natural de forma a construir modelo representativo para classificação au-
tomática dos documentos. Em vista disso, tal modelo representativo foi desenvolvido
com técnicas de treinamento de inteligência artificial por aprendizagem supervisionada
com a utilização de decisões judiciais rotuladas para inferir as “features” mais importan-
tes para a classificação dos documentos. Esse classificador apresentou mais de 90% de
acurácia para classificação dos documentos.
A aplicação visa contribuir com o desenvolvimento de tecnologia que proporcione
aos operadores do Direito a obtenção de informações de maneira mais eficaz em menos
tempo. Isso lhes permitirá focar esforços em tarefas de maior demanda intelectual, como,
por exemplo, avaliar estrategicamente a melhor forma de se levar a pretensão ao órgão
judicial.
Este artigo está organizado conforme o seguinte: Fundamentação Teórica, Traba-
lhos Relacionados, Metodologia, Sistemas de Busca Jurisprudenciais Brasileiros, Desen-
volvimento do Modelo Proposto, Resultados e Conclusão.
2. Fundamentação Teórica
Nesta seção será desenvolvida uma breve explicação dos conceitos fundamentais que dão
base a esse trabalho, detalhando os conceitos, as ferramentas e os métodos que são nor-
malmente utilizados no contexto.
3. Trabalhos relacionados
O estudo realizado por [Borden and Baron 2014] apresenta o estado da arte até o mo-
mento. Os autores transcorrem apresentando como a busca por informações legais era
realizada de maneira manual, antes do advento da informática e como o processo sofreu
automatizações. Além disso, ressaltam a importância da aplicação futura de ferramentas
de ”Big Data”.
Diversos estudos concordam que a busca por palavras-chave tem diversos contra-
pontos, pois falham em extrair e indexar a semântica das palavras, além de não atenderem
a era da explosão digital de documentos jurı́dicos [Zhang et al. 2015], [Constâncio 2017],
[Borden and Baron 2014], [Ashley 2017]. Outro aspecto analisado é a grande quantidade
de estudos em relação ao uso de ontologias jurı́dicas aplicadas a recuperação de docu-
mentos [Zhang et al. 2015], [Jo and Kim 2015], [Constâncio 2017].
Outra área de estudo com foco crescente é a de resposta a perguntas jurı́dicas
[Adebayo et al. 2016], [Ross 2017]. Nessa área, o objetivo é treinar um robô de busca
incorporado a um sistema conversacional e a uma base de dados jurı́dica, de modo que o
software responda em linguagem natural a questões formuladas em linguagem natural.
No contexto brasileiro, [Weber 1999] Apud [Constâncio 2017] apresentou uma
proposta de indexação de documentos jurisprudenciais por meio da técnica de IA chamada
”Case-based Reasoning”(CBR). Em sua tese de doutorado, a autora cunhou a expressão
”Intelligent Jurisprudence Research”(IJR) para denominar seu processo de recuperação
de jurisprudências. A autora descreveu os resultados como superiores aos métodos tradi-
cionais.
Além disso, o artigo de [Ferauche 2011] Apud [Constâncio 2017] apresenta os re-
sultados de técnicas de Mineração de Texto na construção de classificadores automáticos.
O objetivo desse estudo era comparar a qualidade de classificação automática frente à
classificação manual, já em execução, a partir de uma ontologia existente. Entretanto o
autor informa que não houve taxas de acerto expressivas.
Em seu artigo, [Chen et al. 2013] Apud [Constâncio 2017] descreveram um pro-
cesso para utilização de Mineração de Texto para dar suporte a consultas jurisprudenciais
da Justiça de Taiwan utilizando termos populares no lugar de termos jurı́dicos.
4. Metodologia
Foi realizada pesquisa de Ciência de Dados com objetivo de extrair conhecimento oculto
de acórdãos judiciais. Assim, foi definido o objetivo de mineração de dados que é identi-
ficar e classificar as decisões em relação à parte favorecida.
Desse modo, os dados utilizados como matéria prima nessa pesquisa são docu-
mentos HTML que contém cada uma das decisões. Tal base de dados foi extraı́da do site
governamental LexML.gov.br por meio de técnica de ”scrapping”.
Além disso, os dados foram processados utilizando ferramentas de Ciência de
Dados na plataforma ”Python”e ”Jupyter Notebook”. Assim, por meio de técnicas de
processamento de texto e limpeza de dados, as decisões foram preparadas para o proces-
samento por meio de algoritmo de Aprendizado de Máquina.
Para o processamento de Aprendizado de Máquina, foi utilizada a biblioteca
”Python Scikit Learning”. Essa biblioteca apresenta diversos algoritmos para proces-
samento e extração de ”features”, para os algoritmos de Inteligência Artificial. Por isso,
diversos métodos foram testados em busca do que melhor se adaptasse a pesquisa.
Por fim, os resultados da pesquisa foram compilados em planilha do Microsoft
Excel e criados gráficos para melhor visualização do conhecimento. Assim, toda fase de
extração dos dados e processamento foi realizada na nuvem da IBM, e a parte final em
computador local para visualização dos dados.
7. Resultados
Foi realizada a extração de mais de 10 mil acórdãos judiciais publicados em 2017 das
dez Turmas Recursais que compõem o Tribunal Regional do Trabalho da 3a Região e
processados com os modelos de aprendizado de máquina propostos, o quais classificaram
o tipo de recorrente como empresa ou empregado, e o deferimento do recurso ou não para
cada decisão. Assim, com essa base de dados, foi possı́vel determinar a visão do tribunal
sobre as questões legais levadas a seu julgamento. Essa visão apresenta a proporção de
pedidos deferidos em relação à quantidade de recursos impetrados por cada parte.
Com o objetivo de medir o possı́vel erro cometido e estabelecer limites que expres-
sem o nı́vel de precisão, foram determinados limites de confiança para os totais obtidos
nas classificações realizadas pelos modelos de aprendizado de máquina. Foi determinado
um intervalo de confiança de 90% para o percentual de julgamentos classificados como
deferidos. Esse percentual foi definido para padronizar com o nı́vel de acurácia já estabe-
lecido do modelo de classificação desenvolvido de 90%.
Como mostrado na Figura 2, foi verificado que, do total de recursos impetrados
pelos reclamantes, 61% foram deferidos total ou parcialmente. Já, do total de recursos
impetrados pelas reclamadas, 58% foram deferidos total ou parcialmente. A margem de
erro ficou em 0,8% para mais e para menos como ilustra o gráfico da Figura 2. Assim,
é possı́vel observar que o Tribunal de modo geral apreciou as causas de ambas as partes
aproximadamente da mesma maneira, indo de encontro ao conhecimento popular de que
“A Justiça do Trabalho sempre pendeu mais para o lado do trabalhador” [CSJT 2017] e
[ConJur 2012].
Por outro lado, é possı́vel notar que a tendência de julgamento de algumas Turmas
Recursais individualmente é diferente do que a média geral do Tribunal. Por exemplo, a
9a Turma Recursal deferiu 31% a mais de recursos para empregados do que para empre-
sas, já a 1a Turma Recursal deferiu 18% a mais de recursos para empresas do que para
empregados, como é possı́vel observar na Figura 3.
8. Conclusão
Foi desenvolvido projeto de análise jurisprudencial com técnica de aprendizado de
máquina para a apresentação de informações relevantes quanto aos vencedores das causas
sem a necessidade de leitura manual dos documentos inteiros. Por meio de aprendizado
supervisionado, foi possı́vel obter altos escores de acurácia na classificação dos documen-
tos. Por outro lado, considerando que atualmente em muitos casos o trabalho de análise
da tendência de julgamento de juı́zes e desembargadores é realizado sem a utilização de
métodos quantitivo, ou com uma pequena amostragem, é possı́vel considerar os nı́veis de
acurácia alcançados, em torno de 90%, satisfatórios.
Enfim, é possı́vel concluir que realmente há diferenças de entendimento entre Tur-
mas Recursais, algumas pendendo mais para empregados do que para empresas e vice-
versa. Entretanto, essas diferenças são normalizadas no contexto geral do Tribunal, o qual
apresenta visão uniforme independente da parte garantindo a jurisprudência para toda a
sociedade que recorre ao egrégio para dirimir suas questões.
Além disso, o projeto proporciona conhecimento suficiente para atender ao obje-
tivo de negócio que é como saber com confiança qual a tendência de opinião da turma
de julgamento que vai julgar o processo. Assim, os operadores do direito podem avaliar
estratégias diferentes de acordo com a Turma Recursal que seu processo foi distribuı́do
ou até mesmo trabalhar a concretização de um acordo antes do julgamento final.
Por outro lado, todo modelo de Aprendizado de Máquina está sujeito ao viés ou
tendência inserido pelo algoritmo. No entanto, o projeto foi projetado para minimizar a
Figura 2. Comparação entre o total de julgamentos classificados como conce-
dido para empresas e para empregados no Tribunal Regional do Trabalho da 3a
Região
Referências
Adebayo, K. J., Di Caro, L., Boella, G., and Bartolini, C. (2016). An approach to infor-
mation retrieval and question answering in the legal domain. Proceedings of the 10th
International Workshop on Juris-informatics (JURISIN 2016).
Akerkar, R. (2013). Big data computing. Crc Press.
Ashley, K. D. (2017). Artificial intelligence and legal analytics: new tools for law practice
in the digital age. Cambridge University Press.
Becker, K. (2017). Slides de aula processo de kdd.
Borden, B. B. and Baron, J. R. (2014). Finding the signal in the noise: information
governance, analytics, and the future of legal practice. Richmond Journal of Law &
Technology, 20(2):7.
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., and Wirth,
R. (2000). Crisp-dm 1.0 step-by-step data mining guide. CRISP-DM 1.0 Step-by-step
data mining guide.
Chen, Y.-L., Liu, Y.-H., and Ho, W.-L. (2013). A text mining approach to assist the
general public in the retrieval of legal documents. Journal of the American Society for
Information Science and Technology, 64(2):280–290.
Christopher, D. M., Prabhakar, R., and Hinrich, S. (2008). Introduction to information
retrieval. An Introduction To Information Retrieval, 151(177):5.
CNJ, C. N. d. J. (2017). Pje atinge a marca de 7,4 mi de processos judiciais.
ConJur (2012). Conjur - justica do trabalho deixa de privilegiar empregado em acoões
trabalhistas. 2012.
Constâncio, A. S. (2017). Ontologia para um motor de busca semântica para recuperação
jurisprudencial no brasil.
CSJT, D. d. C. d. C. (2017). Divisao de comunicacao do csjt.
Erl, T., Khattak, W., Buhler, P., et al. (2016). Big Data Fundamentals. Prentice Hall:
Upper Saddle River, NJ, USA.
Ferauche, Thiago e de Almeida, M. A. (2011). Aprendizado de classificadores das emen-
tas da jurisprudência do tribunal regional do trabalho da 2a . região-sp. In VI WorkShop
de Pesquisa do Centro Estadual de Eucação Tecnológica Paula Souza–SP–Brasil.
Gandomi, A. and Haider, M. (2015). Beyond the hype: Big data concepts, methods, and
analytics. International Journal of Information Management, 35(2):137–144.
Jaeger Zabala, F. and Silveira, F. F. (2014). Jurimetria: Estatı́stica aplicada ao di-
reito/jurimetrics: Statistics applied in the law. Revista Direito e Liberdade, 16(1):87–
103.
Jo, D. W. and Kim, M. H. (2015). A framework for legal information retrieval based on
ontology.
Kubat, M. (2015). An introduction to machine learning, volume 681. Springer.
Loevinger, L. (1948). Jurimetrics–the next step forward. Minn. L. Rev., 33:455.
Pierson, L. (2015). Data science for dummies. John Wiley & Sons.
Ross, I. (2017). Ross.
Salama, B. M., Püschel, F., Hirata, A., Corrêa, A. R., and Rodriguez, J. R. (2011). Dano
moral no brasil. Serie Pensando o Direito.
STF, S. T. F. (2017). Stf - glossário.
TSE, T. S. E. (2017). Tse - glossário.
Weber, R. (1999). Intelligent jurisprudence research: a new concept. In Proceedings
of the 7th international conference on Artificial intelligence and law, pages 164–172.
ACM.
Zhang, N., Pu, Y.-F., and Wang, P. (2015). An ontology-based approach for chinese legal
information retrieval.
A. Apêndice